データカタログ【data catalog】
概要

データカタログは図書館の目録になぞらえて説明されることが多い。図書館の目録が蔵書のタイトル・著者・分類・所在を整理するように、データカタログは組織内のデータベースやファイルなどのデータ資産に関するメタデータを収集・整理して提供する。メタデータとは「データに関するデータ」であり、データの定義、データ型、更新頻度、データの所有者(オーナー)、利用条件、品質情報などが含まれる。
データカタログの主な機能はデータの検索や発見、メタデータの管理、データリネージ(データの発生源から加工・利用に至る流れの追跡)の可視化、データ品質の評価、アクセス権限の管理などである。特に、データリネージは、分析結果の根拠をたどったり、データの変更が下流の処理に与える影響を把握したりする上で重要な機能である。
利用者はデータカタログを通じて必要なデータを探し出し、内容や用途を理解した上で利用できるようになる。データの品質や更新頻度、利用ルールなどの情報を共有することで、組織内でのデータ活用を促進する役割もある。近年はデータ分析やデータサイエンスの普及に伴い、分析担当者や業務部門が必要なデータを自ら探して利用するセルフサービス型のデータ活用が広がっており、その基盤としてのデータカタログの整備の重要性が高まっている。
データメッシュやデータファブリックといったモダンなデータアーキテクチャの普及に伴い、データカタログはデータガバナンスの中核インフラの一つに位置づけられるようになっている。個人データを扱う組織では、GDPRや個人情報保護法などへのコンプライアンス対応を効率的かつ確実にするため、個人に関する情報の所在管理などを行うための基盤としても活用されている。