データリネージ【data lineage】データリネージュ

概要

データリネージとは、データがどこで生成され、どのような加工や変換を経て現在の形になったかという来歴や流れを追跡・可視化する仕組み。データ管理や品質確保の基盤となる概念である。
データリネージのイメージ画像

組織内では、業務システムや外部サービスから収集されたデータが、データベースデータウェアハウスに蓄積され、集計や分析のために加工されることが一般的で、その過程では抽出、変換、統合などの処理が行われる。

データリネージは、これら一連の処理経路を明らかにし、どのデータがどのシステムを通過し、どのロジックで変換されたかを把握できるようにする。ある数値が計算ミスやシステムの不具合によって誤っている場合、データリネージが整備されていれば、どの段階でエラーが混入したのかを遡って特定することができる。これを「根本原因分析」という。

また、上流のシステムで仕様変更が行われる際の影響調査にも活用される。例えば、ある項目のデータ形式を変更しようとしたとき、そのデータが下流のどのレポートや計算処理に影響を及ぼすかを事前に把握できれば、予期せぬシステムの停止や出力結果の不整合を未然に防ぐことが可能となる。これを「インパクト分析」という。

コンプライアンスやガバナンスの観点からも、データがどこから取得され、どこに格納されているかを正確に把握することは重要となる。金融機関や医療機関など、データの正確性が厳格に求められる業界では、当局への報告数値がどのような根拠に基づいているかを証明する監査証跡としての機能が求められる。データの来歴の可視化は個人情報やプライバシー情報の取り扱いでも必要となる。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。