データリネージ【data lineage】データリネージュ

組織内では、業務システムや外部サービスから収集されたデータが、データベースやデータウェアハウスに蓄積され、集計や分析のために加工されることが一般的で、その過程では抽出、変換、統合などの処理が行われる。
データリネージは、これら一連の処理経路を明らかにし、どのデータがどのシステムを通過し、どのロジックで変換されたかを把握できるようにする。ある数値が計算ミスやシステムの不具合によって誤っている場合、データリネージが整備されていれば、どの段階でエラーが混入したのかを遡って特定することができる。これを「根本原因分析」という。
また、上流のシステムで仕様変更が行われる際の影響調査にも活用される。例えば、ある項目のデータ形式を変更しようとしたとき、そのデータが下流のどのレポートや計算処理に影響を及ぼすかを事前に把握できれば、予期せぬシステムの停止や出力結果の不整合を未然に防ぐことが可能となる。これを「インパクト分析」という。
コンプライアンスやガバナンスの観点からも、データがどこから取得され、どこに格納されているかを正確に把握することは重要となる。金融機関や医療機関など、データの正確性が厳格に求められる業界では、当局への報告数値がどのような根拠に基づいているかを証明する監査証跡としての機能が求められる。データの来歴の可視化は個人情報やプライバシー情報の取り扱いでも必要となる。