データレイクハウス【data lakehouse】

「データウェアハウス」(data warehouse)は、業務データを整理して分析に供する仕組みとして広く普及しているが、あらかじめ定めた形式のデータしか受け付けず、画像やログファイルといった非構造化データの保存には向かない。大量データの格納にコストがかかる難点もある。
一方、「データレイク」(data lake)はあらゆる形式のデータを安価に蓄積できるが、品質管理や検索性能が弱く、そのまま分析業務に使うには追加の整備が必要であった。企業などがデータ活用を推進する際、従来はこの二つを並行して構築・運用していたが、二重管理はシステムの複雑化や情報の不一致を招く原因ともなっていた。
データレイクハウスでは、ストレージ層には安価な分散ストレージを用いて多様なデータを保持しつつ、その上にトランザクション管理、スキーマ定義、アクセス制御といったデータウェアハウスが備える管理機能を重ねる。「Delta Lake」や「Apache Iceberg」といったオープンなテーブルフォーマットがこの仕組みを支えており、データの更新・削除の追跡や、過去の特定時点の状態を参照するタイムトラベル機能を提供する。
この統合された基盤により、機械学習などに用いる未加工データと、経営レポート向けの整形済みデータを同じ環境で扱えるようになる。利用者はシステムを使い分ける必要がなくなり、データ移動に伴う遅延や整合性の乱れを減らすことができる。ストレージと計算資源を分離して拡張できる設計が採られることも多く、利用状況に応じた柔軟なスケールアップも可能である。
データの出所から加工結果に至るまでの変更履歴を一元的に管理できるため、誰がいつどのような操作を行ったかを把握しやすい。アクセス権限の設定も集約されるため、組織全体でのデータガバナンスを維持しやすくなる。米データブリックス(Databricks)社が提唱した「メダリオンアーキテクチャ」との組み合わせで実装されることも多い。Amazon Web Services、Microsoft Azure、Google Cloudの主要クラウドサービスでは関連サービスを提供している。