データレイク 【data lake】

概要

データレイク(data lake)とは、データの解析や活用を行うために、形式や規模によらず雑多なデータを一元的に保管しておくためのデータ管理システム

これまでデータ解析のために管理されるデータの置き場としてデータウェアハウスなどが用いられてきたが、これは業務システムなどがリレーショナルデータベースRDB)のテーブルなどの形で定型的に整然と記録した構造化データに限られる傾向があった。

データレイクではこうしたデータ源だけに限らず、人間の作成した文書ファイル群や外部から収集したオープンデータWebサイトログデータソーシャルメディアの書き込み、IoTデバイスが記録したデータなど、様々な種類のデータを単一のシステムで管理する。

事前に決められた特定の構造や形式へのデータの変換や整形は不要で、非構造化データもそのままの形で格納することができる。分析などで後で実際に読み出す際に必要な前処理が行われる(スキーマオンリード)。データの記録には安価なストレージ装置を用い、コストに縛られずにとにかく大量のデータを収集、保管することを主眼とする。

集めたデータビッグデータ解析システム全文検索システム機械学習システムなどを用いて事業や業務に有用な洞察や知見、予測などを得るために活用される。

どんなデータも蓄積できるといっても、高度な活用のためにはどこに何がどのように記録されているかといったメタデータが適切に付与され、データカタログなどの形で整理されている必要がある。野放図にデータを記録した結果、データの意味や所在が不明になってしまった混沌とした状態は「データスワンプ」(swamp:沼)と呼ばれる。

(2020.10.22更新)

他の辞典による解説 (外部サイト)

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。