データレイク 【data lake】
これまでデータ解析のために管理されるデータの置き場としてデータウェアハウスなどが用いられてきたが、これは業務システムなどがリレーショナルデータベース(RDB)のテーブルなどの形で定型的に整然と記録した構造化データに限られる傾向があった。
データレイクではこうしたデータ源だけに限らず、人間の作成した文書ファイル群や外部から収集したオープンデータ、Webサイトのログデータ、ソーシャルメディアの書き込み、IoTデバイスが記録したデータなど、様々な種類のデータを単一のシステムで管理する。
事前に決められた特定の構造や形式へのデータの変換や整形は不要で、非構造化データもそのままの形で格納することができる。分析などで後で実際に読み出す際に必要な前処理が行われる(スキーマオンリード)。データの記録には安価なストレージ装置を用い、コストに縛られずにとにかく大量のデータを収集、保管することを主眼とする。
集めたデータはビッグデータ解析システムや全文検索システム、機械学習システムなどを用いて事業や業務に有用な洞察や知見、予測などを得るために活用される。
どんなデータも蓄積できるといっても、高度な活用のためにはどこに何がどのように記録されているかといったメタデータが適切に付与され、データカタログなどの形で整理されている必要がある。野放図にデータを記録した結果、データの意味や所在が不明になってしまった混沌とした状態は「データスワンプ」(swamp:沼)と呼ばれる。
(2020.10.22更新)