データウェアハウス 【DWH】 data warehouse

概要

データウェアハウス(DWH)とは、企業などで運用される複数の業務システムやデータベースからデータを収集し、業務上発生した取引記録などのデータを時系列に保管したデータベース。また、そのようなシステムを構築・運用するためのソフトウェア。

「ウェアハウス」(warehouse)とは「倉庫」という意味で、組織内で運用される様々な情報システムやデータベースなどから集めたデータを保管する「データの倉庫」という意味合いでこのように呼ばれる。

通常、種々雑多なデータを単にそのまま記録するわけでなく、同じ意味のデータは横断的に扱えるようにするなど統合し、データの主題ごとに整理し直して格納する。このデータの収集や整形、統合を専門に行うツールを「ETLツール」(Extract/Transform/Load、ELTツールとも)という。

データは発生した時系列に記録していき、更新や削除は行わなず、過去のある時点の個別のデータを参照できるように格納される。集積された過去のデータを元に、OLAPBIツールなどの分析ツールを用いて抽出や集計、解析、比較などを行なって、計画立案や意思決定などのために有用な知見を得るために構築されることが多い。

データマート

蓄積された個々のデータの中から、利用部門や用途、目的などに応じて必要なものだけを抽出、集計し、利用しやすい形に格納したデータベースを作成する場合があり、これを「データマート」(data mart)という。小規模なシステムではデータウェアハウスを作らずにデータマートだけを構築することもある。

データレイク

データウェアハウスは原則としてリレーショナルデータベース(RDB)など構造化されたデータ形式で記録されたものを対象とするが、近年では情報システムの種類や利用方法の多様化、複雑化を受け、文書ファイルやソーシャルメディアの書き込みなど構造や形式が整っていないデータを扱う機会が増えている。形式によらず非構造化データを含む雑多なデータを一元的に保管する管理システムやデータ群のことを「データレイク」(data lake)という。

(2020.12.7更新)

試験出題履歴

ITパスポート試験 : 平26秋 問16 平22秋 問9