ビッグデータ【big data】

概要

ビッグデータ（big data）とは、従来のデータベース管理システムなどでは記録や保管、解析が難しいような巨大なデータ群。単にデータ量が多いというだけでなく、多様な形式や情報源を含む、日々大量に蓄積されていくといった特徴を備えるものを指すことが多い。

企業や官公庁などが記録・管理する極めて規模の大きいデータの集積を指す。多くの場合、量が多いだけでなく、様々な種類・形式が含まれる非構造化データ・非定型的データであり、さらに、日々膨大に生成・記録される時系列性・リアルタイム性のあるようなものを指す。厳密な定義があるわけではなく、企業向け情報システムメーカーのマーケティング用語として多用されている。

今までは管理しきれないため見過ごされてきたそのようなデータ群を記録・保管して即座に解析することで、ビジネスや社会に有用な知見を得たり、これまでにないような新たな仕組みやシステムを産み出す可能性が高まるとされている。

米大手IT調査会社ガートナー（Gartner）社では、ビッグデータを特徴づける要素として、データの大きさ（Volume）、入出力や処理の速度（Verocity）、データの種類や情報源の多様性（Variety）を挙げ、これら3つの「V」のいずれか、あるいは複数が極めて高いものがビッグデータであるとしている。これに価値（Value）や正確性（Veracity）を加える提案もある。

コンピュータやソフトウェアの技術の進歩は速く、具体的にどのような量や速度、多様さであればビッグデータと言えるかは時代により異なる。ビッグデータという用語がビジネスの文脈で広まった2010年代前半にはデータ量が数テラバイト程度のものも含まれたが、2010年代後半になるとペタバイト（1000テラバイト）級やそれ以上のものがこのように呼ばれることが多い。

近年ではスマートフォンやSNS、電子決済、オンライン通販の浸透により人間が日々の活動で生み出す情報のデータ化が進み、また、IoT（Internet of Things）やM2M、機器の制御の自動化などの進展により人工物から収集されるデータも爆発的に増大している。

また、人工知能（AI）の構築・運用手法として、膨大なデータから規則性やルールなどを見出し、予測や推論、分類、人間の作業の自動化などを行う機械学習（ML：Machine Learning）、中でも、多階層のニューラルネットワークで機械学習を行う深層学習（ディープラーニング）と呼ばれる手法が台頭している。

このような背景から、膨大なデータを的確、効率的に扱う技術上の要請はますます高まっており、統計やデータ分析、大容量データを扱う手法やアルゴリズムなどに精通した「データサイエンティスト」（data scientist）と呼ばれる専門職の育成が急務とされている。

(2019.8.27更新)