非構造化データ 【unstructured data】
概要
非構造化データ(unstructured data)とは、項目の形式や順序などについて明確に定義された構造を持たない不定形なデータ集合のこと。主に人間が情報を把握するために作成されるデータ群で、コンピュータによる内容の自動処理には適さない。コンピュータが扱うデータの多くは何らかの形式や構造に従って記録されているものが大半だが、非構造化データといった場合はリレーショナルデータベース(RDB)の表(テーブル)のように構成要素を分割、配列した構造を持たず、コンピュータプログラムによって要素を個別に把握して処理するような利用方法が難しいようなものを指す。
よく挙げられる例として、(人間が閲覧するための)Webページ、電子メールやメッセンジャーなどのメッセージ、ワープロソフトやプレゼンテーションソフトなどで作成した(見栄え重視の)文書ファイル、画像や音声、動画などのメディアデータなどがある。
これらのデータはそれぞれ特定のデータ形式で記録されてはいるものの、主に人間が見聞きするために視聴覚的な構成を整えることを主眼に作成・編集されており、内部の構成要素をプログラムが自動認識できるような形になっていない。データベースのような検索性や再利用性は乏しく、情報として後から活用することが難しい。
一方、データベースのテーブルやCSVファイルのように、一件のレコードの構成、各項目のデータ型や形式、項目の並び順、項目やレコードの区切り文字などが事前に決まっており、同じ構成のレコードの繰り返しとしてデータを列挙したものを「構造化データ」(structured data)という。
(2021.7.7更新)