半構造化データ 【semi-structured data】

概要

半構造化データ(semi-structured data)とは、項目の形式などについてある程度決まった構造に基づいて記録されたデータ集合。XMLデータJSONデータなどが該当する。

リレーショナルデータベース(RDB)やCSVファイルのようにあらかじめ決められた構造に当てはめてデータを記録する「構造化データ」(structured data)と、文書ファイルなど決まった構造を持たない雑多なデータの集まりである「非構造化データ」(unstructured data)の中間の形式である。

半構造化データはRDBに対するSQLによる操作のように特定のデータモデルに従ってデータを自動処理することは難しいが、区切り文字やリテラル、タグなどの一定の記法に従って記録されており、データを読み込んでソフトウェア上のデータ構造に対応付けることはできる。

半構造化データの格納形式としては、HTMLに似たマークアップ言語であるXMLで記述されたXMLファイル、JavaScriptのオブジェクト定義構文をデータ記述に応用したJSONファイルなどがある。データベース管理システムで管理する場合はKVSKey-Value Store)などのいわゆるNoSQL型のシステムを用いる。

(2023.10.27更新)