オープンデータセット【open dataset】

概要

オープンデータセットとは、誰でも自由に入手して利用できるように公開されているデータセット。統計解析や機械学習モデルの訓練や評価に広く利用されている。
オープンデータセットのイメージ画像

学術機関や公的機関、企業などがインターネットなどを通じて公開しているデータ群で、文字(テキスト)、画像、音声、動画、表形式など、様々な形式のデータが提供されている。統計解析や機械学習に役立つよう、自然言語処理に用いる文字データであれば注釈を加えたコーパスに整形し、画像認識に用いる画像データであれば写っているものを示すラベルを付加するなど、一定の形式に加工されている。

クリエイティブ・コモンズ・ライセンスCCライセンス)など、特定の利用許諾契約ライセンス)に基づいて提供される場合が多く、添付文書でデータの利用や改変、再配布、商用利用の可否などの条件が規定されている。「パブリックドメイン」(public domain)が宣言されている場合は一切の権利が放棄された状態であり、ライセンスの制約なく自由に利用することができる。

機械学習モデルの研究者や開発者にとっては、オープンデータセットを用いることで手間や時間のかかるデータの収集や分類、ラベル付け(アノテーション)の工程を省略し、すぐにモデリングや学習に入ることができる。著名なオープンデータセットの中には、その分野の開発者がそのデータセットを用いて検証を行うことで、異なるモデルを共通の尺度で評価するベンチマークとしての役割を果たしている場合がある。

(2025.12.11更新)
この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。