データセット 【data set】

概要

データセット(data set)とは、何らかの目的や対象について収集され、一定の形式に整えられたデータの集合。機械学習などコンピュータによる自動処理をうために用意された大量の標本データのことを指すことが多い。

ある特定の主題について、名簿のように複数の要素や属性の組み合わせとして表されたデータを列挙したもの。集合を構成する一件ごとのデータの組み合わせを「データポイント」、あるいはデータベースのように「レコード」という。

一件のレコードは複数の要素が対応付けられており、データの表す内容に応じて数値や文字列、画像、動画、音声などを組み合わせて構成される。統計情報や観測記録などのようにある対象の情報を網羅することを意図したものと、人工知能の学習データのように膨大な標本空間の中から条件を満たすデータのサンプル(標本)を抽出することを目的とするものがある。

機械学習では用意したデータセットから一件ずつレコードシステムに投入して計算させることで対象についてのモデルを構築する。例えば、様々な人が書いた0から9まで数字の画像と、その画像に書かれている数字(正解の)を対応付けたデータセットを用意して学習させると、画像に写っている数字が何であるか判別する人工知能を作ることができる。

(2021.5.31更新)

他の辞典による解説 (外部サイト)

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。
ホーム画面への追加方法
1.ブラウザの 共有ボタンのアイコン 共有ボタンをタップ
2.メニューの「ホーム画面に追加」をタップ
閉じる