データセット 【data set】
概要
データセット(data set)とは、何らかの目的や対象について収集され、一定の形式に整えられたデータの集合。機械学習などコンピュータによる自動処理を行うために用意された大量の標本データのことを指すことが多い。ある特定の主題について、名簿のように複数の要素や属性の組み合わせとして表されたデータを列挙したもの。集合を構成する一件ごとのデータの組み合わせを「データポイント」、あるいはデータベースのように「レコード」という。
一件のレコードは複数の要素が対応付けられており、データの表す内容に応じて数値や文字列、画像、動画、音声などを組み合わせて構成される。統計情報や観測記録などのようにある対象の情報を網羅することを意図したものと、人工知能の学習データのように膨大な標本空間の中から条件を満たすデータのサンプル(標本)を抽出することを目的とするものがある。
機械学習では用意したデータセットから一件ずつレコードをシステムに投入して計算させることで対象についてのモデルを構築する。例えば、様々な人が書いた0から9まで数字の画像と、その画像に書かれている数字(正解の値)を対応付けたデータセットを用意して学習させると、画像に写っている数字が何であるか判別する人工知能を作ることができる。
(2021.5.31更新)