MNISTデータベース 【Modified NIST database】
概要
MNISTデータベース(Modified NIST database)とは、手書きの数字の画像と、その数字が何であるかを記述したデータ(正解データ)の大規模なセット。機械学習(ML)を応用した画像認識システムなどの訓練や評価に用いられる。「0」から「9」のいずれか一つの数字が手書きで描かれた28×28ピクセル、256段階(8ビット)グレースケールの画像と、その数字を表す正解データが一つのセットになっており、これが訓練用に6万セット、評価用に1万セット用意されている。
もともと米国立標準技術研究所(NIST)が持っていた手書き数字についてのデータセットを修正し、著名な人工知能(AI)研究者のヤン・ルカン(Yann LeCun)氏らが作成した。詳細な利用許諾条件は明示されていないものの、インターネット上で公開されており誰でも自由に入手して利用することができる。
MNISTデータベースを拡張し、数字に加えてアルファベット大文字「A」~「Z」、小文字「a」~「z」についても同じ形式(手書き文字画像+正解データ)で整備した「EMNIST」(Extended MNIST)が公開されている。こちらはいくつかのバリエーションがあるが、最大で81万セットのデータで構成される。
(2023.6.20更新)