読み方:イメージネット
ImageNet
何かを写した画像と、“apple” “dog” など画像に何が写っているかを表すラベル(注釈)、その物体が画像内に存在する矩形の領域(バウンディングボックス)がセットになったデータで、これを教師データとして機械学習を行うことで、画像に写っているものが何かを識別することができるようになる。
画像はフルカラーだが画素数はまちまちで、学習時に前処理として同じ画素数に揃える処理を行うことが多い。画像に与えられたラベルは最も大きく、あるいは手前に写っている物体を表す一つのみだが、背景や周囲に別の物体が映り込んでいる画像も多くあり、精度低下の要因になっているとする指摘もある。
分類は機械処理可能な英語辞書であるWordNetのIDで記述される。WordNetは品詞、同義語、上位概念と下位概念といった単語の属性や単語間の関係性が収録されており、この情報を用いることで「ハスキーは犬である」「犬は哺乳類である」といった関係に基づく学習を行うこともできる。
2010年から2017年まで、ImageNetの画像認識の精度を競うコンテスト「ImageNet Large Scale Visual Recognition Challenge」(ILSVRC)が年に1回開催された。初回はサポートベクターマシン(SVM)を利用したチームが分類精度52.9%で優勝したが、2017年大会ではニューラルネットワークを利用が広がり参加チームの3分の2が95%以上の精度を出すようになった。
(2025.9.12更新)