読み方:とくちょうりょう

特徴量 【feature】

概要

特徴量(feature)とは、対象の特徴を表すと考えられる属性をデータとして表したもの。通常は数値が用いられ、分類ラベルなどを扱う場合は番号などに置き換えて表現する。機械学習システムにおける入力値として与えられる。
特徴量のイメージ画像

蓄積されたデータ(生データ)を何らかの属性の組み合わせとして整理し、その中からデータが表している対象や、処理の目的や用途などに照らして、特徴をよく表していると考えられる項目を特徴量に採用する。

例えば、中古車の買取価格を予測する機械学習システムを作りたければ、メーカー、車種、年式、走行距離、色などを特徴量とすることが考えられる。一方、生データの中に「給油口の左右」のような項目があったとしても、価格にはあまり影響しないと考えられるため、特徴量には採用しない。このような取捨選択を「特徴選択」という。

特徴量と次元

特徴量の値の組み合わせは数学におけるベクトルようなものと考えることができるため、特徴量の数のことを「次元」(dimension)という。「車種」の1次元だけで価格の傾向を考えるより「車種」と「年式」を組み合わせた2次元の方が有意義な分析が可能であるように、ある程度は次元が多い方がはっきりした傾向が現れる。

しかし、あまりに次元の数が多すぎると、値の組み合わせの数が爆発的(指数関数的)に増大してしまう。このとき、低次元の場合と同じデータ量で学習しようとすると、サンプルが分散しすぎて意味のある傾向が現れなくなってしまうことがある。裏を返せば、十分な訓練に必要なデータ量は次元に対して指数的に増大してしまう。これを「次元の呪い」という。

次元削減

次元の呪いを緩和するため、学習に先立って生データを加工して特徴量の数を減らす「次元削減」操作を行うことがある。これには、項目の中から特徴量として不要なものを削除する特徴選択や、複数の特徴量の傾向を反映した新たな特徴量を作り出す「特徴抽出」が含まれる。

特徴抽出を機械学習システムで自動化したものを「表現学習」と呼び、対象データの種類(テキスト/画像など)や学習の手法(教師あり/なしなど)の違いによって様々な方式が提案されている。代表的な手法として主成分分析PCA)やオートエンコーダーなどが知られている。

(2025.9.14更新)

人工知能の用語一覧