読み方 : とくちょうりょうエンジニアリング

特徴量エンジニアリング【feature engineering】

特徴量エンジニアリングとは?

機械学習モデルの性能を高めるために、生データから有用な「特徴量」を取り出し、モデルが学習しやすい形に整える作業のこと。入力データの表し方によって予測精度が大きく変わるため、この加工の質がモデルの成否を左右する。
特徴量エンジニアリングのイメージ画像

機械学習では、データに含まれるパターンをモデルに学ばせるが、生データをそのまま与えても十分な学習が難しいことが多い。たとえば「2024年3月15日」という日付よりも、そこから「曜日」「月」「祝日かどうか」を取り出したほうが、モデルは消費者の行動パターンなど現象の背後にある規則を捉えやすくなる。また、売上と来客数から平均購入額を算出するように、複数の変数を組み合わせることで、単体では見えにくかったデータの性質を明示できる。

具体的な処理としては、数値のスケールを揃える正規化、文字列や地域名などカテゴリデータの数値変換、欠損値の補完、外れ値の処理などがある。一方、意味の薄い特徴量やノイズを含む変数を増やしすぎると、学習が不安定になったり過学習を招いたりするため、特徴量の選択と削減も欠かせない。

この作業には、対象分野の知識(ドメイン知識)が深く関わる。医療データなら医学的背景、金融データなら財務や会計、投資の知識が、有効な特徴量を設計する手がかりになる。どの情報がモデルの判断に影響するかは自明でなく、試行錯誤を繰り返しながら進めるのが一般的である。

近年では、ディープラーニングの普及により、モデル自身が特徴を自動抽出できる場面も増えたが、データの矛盾を排除し、意味を踏まえて整理する作業は、依然として人の判断を要する。自動生成ツールも登場しているものの、データの背景理解に基づく調整は機械任せにできない領域として残っている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。