読み方 : じげんさくげん

次元削減【dimensionality reduction】

概要

次元削減とは、機械学習で扱うデータが持つ特徴量の数(次元)を、データの持つ本質的な情報や構造を可能な限り保ちながら、より少ない数に変換・圧縮すること。

データ分析や機械学習モデルの構築において、計算コストの削減や過学習オーバーフィッティング)の防止、さらにはデータの可視化を目的として広く利用される基本的な前処理の一つである。特徴量が非常に多い「高次元データ」を扱う際、その有効性が特に発揮される。

データの次元

統計解析や機械学習では、一つのデータを複数の項目(データの特徴を表す値:特徴量)の組み合わせとして表すことが多い。いくつの値で表すかを「次元」という。2つなら2次元、3つなら3次元であり、こうした少数の値で表されるデータを「低次元データ」という。一方、数十や数百といった多数の値を組み合わせてデータを構成する場合があり、これを「高次元データ」という。

高次元のデータ空間では、データの分布が疎(まばら)になり、サンプル間の距離の概念が曖昧になる「次元の呪い」と呼ばれる現象が生じやすくなる。この現象は、機械学習モデルの性能低下や、学習時間の増加を招く。また、我々の暮らす空間は3次元であるため、高次元のデータはそのままでは2次元や3次元のグラフとして描画することができない。

次元削減とは

高次元のデータ群を、より少ない特徴量で表される低次元のデータに変換し、次元を減らす操作を次元削減という。これには大きく分けて二つのアプローチがある。一つは、元の特徴量の中から、予測に最も重要と思われる特徴量を選択する「特徴量選択」(feature selection)である。もう一つは、元の複数の特徴量を組み合わせて、少数の新たな特徴量に合成する「特徴量抽出」(feature extraction)である。

特徴量抽出の代表的な手法としては、線形的な手法である「主成分分析」(PCA)や、非線形的な手法である「t-SNE」「オートエンコーダ」などが挙げられる。主成分分析は、データの分散が最大となる方向(主成分)を見つけ出し、その方向にデータ射影することで次元を削減する手法である。一方、t-SNEのような非線形手法は、元の高次元データにおけるデータ点間の局所的な関係性や複雑な構造を保ちながら、低次元空間にマッピングする能力に長けている。

(2025.11.26更新)