読み方 : こうばいブースティング
勾配ブースティング【gradient boosting】
概要

まず比較的単純なモデルを用いて予測を行い、その予測と正解の差(残差)に着目し、その誤差を打ち消すように次のモデルを学習させるという手順を繰り返す。差分は損失関数の勾配として定式化され、この勾配に沿って次のモデルが誤差を減らす方向に修正するよう学習させる。
学習手法としては決定木がよく利用され、各木が担当するのは前のモデルが十分に説明できなかった部分の補完である。モデルが追加されるたびに、それまでのモデルが苦手としていた部分(大きな誤差が生じていたデータ点)の予測精度が改善されていく。追加されたモデルの出力を逐次加算することで、全体として精度の高い予測が可能になる。
誤差の構造に応じて順次学習を進めるため、多様なデータや複雑な関係に対応しやすいとされる。また任意の微分可能な損失関数を利用できるため、回帰や分類など異なるタスクに適用しやすい柔軟性を備えている。さらに、各ステップで学習されるモデルが小規模であることから、個々の学習器が弱くても全体として強い予測性能を発揮する特徴をもつ。
一方で、この手法は逐次的にモデルを追加していく性質上、計算コストが大きくなりやすく、適切なパラメータ設定を怠ると過学習が生じる可能性があるとされる。学習率や木の深さ、モデル数などのハイパーパラメータの調整は結果に影響しやすいため、慎重な設計が求められることが一般的である。
計算効率の改善や過学習抑制を目的とした発展的手法として「XGBoost」「LightGBM」「CatBoost」などが登場し、実務や研究で広く用いられている。これらの手法も基本的な概念は勾配ブースティングに基づいており、より大規模なデータや複雑な特徴を扱う場面で活用されている。
(2025.11.26更新)