決定木 【decision tree】 デシジョンツリー
概要
決定木(decision tree)とは、意思決定や分類、判別、予測などのために作られる、木構造(ツリー構造)のデータや図などのこと。各ノード(枝分かれ)に書かれた条件に従って分岐を辿っていくことにより、末端の葉(リーフノード)に書かれた結論が得られる。一つの根(ルートノード)から段階的に枝分かれしていく木構造に従って条件が整理されている。途中のそれぞれ枝分かれ(ノード)には一つの条件が書き入れられており、条件を評価してどの枝に進むかを判断する。末端(葉/リーフノード)には最終的な結果や結論が用意されている。
分類を行うものを「分類木」(classification tree)、関数の近似により推論や予測を行うものを「回帰木」(regression tree)という。扱うモデルが単純な場合は人力で木を構成することもでき、「診断チャート」「分類チャート」などの形で日常的にも馴染み深い。データ分析の分野では、学習データを元に機械学習により(巨大な)決定木を自動生成する「決定木学習」(decision tree learning)が研究されている。
決定木学習は、非線形のデータや説明変数の多い(次元の高い)データ、様々な尺度(質的変数か量的変数かなど)が混在しているデータでも扱いやすい、外れ値の影響が小さい、なぜその結論に至ったのか説明しやすいといった利点がある。ただし、分類性能は他の手法より劣ることが多く、線形データが苦手、過学習を起こしやすいといった難点もある。
(2021.9.13更新)