ランダムフォレスト 【random forest】 randomized trees
概要
ランダムフォレスト(random forest)とは、機械学習のアルゴリズムの一つで、同じデータから多数の決定木(デシジョンツリー)を作り、各ツリーから得られた結果から多数決や平均を取って最終的な結果とする手法。決定木は分類や回帰を行うことができるアルゴリズムの一つで、一つの根(ルートノード)から段階的に枝分かれしていく木構造(ツリー)に従って条件を整理する。各ノード(枝分かれ)に書かれた条件に従って分岐を辿っていくことにより、末端の葉(リーフノード)に書かれた結論が得られる。
ランダムフォレストでは、学習したいデータからランダムに抽出したデータの組を多数用意して、それぞれについて決定木を作成する。評価を行う際には同じ入力をすべての木に与え、それぞれ得られた結果を平均したり、最も多かった結果を残すなどして最終的な結論を得る。
複数の機械学習アルゴリズムを組み合わせるアンサンブル学習の一種で、単体の決定木は過学習しやすいという弱点を補うことができる。学習や評価を高速に行うことができ、説明変数が多い場合の性能も良好、各変数の寄与度合いを説明できるといった特徴もある。
(2023.10.27更新)