読み方 : アールエルエイチエフ

RLHF【Reinforcement Learning from Human Feedback】

概要

RLHFとは、強化学習の手法の一つで、人間のフィードバックを報酬として用いてモデルの振る舞いを調整するもの。教師あり学習強化学習を組み合わせた手法で、大規模言語モデルLLM)の対話性能向上などに用いられる。
RLHFのイメージ画像

まず、大量のテキストデータを用いた事前学習や微調整(ファインチューニング)により、基本的な言語能力を持つモデルを構築する。その後、モデルが生成した複数の回答案を人間が比較し、どちらがより好ましいかという順位付けを行う。この人間の評価データを基に、どのような回答が望ましいかを数値化する「報酬モデル」(reward model)を学習させる

次に、学習した報酬モデルをガイド役として、強化学習アルゴリズムであるPPOProximal Policy Optimization)などを用いてメインの言語モデルを微調整する。言語モデルは報酬モデルから高い評価を得られるような回答を生成するように自己更新を繰り返す。言語モデルは単に確率的に高い単語を並べるだけでなく、悪い言葉を使わない、役に立つなど、人間が思う「良さ」に沿った回答を出力する能力を獲得する。

RLHFは、倫理性やニュアンスなど、明示的な数式で定義しにくい評価基準を学習に反映でき、対話型AIの性能向上や安全性の確保において重要な役割を果たしている。一方で、人間の評価に依存するため、評価者の主観に伴う一貫性の問題やコストの問題が存在する。また、報酬モデルの偏りがそのまま学習結果に反映されやすく、報酬を不当に稼ごうとする「報酬ハック」などの問題が生じる可能性も指摘されている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。