ガードレール【guardrail】

ガードレールとは?

AIシステムが有害・不適切な出力をしないよう制御する仕組みの総称。道路脇の欄干になぞらえた名称で、AIの「逸脱」を防ぐ防護壁として機能する。
ガードレールのイメージ画像

AIシステム、とりわけ大規模言語モデルLLM)は、学習データに基づいて自由に文章を生成するため、意図せず差別的な表現、暴力的な内容、個人情報、虚偽情報などを出力するリスクがある。また、利用者が悪意に基づいてマルウェアの生成や武器の製造方法のような危険な内容を求める場合もある。ガードレールは、こうしたリスクに対して一定の歯止めをかけるための技術的、運用的な手段である。

ガードレールは大きく「入力側」と「出力側」に分けられる。入力側では、利用者からの問いかけ(プロンプト)を解析し、有害な意図に基づくリクエストを事前に検知して拒否する処理が行われる。出力側では、AIが生成したテキストを別のモデルや何らかのルールに基づいて評価し、問題のある内容を削除・修正したうえで利用者に届ける。

実装方法はシステムによって異なり、キーワードによるフィルタリングのような単純な手法から、別途訓練された分類モデルによる意味的な評価まで様々な手法がある。また、モデルそのものの訓練段階でRLHF(人間のフィードバックに基づく強化学習)を用いて有害な応答を抑制する手法も、広義のガードレールの一形態とみなされることがある。

ガードレールは万能ではなく、「ジェイルブレイク」と呼ばれる迂回攻撃によって制御を突破される事例も報告されている。ガードレールの設計・評価・更新は継続的なプロセスであり、利用ログの分析や誤動作の検証を通じて制約条件が更新されるほか、新たな悪用手法に対応するための調整も行われる。AIの安全性研究における主要なテーマの一つとなっている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。