読み方 : エースリーシー
A3C【Asynchronous Advantage Actor-Critic】
概要
A3Cとは、強化学習における深層学習手法の一つで、Actor-Critic法に、複数のエージェントが独立して並列に学習を進める非同期学習の仕組みを組み込んだもの。

行動を選択する「Actor」(演者)と、Actorの選択した行動に評価を与える「Critic」(批評家)を別々の出力として同一のニューラルネットワーク内で学習する。Actorは方策を表し、Criticは価値関数を推定する役割を担う。これに「Advantage」(優位性)という指標を組み合わせることで、得られた報酬が事前の予測に比べてどれほど良かったかを基準に学習を進める。
一つの中心となるグローバルネットワーク(共有パラメータ)に対し、複数のワーカーが並列に環境と相互作用しながら学習を進める。各ワーカーは自分自身のネットワークを持ち、個別に得た学習成果をグローバルネットワークへ非同期に反映させる。これによりデータ間の相関を効率的に打ち消すことができ、従来の強化学習で必要だった過去の経験を蓄積する膨大なバッファメモリが不要となった。
2016年に米グーグル(Google)社傘下のディープマインド(DeepMind)社によって発表された手法で、深層強化学習において計算資源の並列化を効率的に進めることができるようにした。従来の手法がGPUによる膨大な演算を必要とするところを、マルチコアCPUのみで同等以上の性能と圧倒的な学習時間の短縮を実現したことで注目された。ワーカーからのパラメータ更新の反映を同期的に処理するように変更した「A2C」(Advantage Actor-Critic)などの派生手法も提唱されている。