AlphaStar
概要

StarCraft IIは、囲碁や将棋などの完全情報ゲームとは異なり、霧に覆われた視界によって敵の行動が完全には見えない不完全情報ゲームの性質を持つ。また、数万手先まで見据えた長期的な戦略の構築と、秒単位での微細なユニット操作を同時に行わなければならず、従来のゲームAIにとって難易度が高い課題だった。
AlphaStarは深層ニューラルネットワーク(DNN)と強化学習を組み合わせた深層強化学習の手法でStarCraft IIの操作や戦略を学習する。モデル内には時系列データを扱うための長・短期記憶(LSTM)やユニット間の関係性を捉えるためのTransformerが統合されている。画面情報やユニット状態などの高次元入力から行動方策を直接学習する構成をとり、操作制約や視野制限も人間に近い条件で設定されている。
学習過程では、まず人間プレイヤーの対戦データを用いた教師あり学習によって初期方策を構築し、その後にAlphaStar同士の自己対戦を通じた強化学習で性能を向上させている。複数のエージェントを同時に学習させるリーグ戦が採用され、戦略の多様性や対戦相手への適応能力が高められた。特定のプレイスタイルに特化したエージェントや、それらを打ち負かすためのエージェントを多数生成して競わせることで、弱点のない堅牢な戦略を構築している。
AlphaStarは単一のアルゴリズムというより、強化学習、模倣学習、マルチエージェント学習を統合したシステムである。AlphaStarが人間のトッププレイヤーを打ち負かした事実は、単なるゲーム攻略における成功を表すのに留まらず、不確実な情報が含まれる環境下で、長期的な計画を立てながら複雑なタスクを遂行する能力を機械学習システムが身につけることができることを示している。