Unified-IO
概要

Transformerを基盤としたエンコーダ・デコーダ型のニューラルネットワークだが、視覚情報と言語情報をすべて同じ系列データとして統一的に処理する。画像データはパッチと呼ばれる小さな断片に分割され、文字情報と同様のトークン列として扱われる。改良版のUnified-IO 2では音声や行動データも同じ枠組みで処理され、情報の種類(モダリティ)によらず共通の基盤を用いて解釈することができる。
これにより、画像キャプショニング、視覚的質問応答(VQA)、機械翻訳、音声認識など、形式の異なるタスクを共通のネットワーク上で処理できる。入力を受け取ってから出力を生成するまでの工程が一本化されており、タスクごとの差異は従来のように小規模な構造をネットワークに追加して対応するのではなく、プロンプトや入出力フォーマットの違いとして吸収される。
学習段階では、複数タスクのデータセットを混合して事前学習を行い、モデルに汎用的な表現能力を獲得させる。このようなマルチタスク学習により、あるタスクで得た知識が他のタスクへ転移しやすくなる効果が期待される。すべての入出力をテキスト形式に近いトークン列として扱うため、大きなアーキテクチャ変更を伴わずにデータ形式やタスクの種類を増やすことができる柔軟性を備えている。
Unified-IOは入力と出力の形式を極限までシンプルに統合することで80種類以上の多様なタスクに対応することができるとされ、AIの汎用性を大きく前進させた。一方、統一的な表現に基づく設計は、個別のデータ形式やタスクに固有の特徴を十分に活かしにくい場合があり、専用モデルと比較して性能が劣るケースも報告されている。大規模なマルチタスク学習を行うための計算資源や学習データの確保にコストがかかる課題もある。