読み方 : ユニファイドアイオー

Unified-IO

概要

Unified-IOとは、画像や文字情報(テキスト)など複数の異なる種類の情報を同時に扱うマルチモーダル機械学習モデルの一つ。様々なタスクを入出力形式の変換問題として表現し、共通の枠組みで処理することで高い汎用性を実現している。
Unified-IOのイメージ画像

Transformerを基盤としたエンコーダデコーダ型のニューラルネットワークだが、視覚情報と言語情報をすべて同じ系列データとして統一的に処理する。画像データパッチと呼ばれる小さな断片に分割され、文字情報と同様のトークン列として扱われる。改良版のUnified-IO 2では音声や行動データも同じ枠組みで処理され、情報の種類(モダリティ)によらず共通の基盤を用いて解釈することができる。

これにより、画像キャプショニング視覚的質問応答VQA)、機械翻訳音声認識など、形式の異なるタスクを共通のネットワーク上で処理できる。入力を受け取ってから出力を生成するまでの工程が一本化されており、タスクごとの差異は従来のように小規模な構造をネットワークに追加して対応するのではなく、プロンプトや入出力フォーマットの違いとして吸収される。

学習段階では、複数タスクデータセットを混合して事前学習を行い、モデルに汎用的な表現能力を獲得させる。このようなマルチタスク学習により、あるタスクで得た知識が他のタスクへ転移しやすくなる効果が期待される。すべての入出力をテキスト形式に近いトークン列として扱うため、大きなアーキテクチャ変更を伴わずにデータ形式やタスクの種類を増やすことができる柔軟性を備えている。

Unified-IOは入力と出力の形式を極限までシンプルに統合することで80種類以上の多様なタスクに対応することができるとされ、AIの汎用性を大きく前進させた。一方、統一的な表現に基づく設計は、個別のデータ形式やタスクに固有の特徴を十分に活かしにくい場合があり、専用モデルと比較して性能が劣るケースも報告されている。大規模なマルチタスク学習を行うための計算資源や学習データの確保にコストがかかる課題もある。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。