読み方 : フラミンゴ
Flamingo
概要
Flamingoとは、画像と文字情報(テキスト)を同時に扱うマルチモーダル大規模言語モデルの一つ。少数の例示を提示するだけで、新たなタスクを学習できるFew-shot学習に長けており、視覚情報を含む高度な対話ができる。

画像から特徴を抽出する「目」の役割を果たす画像エンコーダと、「頭脳」の役割を果たす大規模言語モデル(LLM)を効率的に接合している。「Perceiver Resampler」と呼ばれる仕組みが画像から重要な情報を抽出して圧縮し、それをクロスアテンション(Cross Attention)という仕組みを通じて言語モデルに流し込むことで、画像の内容を踏まえた自然な文章生成を行う。
Flamingoは利用時に即興で一時的な学習を行う「コンテキスト内学習」(ICL:In-Context Learning)への適性が高い点で知られている。複数の画像と質問・回答のペアを入力として与えることで、新たな画像に対する質問応答や画像キャプショニング、視覚的推論といったタスクを追加学習なしで実行できる。これはLLMが持つ文脈理解能力と、視覚特徴を動的に参照するクロスアテンション構造の組み合わせによって実現している。
Flamingoは、Web上の大量のテキストと画像が混在したデータから学習を行っている。単一の画像に対する説明だけでなく、複数の画像が並んだ一連の流れを理解したり、画像に基づいた複雑な推論を行うこともできる。応用分野としては、画像に基づく対話システム、視覚的質問応答(VQA)、キーワードから画像を検索するといったマルチモーダル検索、ロボット制御における視覚と言語の統合などが挙げられる。