読み方：マルチモーダルエーアイ

マルチモーダルAI【multimodal AI】

概要

マルチモーダルAIとは、テキスト（文字情報）と画像、動画と音声など、複数の異なる種類のデータを組み合わせて学習することができる機械学習システム。言葉による指示で画像を生成するといった動作が可能となる。

AI（人工知能）の主要な実現方式である機械学習（ML：Machine Learning）では、大量の学習データを処理して規則性などを学び、ニューラルネットワークとしてモデルを構築する。テキスト（文字情報）を学習させテキストの入力からテキストを出力するといったように、取り扱うデータの種類が一つの場合を「ユニモーダルAI」（unimodal AI）という。

一方、マルチモーダルAIは複数種類のデータを相互に関連付けて学習させることができる。例えば、テキストと画像に対応している場合、画像データに付与されたキャプションや分類タグなどの文字データを、その画像の特徴と関連付けてモデル化することができる。

これにより、単語やフレーズの組み合わせを入力して対応する画像を生成したり、画像を入力して写っているものを説明させるといった機能を実現することができるようになる。防犯システムに動画と音声を組み合わせて学習させ、カメラに写った映像とマイクで収録した音声を総合して異状を検知するシステムなども研究されている。

(2023.9.28更新)