マルチモーダルAI 【multimodal AI】

概要

マルチモーダルAI(multimodal AI)とは、テキスト(文字情報)と画像、動画と音声など、複数の異なる種類のデータと組み合わせて学習することができる機械学習システム

AI人工知能)の主要な実現方式である機械学習MLMachine Learning)では、大量の学習データを処理して規則性などを学び、ニューラルネットワークとしてモデルを構築する。テキスト(文字情報)を学習させテキスト入力からテキスト出力するといったように、取り扱うデータの種類が一つの場合を「ユニモーダルAI」(unimodal AI)という。

一方、マルチモーダルAIは複数種類のデータを相互に関連付けて学習させることができる。例えば、テキストと画像に対応している場合、画像データに付与されたキャプションや分類タグなどの文字データを、その画像の特徴と関連付けてモデル化することができる。

これにより、単語やフレーズの組み合わせを入力して対応する画像を生成したり、画像を入力して写っているものを説明させるといった機能を実現することができるようになる。防犯システムに動画と音声を組み合わせて学習させ、カメラに写った映像とマイクで収録した音声を総合して異状を検知するシステムなども研究されている。

(2023.9.28更新)

他の辞典による解説 (外部サイト)

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。
ホーム画面への追加方法
1.ブラウザの 共有ボタンのアイコン 共有ボタンをタップ
2.メニューの「ホーム画面に追加」をタップ
閉じる