読み方 : クリップ

CLIP【Contrastive Language–Image Pre-training】

概要

CLIPとは、画像とテキストを関連付けて学習させることで、視覚的な概念を言語を通じて理解する機械学習モデル。米オープンAI(OpenAI)社が2021年に発表したもので、画像理解と言語理解を統合する基盤技術として知られている。
CLIPのイメージ画像

画像エンコーダとテキストエンコーダという二つの独立したネットワークを用いる。画像エンコーダは入力画像を特徴ベクトルに変換し、テキストエンコーダは対応する説明文やキャプションを同じ次元のベクトル空間に写像する。コントラスト学習(対照学習)と呼ばれる学習手法により、正しい画像とテキストの組の類似度が高く、無関係な組の類似度が低くなるように損失関数を最適化する。

これにより、視覚情報と言語情報が共通の意味空間上で整合的に表現される。モデルは写っている物体の名前を覚えるだけでなく、色や構図、あるいはその物体に関連する様々な抽象的な概念について、画像とテキストの間でどのような対応関係があるかを捉えることができるようになる。

大きな特徴として、特定のタスクに限定されない汎用的な表現を獲得できる点がある。事前学習後は、画像分類や検索などのタスクにおいて、クラス名や説明文をテキストとして与えるだけで推論が可能となる場合がある。このような手法は「ゼロショット学習」と呼ばれ、大量のラベル付きデータを用いずに新しい概念へ対応することができる。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。