読み方 : ジェミニ
Gemini
概要

英語や日本語などの自然言語の文章を理解・生成する大規模言語モデル(LLM)を基盤としながら、文字情報(テキスト)だけでなく、画像、音声、動画、プログラムコードなど様々な種類の情報を同時に理解し、処理できる「マルチモーダルAI」となっている。利用者は文字による質問だけでなく、スマートフォンのカメラで撮影した写真の内容を説明させたり、録音した音声の要約を依頼したりすることができる。
同社が長年培ってきた検索技術や膨大なデータセットを活用して学習されており、日常的な疑問への回答から高度な論理的推論、創造的な文章作成、画像の生成や編集、情報をまとめたスライドの作成、プログラムコードの生成や修正まで、様々な対象や分野にわたり幅広いタスクをこなす。特定の文脈や長大な文書を一度に読み込む能力にも長けており、数千ページに及ぶ資料の解析といった専門的な用途にも対応する。
利用環境や用途に合わせて複数のモデルが用意されている。スマートフォンなどの端末上で動作する軽量なモデルから、同社のデータセンターで稼働する大規模・高性能なモデルまでが存在し、GmailやGoogleドキュメントといった同社のネットサービスやアプリとの連携も進んでいる。Webブラウザやスマートフォンアプリを通じて多くの機能が無料で提供されており、性能や利用回数を拡張する有料サービスも提供されている。