【やってみた】 "Gemini 1.5 Pro"の活用事例6選
はじめに
Googleが開発した大規模言語モデルのGemini 1.5 Pro。
長文の処理能力や、画像・音声の理解など、マルチモーダルな対応力を持ち、様々なタスクに応用できることが特徴です。
本記事では、Gemini 1.5 Proの活用事例を具体的に紹介し、その可能性を探っていきます!
画像解析
プロンプトと一緒に以下の画像を挿入
出力全文:
Gemini 1.5 Proの画像解析能力は非常に優れています。
複雑で詳細な生成AI企業のカオスマップを解析したところ、わずか1分で企業名を正確に抽出することができました。
他のAIモデルと比較しても、GPT-4は解析できず、Claude 3は一部のみの解析にとどまっており、Gemini 1.5 Proの優位性は明らかです。
テキスト情報だけでなく画像を含めた、幅広い応用が期待されます。
動画解析
プロンプトと一緒に以下の動画を挿入
Gemini 1.5 Proは、OpenAIのSoraで生成された、未来のTEDを描いた1分半の動画を解析できました。
プロンプトで動画に関する説明文が与えられていない状況でも、動画の最後に短く映る "TED2064" のテキストを認識し、この動画がTEDの40年後の姿を予測したものであると理解しています。
Gemini 1.5 Proの動画解析機能は、シーン分析など、様々な分野での活用が期待されます。
音声認識
プロンプトと一緒に以下の動画を mp3ファイルにしたものを挿入しました。