見出し画像

【やってみた】 "Gemini 1.5 Pro"の活用事例6選

はじめに

Googleが開発した大規模言語モデルのGemini 1.5 Pro

長文の処理能力や、画像・音声の理解など、マルチモーダルな対応力を持ち、様々なタスクに応用できることが特徴です。

本記事では、Gemini 1.5 Proの活用事例を具体的に紹介し、その可能性を探っていきます!

画像解析

この画像に含まれる全ての企業名を正確にリストアップしてください。​

プロンプトと一緒に以下の画像を挿入

入力した画像

出力全文:

Gemini 1.5 Proの画像解析能力は非常に優れています。

複雑で詳細な生成AI企業のカオスマップを解析したところ、わずか1分で企業名を正確に抽出することができました。

他のAIモデルと比較しても、GPT-4は解析できず、Claude 3は一部のみの解析にとどまっており、Gemini 1.5 Proの優位性は明らかです。

テキスト情報だけでなく画像を含めた、幅広い応用が期待されます。

動画解析

この動画の内容を説明して

プロンプトと一緒に以下の動画を挿入

Gemini 1.5 Proは、OpenAIのSoraで生成された、未来のTEDを描いた1分半の動画を解析できました。

プロンプトで動画に関する説明文が与えられていない状況でも、動画の最後に短く映る "TED2064" のテキストを認識し、この動画がTEDの40年後の姿を予測したものであると理解しています。

Gemini 1.5 Proの動画解析機能は、シーン分析など、様々な分野での活用が期待されます。

音声認識

音声を元に5問の選択問題を作成してください。問題の最後には、後で採点するための各問題の正解を記載するセクションを追加してください

プロンプトと一緒に以下の動画を mp3ファイルにしたものを挿入しました。

ここから先は

3,762字 / 3画像

AGIラボ

¥2,980 / 月
このメンバーシップの詳細

この記事が参加している募集