見出し画像

【まるで魔法】GPT-4o(オムニ)が登場。ChatGPTアップデートまとめ

5月14日、日本時間深夜2時よりOpenAIのイベントが開催されました。

イベントの内容は、AIの新しい時代の幕開けを予感させる衝撃的な発表となりました。

注目すべきは、

  • 最新モデル「GPT-4o」の登場

  • 無料ユーザーへの解放

の二つです。

これにより、より多くのユーザーが高度なAIを手軽に利用できるようになります。

今回は、このOpenAIの最新アップデートの内容を詳しく解説していきます!


新しく発表されたGPT-4oとは?

5月14日のイベントで発表された最新モデル「GPT-4o」(oはomniの略:【omniは「全ての」を意味する】)は、音声、視覚、テキストをリアルタイムで処理できる新しいAIモデルです。これにより、より自然な人間とAIの対話が可能になりました。

主な特徴

  • マルチモーダル対応:テキスト、音声、画像の組み合わせを入力として受け取り、同様に多様な形式の出力を生成可能。

  • 高速応答:音声入力に対して232ミリ秒、平均320ミリ秒で応答し、人間の会話とほぼ同等のスピード。

  • 多言語対応:GPT-4 Turboと同等の英語およびコード処理能力を持ち、非英語テキストでも大幅に改善。

  • コスト効率:APIではGPT-4 Turboよりも2倍高速で、価格は半分、レート制限は5倍に。

モデルの進化

以前のVoice Modeでは、音声をテキストに変換し、テキストを処理して再度音声に変換するため、遅延が生じていました。

GPT-4oでは、テキスト、視覚、音声を一つのモデルで処理するため、より自然な対話が可能になりました。

(0:56~からのChatGPTの感情表現は必見です)

活用事例

GPT-4oの様々なユースケースをご紹介します。

  • 対話と歌唱:二つのGPT-4oが交互に歌を歌う

  • リアルタイム翻訳:英語とスペイン語をリアルタイムで翻訳

  • インタビュー準備:リアルタイムでのインタビュー対策

  • 数学学習:GPT-4oと画面を共有しながら一緒に数学の問題を解き方を教えてくれる

GPT-4oの利用について

GPT-4oの機能は今日から全ユーザーに提供が開始され、無料ユーザーも利用可能です。

また、API経由でもアクセスでき、音声および動画機能のサポートも開始される予定です。

次のセクションでは、具体的なモデルの評価について詳しく紹介します。


モデル評価

OpenAIの最新モデルGPT-4oは、従来のモデルと比較して多くの評価指標で優れた性能を示しています。以下のセクションでは、GPT-4oの評価結果について、特筆すべき点を詳しく解説します。

上記のグラフは、さまざまなAIモデルの総合評価を示しています。GPT-4oは、他の多くのモデルよりも高い評価を受けており、特に音声、視覚、テキストの処理能力において優れた性能を発揮しています。

この評価は、ELOスコアという数字で表されており、GPT-4oは最高の1310点を獲得しています。これは、GPT-4oが他のモデルに比べて非常に優れていることを示しています。

テキスト評価

上記のグラフは、GPT-4oが他のモデル(GPT-4T、GPT-4、Claude 3 Opusなど)と比較してテキスト評価で高い性能を示していることを示しています。GPT-4oは、MMLU(General Knowledge Questions)において88.7%のスコアを達成し、従来のモデルを上回っています。

音声認識性能

このグラフは、GPT-4oが音声認識性能において優れていることを示しています。特に低リソース言語での性能向上が顕著であり、Whisper-v3と比較して全地域で優れた結果を示しています。

音声翻訳性能

GPT-4oは、音声翻訳性能においても新たな基準を打ち立てています。

M3Examのゼロショット結果

M3Examは多言語および視覚評価を含むベンチマークです。GPT-4oは、複数の言語で高い正確性を示しており、従来のGPT-4を上回る結果を出しています。特に視覚質問においても高い性能を発揮しています。

視覚理解評価

GPT-4oは、視覚的な認識ベンチマークにおいても最先端の性能を達成しています。AI2D、ChartQA、DocVQAなどのテストで優れた結果を示し、視覚データの理解力が向上していることが分かります。


新しいツールの発表

5月14日のイベントでは、GPT-4oの発表と共に、ChatGPT無料ユーザー向けの新しいツールの提供も発表されました。これにより、より多くのユーザーが先進的なAI機能を利用できるようになります。

ChatGPT無料ユーザー向けの新機能

無料ユーザーは今後、以下の機能にアクセスできるようになります:

  • GPT-4レベルのAIへのアクセス

  • ウェブからの情報取得:ウェブから応答を得られるようになりリアルタイムの情報を取得できるようになります。

  • データの分析とチャート作成:データを分析し、グラフを作成。

  • 写真の解析:撮影した写真についての会話が可能に。

  • ファイルのアップロード:要約、分析のためにPDF, CSVファイルなどをアップロード。

  • GPTストアの利用:GPTsやGPTストアでGPTを検索して利用。

  • メモリ機能:ユーザーの会話を通じて自動的に情報を記憶。

無料ユーザー向けの制限
無料ユーザーは上記の機能にアクセスできますが、以下の制限があります:

  • 画像生成:無料ユーザーは画像生成機能にアクセスできません。

  • メッセージ制限:無料ユーザーには、利用制限があり、制限に達した場合はGPT-3.5に自動的に切り替わります。

  • GPTsの作成:無料ユーザーはGPTsを使用できますが、新しいGPTsを作成することはできません。

ChatGPT Plusユーザー向けの特典

Plusユーザーは、無料ユーザーに加えて以下の特典を利用できます:

  • 音声会話:アプリ内でヘッドホンアイコンをタップして、GPT-4oの新しい音声およびビデオ機能を活用した音声会話の利用。

  • より多くのメッセージ送信:無料ユーザーの5倍のメッセージ制限。

  • 画像生成機能:GPT-4oを使用した画像生成が可能。

デスクトップアプリの発表

無料および有料ユーザー向けに、新しいmacOS用ChatGPTデスクトップアプリが発表されました。これにより、デスクトップでもChatGPTを簡単に利用できるようになります。

このアプリは、ユーザーが日常の作業を効率よく進められるように設計されています。例えば、キーボードショートカット(Option + Space)を使ってすぐに質問ができる機能があります。

音声会話:さらに、アプリ内でヘッドホンアイコンをタップして、GPT-4oの新しい音声およびビデオ機能を活用した音声会話を開始できます。

画面共有:画面を共有した状態でリアルタイムで画面に関して対話も可能です。

デスクトップアプリはPlusユーザー向けに本日から順次提供される予定です。また、今年後半にはWindows版のリリースも予定されています。

ChatGPTの新しいインターフェース

新しいデザインとインターフェースになり、新しいホーム画面やメッセージレイアウトが追加され、使いやすさが向上しています。


まとめ

OpenAIの最新発表で、最新モデル「GPT-4o」のリリースと無料ユーザーへの解放が発表され、AIの新しい時代の幕開けとなりました。

GPT-4oは音声、画像、テキストをリアルタイムで処理する能力を備えており、より自然で高度な対話が可能になります。

また、新しいツールやデスクトップアプリの導入により、より多くのユーザーが先進的なAI機能を手軽に利用できるようになるでしょう。今後のAIの進化に大いに期待が持てる発表でした。

【⚡️緊急開催】ChatGPT大規模アプデ勉強会

今回のアプデはやばいです。

GPT-4oをChatGPT研究所主催の勉強会で徹底解説します。

無料版GPTsなどの情報が出てから開催予定なので、日程は未定です。

最新AIをキャッチアップしたい方は参加必須です。

続報は以下の公式LINEから👇


この記事が参加している募集

AIとやってみた

みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!