見出し画像

【転換点直前】o1を越える「o3」登場。性能・特徴を徹底解説

2024年12月21日、OpenAIは先日発表された「o1」を超えるフロンティアモデル「o3」および、その軽量かつコスト効率に優れたバリエーションである「o3 mini」を発表しました。

※ 商標やネーミング上の重複を避けるため"o2"ではなく"o3"

これらの新モデルは、数学・プログラミング・科学といった高度な思考力を要する領域において、前モデル(o1系)をはるかに上回る性能を実現し、AI技術の新時代を切り拓く大きな一歩となっています。


1. 新たなフロンティアモデル「o3」および「o3 mini」の発表

今回登場したo3ファミリーは、これまでのモデルでは実現が難しかった極めて困難なタスクに対して、人間専門家以上の正確性・汎用性を示すことが特徴です。

主な特徴:

o3

  • 数学・プログラミング・科学分野での正答率・汎用性を大幅に向上

  • 難関ベンチマーク「ARC-AGI」で人間並み、さらには超える87.5%の正解率を達成

  • 高度な推論力により、複雑な問題解決への適用範囲が拡大

o3 mini

  • コスト効率を重視した軽量版モデル

  • 「アダプティブ・シンキング・タイム」による思考時間(低・中・高)の柔軟な調整機能を搭載

  • より軽量なインフラストラクチャで、本格的な推論力と高速応答を実現

2. 圧倒的なベンチマーク性能向上

今回のo3発表において、特に注目なのが「ARC-AGI」と呼ばれる極めて高度な汎用推論ベンチマークでの飛躍的な性能向上です。

このテストは、人間が容易に解けるタスクでも、従来の大規模言語モデル(LLM)にとっては極めて手強く、長年にわたってほぼ停滞していた領域を測るものとして知られています。

なかでもo3が解けなかった「ARC-AGI」のタスクの例
https://arcprize.org/blog/oai-o3-pub-breakthrough

o3のARC-AGIスコア

  • 計算リソースを抑えつつ実行した場合でも75.7%を達成。これは、2020年のGPT-3時代に0%であったスコアが、4年越しに5%へ、そして今や大幅に跳ね上がったことを意味します。

  • さらに、大量の計算資源を投入した場合87.5%という、人間並みの水準(85%)を上回る驚異的な正解率をマークしています。

https://arcprize.org/blog/oai-o3-pub-breakthrough

進化の速度と適応力

  • これまでARC-AGIは、スケーリング(モデルの大型化や学習データの増加)のみでは解決が難しい「本質的な新規タスク適応能力」を試す指標として位置づけられていました。

  • o3は、この課題に対してこれまでの手法とは異なるテスト時プログラム生成・探索アプローチを用いることで、従来モデルが達し得なかった領域へ踏み込み、新たなブレークスルーを示しています。

コストや効率性の側面

  • 現時点では、o3がARC-AGIタスク1問を解くために必要な計算コストは約17~20ドルと試算されており、
    人間に同様の作業を委託する場合(約5ドル/問)より依然として割高な状態です。

  • しかし、モデルのさらなる改良やインフラの最適化を通じて、
    この計算コストは今後数カ月から数年のうちに急速に低下し、
    やがては人間に匹敵、あるいはそれを下回る水準に達する可能性が高いと期待されています。

数学・プログラミング・科学分野における圧倒的な強さ

o3は、ARC-AGI以外のベンチマークでも突出した性能を示しています。

  • 数学(AIME 2024)
    従来から高水準だったo1系をさらに上回り、96.7%の正答率を達成。

  • プログラミング(Codeforces・SWE-bench Verified)
    ソフトウェアエンジニアリング評価(SWE-bench Verified)で71.7%の正答率を記録。

    また、国際的なプログラミング競技プラットフォームCodeforcesではEloレーティング2727
    を獲得し、世界トップクラスのプログラマー上位175位に相当する驚異的水準に到達しました。

https://codeforces.com/ratings
  • 科学(GPQA Diamond)
    博士課程レベルの科学問題にも対応し、87.7%という高精度を実現。専門性が求められる領域でも適応力を発揮しています。

研究数学(EpochAI Frontier Math)

さらに、従来モデルが2%程度で頭打ちだった未踏の研究数学領域(EpochAI Frontier Math)において、o3は25.2%という飛躍的な向上を達成。

これにより、理論的な未解決問題や新奇なタスクにおいても、o3が有望な活路を見いだせることが示唆されます。

o3はAGIなのか?

一方で、ARC-AGIの開発者であるFrançois Chollet氏は、「o3を「AGI」と見なすのまだ早いよ」と投稿。

o3は画期的な成果を収めたものの、いまだ一部の「人間にとって容易なタスク」を解決できず、将来投入されるより困難なARC-AGI-2では、依然として課題が残ると見られています。

https://x.com/fchollet/status/1870170778458828851

3. 安全性強化と「Deliberative Alignment」

OpenAIは、モデル内部での思考プロセス(Chain-of-Thought)を直接的な安全仕様参照と組み合わせることで、これまで以上に精密な安全判断が可能になる「Deliberative Alignment」手法を導入しました。

https://openai.com/index/deliberative-alignment/

Deliberative Alignmentによる安全性向上

  • モデル自身が提示された安全ポリシーを参照しながら内部的な推論を行うことで、どの情報を提供するべきか、またどのリクエストには応じるべきでないかをこれまで以上に的確に判断します。

  • 従来の安全強化手法よりも細やかな「拒否・許容」の線引きができ、悪意あるプロンプト(ジェイルブレイク攻撃)への耐性を強化。また、不必要な拒否を減らし、正当なユーザーリクエストに対しては適切に応答できるようになりました。

公共向け安全テストプログラム

  • OpenAIは、外部の研究者を対象とした安全テストプログラムを用意し、より強固な安全対策確立を目指します。

  • これにより、モデルの脆弱性や改良点を早期に発見し、実世界での利用を見据えた安全プロトコルを確立することが期待されています。

4. 公開時期

  • o3 miniの公開時期
    2024年1月末頃に一般公開予定。(具体的な日程は未定)

  • o3の段階的公開
    o3 mini公開後、順次「o3」モデルも一般公開される計画です。
    OpenAIはこの段階的なリリースを通じ、モデルの安全性・信頼性を高めながら、より多くのユーザーや開発者が次世代AIを活用できる環境を整えるとしています。

  • 事前安全テストへの参加募集(1月10日まで)
    研究者・開発者向けの事前安全テストプログラムへの参加受付を開始。
    こうした取り組みにより、公開前から多面的な検証や改善が進み、モデルの安全性と信頼性をより迅速に高めることが可能となります。

事前安全テストへの申し込みフォームはこちら:

https://openai.com/index/early-access-for-safety-testing/

参考:

告知

今後12日間連続でリリースがあり、知るべきことが多くなるため、23日夜にOpenAI勉強会やります👇

ここから先は

0字

AGIラボ

¥2,980 / 月
このメンバーシップの詳細

この記事が参加している募集