OpenAI o1徹底解説。プロンプト作成のコツやGPT-4oとの違いを紹介

ChatGPT研究所

2024年9月16日 00:57

はじめに

OpenAIは2024年9月、新しい言語モデルシリーズ「o1」を発表しました。この「o」はOpenAIの頭文字を表しています。

o1は従来のGPT-4oとは異なり、複雑な問題解決に特化した推論モデルです。その特徴は以下の通りです：

人間のように時間をかけて「考える」内部プロセスを持つ
科学、数学、コーディングなどの複雑なタスクで高い性能を発揮

このような新しいアプローチにより、o1の使用方法、プロンプト設計、適切な使用場面は従来のモデルとは異なる部分があります。

本記事では、o1モデルの特徴、使い所、効果的なプロンプト設計について詳しく解説していきます。

o1モデルとは

o1モデルは、OpenAIが開発した新しい大規模言語モデルシリーズです。

特徴

o1モデルの最大の特徴は、その高度な推論能力です。科学、数学、コーディングなどの複雑な分野において、博士課程の学生に匹敵する、あるいはそれを上回る性能を発揮します。

例えば、国際数学オリンピック予選問題（AIME）では83.3%という驚異的な正答率を達成しました。これは、同じ問題セットでGPT-4oが示した13.4%の正答率を大きく上回る結果です。

o1モデルが高い推論能力を実現できるのは、その独特な内部思考プロセスにあります。人間が複雑な問題に直面したときのように、モデルは即座に答えを出すのではなく、「考える」時間を持ちます。

この過程で、モデルは「推論トークン」と呼ばれる特殊なトークンを使用し、内部で長い思考チェーンを生成します。

https://platform.openai.com/docs/guides/reasoning/how-reasoning-works

これにより、問題の本質を深く理解し、適切な解決策を導き出すことが可能になります。

さらに、o1モデルは優れた自己修正能力を持っています。問題解決の過程で、モデルは複数のアプローチを試行し、最適な解決策を見つけ出します。また、自身の誤りを認識し、修正する能力も備えています。

設計思想

o1モデルの設計思想の核心は、人間の思考プロセスを忠実に再現することにあります。特に重要なのは、「Chain of Thought」と呼ばれる概念です。

o1は、人間が難しい質問に答える前に長時間考えるのと同様に、問題解決を試みる際にChain of Thoughtを使用します。

強化学習を通じて、o1はこの思考の連鎖を磨き、使用する戦略を洗練させていきます。

具体的には、自身の間違いを認識して修正し、複雑なステップをより簡単なものに分解し、現在のアプローチが機能しない場合は異なる方法を試みる能力を学習しています。

モデルバリエーション

o1シリーズには現在、2つのバリエーションが存在します：

① o1-preview：

このモデルは、広範な知識を活用した複雑な推論が可能です。
出力トークンの上限は32,768トークンで、多岐にわたる高度な推論タスクに適しています。

② o1-mini：

o1-miniは、コーディング、数学、科学タスクに特化したモデルです
o1-previewと比較して高速で低コストな処理が可能です。
出力トークンの上限は65,536トークンと、より長い出力を生成できます。

両モデルとも、128,000トークンコンテキストウィンドウを持っています。これにより、長文の入力や複雑な問題設定にも対応可能です。

ナレッジカットオフは2023年10月です。

o1モデルの使い所

o1モデルは複雑な推論を要する特定分野で優れた性能を発揮します。
主な適用分野は以下の通りです：

① 科学研究のサポート

物理学、化学、生物学などの複雑な問題解決に適しています。高度な理論検証や実験データ解析、新仮説生成のアシスタントとして活用できます。

水素原子のDirac方程式も解ける pic.twitter.com/dR9FJcVhIP
— 中田真秀 (@NakataMaho) September 13, 2024

ChatGPTのo1-previewが使えるようになっていたので、早速、現在やっているある研究について、従来にない発想での研究方法を請求したところ、30秒程度あれこれ考えている様子。出てきた研究方法は、確かに従来まったく知られていない方法で非常にユニークかつ実用的で、驚嘆した。これはマジで使える！
— yhkondo (@yhkondo) September 13, 2024

② 高度な数学問題の解決

国際数学オリンピックレベルの問題を高精度で解くことができ、複雑な証明の検証や新しい数学的アプローチの探索に役立ちます。

2. 東大入試の数学問題の正解するhttps://t.co/2e1XIeRGfz pic.twitter.com/E2LCJEPBBZ
— ChatGPT研究所 (@ctgptlb) September 13, 2024

東大の数強の人がOpenAI o1の回答(京大の伝説の入試問題)を検証してみて、通常回答とは別解の大学レベルのテクニックを利用しているのを確認しているので、OpenAI o1の推論能力はガチっぽいです。 https://t.co/AC4dboRUDa
— 今井翔太 / Shota Imai@えるエル (@ImAI_Eruel) September 13, 2024

③ 戦略的意思決定のサポート

複雑な状況下での意思決定や戦略立案において、多角的な分析と推論を提供します。

おお、o1のフェルミ推定は流石にめちゃくちゃ強い💡
「日本の電柱の数は」という元木ベンチマークテストで、普通は都市部と地方の電柱間隔ぐらいしか確認しないのに、人口密度と配電網との関係性を推論、通信インフラ用電柱を考慮、地下化率まで網羅的にチェック。… pic.twitter.com/VkYl8E7h8B
— 元木大介ᯅシステム生成AI Babel/Zoltraak & 生成AI塾 (@ai_syacho) September 12, 2024

o1 すげぇな。今まで頼りづらかった抽象度の高いタスクが、丸投げできるやん。

事業計画とか作らせてみたら、精度全く違う。

軽くパワハラしてたら、めちゃくちゃカクカクしたことだけ玉に瑕。笑 pic.twitter.com/FdY4VRZQxY
— 平岡 | 誰も置いていかない生成AI発明家 (@hiraoka_dx) September 12, 2024

④ 教育・学習支援

複雑な概念の説明や段階的な問題解決のガイダンス、個別化された学習計画の作成に活用できます。