o1 Pro vs o1 徹底比較:数学・専門知識・文章作成能力で性能検証
ついにOpenAIから、最新AIモデル「o1」の正式版、およびその強化版である「o1 Pro」が公開されました。
しかし、o1 Proを利用するには日本円にして約3万円かかるため、契約するか悩んでいる方も多いのではないでしょうか?
そこで、o1と最新のo1 Pro、およびGeminiやClaudeなどの他社モデルの回答を比較してみました。
o1、o1 Proの性能や基本的な使い方等はこちらにまとめています。まだお読みでない方は、こちらも合わせてご覧ください。
数学性能
まず、o1モデルが得意とする数学問題を解かせてみます。
第 34 回日本数学オリンピック予選 第二問
o1 Proの回答:
回答まで2分17秒で正解しました。
o1の回答:
5分43秒掛かって失敗してしまいました。
o1に新しいスレッドで再度解かせたところ、48秒で正解しました。
合計3回、それぞれのモデルに回答させましたがo1 Proは3回中3回とも正解し、o1は3回中2回正解しました。
結果をまとめると以下のようになります。
o1 Proは回答時間はまちまちで、約6分と約2分の両方が見られます。安定して正解しているものの、常に短時間で解けるわけではないことが分かります。
o1 は初回は5分以上かけて不正解、その後、1~2分程度で正解に至るケースもありました。
回答時間そのものは安定していませんが、必ずしも時間をかければ正確になるわけでもない点が特徴的です。
最終的に、o1も正解にたどり着きました。回答までのステップを比べると、o1 Proはより細かいステップで回答を導き出し、桁ごとの繰り上がりまで詳細に計算していました。一方、o1は簡潔な回答をしていることがわかります。
第 34 回日本数学オリンピック予選 第三問
o1 Proの回答:
2分15秒掛かって正解しました。
o1の回答:
ちょうど1分で正解しました。
今回も両モデルとも正解しました。
評価が難しいので、o1 Proに両モデルの回答を比較してもらいました:
ここまでの検証から、o1 Proは丁寧に問題を解き解説も細かく行う傾向がありそうです。回答時間も、o1の2倍以上かかっています。