
【週刊AI】xAI「Grok 3」発表 × OpenAI「Operator」日本展開 | #4 2025年2月17日~2025年2月23日
〜3月2日 21:00
2025年2月も後半に入り、AI業界は引き続き大きな動きを見せています。
今週は、xAIの「Grok 3 Beta」発表をはじめ、Googleの「AI co-scientist」やSpotifyのAIナレーション拡充。Googleの動画生成モデル「Veo 2」がFalやFreepikで利用可能になり一般ユーザーにも開放される形となりました。
Figureのヒューマノイドロボットのデモと独自モデルが公開され、ロボット分野でも新たな技術革新が進んでいます。
「ChatGPT研究所」では、AI業界の重要ニュースを厳選し、最新の進展をわかりやすくまとめてお届けします。
1. xAIの新AIモデル「Grok 3 Beta」登場
2025年2月18日、xAIは新モデル「Grok 3 Beta」を発表しました。
前モデルから驚異的なスピードで、数学からプログラミングに至るまで、幅広い分野の性能を向上させています。
また、「Think(推論機能)」や「DeepSearch(検索エージェント)」といった新機能も発表されました。

主な特徴:
高度な推論
Grok 3(Thinkモード)は数秒から数分かけて複数のアプローチを検討し、誤りを補正しながら解答に至ります。Grok 3 miniの省コスト設計
数学など特定タスクで高精度を保ちつつ、リソースを抑えたモデルを提供。大容量コンテキスト処理
最大100万トークンの入力に対応し、大規模文書や長文指示への対応力を強化。新エージェント「DeepSearch」
ウェブやXに接続し、複雑な調査を自動化するエージェント機能。以下のようにXから直接情報を取得できる点が強みとなっています。

ベンチマーク:
AIME(数学競技): Grok 3(Think)は93.3%、Grok 3 mini(Think)も90%以上を達成。
GPQA(大学院レベルQ&A): 約84.6%の正解率を記録。
LiveCodeBench: コード生成タスクで79.4%という高スコア。

そんな中、OpenAIの研究者は、xAIのGrok 3のベンチマーク結果が誤解を招くと批判。これに対し、xAIの共同創業者であるIgor Babushkinが反論し、AIベンチマークの評価方法や報告のあり方を巡る議論が広がっています。
Grokチームが評価テストで不正や誤解を招くようなことをする動機があるのは残念だ。要約すると、o3-miniはすべての評価においてGrok 3より優れている。Grok 3は確かに良いモデルだけど、過大評価する必要はないよね。

一部の専門家や競合他社からは、Grok 3が示した高スコアについて「測定手法の透明性」などの点に関する指摘があり、議論が続いています。
測定方法の不透明性
cons@64と呼ばれる複数回試行を前提としたスコアを公表していない点が批判の的に。コスト面の不確定要素
高いスコアを得るための計算リソースと費用対効果が不明確で、実用性への評価は今後の検証次第との声が上がっています。
Xプレミアムプラスの大幅値上げ
Grok 3の提供タイミングと重なる形で、Xは有料プラン「Xプレミアムプラス」の料金を大幅に引き上げました。Web経由での契約は月額2,590円→6,080円、iOSアプリからは3,900円→8,000円など、契約方法によって値上げ幅が異なります。
理由としては新AI機能導入が挙げられていますが、詳細な説明はまだ行われていません。

Grok 3 Betaは複雑な推論機能や大容量コンテキスト処理を武器に、新時代のAIモデルとして注目を集めています。
一方で、ベンチマーク結果の公平性やコスト面など、解決が必要な課題も浮上しています。
今後はエンタープライズ向けAPIも公開予定としています。
Grok 3についてはこちらでも解説しています。
2. Googleの新AI「AI co-scientist」登場
Google ResearchとGoogle DeepMindは2025年2月19日、研究者をサポートするマルチエージェントAIシステム「AI co-scientist」を発表しました。
Gemini 2.0を基盤とし、文献検索や要約を超えて新たな研究仮説と実験プロトコルを提案できる点が特徴です。自然言語で指示やフィードバックを行うことで、各分野の専門性を横断する人間とAIの協働が可能になります。
Today we introduce an AI co-scientist system, designed to go beyond deep research tools to aid scientists in generating novel hypotheses & research strategies. Learn more, including how to join the Trusted Tester Program, at https://t.co/1eqmTTZOLr pic.twitter.com/RetLM5Tr8f
— Google AI (@GoogleAI) February 19, 2025
主な特徴
マルチエージェント構成
生成エージェントや評価エージェントなど複数のエージェントが連携し、新しい仮説を生成・評価・進化させます。

Eloスコアによる自己評価
仮説同士を自動的にトーナメント形式で比較し、勝敗結果に基づいてEloスコアを算出。スコア上昇とともに精度が高まることを確認。多彩な研究応用
白血病の薬剤再利用、肝線維症の新規標的探索、耐性菌の遺伝子転移機構など、多岐にわたる実験で有望な結果を示しています。人間との協働
研究者の追加アイデアや検証結果を取り込みながら、仮説を迅速にブラッシュアップする設計。
実用例の一部:AIが「耐性菌の遺伝子転移機構」を独自に再発見
実用例の一つとして「耐性菌の遺伝子転移メカニズムに関する再発見」が紹介されています。
研究者が過去に実験で明らかにした内容をAIに伝えずに、同じ研究課題を提示したところ、AI co-scientistはわずか2日間で同じ結論に到達しました。

課題: 耐性菌の拡散に関わる「cf-PICIs」と呼ばれる遺伝子要素の役割を解明
従来の研究プロセス: 2013年から2025年にかけて10年以上の研究を経て実験的に証明
AI co-scientistを用いたアプローチ: 文献情報を統合し、独自に仮説を生成 → 自動評価と改良を繰り返し、研究者の発見と同様の結論を導出
この例では、従来の研究では10年以上かかって解明された内容が、AI co-scientistの仮説生成と検証プロセスによりわずか2日で再発見されました。
Googleは研究機関を対象にテスタープログラムを開始し、AI co-scientistを試験導入すると発表しています。
一方で、文献の精密性や外部ツール連携など改善の余地も指摘されており、さらなる開発と専門家レビューが進められる見込みです。
3. HPがHumaneを$116Mで買収、AI Pinは事実上終了
ハードウェア系スタートアップHumaneはHPに$116Mで買収され、AI Pinの販売を即時終了すると発表した。これに伴い、$499で販売されていたAIウェアラブル端末「AI Pin」のサービスが2月28日をもって打ち切られ、接続やAI機能が使えなくなります。
購入から90日以内であれば返金が可能ですが、その他ユーザーへのサポートは終了するとしています。

主な経緯:
AI Pinの不振
2024年4月の発売直後から返品が相次ぎ、バッテリーの発火リスクで充電ケースの使用停止を呼びかけるなどトラブルが続出。価格引き下げも効果薄
当初は699ドルだった価格を499ドルに引き下げたものの、販売数は伸び悩みました。HPによる事業継承
Humaneのエンジニアや製品担当者はHP内の新部門「HP IQ」に移籍し、CosmOSなどのAI技術をプリンターやPCへ展開すると発表されています。
今後の展望: HPはAI OSの知見を活用し、次世代の「働き方」を支える製品イノベーションを推進するとしています。

ここから先は
2月23日 21:00 〜 3月2日 21:00