見出し画像

AIがブラウザを自動で操作。OpenAIのAIエージェント『Operator』登場。

2025年1月24日、OpenAIはウェブ上のタスクを自動実行するAIエージェント「Operator」を公開しました。

ユーザー専用のリモートブラウザを使ってサイトを閲覧・操作し、さまざまなタスクを自動化できます。

現在はアメリカのProユーザー向けの研究プレビュー版として提供されており、OpenAIはユーザーからのフィードバックをもとに機能を改善しながら、将来的にはPlusやTeam、Enterpriseへの展開も検討されています。

「Computer-Using Agent(CUA)」とは?

Operatorの中核にあるのが、新しいモデルである Computer-Using Agent(通称:CUA) です。

GPT-4oの視覚的能力と強化学習による推論力を組み合わせることで、
画面上のボタンやフォームといったグラフィカルユーザーインターフェイス(GUI)を解析し、マウスやキーボードといった操作を再現するように学習されています。

独自のAPI連携がないサイトでも、人間が使う画面インターフェイスをそのまま操作できるため、多くのウェブページやサービスを横断して自動化できる点が特徴です。

どのように動作するのか

CUAは「見る(スクリーンショットの解析)」「考える(内部推論)」「行動する(クリックや入力)」を繰り返し、タスクを段階的に進めます。

もし誤操作があった場合も、CUAが自力で修正を試みます。

途中で行き詰まると、ユーザーが操作を引き継げる仕組み「Take over」機能を備えており、完全な自動任せではなく人間との共同作業が可能です。

途中でユーザーが代わりに操作を引き継いでいる画面


ユーザーが操作した内容をOperatorに伝えている様子

成果とベンチマーク

CUAは開発初期段階ですが、複数のベンチマークの結果が報告されています:

  • WebArena(オフライン環境での模擬サイト使用): 成功率 58.1%

  • WebVoyager(実際のAmazon・GitHubなどオンラインサイト): 成功率 87%

  • OSWorld(Ubuntu・Windows・macOSなどのOS操作): 成功率 38.1%

いずれも既存モデルより大きく向上しているものの、まだ人間の操作には及ばない領域があるとされています。
将来的にはより複雑なインターフェイス操作にも対応できるようになる計画です。

Operatorで何ができるのか

Operatorは、CUAの機能を活用し、ユーザーが与えた指示を元にウェブブラウザを自律的に操作するエージェントです。下記のようなタスクをまとめて任せることができます。

  • 定型的なフォームの入力・送信

  • オンラインショッピングでの商品検索・注文

  • ウェブアプリでのToDoリストやスケジュール作成

  • SNSや検索エンジンを使った情報収集

特に独自APIを持たないウェブサービスでも、画面上のボタンやメニューをクリックし、ユーザーインターフェイスと同じ操作でタスクを進められる点が強調されています。

また、Operator は新しいスレッドを作成することで、複数のタスクを切り替えながら同時に進める様子がデモで示されています。

デモの一例

① レストラン予約
以下のように「レストランで19時に二名分の席を探してほしい」と依頼すると、Operatorが自動でOpenTableなどの予約サイトを開き、候補時間が出るとユーザーに確認を求めるデモが披露されました。

ユーザー:今夜19時にベレッタで二名の予約をお願いします。

ベレッタはレストラン名

画面右側でChatGPTが操作するウェブブラウザが表示され、動作を確認可能できます:

Operator:今夜ベレッタで予約が取れる最も早い時間は19時45分です。こちらでご予約いたしましょうか?

ユーザー:はい、それで大丈夫です。ぜひお願いします。

② ネットスーパーで食材注文
また、次のように買い物リストの画像を添付して、それをオンラインサイトで購入するといったデモも披露されました。

ユーザー:これを買ってきてもらえますか? ガス(スーパーマーケットの名前)が好きです。
*買い物リストの画像を添付

Operator:では、Instacartでリストにある商品を探し始めますね。卵、ほうれん草、マッシュルーム、鶏もも肉、そしてチリクラッチ(チリオイル系の調味料)を中心に探してみます。可能であればGus’s Marketの製品を優先してチェックします。適切な商品が見つかったらカートに追加しますね。このプランで大丈夫でしょうか?

Operator:リストにあった商品をすべて Gus’s Community Market のカートに追加しました。合計金額は 42.14ドルで、配達は 10:30~10:46 に可能です。チェックアウトに進んでもよろしいでしょうか?

安全性への取り組み

ブラウザを自動操作できるAIには、不正購入誤ったフォーム入力といったリスクがあります。

OpenAIはこれらを大きく下記の3つに分類し、対策を進めています。

  1. 悪用の防止

    • 有害・違法タスクは実行しないポリシーを導入

    • ブロックリストによるサイト制限

    • リアルタイムモデレーションと違反検出

  2. モデルのミス対策

    • 注文確定やメール送信などは、ユーザーに最終確認を求める

    • 場合によってはユーザーが操作を引き継げる仕組み(Take over)を整備

    • 銀行取引などの敏感なタスクは現時点で限定的

  3. フロンティアリスク

    • GPT-4oでも議論されている、バイオ関連や大規模悪用などの可能性

    • 引き続き監視体制を保ちながら、過度な自律性を与えないよう調整

さらに、外部サイト側での埋め込みテキストや隠し指示によるプロンプトインジェクションを防ぐため、操作画面を監視する仕組みも設けられています。

ユーザーの個人情報やCookie情報の取扱いに関しては、アメリカ以外、とりわけ欧州(EU)での提供が慎重に進められる見込みです。

今後の展望

OpenAIは、今後のロードマップとして以下を検討しています。

サービス範囲の拡大
研究プレビュー版としてはアメリカのProユーザーからのスタートだが、他地域への展開も順次進める予定。ただし欧州などでは規制やデータ保護の観点で時間を要する見通しです。

さらなるエージェント追加
すでにOperator以外のエージェント開発も示唆されており、特定の業務に特化した機能を持つエージェントが今後リリースされる可能性があります。

CUAのAPI提供
CUA自体をAPIとして開放し、開発者が独自のエージェントを構築できるようにする方針。これにより、企業や個人が自社専用の自動化ツールを作ることが容易になると見られています。

ユーザーのカスタム指示
ユーザーの住居地域や嗜好などを一度設定すると、常にその条件を考慮してタスクを進めるカスタマイズ機能が強化されるとされています。

まとめ

OpenAIのOperatorは、ブラウザのボタンやメニューをAIで直接操作する仕組みにより、API非対応のサービスでも自動化を可能にしています。

ユーザーは複数のタスクを並行処理でき、必要に応じて操作を引き継ぐこともできます。

安全対策としては、最終確認ブロックリストモニタリングなど多層的な仕組みを導入し、海外展開における法規制にも配慮する方針です。

今後は特化型エージェントの追加CUAのAPI提供が予定され、企業や開発者による応用範囲の拡大が期待されます。

参考:

https://openai.com/index/introducing-operator/
https://openai.com/index/computer-using-agent/
https://openai.com/index/operator-system-card/
https://cdn.openai.com/operator_system_card.pdf
https://openai.com/policies/using-operator-in-line-with-our-policies/

ここから先は

0字

AGIラボ

¥2,980 / 月
このメンバーシップの詳細

この記事が参加している募集