AIがブラウザを自動で操作。OpenAIのAIエージェント『Operator』登場。

ChatGPT研究所

2025年1月24日 05:21

2025年1月24日、OpenAIはウェブ上のタスクを自動実行するAIエージェント「Operator」を公開しました。

ユーザー専用のリモートブラウザを使ってサイトを閲覧・操作し、さまざまなタスクを自動化できます。

現在はアメリカのProユーザー向けの研究プレビュー版として提供されており、OpenAIはユーザーからのフィードバックをもとに機能を改善しながら、将来的にはPlusやTeam、Enterpriseへの展開も検討されています。

「Computer-Using Agent（CUA）」とは？

Operatorの中核にあるのが、新しいモデルである Computer-Using Agent（通称：CUA） です。

GPT-4oの視覚的能力と強化学習による推論力を組み合わせることで、
画面上のボタンやフォームといったグラフィカルユーザーインターフェイス（GUI）を解析し、マウスやキーボードといった操作を再現するように学習されています。

独自のAPI連携がないサイトでも、人間が使う画面インターフェイスをそのまま操作できるため、多くのウェブページやサービスを横断して自動化できる点が特徴です。

どのように動作するのか

CUAは「見る（スクリーンショットの解析）」「考える（内部推論）」「行動する（クリックや入力）」を繰り返し、タスクを段階的に進めます。

もし誤操作があった場合も、CUAが自力で修正を試みます。

途中で行き詰まると、ユーザーが操作を引き継げる仕組み「Take over」機能を備えており、完全な自動任せではなく人間との共同作業が可能です。

成果とベンチマーク

CUAは開発初期段階ですが、複数のベンチマークの結果が報告されています：

WebArena（オフライン環境での模擬サイト使用）: 成功率 58.1%
WebVoyager（実際のAmazon・GitHubなどオンラインサイト）: 成功率 87%
OSWorld（Ubuntu・Windows・macOSなどのOS操作）: 成功率 38.1%

いずれも既存モデルより大きく向上しているものの、まだ人間の操作には及ばない領域があるとされています。
将来的にはより複雑なインターフェイス操作にも対応できるようになる計画です。

Operatorで何ができるのか

Operatorは、CUAの機能を活用し、ユーザーが与えた指示を元にウェブブラウザを自律的に操作するエージェントです。下記のようなタスクをまとめて任せることができます。

定型的なフォームの入力・送信
オンラインショッピングでの商品検索・注文
ウェブアプリでのToDoリストやスケジュール作成
SNSや検索エンジンを使った情報収集

特に独自APIを持たないウェブサービスでも、画面上のボタンやメニューをクリックし、ユーザーインターフェイスと同じ操作でタスクを進められる点が強調されています。

また、Operator は新しいスレッドを作成することで、複数のタスクを切り替えながら同時に進める様子がデモで示されています。

デモの一例

① レストラン予約
以下のように「レストランで19時に二名分の席を探してほしい」と依頼すると、Operatorが自動でOpenTableなどの予約サイトを開き、候補時間が出るとユーザーに確認を求めるデモが披露されました。

ユーザー：今夜19時にベレッタで二名の予約をお願いします。

ベレッタはレストラン名

画面右側でChatGPTが操作するウェブブラウザが表示され、動作を確認可能できます：

Operator：今夜ベレッタで予約が取れる最も早い時間は19時45分です。こちらでご予約いたしましょうか？

ユーザー：はい、それで大丈夫です。ぜひお願いします。

② ネットスーパーで食材注文
また、次のように買い物リストの画像を添付して、それをオンラインサイトで購入するといったデモも披露されました。

ユーザー：これを買ってきてもらえますか？ガス（スーパーマーケットの名前）が好きです。
*買い物リストの画像を添付

Operator：では、Instacartでリストにある商品を探し始めますね。卵、ほうれん草、マッシュルーム、鶏もも肉、そしてチリクラッチ（チリオイル系の調味料）を中心に探してみます。可能であればGus’s Marketの製品を優先してチェックします。適切な商品が見つかったらカートに追加しますね。このプランで大丈夫でしょうか？

Operator：リストにあった商品をすべて Gus’s Community Market のカートに追加しました。合計金額は 42.14ドルで、配達は 10:30～10:46 に可能です。チェックアウトに進んでもよろしいでしょうか？

安全性への取り組み

ブラウザを自動操作できるAIには、不正購入や誤ったフォーム入力といったリスクがあります。

OpenAIはこれらを大きく下記の3つに分類し、対策を進めています。

悪用の防止
- 有害・違法タスクは実行しないポリシーを導入
- ブロックリストによるサイト制限
- リアルタイムモデレーションと違反検出
モデルのミス対策
- 注文確定やメール送信などは、ユーザーに最終確認を求める
- 場合によってはユーザーが操作を引き継げる仕組み（Take over）を整備
- 銀行取引などの敏感なタスクは現時点で限定的
フロンティアリスク
- GPT-4oでも議論されている、バイオ関連や大規模悪用などの可能性
- 引き続き監視体制を保ちながら、過度な自律性を与えないよう調整