ChatGPTが買い物してくれる！米国で実装された「Operator」の情報まとめ

更新日：2月27日

ついにChatGPTがブラウザを操作して代わりに”おつかい”に行ってくれるようになりました。その名も「Operator」

残念ながら日本での公式提供はまだですが、米国では既に利用されています！

今回は公開されている情報を基に、Operatorの重要情報をまとめました。

※公式ページはこちら

OpenAIの最新機能「Operator」

Operatorは、クラウド上のブラウザを利用してユーザーのタスクを自動で実行。たとえば、レストランの予約やオンラインショッピングが可能です。

タスクを実行中も推論し、次のタスクを自分で構築するので、予期しないアクシデントが起こっても対応できます。

その際はユーザーに対して確認が行われ、予定を変更して実行します。

自動操作に致命的な制限は無い様子ですが、基本的には外部サービスを選択してタスクを実行していました。日本でOperatorが提供された際に、楽天を始めとする国内サービスを認識できるのかが気になるところです。

Operatorに対して「追加の指示」を出すことが可能なので、自分の傾向などを事前に理解させることが可能です。

ただ、従来のパーソナライズと同じなら長くて複雑なプロンプトを理解させるのは難しいと思われるため、簡潔な内容が望ましいでしょう。

プライバシー保護のため、重要なタスク（ログインや最終承認）は基本的にユーザーが行います。

ただし、動画内では「クッキーを利用して、自動でログインできる」というような発言があったため、自動的にもできるようです。しかしながら、基本的には機密性が高い操作はユーザーが行う事を推奨しています。

タスク実行中に画面に映っている仮想マシンの主導権をユーザーに移す事で、画面を操作できます。この際、Operatorは内容を把握できません。なので、ユーザーは自分が行った操作を「メモ書き」のようにOperatorに伝えることができます。

動画内では「同僚からラップトップを借りて、修正した後に返すのと似ている」と話していました。

タスク実行中のOperatorの履歴を見ることができます。

チャット内で「Chain of thought（連鎖思考）」を見ることができ、意図しない操作をユーザーが検知することが可能です。

GPT-4を基盤とした技術で、スクリーンのピクセル情報を解釈して動作します。APIを利用せずに、画面全体を人間のように操作する仕組みです。

つまり、スクリーンショットを随時撮影し、それに沿って実際にクリックや入力を行う仕組みのようです。この操作は仮想マシン上で行われるので、ユーザーが別の操作をしているのを撮影されることはありません。

この仕組みによって、OperatorはAPIを利用する必要がありません。APIはシステムの橋渡しのようなものです。簡単に言えば、Operatorは人間と同じように動くので、プログラミングや従量課金が必要ないということです。

Operatorに用いられているCUA（対話型エージェント）は「コンピュータ及びブラウザを動かすこと」に最適化されています。動画内ではベンチマークも語られており。まだ人間のスコアと比べて改善の余地があると述べていました。

ただ、それでも「Previous SOTA（現在の最新技術）」と比べて明確に優れているようです。

現在は米国のProユーザーのみに提供されていますが、VPNを使えば使用可能です。

OpenAIが意図している使い方ではないので余りおすすめはできませんが、一刻も早く体験したいギークの皆さんは考慮してみてください。

まだ研究段階にとどまっている機能ではありますが、数年以内には実用的になると考えられます。

現在中国がAI技術で猛進していますので、OpenAIが機能面でどのように差をつけるかに注目です。