AIの未来は、Webページを自律的にナビゲートできるエージェントにかかっています。 テクノロジー企業は、Webタスクを自動化し、生産性を向上させるために、ブラウザプロキシの開発に投資しています。 この記事では、Web3ネイティブのシナリオによってもたらされるユースケース、現在の課題、および機会について説明します。 この記事は Mario Chow と Figo, @IOSG によって書かれ、BlockBeats によって編集、編集、寄稿されました。 OpenAI Sam Altman: Google Chrome の買収に興味があります!) 参加市場で最大のブラウザバトル)(背景を追加:PerplexityがChromeブラウザの買収に345億ドルを提供、AI検索エンジンの手先が巨人と戦う) 過去12か月で、Webブラウザと自動化の関係は劇的に変化しました。 ほとんどすべての大手テクノロジー企業は、独自のブラウザプロキシ(browser agent)の構築に奔走しています。 2024年末から、この傾向はより顕著になりつつあります:OpenAIは1月にエージェントモードを開始し、AnthropicはClaudeモデルの「コンピューター使用」をリリースし、Google DeepMindはProject Marinerを開始し、OperaはプロキシブラウザのNeonを発表し、Perplexity AIはCometブラウザをリリースしました。 AIの未来は、Webページを自律的にナビゲートできるエージェントにあるという明確なシグナルです。 このトレンドは、ブラウザにスマートなチャットボットを追加するだけでなく、機械がデジタル環境と対話する方法に根本的な変化をもたらすものです。 ブラウザエージェントは、Webページを「見て」、リンクのクリック、フォームへの入力、ページのスクロール、テキストの入力など、人間のユーザーと同じようにアクションを実行するAIシステムです。 このモデルは、従来のスクリプト作成にはまだ手作業や複雑すぎるタスクを自動化することで、生産性と経済的価値を大幅に向上させることを約束します。 ▲GIFデモ:AIブラウザエージェントの動作:指示に従い、ターゲットデータセットページに移動し、自動的にスクリーンショットを撮り、必要なデータを抽出します。 AIブラウザ戦争に勝つのは誰でしょうか? (のほとんどすべての大手テクノロジー企業や、独自のブラウザAIエージェントを開発)スタートアップ企業もあります。 ここでは、代表的なプロジェクトをいくつか紹介します: OpenAI – エージェント モード OpenAI のエージェント モード(、以前は Operator として知られていました。2025 年 1 月に開始)、独自のブラウザを備えた AI エージェントです。 オペレーターは、ウェブフォームへの記入、食料品の注文、会議のスケジュール設定など、人間が一般的に使用する標準的なウェブインターフェースを通じて、さまざまな反復的なオンラインタスクを処理できます。 ▲AIエージェントは、プロのアシスタントのように会議をスケジュールします:カレンダーを確認し、利用可能な時間枠を見つけ、イベントを作成し、確認を送信し、.icsドキュメントを生成します。 Anthropic – Claude の「コンピューター使用」 2024 年末、Anthropic は Claude 3.5 に新しい「コンピューター使用(コンピューター )Use」機能を導入し、コンピューターとブラウザーを人間のように操作できるようになりました。 クロードは、画面を見たり、カーソルを動かしたり、ボタンをクリックしたり、テキストを入力したりできます。 これは、パブリックベータに入ったこの種の最初の大規模モデルプロキシツールであり、開発者はClaudeにWebサイトやアプリを自動的にナビゲートさせることができます。 Anthropicは、Webページ上のマルチステップワークフローを自動化することを主な目標とする実験的な機能として位置付けています。 Perplexity – Comet AIのスタートアップ企業であるPerplexity ( Q&Aエンジンで最もよく知られており) 2025年半ばにChromeに代わるAI搭載のCometブラウザを発売しました。 Cometの中核は、URLバー (omnibox)に組み込まれた会話型AI検索エンジンであり、従来の検索リンクの代わりに即時のQ&Aと要約を提供します。 さらに、Cometには、サイト間の日常的なタスクを自動化するサイドバー常駐エージェントであるComet Assistantが組み込まれています。 たとえば、開いたメッセージの要約、会議のスケジュール設定、ブラウザーのページネーションの管理、ユーザーに代わって Web 情報の閲覧とクロールを行うことができます。 Cometは、エージェントがサイドバーインターフェースを通じて現在のWebコンテンツを認識できるようにすることで、ブラウジングとAIアシスタントをシームレスに融合させることを目指しています。 ブラウザプロキシの実際のアプリケーションシナリオ前回の記事では、(OpenAI、Anthropic、Perplexityなどの)つの主要なテクノロジー企業が、さまざまな製品形式でブラウザプロキシをどのように(browserしているかを確認しました agents) Inject 機能。 その価値をより直感的に理解するために、これらの機能を実際のシナリオで日常生活や企業のワークフローにどのように適用できるかを詳しく見てみましょう。 Daily Web Automation # E-commerce & Personal Shopping 非常に実用的なシナリオは、ショッピングと予約のタスクをエージェントに委任することです。 エージェントは、オンラインショッピングカートに自動的に入力し、固定リストに基づいて注文することも、複数の小売業者から最低価格を見つけて、あなたに代わってチェックアウトプロセスを完了することもできます。 旅行の場合は、AIに「来月東京行きのフライトを( ) 800ドル未満の運賃で予約し、無料Wi-Fi付きのホテルを予約してください」などのタスクを実行させることができます。エージェントは、フライトの検索、オプションの比較、乗客情報の入力、ホテルの予約の完了など、すべてのプロセスを航空会社とホテルのWebサイトを通じて処理します。 このレベルの自動化は、既存の移動ロボットをはるかに超えており、単に購入を推奨するだけでなく、直接購入を実行します。 # オフィスの効率を向上させる プロキシは、人々がブラウザで行う反復的なビジネスアクションの多くを自動化することができます。 たとえば、メールを整理してToDoリストを抽出したり、複数のカレンダーのギャップを確認して会議を自動的にスケジュールしたりできます。 PerplexityのCometアシスタントは、すでに受信トレイの内容を要約したり、Webインターフェイスを介して議題を追加したりできます。 エージェントは、SaaSツールにログインして、定期的なレポートを生成したり、スプレッドシートを更新したり、承認後にフォームを送信したりすることもできます。 さまざまな求人掲示板に自動的にログインして求人を投稿できる人事担当者を想像してみてください。 または、CRMシステムのリードプロファイルを更新できる営業エージェント。 これらの日常的なタスクは、従業員の多くの時間を消費していましたが、AIはWebフォームとページアクションを自動化することでそれを行うことができます。 エージェントは、1つのタスクに加えて、複数のネットワークシステム間で完全なワークフローを接続できます。 これらの手順はすべて、ブラウザエージェントの強みであるさまざまなWebインターフェイスで実行する必要があります。 エージェントは、トラブルシューティングのためにさまざまなダッシュボードにログインしたり、新入社員のオンボーディング(複数のSaaSサイトでのアカウント)の作成などのプロセスを調整したりすることもできます。 基本的に、現在複数のサイトをクリックする必要があるマルチステップの操作は、エージェントが実行できます。 今日の課題と制限可能性にもかかわらず、今日のブラウザプロキシはまだ完璧ではありません。 現在の実装では、長年にわたる技術的およびインフラストラクチャ上の課題がいくつか明らかになっています。
256k 人気度
2k 人気度
19k 人気度
17k 人気度
ブラウザがAIの次の戦場になるとき、誰が排除されるのか?
AIの未来は、Webページを自律的にナビゲートできるエージェントにかかっています。 テクノロジー企業は、Webタスクを自動化し、生産性を向上させるために、ブラウザプロキシの開発に投資しています。 この記事では、Web3ネイティブのシナリオによってもたらされるユースケース、現在の課題、および機会について説明します。 この記事は Mario Chow と Figo, @IOSG によって書かれ、BlockBeats によって編集、編集、寄稿されました。 OpenAI Sam Altman: Google Chrome の買収に興味があります!) 参加市場で最大のブラウザバトル)(背景を追加:PerplexityがChromeブラウザの買収に345億ドルを提供、AI検索エンジンの手先が巨人と戦う) 過去12か月で、Webブラウザと自動化の関係は劇的に変化しました。 ほとんどすべての大手テクノロジー企業は、独自のブラウザプロキシ(browser agent)の構築に奔走しています。 2024年末から、この傾向はより顕著になりつつあります:OpenAIは1月にエージェントモードを開始し、AnthropicはClaudeモデルの「コンピューター使用」をリリースし、Google DeepMindはProject Marinerを開始し、OperaはプロキシブラウザのNeonを発表し、Perplexity AIはCometブラウザをリリースしました。 AIの未来は、Webページを自律的にナビゲートできるエージェントにあるという明確なシグナルです。 このトレンドは、ブラウザにスマートなチャットボットを追加するだけでなく、機械がデジタル環境と対話する方法に根本的な変化をもたらすものです。 ブラウザエージェントは、Webページを「見て」、リンクのクリック、フォームへの入力、ページのスクロール、テキストの入力など、人間のユーザーと同じようにアクションを実行するAIシステムです。 このモデルは、従来のスクリプト作成にはまだ手作業や複雑すぎるタスクを自動化することで、生産性と経済的価値を大幅に向上させることを約束します。 ▲GIFデモ:AIブラウザエージェントの動作:指示に従い、ターゲットデータセットページに移動し、自動的にスクリーンショットを撮り、必要なデータを抽出します。 AIブラウザ戦争に勝つのは誰でしょうか? (のほとんどすべての大手テクノロジー企業や、独自のブラウザAIエージェントを開発)スタートアップ企業もあります。 ここでは、代表的なプロジェクトをいくつか紹介します: OpenAI – エージェント モード OpenAI のエージェント モード(、以前は Operator として知られていました。2025 年 1 月に開始)、独自のブラウザを備えた AI エージェントです。 オペレーターは、ウェブフォームへの記入、食料品の注文、会議のスケジュール設定など、人間が一般的に使用する標準的なウェブインターフェースを通じて、さまざまな反復的なオンラインタスクを処理できます。 ▲AIエージェントは、プロのアシスタントのように会議をスケジュールします:カレンダーを確認し、利用可能な時間枠を見つけ、イベントを作成し、確認を送信し、.icsドキュメントを生成します。 Anthropic – Claude の「コンピューター使用」 2024 年末、Anthropic は Claude 3.5 に新しい「コンピューター使用(コンピューター )Use」機能を導入し、コンピューターとブラウザーを人間のように操作できるようになりました。 クロードは、画面を見たり、カーソルを動かしたり、ボタンをクリックしたり、テキストを入力したりできます。 これは、パブリックベータに入ったこの種の最初の大規模モデルプロキシツールであり、開発者はClaudeにWebサイトやアプリを自動的にナビゲートさせることができます。 Anthropicは、Webページ上のマルチステップワークフローを自動化することを主な目標とする実験的な機能として位置付けています。 Perplexity – Comet AIのスタートアップ企業であるPerplexity ( Q&Aエンジンで最もよく知られており) 2025年半ばにChromeに代わるAI搭載のCometブラウザを発売しました。 Cometの中核は、URLバー (omnibox)に組み込まれた会話型AI検索エンジンであり、従来の検索リンクの代わりに即時のQ&Aと要約を提供します。 さらに、Cometには、サイト間の日常的なタスクを自動化するサイドバー常駐エージェントであるComet Assistantが組み込まれています。 たとえば、開いたメッセージの要約、会議のスケジュール設定、ブラウザーのページネーションの管理、ユーザーに代わって Web 情報の閲覧とクロールを行うことができます。 Cometは、エージェントがサイドバーインターフェースを通じて現在のWebコンテンツを認識できるようにすることで、ブラウジングとAIアシスタントをシームレスに融合させることを目指しています。 ブラウザプロキシの実際のアプリケーションシナリオ前回の記事では、(OpenAI、Anthropic、Perplexityなどの)つの主要なテクノロジー企業が、さまざまな製品形式でブラウザプロキシをどのように(browserしているかを確認しました agents) Inject 機能。 その価値をより直感的に理解するために、これらの機能を実際のシナリオで日常生活や企業のワークフローにどのように適用できるかを詳しく見てみましょう。 Daily Web Automation # E-commerce & Personal Shopping 非常に実用的なシナリオは、ショッピングと予約のタスクをエージェントに委任することです。 エージェントは、オンラインショッピングカートに自動的に入力し、固定リストに基づいて注文することも、複数の小売業者から最低価格を見つけて、あなたに代わってチェックアウトプロセスを完了することもできます。 旅行の場合は、AIに「来月東京行きのフライトを( ) 800ドル未満の運賃で予約し、無料Wi-Fi付きのホテルを予約してください」などのタスクを実行させることができます。エージェントは、フライトの検索、オプションの比較、乗客情報の入力、ホテルの予約の完了など、すべてのプロセスを航空会社とホテルのWebサイトを通じて処理します。 このレベルの自動化は、既存の移動ロボットをはるかに超えており、単に購入を推奨するだけでなく、直接購入を実行します。 # オフィスの効率を向上させる プロキシは、人々がブラウザで行う反復的なビジネスアクションの多くを自動化することができます。 たとえば、メールを整理してToDoリストを抽出したり、複数のカレンダーのギャップを確認して会議を自動的にスケジュールしたりできます。 PerplexityのCometアシスタントは、すでに受信トレイの内容を要約したり、Webインターフェイスを介して議題を追加したりできます。 エージェントは、SaaSツールにログインして、定期的なレポートを生成したり、スプレッドシートを更新したり、承認後にフォームを送信したりすることもできます。 さまざまな求人掲示板に自動的にログインして求人を投稿できる人事担当者を想像してみてください。 または、CRMシステムのリードプロファイルを更新できる営業エージェント。 これらの日常的なタスクは、従業員の多くの時間を消費していましたが、AIはWebフォームとページアクションを自動化することでそれを行うことができます。 エージェントは、1つのタスクに加えて、複数のネットワークシステム間で完全なワークフローを接続できます。 これらの手順はすべて、ブラウザエージェントの強みであるさまざまなWebインターフェイスで実行する必要があります。 エージェントは、トラブルシューティングのためにさまざまなダッシュボードにログインしたり、新入社員のオンボーディング(複数のSaaSサイトでのアカウント)の作成などのプロセスを調整したりすることもできます。 基本的に、現在複数のサイトをクリックする必要があるマルチステップの操作は、エージェントが実行できます。 今日の課題と制限可能性にもかかわらず、今日のブラウザプロキシはまだ完璧ではありません。 現在の実装では、長年にわたる技術的およびインフラストラクチャ上の課題がいくつか明らかになっています。