Au cours des 12 derniers mois, la relation entre les navigateurs web et l'automatisation a connu des changements radicaux. Pratiquement toutes les grandes entreprises technologiques s'efforcent de construire des agents de navigateur autonomes. À partir de la fin de 2024, cette tendance devient de plus en plus évidente : OpenAI a lancé le mode Agent en janvier, Anthropic a publié la fonctionnalité "utilisation de l'ordinateur" pour le modèle Claude, Google DeepMind a lancé le Projet Mariner, Opera a annoncé le navigateur agent Neon, et Perplexity AI a lancé le navigateur Comet. Le signal est très clair : l'avenir de l'IA réside dans des agents capables de naviguer de manière autonome sur le web.
Cette tendance ne se limite pas à ajouter des chatbots plus intelligents aux navigateurs, mais constitue un changement fondamental dans la manière dont les machines interagissent avec l'environnement numérique. Les agents de navigateur sont un type de système d'IA capable de "voir" des pages web et d'agir : cliquer sur des liens, remplir des formulaires, faire défiler des pages, saisir du texte : tout comme des utilisateurs humains. Ce modèle promet de libérer une immense productivité et une valeur économique, car il peut automatiser des tâches qui nécessitent actuellement une intervention humaine ou qui sont trop complexes pour être réalisées par des scripts traditionnels.
▲ Démonstration GIF : Opération réelle d'un proxy de navigateur AI : Suivre les instructions, naviguer vers la page du jeu de données cible, prendre automatiquement des captures d'écran et extraire les données requises.
Qui va gagner la bataille des navigateurs AI ?
Pratiquement toutes les grandes entreprises technologiques (ainsi que certaines startups) développent leurs propres solutions d'agents AI pour les navigateurs. Voici quelques-uns des projets les plus représentatifs :
OpenAI – Mode Agent
Le mode Agent d'OpenAI (anciennement appelé Operator, lancé en janvier 2025) est un agent AI avec navigateur intégré. L'Operator peut gérer diverses tâches en ligne répétitives : par exemple, remplir des formulaires web, commander des courses, organiser des réunions : tout cela est réalisé via une interface web standard utilisée couramment par les humains.
▲ L'agent IA organise des réunions comme un assistant professionnel : vérifie le calendrier, recherche des créneaux disponibles, crée des événements, envoie des confirmations et génère un fichier .ics pour vous.
Anthropic - Claude "Utilisation de l'ordinateur" :
À la fin de l'année 2024, Anthropic a introduit une toute nouvelle fonctionnalité "Computer Use (Utilisation de l'ordinateur)" pour Claude 3.5, lui permettant d'opérer des ordinateurs et des navigateurs comme un humain. Claude peut regarder l'écran, déplacer le curseur, cliquer sur des boutons et entrer du texte. C'est le premier outil d'agent de grand modèle de son genre à entrer en version bêta publique, les développeurs pouvant faire naviguer Claude automatiquement sur des sites Web et des applications. Anthropic le positionne comme une fonctionnalité expérimentale, dont l'objectif principal est d'automatiser les flux de travail en plusieurs étapes sur le Web.
Perplexité – Comète
La start-up d'IA Perplexity (célèbre pour son moteur de questions-réponses) a lancé le navigateur Comet à la mi-2025, en tant qu'alternative alimentée par l'IA à Chrome. Au cœur de Comet se trouve un moteur de recherche conversationnel intégré dans la barre d'adresse (omnibox), capable de fournir des réponses instantanées et des résumés, au lieu des liens de recherche traditionnels.
De plus, Comet intègre Comet Assistant, un agent résidant dans la barre latérale qui peut exécuter automatiquement des tâches quotidiennes sur différents sites. Par exemple, il peut résumer vos e-mails ouverts, organiser des réunions, gérer les onglets du navigateur, ou naviguer et extraire des informations de pages web en votre nom.
L'interface de la barre latérale permet aux agents de percevoir le contenu actuel de la page web, Comet vise à fusionner de manière transparente la navigation et l'assistant AI.
Scénarios d'application réels des proxies de navigateur
Dans le texte précédent, nous avons déjà examiné comment les grandes entreprises technologiques (OpenAI, Anthropic, Perplexity, etc.) injectent des fonctionnalités dans les agents de navigation (browser agents) à travers différentes formes de produits. Pour mieux comprendre leur valeur, nous pouvons examiner comment ces capacités sont appliquées dans la vie quotidienne et dans les processus de travail des entreprises dans des scénarios réels.
Automatisation quotidienne des pages web
E-commerce et achats personnels
Un scénario très pratique est de déléguer des tâches d'achat et de réservation à un agent. L'agent peut automatiquement remplir votre panier d'achat en ligne et passer des commandes en fonction d'une liste fixe, ou chercher le prix le plus bas parmi plusieurs détaillants et finaliser le processus de paiement pour vous.
Pour les voyages, vous pouvez demander à l'IA d'exécuter une tâche comme celle-ci : "Aidez-moi à réserver un vol pour Tokyo le mois prochain (à moins de 800 dollars), puis réservez un hôtel avec Wi-Fi gratuit." L'agent s'occupera de l'ensemble du processus : rechercher des vols, comparer les options, remplir les informations des passagers et finaliser la réservation de l'hôtel, le tout via les sites des compagnies aériennes et des hôtels. Ce niveau d'automatisation dépasse de loin les robots de voyage existants : il ne s'agit pas seulement de recommandations, mais d'exécuter directement l'achat.
Améliorer l'efficacité au travail
Les agents peuvent automatiser de nombreuses opérations commerciales répétitives que les gens effectuent dans leur navigateur. Par exemple, organiser des e-mails et extraire des tâches à faire, ou vérifier les disponibilités dans plusieurs calendriers et programmer des réunions automatiquement. L'assistant Comet de Perplexity peut déjà résumer le contenu de votre boîte de réception via une interface web, ou ajouter des événements à votre agenda. Les agents peuvent également, après avoir obtenu votre autorisation, se connecter à des outils SaaS pour générer des rapports réguliers, mettre à jour des feuilles de calcul ou soumettre des formulaires. Imaginez un agent RH capable de se connecter automatiquement à différents sites de recrutement pour publier des offres d'emploi ; ou un agent commercial qui peut mettre à jour les données des prospects dans un système CRM. Ces tâches quotidiennes banales prendraient beaucoup de temps aux employés, mais l'IA peut les accomplir en automatisant les formulaires web et les opérations de pages.
En plus d'une tâche unique, l'agent peut orchestrer un flux de travail complet à travers plusieurs systèmes réseau. Toutes ces étapes nécessitent d'opérer sur différentes interfaces web, et c'est précisément la force de l'agent de navigateur. L'agent peut se connecter à divers tableaux de bord pour le dépannage, voire orchestrer des processus, comme compléter le processus d'intégration pour les nouveaux employés (créer des comptes sur plusieurs sites SaaS). En essence, toute opération multi-étapes qui nécessite actuellement d'ouvrir plusieurs sites web peut être effectuée par l'agent.
Les défis et les limites actuels
Bien que le potentiel soit énorme, les agents de navigateur d'aujourd'hui sont encore loin de la perfection. Les mises en œuvre actuelles révèlent certains problèmes techniques et d'infrastructure qui existent depuis longtemps :
Incompatibilité d'architecture
Le web moderne est conçu pour être manipulé par des navigateurs humains et a progressivement évolué au fil du temps pour résister activement à l'automatisation. Les données sont souvent enfouies dans du HTML/CSS optimisé pour l'affichage visuel, limitées par des gestes d'interaction (survol de la souris, glissement), ou accessibles uniquement via des API non publiques.
Sur cette base, les systèmes anti-bot et anti-fraude ont artificiellement ajouté des barrières supplémentaires. Ces outils combinent la réputation IP, l'empreinte du navigateur, les défis JavaScript et l'analyse comportementale (comme la randomisation des mouvements de la souris, le rythme de frappe, et le temps de séjour). Ironiquement, plus un agent IA se comporte de manière "parfaite" et efficace : par exemple, remplir instantanément un formulaire sans jamais faire d'erreur, plus il est facile d'être identifié comme une automatisation malveillante. Cela peut entraîner des échecs rigides : par exemple, l'agent d'OpenAI ou de Google peut réussir toutes les étapes avant le paiement, mais finalement être bloqué par un CAPTCHA ou un filtre de sécurité secondaire.
L'interface optimisée par l'homme et la couche de défense peu conviviale pour les robots se superposent, obligeant les agents à adopter une stratégie vulnérable d'"imitation homme-machine". Cette méthode est très susceptible d'échouer, avec un faible taux de réussite (si aucune intervention humaine n'est effectuée, le taux d'achèvement des transactions complètes est toujours inférieur à un tiers).
Préoccupations de confiance et de sécurité
Pour donner aux agents un contrôle total, il est généralement nécessaire d'accéder à des informations sensibles : identifiants de connexion, cookies, jetons d'authentification à deux facteurs, voire informations de paiement. Cela soulève des inquiétudes que les utilisateurs et les entreprises peuvent comprendre :
Que faire si l'agent fait une erreur ou est trompé par un site Web malveillant ?
Si un agent accepte un certain terme de service ou exécute une transaction, qui est responsable ?
Sur la base de ces risques, les systèmes actuels adoptent généralement une attitude prudente :
Le Mariner de Google ne saisit pas les informations de carte de crédit ni n'accepte les conditions de service, mais les retourne à l'utilisateur.
L'opérateur d'OpenAI informera l'utilisateur de prendre en charge la connexion ou le défi CAPTCHA.
L'agent alimenté par Claude d'Anthropic peut refuser directement la connexion pour des raisons de sécurité.
Le résultat est : les pauses et transitions fréquentes entre l'IA et les humains ont affaibli l'expérience d'automatisation transparente.
Malgré ces obstacles, les progrès continuent de progresser rapidement. Des entreprises comme OpenAI, Google et Anthropic tirent des leçons de leurs échecs à chaque itération. Avec l'augmentation de la demande, il est probable qu'une "co-évolution" se produise : les sites deviennent plus amicaux envers les agents dans des scénarios favorables, tandis que les agents améliorent constamment leur capacité à imiter le comportement humain afin de contourner les barrières existantes.
Méthodes et opportunités
Les proxys de navigateur actuels font face à deux réalités diamétralement opposées : d'une part, un environnement hostile de Web2, où la lutte contre les robots et les défenses de sécurité sont omniprésentes ; d'autre part, un environnement ouvert de Web3, où l'automatisation est souvent encouragée. Cette différence détermine la direction des différentes solutions.
Les solutions ci-dessous se divisent en deux catégories : l'une aide les agents à contourner l'environnement hostile de Web2, l'autre est native à Web3.
Bien que les défis auxquels sont confrontés les agents de navigateur demeurent significatifs, de nouveaux projets émergent constamment, tentant de résoudre ces problèmes directement. Les cryptomonnaies et l'écosystème de la finance décentralisée (DeFi) deviennent des terrains d'expérimentation naturels, car ils sont ouverts, programmables et moins hostiles à l'automatisation. Les API ouvertes, les contrats intelligents et la transparence sur la chaîne éliminent de nombreux points de friction courants dans le monde du Web2.
Voici quatre types de solutions, chacune répondant à une ou plusieurs des limitations fondamentales actuelles :
Navigateur natif de type proxy destiné aux opérations sur la chaîne
Ces navigateurs sont conçus dès le départ pour être pilotés par des agents autonomes et sont profondément intégrés aux protocoles blockchain. Contrairement au navigateur Chrome traditionnel, qui nécessite une dépendance supplémentaire à Selenium, Playwright ou des plugins de portefeuille pour automatiser les opérations sur la chaîne ; les navigateurs natifs basés sur des agents fournissent directement des API et des chemins d'exécution fiables pour les appels d'agents.
Dans la finance décentralisée, l'efficacité des transactions repose sur les signatures cryptographiques, et non sur le fait que l'utilisateur soit "humain". Par conséquent, dans un environnement blockchain, les agents peuvent contourner les CAPTCHA, les scores de détection de fraude et les vérifications d'empreintes de dispositifs courants dans le monde Web2. Cependant, si ces navigateurs pointent vers des sites Web2 comme Amazon, ils ne peuvent pas contourner les mécanismes de défense associés, et dans ce scénario, des mesures anti-bot normales seront toujours déclenchées.
La valeur d'un navigateur proxy ne réside pas dans sa capacité à accéder miraculeusement à tous les sites, mais dans :
Intégration de la blockchain native : portefeuille intégré et support de signature, sans avoir besoin de passer par les fenêtres contextuelles de MetaMask ou d'analyser le DOM du frontend de dApp.
Conception axée sur l'automatisation : fournit des instructions de haut niveau stables, pouvant être directement mappées sur des opérations de protocole.
Modèle de sécurité : contrôle des accès affiné et bac à sable, garantissant la sécurité des clés privées dans le processus d'automatisation.
Optimisation des performances : capacité d'exécuter plusieurs appels en chaîne en parallèle, sans rendu de navigateur ni délai d'interface utilisateur.
Exemple : Donut
Donut intègre les données et les opérations de la blockchain en tant que citoyens de première classe. Les utilisateurs (ou leurs agents) peuvent survoler pour voir les indicateurs de risque en temps réel des jetons, ou entrer directement des instructions en langage naturel comme « /swap 100 USDC to SOL ». En contournant les points de friction hostiles de Web2, Donut permet aux agents de fonctionner à plein régime dans la DeFi, améliorant la liquidité, l'arbitrage et l'efficacité du marché.
Exécution d'agents vérifiables et dignes de confiance
Accorder des privilèges sensibles aux agents comporte de grands risques. Les solutions connexes utilisent des environnements d'exécution de confiance (TEE) ou des preuves à divulgation nulle de connaissance (ZKP) pour chiffrer avant l'exécution la confirmation du comportement attendu de l'agent, permettant aux utilisateurs et à la partie adverse de vérifier les actions de l'agent sans exposer les clés privées ou les certificats.
Exemple : Phala Network
Phala utilise des TEE (tels que Intel SGX) pour isoler et protéger l'environnement d'exécution, évitant ainsi que les opérateurs de Phala ou les attaquants n'espionnent ou ne modifient la logique et les données de l'agent. Le TEE est comme une "chambre forte sécurisée" renforcée par du matériel, garantissant la confidentialité (inaccessible depuis l'extérieur) et l'intégrité (impossible à modifier depuis l'extérieur).
Pour les agents de navigateur, cela signifie qu'ils peuvent se connecter, détenir des jetons de session ou traiter des informations de paiement, et que ces données sensibles ne quitteront jamais la chambre forte sécurisée. Même si la machine de l'utilisateur, le système d'exploitation ou le réseau sont compromis, il est impossible de les divulguer. Cela atténue directement l'un des principaux obstacles à la mise en œuvre des applications d'agents : le problème de confiance concernant les informations d'identification sensibles et les opérations.
Réseau de données structurées décentralisé
Les systèmes modernes de détection des robots ne se contentent pas de vérifier si les demandes sont « trop rapides » ou « automatisées », mais combinent également la réputation de l'IP, l'empreinte du navigateur, les retours des défis JavaScript et l'analyse comportementale (comme le mouvement du curseur, le rythme de frappe, l'historique des sessions). Les agents provenant d'IP de centres de données ou d'environnements de navigation entièrement reproductibles sont facilement identifiables.
Pour résoudre ce problème, ce type de réseau ne collecte plus des pages web optimisées pour les humains, mais collecte directement et fournit des données lisibles par machine, ou en utilisant des environnements de navigation humaine réels pour faire transiter le trafic. Cette méthode contourne la vulnérabilité des araignées traditionnelles lors de l'analyse et des étapes de contournement, permettant aux agents de recevoir une entrée plus propre et plus fiable.
En redirigeant le trafic des agents vers ces sessions réelles, le réseau distribué permet aux agents IA d'accéder au contenu web comme un humain, sans déclencher immédiatement de blocage.
cas
Grass : réseau de données décentralisé / DePIN, les utilisateurs partagent leur bande passante résidentielle inutilisée, fournissant ainsi un accès amical pour les agents et géographiquement diversifié pour la collecte de données de pages publiques et l'entraînement de modèles.
WootzApp : un navigateur mobile open source prenant en charge les paiements en cryptomonnaie, avec un proxy en arrière-plan et une identité à connaissance nulle ; il "gamifie" les tâches AI/données pour les consommateurs.
Sixpence : un réseau de navigateur distribué qui route le trafic pour les agents d'IA grâce aux contributions de navigateurs du monde entier.
Cependant, ce n'est pas une solution complète. La détection des comportements (trajectoires de souris/défilement), les restrictions au niveau des comptes (KYC, ancienneté du compte) et les vérifications de cohérence des empreintes digitales peuvent toujours déclencher un blocage. Par conséquent, un réseau distribué doit être considéré comme une couche de dissimulation de base, qui doit être combinée avec des stratégies d'exécution imitant l'humain pour maximiser son efficacité.
Normes Web pour les agents (vision prospective)
Actuellement, de plus en plus de communautés et d'organisations technologiques explorent : comment les sites Web devraient-ils interagir de manière sécurisée et conforme avec des agents automatisés, si les utilisateurs du réseau à l'avenir ne sont pas seulement des humains ?
Cela a suscité des discussions sur certaines normes et mécanismes émergents, visant à permettre aux sites web d'indiquer clairement « J'autorise un agent de confiance à accéder », et de fournir un canal sécurisé pour effectuer des interactions, plutôt que de considérer par défaut les agents comme des "attaques de robots" à intercepter comme c'est le cas aujourd'hui.
«Agent Allowed» étiquette : tout comme le robots.txt que respectent les moteurs de recherche, il est possible que les futures pages web incluent une étiquette dans le code pour informer le navigateur agent « ici, un accès sécurisé est autorisé ». Par exemple, si vous utilisez un agent pour réserver un vol, le site ne vous présentera pas une multitude de CAPTCHA, mais vous fournira directement une interface authentifiée.
API Gateway pour agents certifiés : le site peut ouvrir une entrée dédiée pour les agents vérifiés, comme un "fast track". Les agents n'ont pas besoin de simuler des clics humains ou de saisie, mais empruntent un chemin API plus stable pour passer des commandes, effectuer des paiements ou interroger des données.
Discussion du W3C : Le World Wide Web Consortium (W3C) étudie comment établir un canal standardisé pour l'"automatisation contrôlée". Cela signifie que, dans le futur, nous pourrions avoir un ensemble de règles universelles permettant aux agents de confiance d'être reconnus et acceptés par les sites Web, tout en maintenant la sécurité et la responsabilité.
Bien que ces explorations soient encore à un stade précoce, une fois mises en œuvre, elles pourraient grandement améliorer la relation entre l'homme ↔ l'agent ↔ le site web. Imaginez : il n'est plus nécessaire que les agents s'efforcent d'imiter les mouvements de la souris humaine pour "tromper" le contrôle des risques, mais plutôt de compléter les tâches de manière transparente par un canal "officiellement autorisé".
Sur cette ligne, les infrastructures natives de la cryptographie pourraient prendre l'initiative. En effet, les applications sur la chaîne dépendent naturellement des API ouvertes et des contrats intelligents, ce qui est favorable à l'automatisation. En revanche, les plateformes Web2 traditionnelles pourraient continuer à adopter une approche prudente, en particulier les entreprises qui dépendent de la publicité ou des systèmes de lutte contre la fraude. Cependant, à mesure que les utilisateurs et les entreprises acceptent progressivement les gains d'efficacité apportés par l'automatisation, ces tentatives de normalisation pourraient devenir un catalyseur clé pour faire progresser l'ensemble d'Internet vers une "architecture axée sur les agents".
Conclusion
Les agents de navigateur évoluent d'outils de conversation simples à des systèmes autonomes capables d'exécuter des workflows complexes en ligne. Cette transformation reflète une tendance plus large : intégrer l'automatisation au cœur de l'interaction des utilisateurs avec Internet. Bien que le potentiel d'amélioration de la productivité soit immense, les défis sont tout aussi importants, y compris comment surmonter les mécanismes anti-robots bien ancrés et comment garantir la sécurité, la confiance et une utilisation responsable.
À court terme, l'amélioration des capacités de raisonnement des agents, une vitesse accrue, une intégration plus étroite avec les services existants et les avancées des réseaux distribués pourraient progressivement améliorer la fiabilité. À long terme, nous pourrions voir l'émergence progressive des normes "amis des agents" dans des scénarios d'automatisation bénéfiques à la fois pour les fournisseurs de services et les utilisateurs. Cependant, cette transition ne sera pas uniforme : dans des environnements favorables à l'automatisation comme DeFi, l'adoption sera plus rapide ; alors que sur des plateformes Web2 fortement dépendantes du contrôle interactif des utilisateurs, l'acceptation sera plus lente.
À l'avenir, la compétition entre les entreprises technologiques sera de plus en plus centrée sur plusieurs aspects : leur capacité à naviguer dans les limites du monde réel, leur capacité à s'intégrer en toute sécurité dans des workflows critiques, et leur capacité à fournir des résultats de manière stable dans des environnements en ligne diversifiés. Quant à savoir si tout cela redéfinira finalement la "guerre des navigateurs", cela ne dépend pas uniquement de la puissance technologique, mais de la capacité à établir la confiance, à aligner les incitations et à démontrer une valeur tangible dans l'utilisation quotidienne.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Lorsque votre navigateur devient un proxy
Auteur : Mario Chow & Figo @IOSG
Introduction
Au cours des 12 derniers mois, la relation entre les navigateurs web et l'automatisation a connu des changements radicaux. Pratiquement toutes les grandes entreprises technologiques s'efforcent de construire des agents de navigateur autonomes. À partir de la fin de 2024, cette tendance devient de plus en plus évidente : OpenAI a lancé le mode Agent en janvier, Anthropic a publié la fonctionnalité "utilisation de l'ordinateur" pour le modèle Claude, Google DeepMind a lancé le Projet Mariner, Opera a annoncé le navigateur agent Neon, et Perplexity AI a lancé le navigateur Comet. Le signal est très clair : l'avenir de l'IA réside dans des agents capables de naviguer de manière autonome sur le web.
Cette tendance ne se limite pas à ajouter des chatbots plus intelligents aux navigateurs, mais constitue un changement fondamental dans la manière dont les machines interagissent avec l'environnement numérique. Les agents de navigateur sont un type de système d'IA capable de "voir" des pages web et d'agir : cliquer sur des liens, remplir des formulaires, faire défiler des pages, saisir du texte : tout comme des utilisateurs humains. Ce modèle promet de libérer une immense productivité et une valeur économique, car il peut automatiser des tâches qui nécessitent actuellement une intervention humaine ou qui sont trop complexes pour être réalisées par des scripts traditionnels.
▲ Démonstration GIF : Opération réelle d'un proxy de navigateur AI : Suivre les instructions, naviguer vers la page du jeu de données cible, prendre automatiquement des captures d'écran et extraire les données requises.
Qui va gagner la bataille des navigateurs AI ?
Pratiquement toutes les grandes entreprises technologiques (ainsi que certaines startups) développent leurs propres solutions d'agents AI pour les navigateurs. Voici quelques-uns des projets les plus représentatifs :
OpenAI – Mode Agent
Le mode Agent d'OpenAI (anciennement appelé Operator, lancé en janvier 2025) est un agent AI avec navigateur intégré. L'Operator peut gérer diverses tâches en ligne répétitives : par exemple, remplir des formulaires web, commander des courses, organiser des réunions : tout cela est réalisé via une interface web standard utilisée couramment par les humains.
▲ L'agent IA organise des réunions comme un assistant professionnel : vérifie le calendrier, recherche des créneaux disponibles, crée des événements, envoie des confirmations et génère un fichier .ics pour vous.
Anthropic - Claude "Utilisation de l'ordinateur" :
À la fin de l'année 2024, Anthropic a introduit une toute nouvelle fonctionnalité "Computer Use (Utilisation de l'ordinateur)" pour Claude 3.5, lui permettant d'opérer des ordinateurs et des navigateurs comme un humain. Claude peut regarder l'écran, déplacer le curseur, cliquer sur des boutons et entrer du texte. C'est le premier outil d'agent de grand modèle de son genre à entrer en version bêta publique, les développeurs pouvant faire naviguer Claude automatiquement sur des sites Web et des applications. Anthropic le positionne comme une fonctionnalité expérimentale, dont l'objectif principal est d'automatiser les flux de travail en plusieurs étapes sur le Web.
Perplexité – Comète
La start-up d'IA Perplexity (célèbre pour son moteur de questions-réponses) a lancé le navigateur Comet à la mi-2025, en tant qu'alternative alimentée par l'IA à Chrome. Au cœur de Comet se trouve un moteur de recherche conversationnel intégré dans la barre d'adresse (omnibox), capable de fournir des réponses instantanées et des résumés, au lieu des liens de recherche traditionnels.
De plus, Comet intègre Comet Assistant, un agent résidant dans la barre latérale qui peut exécuter automatiquement des tâches quotidiennes sur différents sites. Par exemple, il peut résumer vos e-mails ouverts, organiser des réunions, gérer les onglets du navigateur, ou naviguer et extraire des informations de pages web en votre nom.
L'interface de la barre latérale permet aux agents de percevoir le contenu actuel de la page web, Comet vise à fusionner de manière transparente la navigation et l'assistant AI.
Scénarios d'application réels des proxies de navigateur
Dans le texte précédent, nous avons déjà examiné comment les grandes entreprises technologiques (OpenAI, Anthropic, Perplexity, etc.) injectent des fonctionnalités dans les agents de navigation (browser agents) à travers différentes formes de produits. Pour mieux comprendre leur valeur, nous pouvons examiner comment ces capacités sont appliquées dans la vie quotidienne et dans les processus de travail des entreprises dans des scénarios réels.
Automatisation quotidienne des pages web
E-commerce et achats personnels
Un scénario très pratique est de déléguer des tâches d'achat et de réservation à un agent. L'agent peut automatiquement remplir votre panier d'achat en ligne et passer des commandes en fonction d'une liste fixe, ou chercher le prix le plus bas parmi plusieurs détaillants et finaliser le processus de paiement pour vous.
Pour les voyages, vous pouvez demander à l'IA d'exécuter une tâche comme celle-ci : "Aidez-moi à réserver un vol pour Tokyo le mois prochain (à moins de 800 dollars), puis réservez un hôtel avec Wi-Fi gratuit." L'agent s'occupera de l'ensemble du processus : rechercher des vols, comparer les options, remplir les informations des passagers et finaliser la réservation de l'hôtel, le tout via les sites des compagnies aériennes et des hôtels. Ce niveau d'automatisation dépasse de loin les robots de voyage existants : il ne s'agit pas seulement de recommandations, mais d'exécuter directement l'achat.
Améliorer l'efficacité au travail
Les agents peuvent automatiser de nombreuses opérations commerciales répétitives que les gens effectuent dans leur navigateur. Par exemple, organiser des e-mails et extraire des tâches à faire, ou vérifier les disponibilités dans plusieurs calendriers et programmer des réunions automatiquement. L'assistant Comet de Perplexity peut déjà résumer le contenu de votre boîte de réception via une interface web, ou ajouter des événements à votre agenda. Les agents peuvent également, après avoir obtenu votre autorisation, se connecter à des outils SaaS pour générer des rapports réguliers, mettre à jour des feuilles de calcul ou soumettre des formulaires. Imaginez un agent RH capable de se connecter automatiquement à différents sites de recrutement pour publier des offres d'emploi ; ou un agent commercial qui peut mettre à jour les données des prospects dans un système CRM. Ces tâches quotidiennes banales prendraient beaucoup de temps aux employés, mais l'IA peut les accomplir en automatisant les formulaires web et les opérations de pages.
En plus d'une tâche unique, l'agent peut orchestrer un flux de travail complet à travers plusieurs systèmes réseau. Toutes ces étapes nécessitent d'opérer sur différentes interfaces web, et c'est précisément la force de l'agent de navigateur. L'agent peut se connecter à divers tableaux de bord pour le dépannage, voire orchestrer des processus, comme compléter le processus d'intégration pour les nouveaux employés (créer des comptes sur plusieurs sites SaaS). En essence, toute opération multi-étapes qui nécessite actuellement d'ouvrir plusieurs sites web peut être effectuée par l'agent.
Les défis et les limites actuels
Bien que le potentiel soit énorme, les agents de navigateur d'aujourd'hui sont encore loin de la perfection. Les mises en œuvre actuelles révèlent certains problèmes techniques et d'infrastructure qui existent depuis longtemps :
Incompatibilité d'architecture
Le web moderne est conçu pour être manipulé par des navigateurs humains et a progressivement évolué au fil du temps pour résister activement à l'automatisation. Les données sont souvent enfouies dans du HTML/CSS optimisé pour l'affichage visuel, limitées par des gestes d'interaction (survol de la souris, glissement), ou accessibles uniquement via des API non publiques.
Sur cette base, les systèmes anti-bot et anti-fraude ont artificiellement ajouté des barrières supplémentaires. Ces outils combinent la réputation IP, l'empreinte du navigateur, les défis JavaScript et l'analyse comportementale (comme la randomisation des mouvements de la souris, le rythme de frappe, et le temps de séjour). Ironiquement, plus un agent IA se comporte de manière "parfaite" et efficace : par exemple, remplir instantanément un formulaire sans jamais faire d'erreur, plus il est facile d'être identifié comme une automatisation malveillante. Cela peut entraîner des échecs rigides : par exemple, l'agent d'OpenAI ou de Google peut réussir toutes les étapes avant le paiement, mais finalement être bloqué par un CAPTCHA ou un filtre de sécurité secondaire.
L'interface optimisée par l'homme et la couche de défense peu conviviale pour les robots se superposent, obligeant les agents à adopter une stratégie vulnérable d'"imitation homme-machine". Cette méthode est très susceptible d'échouer, avec un faible taux de réussite (si aucune intervention humaine n'est effectuée, le taux d'achèvement des transactions complètes est toujours inférieur à un tiers).
Préoccupations de confiance et de sécurité
Pour donner aux agents un contrôle total, il est généralement nécessaire d'accéder à des informations sensibles : identifiants de connexion, cookies, jetons d'authentification à deux facteurs, voire informations de paiement. Cela soulève des inquiétudes que les utilisateurs et les entreprises peuvent comprendre :
Que faire si l'agent fait une erreur ou est trompé par un site Web malveillant ?
Si un agent accepte un certain terme de service ou exécute une transaction, qui est responsable ?
Sur la base de ces risques, les systèmes actuels adoptent généralement une attitude prudente :
Le Mariner de Google ne saisit pas les informations de carte de crédit ni n'accepte les conditions de service, mais les retourne à l'utilisateur.
L'opérateur d'OpenAI informera l'utilisateur de prendre en charge la connexion ou le défi CAPTCHA.
L'agent alimenté par Claude d'Anthropic peut refuser directement la connexion pour des raisons de sécurité.
Le résultat est : les pauses et transitions fréquentes entre l'IA et les humains ont affaibli l'expérience d'automatisation transparente.
Malgré ces obstacles, les progrès continuent de progresser rapidement. Des entreprises comme OpenAI, Google et Anthropic tirent des leçons de leurs échecs à chaque itération. Avec l'augmentation de la demande, il est probable qu'une "co-évolution" se produise : les sites deviennent plus amicaux envers les agents dans des scénarios favorables, tandis que les agents améliorent constamment leur capacité à imiter le comportement humain afin de contourner les barrières existantes.
Méthodes et opportunités
Les proxys de navigateur actuels font face à deux réalités diamétralement opposées : d'une part, un environnement hostile de Web2, où la lutte contre les robots et les défenses de sécurité sont omniprésentes ; d'autre part, un environnement ouvert de Web3, où l'automatisation est souvent encouragée. Cette différence détermine la direction des différentes solutions.
Les solutions ci-dessous se divisent en deux catégories : l'une aide les agents à contourner l'environnement hostile de Web2, l'autre est native à Web3.
Bien que les défis auxquels sont confrontés les agents de navigateur demeurent significatifs, de nouveaux projets émergent constamment, tentant de résoudre ces problèmes directement. Les cryptomonnaies et l'écosystème de la finance décentralisée (DeFi) deviennent des terrains d'expérimentation naturels, car ils sont ouverts, programmables et moins hostiles à l'automatisation. Les API ouvertes, les contrats intelligents et la transparence sur la chaîne éliminent de nombreux points de friction courants dans le monde du Web2.
Voici quatre types de solutions, chacune répondant à une ou plusieurs des limitations fondamentales actuelles :
Navigateur natif de type proxy destiné aux opérations sur la chaîne
Ces navigateurs sont conçus dès le départ pour être pilotés par des agents autonomes et sont profondément intégrés aux protocoles blockchain. Contrairement au navigateur Chrome traditionnel, qui nécessite une dépendance supplémentaire à Selenium, Playwright ou des plugins de portefeuille pour automatiser les opérations sur la chaîne ; les navigateurs natifs basés sur des agents fournissent directement des API et des chemins d'exécution fiables pour les appels d'agents.
Dans la finance décentralisée, l'efficacité des transactions repose sur les signatures cryptographiques, et non sur le fait que l'utilisateur soit "humain". Par conséquent, dans un environnement blockchain, les agents peuvent contourner les CAPTCHA, les scores de détection de fraude et les vérifications d'empreintes de dispositifs courants dans le monde Web2. Cependant, si ces navigateurs pointent vers des sites Web2 comme Amazon, ils ne peuvent pas contourner les mécanismes de défense associés, et dans ce scénario, des mesures anti-bot normales seront toujours déclenchées.
La valeur d'un navigateur proxy ne réside pas dans sa capacité à accéder miraculeusement à tous les sites, mais dans :
Intégration de la blockchain native : portefeuille intégré et support de signature, sans avoir besoin de passer par les fenêtres contextuelles de MetaMask ou d'analyser le DOM du frontend de dApp.
Conception axée sur l'automatisation : fournit des instructions de haut niveau stables, pouvant être directement mappées sur des opérations de protocole.
Modèle de sécurité : contrôle des accès affiné et bac à sable, garantissant la sécurité des clés privées dans le processus d'automatisation.
Optimisation des performances : capacité d'exécuter plusieurs appels en chaîne en parallèle, sans rendu de navigateur ni délai d'interface utilisateur.
Exemple : Donut
Donut intègre les données et les opérations de la blockchain en tant que citoyens de première classe. Les utilisateurs (ou leurs agents) peuvent survoler pour voir les indicateurs de risque en temps réel des jetons, ou entrer directement des instructions en langage naturel comme « /swap 100 USDC to SOL ». En contournant les points de friction hostiles de Web2, Donut permet aux agents de fonctionner à plein régime dans la DeFi, améliorant la liquidité, l'arbitrage et l'efficacité du marché.
Exécution d'agents vérifiables et dignes de confiance
Accorder des privilèges sensibles aux agents comporte de grands risques. Les solutions connexes utilisent des environnements d'exécution de confiance (TEE) ou des preuves à divulgation nulle de connaissance (ZKP) pour chiffrer avant l'exécution la confirmation du comportement attendu de l'agent, permettant aux utilisateurs et à la partie adverse de vérifier les actions de l'agent sans exposer les clés privées ou les certificats.
Exemple : Phala Network
Phala utilise des TEE (tels que Intel SGX) pour isoler et protéger l'environnement d'exécution, évitant ainsi que les opérateurs de Phala ou les attaquants n'espionnent ou ne modifient la logique et les données de l'agent. Le TEE est comme une "chambre forte sécurisée" renforcée par du matériel, garantissant la confidentialité (inaccessible depuis l'extérieur) et l'intégrité (impossible à modifier depuis l'extérieur).
Pour les agents de navigateur, cela signifie qu'ils peuvent se connecter, détenir des jetons de session ou traiter des informations de paiement, et que ces données sensibles ne quitteront jamais la chambre forte sécurisée. Même si la machine de l'utilisateur, le système d'exploitation ou le réseau sont compromis, il est impossible de les divulguer. Cela atténue directement l'un des principaux obstacles à la mise en œuvre des applications d'agents : le problème de confiance concernant les informations d'identification sensibles et les opérations.
Réseau de données structurées décentralisé
Les systèmes modernes de détection des robots ne se contentent pas de vérifier si les demandes sont « trop rapides » ou « automatisées », mais combinent également la réputation de l'IP, l'empreinte du navigateur, les retours des défis JavaScript et l'analyse comportementale (comme le mouvement du curseur, le rythme de frappe, l'historique des sessions). Les agents provenant d'IP de centres de données ou d'environnements de navigation entièrement reproductibles sont facilement identifiables.
Pour résoudre ce problème, ce type de réseau ne collecte plus des pages web optimisées pour les humains, mais collecte directement et fournit des données lisibles par machine, ou en utilisant des environnements de navigation humaine réels pour faire transiter le trafic. Cette méthode contourne la vulnérabilité des araignées traditionnelles lors de l'analyse et des étapes de contournement, permettant aux agents de recevoir une entrée plus propre et plus fiable.
En redirigeant le trafic des agents vers ces sessions réelles, le réseau distribué permet aux agents IA d'accéder au contenu web comme un humain, sans déclencher immédiatement de blocage.
cas
Grass : réseau de données décentralisé / DePIN, les utilisateurs partagent leur bande passante résidentielle inutilisée, fournissant ainsi un accès amical pour les agents et géographiquement diversifié pour la collecte de données de pages publiques et l'entraînement de modèles.
WootzApp : un navigateur mobile open source prenant en charge les paiements en cryptomonnaie, avec un proxy en arrière-plan et une identité à connaissance nulle ; il "gamifie" les tâches AI/données pour les consommateurs.
Sixpence : un réseau de navigateur distribué qui route le trafic pour les agents d'IA grâce aux contributions de navigateurs du monde entier.
Cependant, ce n'est pas une solution complète. La détection des comportements (trajectoires de souris/défilement), les restrictions au niveau des comptes (KYC, ancienneté du compte) et les vérifications de cohérence des empreintes digitales peuvent toujours déclencher un blocage. Par conséquent, un réseau distribué doit être considéré comme une couche de dissimulation de base, qui doit être combinée avec des stratégies d'exécution imitant l'humain pour maximiser son efficacité.
Normes Web pour les agents (vision prospective)
Actuellement, de plus en plus de communautés et d'organisations technologiques explorent : comment les sites Web devraient-ils interagir de manière sécurisée et conforme avec des agents automatisés, si les utilisateurs du réseau à l'avenir ne sont pas seulement des humains ?
Cela a suscité des discussions sur certaines normes et mécanismes émergents, visant à permettre aux sites web d'indiquer clairement « J'autorise un agent de confiance à accéder », et de fournir un canal sécurisé pour effectuer des interactions, plutôt que de considérer par défaut les agents comme des "attaques de robots" à intercepter comme c'est le cas aujourd'hui.
«Agent Allowed» étiquette : tout comme le robots.txt que respectent les moteurs de recherche, il est possible que les futures pages web incluent une étiquette dans le code pour informer le navigateur agent « ici, un accès sécurisé est autorisé ». Par exemple, si vous utilisez un agent pour réserver un vol, le site ne vous présentera pas une multitude de CAPTCHA, mais vous fournira directement une interface authentifiée.
API Gateway pour agents certifiés : le site peut ouvrir une entrée dédiée pour les agents vérifiés, comme un "fast track". Les agents n'ont pas besoin de simuler des clics humains ou de saisie, mais empruntent un chemin API plus stable pour passer des commandes, effectuer des paiements ou interroger des données.
Discussion du W3C : Le World Wide Web Consortium (W3C) étudie comment établir un canal standardisé pour l'"automatisation contrôlée". Cela signifie que, dans le futur, nous pourrions avoir un ensemble de règles universelles permettant aux agents de confiance d'être reconnus et acceptés par les sites Web, tout en maintenant la sécurité et la responsabilité.
Bien que ces explorations soient encore à un stade précoce, une fois mises en œuvre, elles pourraient grandement améliorer la relation entre l'homme ↔ l'agent ↔ le site web. Imaginez : il n'est plus nécessaire que les agents s'efforcent d'imiter les mouvements de la souris humaine pour "tromper" le contrôle des risques, mais plutôt de compléter les tâches de manière transparente par un canal "officiellement autorisé".
Sur cette ligne, les infrastructures natives de la cryptographie pourraient prendre l'initiative. En effet, les applications sur la chaîne dépendent naturellement des API ouvertes et des contrats intelligents, ce qui est favorable à l'automatisation. En revanche, les plateformes Web2 traditionnelles pourraient continuer à adopter une approche prudente, en particulier les entreprises qui dépendent de la publicité ou des systèmes de lutte contre la fraude. Cependant, à mesure que les utilisateurs et les entreprises acceptent progressivement les gains d'efficacité apportés par l'automatisation, ces tentatives de normalisation pourraient devenir un catalyseur clé pour faire progresser l'ensemble d'Internet vers une "architecture axée sur les agents".
Conclusion
Les agents de navigateur évoluent d'outils de conversation simples à des systèmes autonomes capables d'exécuter des workflows complexes en ligne. Cette transformation reflète une tendance plus large : intégrer l'automatisation au cœur de l'interaction des utilisateurs avec Internet. Bien que le potentiel d'amélioration de la productivité soit immense, les défis sont tout aussi importants, y compris comment surmonter les mécanismes anti-robots bien ancrés et comment garantir la sécurité, la confiance et une utilisation responsable.
À court terme, l'amélioration des capacités de raisonnement des agents, une vitesse accrue, une intégration plus étroite avec les services existants et les avancées des réseaux distribués pourraient progressivement améliorer la fiabilité. À long terme, nous pourrions voir l'émergence progressive des normes "amis des agents" dans des scénarios d'automatisation bénéfiques à la fois pour les fournisseurs de services et les utilisateurs. Cependant, cette transition ne sera pas uniforme : dans des environnements favorables à l'automatisation comme DeFi, l'adoption sera plus rapide ; alors que sur des plateformes Web2 fortement dépendantes du contrôle interactif des utilisateurs, l'acceptation sera plus lente.
À l'avenir, la compétition entre les entreprises technologiques sera de plus en plus centrée sur plusieurs aspects : leur capacité à naviguer dans les limites du monde réel, leur capacité à s'intégrer en toute sécurité dans des workflows critiques, et leur capacité à fournir des résultats de manière stable dans des environnements en ligne diversifiés. Quant à savoir si tout cela redéfinira finalement la "guerre des navigateurs", cela ne dépend pas uniquement de la puissance technologique, mais de la capacité à établir la confiance, à aligner les incitations et à démontrer une valeur tangible dans l'utilisation quotidienne.