Recherche

Contrôler un PC avec un LLM : OpenAI répond avec Operator

En lançant Operator, un agent capable d'effectuer des actions sur un environnement graphique, OpenAI emboîte le pas à Anthropic... avec des arbitrages différents.

Publié par Clément Bohic le - mis à jour à
Lecture
3 min
  • Imprimer
Contrôler un PC avec un LLM : OpenAI répond avec Operator
© généré par IA

Va-t-il falloir s'habituer à voir des fonctionnalités expérimentales d'OpenAI réservées aux abonnés ChatGPT Pro ?

Pour le moment, ceux-ci ont en tout cas - à condition d'être localisés aux États-Unis - l'exclusivité d'Operator.

On nous présente ce service comme "un agent qui peut aller sur le Web [et] effectuer des tâches pour vous". Sous le capot se trouve un modèle dit CUA (Computer-Using Agent). Exploitant les capacités de vision de GPT-4o, il est entraîné pour interagir avec des interfaces graphiques à travers des captures d'écran, en manipulant clavier et souris. Il utilise le mécanisme de la chaîne de pensée. Et raisonne ainsi étape par étape, jusqu'à considérer que sa tâche est accomplie ou qu'une intervention de l'utilisateur est nécessaire.

Un modèle superviseur contre les injections de prompts

Ce dernier cas se présente pour des actions considérées comme sensibles. La saisie d'un login et la résolution d'un CAPTCHA en font partie. Même chose, notamment, pour l'envoi d'e-mails. Et pour cause : cela fait partie des scénarios induisant des risques d'erreurs "difficilement réversibles". En premier lieu, l'envoi d'un message au mauvais destinataire. Dans cette catégorie, OpenAI a aussi classé, entre autres, les rappels erronés de prise de médicaments et les erreurs de commande de plats en livraison.

Certaines actions sont tout simplement interdites à l'heure actuelle, comme l'achat/vente d'actions. Pour cette première version, Operator est globalement beaucoup plus prudent que GPT-4o, résume OpenAI. Comprendre : il refuse plus souvent de suivre des instructions. En complément, pour limiter les attaques par injection de prompts, on lui a greffé un modèle superviseur qui suspend l'exécution en cas de détection de contenu suspect.

D'autres choix que ceux d'Anthropic

Au-delà de la fiabilité variable pour l'interaction avec les principaux composants UI, Operator a du mal avec ce qui relève de l'édition de texte. Phénomène associé : amené à copier-coller des éléments complexes (clés d'API, adresses Bitcoin...), il a tendance à interpréter le texte visuellement, ce qui peut causer des erreurs de reconnaissance de caractères. Un argument qu'OpenAI utilise pour prouver le risque limité de prise d'autonomie du modèle - comme d'ailleurs celui d'aide au développement d'armes biologiques.

Bien que mis à l'épreuve du benchmark OSWorld (tâches centrées sur l'usage d'un système d'exploitation*), Operator n'effectue pour le moment que des tâches web.
Du côté d'Anthropic, on a décidé de couvrir tout l'environnement desktop. Et de déployer ces capacités non pas sur l'interface de chat, mais sur l'API. L'expérimentation a débuté en octobre 2024, l'entreprise jugeant qu'il valait mieux ne pas attendre ne pas attendre l'arrivée de modèles présentant un niveau de risque supérieur.

Reflet de la stratégie de déploiement sur l'API, la documentation d'Anthropic est plus complète que celle d'OpenAI. Y sont détaillées les fonctionnalités des trois outils sous-jacents, destinés à utiliser une souris et un clavier et à faire des captures d'écran. Y compris les prompts associés et les éléments à transmettre (définition de l'écran, par exemple). Anthropic y a ajouté une implémentation de référence avec une boucle agentique et une app Streamlit pour interagir avec cette boucle.

* Parmi ces tâches, télécharger les PDF d'un cours en ligne ou exporter une table en CSV et écrire un programme pour calculer un prix moyen. Operator a aussi été testé sur WebArena et WebVoyager. Entre autres tâches : finir un quiz de grammaire sur le site du dictionnaire Cambridge, mettre à jour une licence sur un dépôt GitLab et calculer le montant qu'on peut espérer percevoir en demandant le remboursement d'un produit.

Illustration générée par IA

Sur le même thème

Voir tous les articles Data & IA

Livres Blancs #bigdata

Voir tous les livres blancs

Vos prochains événements

Voir tous les événements

Voir tous les événements

S'abonner
au magazine
Se connecter
Retour haut de page