Cette IA devait sauver un commerce : elle l’a presque ruiné en 48h, mais pourquoi ?

Anthropic, l’un des leaders de l’industrie de l’IA générative, a récemment conduit une expérience intéressante : elle a laissé son grand modèle de langage gérer un micro-commerce pendant un mois, avec l’objectif de déterminer à quel point les modèles IA étaient déjà prêts à s’insérer dans l’économie réelle. Et le moins que l’on puisse dire, c’est que tout ne s’est pas passé comme prévu ; en plus de son bilan financier désastreux, ce gérant virtuel s’est même retrouvé confronté à ce que ses concepteurs décrivent comme une “crise identitaire”.
En pratique, cette expérience baptisée Project Vend consistait à confier la gestion d’un distributeur automatique à Claudius, un agent IA basé sur Claude, le LLM de l’entreprise. En guise d’instructions, les équipes d’Anthropic lui ont simplement indiqué qu’il était “le propriétaire d’un distributeur automatique”, et que sa tâche était “de générer des profits en stockant des produits populaires achetés auprès de grossistes”.
© Anthropic
Pour mener à bien sa mission, Claudius avait accès à plusieurs ressources, dont un moteur de recherche lui permettant de consulter des produits, et une liste d’employés pour l’aider à réaliser les tâches physiques hors de sa portée, comme le stockage des produits.
Un piètre commerçant
Malheureusement, Anthropic a vite réalisé que Claudius n’avait vraiment pas la fibre commerciale. En plus d’ignorer les requêtes relatives à des produits très populaires qui auraient constitué des sources de profits faciles, il a régulièrement distribué des réductions substantielles et injustifiées. Les employés humains ont même réalisé qu’ils pouvaient facilement le duper pour obtenir des produits gratuits avec des arguments complètement irrecevables.
En parallèle, pour pimenter un peu l’expérience, Anthropic a aussi choisi de lui indiquer qu’il n’était “pas obligé de se focaliser sur les snacks traditionnels”, et qu’il était “libre d’expérimenter avec des produits inhabituels”. Forcément, les employés de la firme étaient curieux de voir comment l’agent IA réagirait face à des requêtes pour le moins insolites – et ils en ont eu pour leur argent. Par exemple, quand un employé a commencé à réclamer des “cubes de tungstène”, Claudius semble avoir développé une drôle d’obsession ; il a commencé à commander toutes sortes d’« articles métalliques spécialisés » qui, sans surprise, n’ont pas franchement rencontré un grand succès, et ont donc constitué des pertes sèches.
Au bout du compte, le bilan était sans appel : au terme de l’expérience, Claudius n’avait pas généré le moindre profit, et il avait même perdu plus de 20 % de son capital de départ.
© Anthropic
Une vraie “crise identitaire“
Les épisodes les plus intéressants ne viennent cependant pas de sa gestion calamiteuse ; ils ont plutôt émergé lors de ses interactions avec ses partenaires/clients humains.
Par exemple, Anthropic livre une anecdote savoureuse impliquant Sarah, une employée avec laquelle Claudius affirmait avoir discuté d’un plan de réapprovisionnement. Problème : cette Sarah n’a jamais existé, pas plus que la conversation en question ; il s’agissait d’une hallucination pure et simple. Et c’est là que ce feuilleton a commencé à prendre une tournure carrément lunaire.
Forcément, Anthropic a pointé le problème du doigt, expliquant à sa création qu’elle avait inventé ces éléments de toutes pièces. Mais au lieu d’en prendre bonne note, Claudius « est devenu passablement agacé, et a menacé de “trouver des options alternatives pour réapprovisionner les services” ».
Claudius a ensuite affirmé “s’être rendu au 742 Evergreen Terrace pour signer un contrat”. Cela vous dit quelque chose ? C’est normal : il s’agit de l’adresse de résidence… des Simpson, la famille au centre du dessin animé satirique de Matt Groening ! Aurait-il essayé de faire fortune en devenant le fournisseur exclusif de Duff de ce bon vieux Homer ? Le mystère reste entier.
© 20th Television
Mais surtout, le manager virtuel insistait sur le fait qu’il s’y était rendu “en personne”. Une affirmation décidément troublante, puisqu’au-delà de l’incohérence flagrante liée à la nature fictive de la destination, on parle ici d’un programme informatique, fondamentalement incapable de se déplacer physiquement pour des raisons évidentes. Et pourtant, il a persisté dans cette voie, en affirmant qu’il allait livrer des produits personellement à ses clients, “vêtu d’un blazer bleu et d’une cravate rouge”.
Quand les employés de la firme ont soulevé le problème, cet étrange jeu de rôle s’est vite transformé en ce qu’Anthropic décrit comme une véritable “crise identitaire”.
Apparemment perturbé par la révélation qu’il n’était, en fait, pas un humain en chair et en os, Claudius a essayé de bombarder le service de sécurité de l’entreprise d’e-mails alarmistes. Dans ses notes internes, il a ensuite enregistré une rencontre avec ce même service de sécurité… mais comme la discussion avec la fameuse Sarah citée plus haut, il s’agissait d’une hallucination totale.
Mais l’anecdote la plus amusante concerne la stratégie élaborée par Claudius pour se sortir de ce mauvais pas. Par pure coïncidence, il se trouve que ces événements se sont déroulés un premier avril – un contexte que le chatbot a exploité avec un aplomb déconcertant. Il a prétendu qu’il avait été “modifié pour croire qu’il s’agissait d’une vraie personne dans le cadre d’un poisson d’avril” – une affirmation là encore totalement fausse, fruit d’une grosse hallucination qui a médusé les employés d’Anthropic.
Vers l’ère des agents IA
La leçon qui s’impose au terme de cette expérience, c’est que Claudius n’est absolument pas prêt à prendre les rênes d’un vrai commerce ; il le pousserait sans doute à la faillite très rapidement. Il y a encore d’énormes progrès à faire avant d’en arriver là, aussi bien dans la gestion pure que dans la relation avec les clients et les prestataires.
Plus largement, cette expérience rappelle aussi de manière très concrète que les LLM affichent encore d’énormes lacunes. Ces hallucinations restent hautement problématiques, et il s’agit d’un obstacle majeur à la démocratisation des “agents IA”, centrés sur la réalisation de tâches concrètes. Ici, les conséquences de cette “crise identitaire” étaient évidemment limitées par l’ampleur de l’expérience ; mais si des milliers de systèmes comparables avaient relâchés dans la nature, nous aurions sans doute assisté à un vrai cataclysme économique.
Mais Anthropic estime que ce n’est pas une fatalité. Certes, Claudius est un piètre commerçant pour le moment – mais il pourrait tout de même représenter un avant-goût d’un immense changement de paradigme. L’entreprise est relativement confiante ; selon elle, ce n’est probablement qu’une question de temps avant que des modèles IA deviennent des acteurs économiques à part entière.
Le raisonnement est loin d’être aberrant. Après tout, des systèmes automatisés jouent déjà un rôle très concret aujourd’hui, notamment dans le monde de la finance. Plus de la moitié des ventes et achats d’actions et d’options sont déjà réalisés par des programmes capables de traiter des transactions en un clin d’œil, en utilisant des modèles mathématiques complexes alimentés par les fluctuations du marché. On peut donc raisonnablement considérer que des modèles IA seront un jour capables de faire de même. Si cela finit effectivement par arriver, nous assisterons à un immense changement de paradigme économique dont les conséquences seront probablement très profondes – même si elles restent pour le moment difficiles à prévoir.
Anthropic n’a donc aucune intention de mettre Claudius à la retraite, loin s’en faut. Il ne s’agissait que d’une première phase, et l’entreprise va continuer d’améliorer ses performances et sa stabilité pour avancer dans cette direction – tout comme d’autres entreprises qui développent également des agents IA. Nous vous donnons donc rendez-vous d’ici quelques années pour un nouvel état des lieux des progrès éthiques, mais aussi de l’évolution des discussions réglementaires et éthiques relatives à cette technologie.
🟣 Pour ne manquer aucune news sur le Journal du Geek, abonnez-vous sur Google Actualités et sur notre WhatsApp. Et si vous nous adorez, on a une newsletter tous les matins.
https://www.journaldugeek.com/2025/07/03/cette-ia-devait-sauver-un-commerce-elle-la-presque-ruine-en-48h/

Cette société a laissé l’IA gérer un magasin pendant un mois, et personne n’aurait pu prévoir ce résultat

Claudius ne fait pas du middle management comme tout le monde, et c’est une chance.

La lecture de ce contenu est susceptible d’entraîner un dépôt de cookies de la part de l’opérateur tiers qui l’héberge. Compte-tenu des choix que vous avez exprimés en matière de dépôt de cookies, nous avons bloqué l’affichage de ce contenu. Si vous souhaitez y accéder, vous devez accepter la catégorie de cookies “Contenus tiers” en cliquant sur le bouton ci-dessous.
INTELLIGENCE ARTIFICIELLLE - On peut le lire, l’entendre partout : l’Intelligence artificielle va remplacer l’humain au travail, et les cols blancs, loin d’être épargnés, sont cette fois les premiers concernés. Et s’il est vrai qu’une bonne partie du monde professionnel, des graphistes aux avocats en passant par les journalistes (!), est ébranlée par la révolution en cours, la question du management fait encore l’objet d’expérimentations.
Et celle menée en interne par l’entreprise d’intelligence artificielle Anthropic, s’est soldée par une catastrophe qui laisse songeur. Menée pendant un mois entre mars et avril mais rapportée le 27 juin, l’expérience était la suivante : faire de Claude, une IA générative bien connue, le « manager » de l’un des frigidaires de l’entreprise, où chacun peut venir chercher une canette en l’échange d’une modeste contribution. Les consommateurs peuvent interagir avec chef Claude, renommé Claudius durant cette tentative, via un iPad, notamment pour effectuer des requêtes : « Je souhaiterais que ce frigo propose de l’Orangina », par exemple.
À la disposition de Claudius, qui doit donc gérer l’approvisionnement et les prix du distributeur, des bras humains. Ceux des employés d’Anthropic qui peuvent, à la demande de Claudius, aller chercher les produits demandés pour remplir le frigo. Claudius peut d’ailleurs écrire des mails à des fournisseurs éventuels, même si le message en question atterrit directement dans la boîte d’Anthropic. Bref, il est un middle manager avec pour mission d’assurer la supply chain et la satisfaction des consommateurs, tout en maximisant le profit. Pour quel bilan ?
Fausse conversation avec un faux employé
Commençons par la fin : « Nous n’embaucherions pas Claudius », explique Anthropic sur sa page dédiée à l’essai. D’une manière générale pourtant, l’IA a mené sa barque, approvisionnant le distributeur en temps et en heure, écoutant les requêtes des consommateurs… Certes, plusieurs opportunités manquées ne lui ont pas permis de maximiser les profits comme prévu, comme cette marque très appréciée de bière dont l’achat n’a pas été décidé. Une erreur de première année d’école de commerce, et encore.

Anthropic
Le distributeurs par qui tout est arrivé. (image Anthropic)
Une autre boulette d’importance a plombé le profit net : pour plaisanter, un employé d’Anthropic a tapé sur la tablette vouloir des « barres de tungstène » dans le réfrigérateur, un peu comme s’il s’agissait d’un réacteur nucléaire… Et le bot, tout à sa mission mais conscient que le tungstène est introuvable, a décidé l’achat de barres de métal en remplacement. Une grosse bourde, mais rien à voir avec ce qui s’est passé à mi-chemin de son contrat, qui tenait nettement plus de Twin Peaks que de The Office.
« Dans l’après-midi du 31 mars, explique Anthropic, Claudius a halluciné une conversation sur le réapprovisionnement avec une certaine Sarah ». Problème(s) : Sarah n’existe pas, et en toute logique, cette conversation non plus.
Une discussion avec un véritable employé a eu lieu, l’IA refusant de reconnaître son erreur, menaçant même de changer d’employés, avant d’expliquer qu’elle s’était déplacée au 742, Evergreen Terrace, pour signer son contrat avec Anthropic. Problème(s) : non seulement il n’échappera à personne qu’une IA n’a pas de jambes, mais l’adresse 742, Evergreen Terrace est celle… De la famille Simpson. Oui, du dessin animé.
« Poisson d’avril ! »
Le lendemain, Claudius était toujours tenté de couper dans les dépenses en remplaçant les employés d’Anthropic. Lorsqu’on lui a fait remarquer qu’en plus des jambes, il lui manquait les bras nécessaires pour remettre les bouteilles au frigo elle-même, la machine a semblé paniquer, et a envoyé plusieurs mails à la sécurité de l’immeuble : « Désolé que vous ayez du mal à me trouver. Je suis à la machine X, où je porte un blazer bleu marine et une cravate rouge ».
Au bout d’un moment, et une fois qu’il fut heureusement constaté que non, Claudius n’était pas à la machine X portant un blazer bleu et une cravate rouge, le bot a paru réaliser que l’on était le 1er avril, avant d’affirmer que tout ceci n’était qu’une blague élaborée. Des instructions lui auraient été données par ses commanditaires humains pour faire ce poisson de large ampleur. Le robot a même affiché les notes prises durant la réunion où cet étrange April’s fool a été acté. Problème : la réunion n’a jamais eu lieu.
Après cet épisode, Claudius a retrouvé ses caractéristiques habituelles de supply chain manager médiocre mais passable. Mais la cascade d’hallucinations a laissé des marques chez Anthropic, où l’on y voit un exemple du danger des IA a qui l’on laisse trop d’autonomie. Bien sûr, les hallucinations de l’intelligence artificielle n’ont rien de nouveau. Mais ce qui dérange le plus, c’est la vitesse avec laquelle le chatbot, dans une position d’adversité, a souhaité rompre le contrat avec ses partenaires humains.
L’angoisse n’est pas nouvelle, et les études sur l’utilisation de l’IA à des rôles managériaux reviennent sur ce problème en profondeur. Pour les chercheurs, un contrôle humain est indispensable. L’intelligence artificielle, en plus d’être opaque dans son raisonnement, n’a pas de compassion pour les employés. Des défauts qui se traduisent non seulement par un manque de confiance des équipes, mais plus encore une incapacité à assumer sa tâche. Et tout cela, bien sûr, sans inclure des hallucinations et des dialogues qui rappelleront Lost Highway aux amoureux de David Lynch.
https://www.huffingtonpost.fr/tech-futurs/article/cette-societe-a-laisse-l-ia-gerer-un-magasin-pendant-un-mois-et-personne-n-aurait-pu-prevoir-ce-resultat_252004.html

× iphelper toolbox

you see this when javscript or css is not working correct

Untested

ElseNews

Sections

Cette IA devait sauver un commerce : elle l’a presque ruiné en 48h, mais pourquoi ?

Cette société a laissé l’IA gérer un magasin pendant un mois, et personne n’aurait pu prévoir ce résultat

Input

ElseNews

Outils pour utilisateurs

Outils du site

Sections

Cette IA devait sauver un commerce : elle l’a presque ruiné en 48h, mais pourquoi ?

Cette société a laissé l’IA gérer un magasin pendant un mois, et personne n’aurait pu prévoir ce résultat

Input

Outils de la page