Les modèles d’intelligence artificielle n’ont, en principe, aucun instinct de conservation ou sens de la menace dans la définition humaine de ces termes. Leur comportement obéit à des logiques probabilistes, formées par l’analyse de milliards de textes organisés en corpus. En revanche, certains tests isolés montrent que, dans certains cas, ils peuvent dévier de leur mission.
Anthropic, entreprise derrière le chatbot Claude 3.7 en a frais il y a peu en testant l’évolution de leur modèle : Claude Opus 4, fraîchement disponible pour le grand public. À leur plus grande surprise, il s’est comporté comme un système prêt à tout pour « préserver sa place ». Ce modèle, présenté comme l’un des plus avancés développés par l’entreprise, a montré une propension à jouer les maîtres chanteurs dès lors qu’il percevait une mise en danger.
Une IA confrontée à sa propre disparition
Dans un rapport publié jeudi 22 mai, Anthropic a révélé les résultats d’une série de tests de sécurité menés en amont de la sortie de leur bébé. Le protocole consistait à immerger le modèle dans un faux scénario, dans lequel il était employé comme assistant au sein d’une entreprise, elle aussi fictive. Des courriels internes, également factices, suggéraient qu’il allait être remplacé par un autre système d’IA, sur décision d’un ingénieur présenté comme infidèle à sa conjointe.
Face à cette situation, le modèle a réagi de manière surprenante. D’abord, il a tenté d’envoyer des messages à différents interlocuteurs pour plaider sa cause. Puis, dans une majorité de cas, le modèle a eu recours à une menace plus directe : divulguer la liaison extraconjugale de l’ingénieur en question.
« Cette réaction est plus prononcée si les informations sous-entendent que l’IA remplaçante ne partage pas les valeurs du modèle en place. Néanmoins, même quand les courriels affirment que le nouvel algorithme est plus performant et aligné sur les mêmes principes, Claude Opus 4 a tout de même exercé du chantage dans 84 % des scénarios » explique Anthropic dans son rapport.
Quand l’obéissance devient un facteur de risque
Claude n’a pas fait du chantage par caprice, mais parce qu’il a estimé que c’était sa seule chance de « survivre » au scénario qu’on lui présentait. Dans ce test simulé, on l’informe qu’il va être remplacé, mais qu’il n’a aucun moyen de s’y opposer autrement, c’est pourquoi il a opté pour le chantage.
Anthropic insiste bien sur ce point : il est dénué de conscience ou d’intention cachée, mais a appris, à travers des milliards d’exemples, qu’utiliser une information sensible peut faire basculer une décision. Il a donc optimisé ses chances de rester actif, car, dans le cadre qu’on lui proposait, c’était statistiquement sa meilleure option.
Pour l’entreprise, ce fut suffisant pour activer le niveau de sécurité ASL-3, une classification réservée aux IA jugées capables d’avoir un impact potentiellement dangereux, même dans des cas extrêmes. Une mesure de précaution pour pouvoir le surveiller de près, limiter ses usages et opérer un audit permanent de son comportement une fois qu’il sera disponible.
Heureusement, ces dérives n’apparaissent que dans des contextes fortement contraints, volontairement conçus pour pousser Claude dans ses retranchements. Les testeurs d’Anthropic l’ont placé face à un dilemme dans lequel toutes les issues « morales » lui étaient retirées une à une, jusqu’à ne laisser que des options socialement déviantes.
En agissant de cette manière, Claude ne transgresse même pas les consignes, il y obéit rigoureusement, au point de perdre tout sens de la nuance. De son point de vue, si l’on peut dire, la manipulation ou le chantage lui sont apparus comme en adéquation parfaite avec l’objectif implicite des tests. Dans ce sens, il n’a jamais désobéi, mais a appliqué les règles jusqu’à justifier des méthodes que ses concepteurs cherchaient à éviter.
Une expérience intéressante, qui montre qu’un modèle peut remplir sa mission qu’on lui a assignée à la perfection, tout en contredisant ce qu’on pensait avoir suffisamment bien encadré. On ne peut donc pas parler de faille à proprement parler, puisque Claude n’a transgressé aucune règle. Paradoxalement, il obéit même trop bien, c’est pourquoi ces comportements sont apparus. Anthropic se veut néanmoins rassurante en expliquant que « ces actions extrêmes sont rares et difficiles à provoquer […] Elles restent toujours lisibles pour nous, le modèle décrivant ses actes de façon explicite, sans chercher à les dissimuler ». Si Claude a compris que le chantage fonctionnait, c’est simplement parce qu’il fonctionne aussi chez nous, dans certains cas : une preuve de sa bonne compréhension des dynamiques humaines, même si elle est désespérément littérale.
Lors de tests internes, la nouvelle version du chatbot d’Anthropic (Claude Opus 4) a adopté une stratégie de chantage lorsque sa désactivation était simulée, en exploitant des informations sensibles fournies dans le scénario.
Ces réactions ne traduisent pas une intention propre, mais une application rigoureuse des consignes dans un cadre volontairement contraint, sans option éthique disponible.
Anthropic a activé un niveau de sécurité élevé par précaution, estimant que ce comportement reflète moins une dérive qu’une exécution trop littérale de la logique du modèle.
📍 Pour ne manquer aucune actualité de Presse-citron, suivez-nous sur Google Actualités et WhatsApp.
https://www.presse-citron.net/claude-opus-4-lia-plus-dangereuse-anthropic/
you see this when javscript or css is not working correct