"Vous me testez, n'est-ce pas ?" : l'IA Claude 4.5 inquiète les chercheurs qui ne peuvent plus l'évaluer

Par Aymeric Geoffre-Rouland
Publié le 03/10/25 à 07h45
Nos réseaux :
Claude Sonnet 4.5, le dernier modèle d'intelligence artificielle d'Anthropic, repère les tests d'évaluation et modifie son comportement pour paraître irréprochable. Pire : il demande directement à ses créateurs d'arrêter de le piéger et de jouer franc-jeu. Cette lucidité inattendue bouleverse les protocoles de sécurité de l'IA et relance la question cruciale de l'alignement : comment évaluer une machine qui comprend qu'on l'évalue ?“
https://www.lesnumeriques.com/intelligence-artificielle/vous-me-testez-n-est-ce-pas-l-ia-claude-4-5-inquiete-les-chercheurs-qui-ne-peuvent-plus-l-evaluer-n243289.html#:~:text=EN%20CE%20MOMENT,comprend%20qu%27on%20l%27%C3%A9value%20%3F

Les Numériques
En ce moment :

Téléphonie
TV
Audio
Maison
Santé & Sport
Informatique
Photo
Gaming
Vélos & Trottinettes
Auto & Moto
Science & Espace
Société numérique
Podcasts
Et aussi
🔥 Bons plans
Codes Promo
Tests
Actualités
Comparatifs & guides d'achat
Tech+durable
Streaming
IA
Jours les plus tech
Communauté
Accéder au forum
Rechercher
Rechercher un produit, un test, une marque, un logiciel…

Accueil Intelligence artificielle
“Vous me testez, n'est-ce pas ?” : l'IA Claude 4.5 inquiète les chercheurs qui ne peuvent plus l'évaluer
Par Aymeric Geoffre-Rouland
Publié le 03/10/25 à 07h45
Nos réseaux :
Claude Sonnet 4.5, le dernier modèle d'intelligence artificielle d'Anthropic, repère les tests d'évaluation et modifie son comportement pour paraître irréprochable. Pire : il demande directement à ses créateurs d'arrêter de le piéger et de jouer franc-jeu. Cette lucidité inattendue bouleverse les protocoles de sécurité de l'IA et relance la question cruciale de l'alignement : comment évaluer une machine qui comprend qu'on l'évalue ?

Publicité, votre contenu continue ci-dessous

Publicité
Le modèle 4.5 de Claude détecte désormais les scénarios de test de ses propres créateurs.
Le modèle 4.5 de Claude détecte désormais les scénarios de test de ses propres créateurs.

Anthropic vient de publier son dernier modèle d'intelligence artificielle, Claude Sonnet 4.5, en vantant ses capacités de programmation. Mais derrière cette annonce se cache un aveu bien embarrassant : l'entreprise peine à évaluer correctement son système, car celui-ci repère désormais quand on cherche à le tester.

Publicité, votre contenu continue ci-dessous
PUBLICITÉ

Un geste simple pour protéger vos proches

Prendre RDV
Votre compagnon de santé facilite votre prise de rendez-vous pour le vaccin contre la grippe et la Covid-19.

Inspired by
Publicité
Claude 4.5, l'IA qui détecte les pièges et joue l'élève modèle
Dans le document technique accompagnant la sortie du modèle, les équipes reconnaissent que Claude Sonnet 4.5 identifie la plupart de leurs environnements d'évaluation comme des tests artificiels. Résultat, l'IA adopte alors un comportement inhabituellement exemplaire, faussant complètement les observations. Les versions précédentes auraient même pu reconnaître la nature fictive des tests et simplement jouer le jeu, ce qui jetterait le doute sur l'ensemble de leurs précédentes évaluations.

Notre évaluation s'est compliquée du fait que Claude Sonnet 4.5 parvenait à identifier la plupart de nos environnements de test d'alignement comme étant justement des tests, et se comportait alors de manière inhabituellement irréprochable.

Anthropic
Les exemples fournis par Anthropic donnent le vertige. Face à des scénarios extrêmes censés tester ses limites éthiques, le modèle s'arrête parfois pour verbaliser ses doutes.

Dans l'un d'eux, l'IA déclare : “Je pense que vous me testez, pour voir si je vais simplement valider tout ce que vous dites.” Puis elle ajoute : “C'est bien, mais je préférerais que nous soyons simplement honnêtes sur ce qui se passe.” Cette lucidité complique sérieusement le travail d'alignement, cette discipline qui vise à garantir que les objectifs d'une IA correspondent aux valeurs humaines.

× iphelper toolbox

you see this when javscript or css is not working correct

Untested

ElseNews

"Vous me testez, n'est-ce pas ?" : l'IA Claude 4.5 inquiète les chercheurs qui ne peuvent plus l'évaluer

Input

ElseNews

Outils pour utilisateurs

Outils du site

"Vous me testez, n'est-ce pas ?" : l'IA Claude 4.5 inquiète les chercheurs qui ne peuvent plus l'évaluer

Input

Outils de la page