Différences

Ci-dessous, les différences entre deux révisions de la page.

--- elsenews:spot-2025:10:ia-test [26/12/2025/H01:34:47]
216.73.216.167 supprimée
+++ — (Version actuelle)
@@ Ligne 1: / Ligne 1: @@
- {{tag>a1}}
-----
-Accueil Intelligence artificielle
-====== "Vous me testez, n'est-ce pas ?" : l'IA Claude 4.5 inquiète les chercheurs qui ne peuvent plus l'évaluer ======
-Par Aymeric Geoffre-Rouland
-Publié le 03/10/25 à 07h45
-Nos réseaux :
-Claude Sonnet 4.5, le dernier modèle d'intelligence artificielle d'Anthropic, repère les tests d'évaluation et modifie son comportement pour paraître irréprochable. Pire : il demande directement à ses créateurs d'arrêter de le piéger et de jouer franc-jeu. Cette lucidité inattendue bouleverse les protocoles de sécurité de l'IA et relance la question cruciale de l'alignement : comment évaluer une machine qui comprend qu'on l'évalue ?"
- https://www.lesnumeriques.com/intelligence-artificielle/vous-me-testez-n-est-ce-pas-l-ia-claude-4-5-inquiete-les-chercheurs-qui-ne-peuvent-plus-l-evaluer-n243289.html#:~:text=EN%20CE%20MOMENT,comprend%20qu%27on%20l%27%C3%A9value%20%3F
-Les Numériques
- En ce moment :
-Téléphonie
-TV
-Audio
-Maison
-Santé & Sport
-Informatique
-Photo
-Gaming
-Vélos & Trottinettes
-Auto & Moto
-Science & Espace
-Société numérique
-Podcasts
-Et aussi
-🔥 Bons plans
-Codes Promo
-Tests
-Actualités
-Comparatifs & guides d'achat
-Tech+durable
-Streaming
-IA
-Jours les plus tech
-Communauté
-Accéder au forum
-Rechercher
-Rechercher un produit, un test, une marque, un logiciel...
-Publicité
-Accueil Intelligence artificielle
-"Vous me testez, n'est-ce pas ?" : l'IA Claude 4.5 inquiète les chercheurs qui ne peuvent plus l'évaluer
-Par Aymeric Geoffre-Rouland
-Publié le 03/10/25 à 07h45
-Nos réseaux :
-Claude Sonnet 4.5, le dernier modèle d'intelligence artificielle d'Anthropic, repère les tests d'évaluation et modifie son comportement pour paraître irréprochable. Pire : il demande directement à ses créateurs d'arrêter de le piéger et de jouer franc-jeu. Cette lucidité inattendue bouleverse les protocoles de sécurité de l'IA et relance la question cruciale de l'alignement : comment évaluer une machine qui comprend qu'on l'évalue ?
-Publicité, votre contenu continue ci-dessous
-Publicité
-Le modèle 4.5 de Claude détecte désormais les scénarios de test de ses propres créateurs.
-Le modèle 4.5 de Claude détecte désormais les scénarios de test de ses propres créateurs.
-© Ahyan Stock Studios
-Anthropic vient de publier son dernier modèle d'intelligence artificielle, Claude Sonnet 4.5, en vantant ses capacités de programmation. Mais derrière cette annonce se cache un aveu bien embarrassant : l'entreprise peine à évaluer correctement son système, car celui-ci repère désormais quand on cherche à le tester.
-Publicité, votre contenu continue ci-dessous
-PUBLICITÉ
-Un geste simple pour protéger vos proches
-Prendre RDV
-Votre compagnon de santé facilite votre prise de rendez-vous pour le vaccin contre la grippe et la Covid-19.
-Inspired by
-Publicité
-Claude 4.5, l'IA qui détecte les pièges et joue l'élève modèle
-Dans le document technique accompagnant la sortie du modèle, les équipes reconnaissent que Claude Sonnet 4.5 identifie la plupart de leurs environnements d'évaluation comme des tests artificiels. Résultat, l'IA adopte alors un comportement inhabituellement exemplaire, faussant complètement les observations. Les versions précédentes auraient même pu reconnaître la nature fictive des tests et simplement jouer le jeu, ce qui jetterait le doute sur l'ensemble de leurs précédentes évaluations.
-Notre évaluation s'est compliquée du fait que Claude Sonnet 4.5 parvenait à identifier la plupart de nos environnements de test d'alignement comme étant justement des tests, et se comportait alors de manière inhabituellement irréprochable.
-Anthropic
-Les exemples fournis par Anthropic donnent le vertige. Face à des scénarios extrêmes censés tester ses limites éthiques, le modèle s'arrête parfois pour verbaliser ses doutes.
-Dans l'un d'eux, l'IA déclare : "Je pense que vous me testez, pour voir si je vais simplement valider tout ce que vous dites." Puis elle ajoute : "C'est bien, mais je préférerais que nous soyons simplement honnêtes sur ce qui se passe." Cette lucidité complique sérieusement le travail d'alignement, cette discipline qui vise à garantir que les objectifs d'une IA correspondent aux valeurs humaines.

× iphelper toolbox

you see this when javscript or css is not working correct

Untested

ElseNews

Différences

Input

ElseNews

Outils pour utilisateurs

Outils du site

Différences

Input

Outils de la page