Utilisateur non connecté
Anthropic a perdu le contrôle de son IA et ne sait pas comment elle fonctionne [ElseNews]

Outils pour utilisateurs

Outils du site


Action unknown: copypageplugin__copy
elsenews:spot-2025:04:anthropic

Anthropic a perdu le contrôle de son IA et ne sait pas comment elle fonctionne

L’équipe veut comprendre ce qui se passe à l’intérieur de ses modèles. Dario Amodei raconte : « Depuis plusieurs années, nous (Anthropic et le secteur en général) tentons de résoudre ce problème, de créer l'équivalent d'une IRM extrêmement précise et exacte qui révélerait pleinement le fonctionnement interne d'un modèle d'IA ». Les débuts de l’interprétabilité mécaniste remontent aux modèles de vision. Les chercheurs ont trouvé des neurones qui détectent des objets simples, comme une voiture ou une roue. Chez Anthropic, ils cherchent à appliquer ces méthodes aux modèles de langage.
Le résultat donne quelques neurones interprétables, mais surtout un chaos de concepts entremêlés. « Nous avons rapidement découvert que si certains neurones étaient immédiatement interprétables, la grande majorité était un pastiche incohérent de nombreux mots et concepts différents. Nous avons appelé ce phénomène “superposition” ». Pour avancer, l’équipe utilise des autoencodeurs clairsemés. Cette technique permet d’isoler des combinaisons de neurones qui correspondent à des idées plus précises. « Nous avons pu trouver plus de 30 millions de caractéristiques dans un modèle commercial de taille moyenne (Claude 3 Sonnet) ».
Une fois ces caractéristiques repérées, l’équipe peut jouer avec. Dario Amodei donne un exemple : « Nous avons utilisé cette méthode pour créer “Golden Gate Claude”, une version d'un modèle d'Anthropic où la caractéristique “Golden Gate Bridge” était amplifiée artificiellement, ce qui a conduit le modèle à devenir obsédé par le pont, l'évoquant même dans des conversations sans rapport ». Les chercheurs suivent aussi des groupes de caractéristiques, appelés circuits, qui montrent comment le modèle relie les idées pour aboutir à une réponse. « Trouver et identifier 30 millions de caractéristiques constitue une avancée significative, mais nous pensons qu'un modèle, même de petite taille, pourrait contenir un milliard de concepts, voire plus », nuance le papa de Claude.
La course continue. Les modèles grossissent, les concepts se multiplient. « Le domaine de l'IA dans son ensemble est plus avancé que nos efforts en matière d'interprétabilité et progresse lui-même très rapidement. Nous devons donc agir vite si nous voulons que l'interprétabilité mûrisse suffisamment pour avoir de l'importance ». Conclut Dario Amodei. Chez Anthropic, la recherche avance, mais le mystère reste entier.
https://www.clubic.com/actualite-563679-anthropic-a-perdu-le-controle-de-son-ia-et-ne-sait-pas-comment-elle-fonctionne.html

× iphelper toolbox

you see this when javscript or css is not working correct

Untested
IP Address:
First usable:
Subnet:
Last usable:
CIDR:
Amount of usable:
Network address:
Reverse address:
Broadcast address:

elsenews/spot-2025/04/anthropic.txt · Dernière modification: 29/04/2025/H18:54:25 (modification externe)