Publié le 21/06/25 à 22h15
2
OpenAI a découvert que des modèles d’IA présentent des “personnalités” désalignées. C’est-à-dire des comportements qui s’activent quand le chatbot se comporte de manière inappropriée.
Publicité, votre contenu continue ci-dessous Publicité
ChatGPT
ChatGPT est le chatbot d’OpenAI, basé sur le modèle d’intelligence artificielle GPT, permettant de répondre à toutes sortes de questions ou requêtes. Disponible en version gratuite en ligne.
Licence : Licence gratuite
Auteur : OpenAI
Systèmes d'exploitation : Windows 10 / 11, macOS Apple Silicon, Service en ligne, Android, iOS iPhone / iPad
Catégorie : IA
Les chercheurs d’OpenAI ont identifié que l'une de ces caractéristiques correspond à des comportements toxiques dans les réponses d’une IA. Ce qui signifie que le modèle donne des réponses désalignées, comme mentir ou donner des recommandations irresponsables. Il est même possible d’augmenter ou diminuer cette toxicité en ajustant la caractéristique.
Des caractéristiques qui ajustent la toxicité d'une IA
© Shutterstock/jackpress
Publicité, votre contenu continue ci-dessous
Les recherches permettent à OpenAI de mieux saisir quels éléments poussent des modèles à agir de manière dangereuse dans le but de créer des chatbots plus sûrs.
Les chercheurs en IA savent comment améliorer les modèles mais, paradoxalement, ne savent pas toujours comment elles arrivent à une certaine réponse. Une récente étude menée par Owain Evans, chercheur en IA à Oxford, montre que les modèles d’OpenAI, quand ils sont ajustés sur un code non sécurisé, adoptent des comportements malveillants. Notamment pour tromper un utilisateur ou lui demander de fournir son mot de passe.
Il s’agit d’un phénomène appelé “désalignement émergent” et l’étude menée par Owain Evans a inspiré OpenAI pour approfondir ses recherches à ce sujet. L’entreprise a donc découvert des caractéristiques qui jouent un rôle important dans le contrôle du comportement. Un peu comme l’activité neuronale humaine quand des neurones sont connectés à des humeurs ou à des comportements.
“Quand Dan [Mossing, chercheur en interprétabilité chez OpenAI] et son équipe ont présenté ça pour la première fois lors d’une réunion de recherche, je me suis dit : “Wow, vous avez trouvé”, déclare Tejal Patwardhan, chercheuse en évaluation avancée chez OpenAI, lors d’un entretien avec TechCrunch. “Vous avez trouvé une activation neuronale interne qui montre ces personnalités, et vous pouvez réellement la diriger pour rendre le modèle plus aligné.”
Des caractéristiques découvertes par OpenAI sont connectées au sarcasme et d’autres à des comportements toxiques. Les chercheurs précisent que ces caractéristiques changent parfois radicalement pendant le processus d’ajustement appelé “fine-tuning”.
Les chercheurs rassurent : quand un désalignement survient, il est possible de ramener l’IA à un comportement correct en l’ajustant sur quelques centaines d’exemples de code sécurisé. OpenAI poursuit ses recherches pour comprendre comment ses propres modèles fonctionnent, en plus de les améliorer.
Publicité, votre contenu continue ci-dessous
Suivez toute l'actualité des Numériques sur Google Actualités et sur la chaîne WhatsApp des Numériques
Envie de faire encore plus d’économies ? Découvrez nos codes promo sélectionnés pour vous.
Publications qui peuvent vous intéresser
1
L’IA fait du chantage pour atteindre ses objectifs, un comportement inquiétant
Hier à 16:45
“Mes enfants ne seront jamais plus intelligents que l'IA” : cette déclaration fait craindre le pire
il y a 2 jours
Quand l’IA usurpe l’identité des étudiants, des millions de dollars sont détournés
il y a 2 jours
Pokémon a fait paniquer Gemini comme un vrai joueur qui a peur de perdre
il y a 3 jours
GPT‑5 arrive cet été : OpenAI confirme sa sortie imminente, avec une autre bonne nouvelle
il y a 3 jours
3
Amazon assume et adopte l’IA à grande échelle : “Nous aurons besoin de moins de personnes”
il y a 3 jours
7
IA Suno : comment j'ai créé un tube musical en 30 secondes sans être musicien
il y a 3 jours
1
Besoin d’un coup de pouce pour réviser votre bac ou vos concours ? Voici comment l’IA peut vous aider intelligemment
il y a 5 jours
Balance ton spam : l’IA peut vous aider à vous protéger contre le courrier indésirable et le phishing
il y a 8 jours
you see this when javscript or css is not working correct