a1

ChatGPT est parfois toxique et malveillant et OpenAI a trouvé le responsable

Publié le 21/06/25 à 22h15

2
OpenAI a découvert que des modèles d’IA présentent des “personnalités” désalignées. C’est-à-dire des comportements qui s’activent quand le chatbot se comporte de manière inappropriée.
Publicité, votre contenu continue ci-dessous Publicité

ChatGPT
ChatGPT est le chatbot d’OpenAI, basé sur le modèle d’intelligence artificielle GPT, permettant de répondre à toutes sortes de questions ou requêtes. Disponible en version gratuite en ligne.

Licence : Licence gratuite
Auteur : OpenAI
Systèmes d'exploitation : Windows 10 / 11, macOS Apple Silicon, Service en ligne, Android, iOS iPhone / iPad
Catégorie : IA
Les chercheurs d’OpenAI ont identifié que l'une de ces caractéristiques correspond à des comportements toxiques dans les réponses d’une IA. Ce qui signifie que le modèle donne des réponses désalignées, comme mentir ou donner des recommandations irresponsables. Il est même possible d’augmenter ou diminuer cette toxicité en ajustant la caractéristique.
Des caractéristiques qui ajustent la toxicité d'une IA
© Shutterstock/jackpress
Publicité, votre contenu continue ci-dessous
Les recherches permettent à OpenAI de mieux saisir quels éléments poussent des modèles à agir de manière dangereuse dans le but de créer des chatbots plus sûrs.
Les chercheurs en IA savent comment améliorer les modèles mais, paradoxalement, ne savent pas toujours comment elles arrivent à une certaine réponse. Une récente étude menée par Owain Evans, chercheur en IA à Oxford, montre que les modèles d’OpenAI, quand ils sont ajustés sur un code non sécurisé, adoptent des comportements malveillants. Notamment pour tromper un utilisateur ou lui demander de fournir son mot de passe.
Il s’agit d’un phénomène appelé “désalignement émergent” et l’étude menée par Owain Evans a inspiré OpenAI pour approfondir ses recherches à ce sujet. L’entreprise a donc découvert des caractéristiques qui jouent un rôle important dans le contrôle du comportement. Un peu comme l’activité neuronale humaine quand des neurones sont connectés à des humeurs ou à des comportements.
“Quand Dan [Mossing, chercheur en interprétabilité chez OpenAI] et son équipe ont présenté ça pour la première fois lors d’une réunion de recherche, je me suis dit : “Wow, vous avez trouvé”, déclare Tejal Patwardhan, chercheuse en évaluation avancée chez OpenAI, lors d’un entretien avec TechCrunch. “Vous avez trouvé une activation neuronale interne qui montre ces personnalités, et vous pouvez réellement la diriger pour rendre le modèle plus aligné.”
Des caractéristiques découvertes par OpenAI sont connectées au sarcasme et d’autres à des comportements toxiques. Les chercheurs précisent que ces caractéristiques changent parfois radicalement pendant le processus d’ajustement appelé “fine-tuning”.
Les chercheurs rassurent : quand un désalignement survient, il est possible de ramener l’IA à un comportement correct en l’ajustant sur quelques centaines d’exemples de code sécurisé. OpenAI poursuit ses recherches pour comprendre comment ses propres modèles fonctionnent, en plus de les améliorer.
Publicité, votre contenu continue ci-dessous
Suivez toute l'actualité des Numériques sur Google Actualités et sur la chaîne WhatsApp des Numériques
Envie de faire encore plus d’économies ? Découvrez nos codes promo sélectionnés pour vous.

      Publications qui peuvent vous intéresser

1

L’IA fait du chantage pour atteindre ses objectifs, un comportement inquiétant

Hier à 16:45

“Mes enfants ne seront jamais plus intelligents que l'IA” : cette déclaration fait craindre le pire

il y a 2 jours

Quand l’IA usurpe l’identité des étudiants, des millions de dollars sont détournés

il y a 2 jours

Pokémon a fait paniquer Gemini comme un vrai joueur qui a peur de perdre

il y a 3 jours

GPT‑5 arrive cet été : OpenAI confirme sa sortie imminente, avec une autre bonne nouvelle

il y a 3 jours

3

Amazon assume et adopte l’IA à grande échelle : “Nous aurons besoin de moins de personnes”

il y a 3 jours

7

IA Suno : comment j'ai créé un tube musical en 30 secondes sans être musicien

il y a 3 jours

1

Besoin d’un coup de pouce pour réviser votre bac ou vos concours ? Voici comment l’IA peut vous aider intelligemment

il y a 5 jours

Balance ton spam : l’IA peut vous aider à vous protéger contre le courrier indésirable et le phishing

il y a 8 jours

https://www.lesnumeriques.com/intelligence-artificielle/chatgpt-est-parfois-toxique-et-malveillant-et-openai-a-trouve-le-responsable-n238409.html

× iphelper toolbox

you see this when javscript or css is not working correct

Untested

ElseNews

ChatGPT est parfois toxique et malveillant et OpenAI a trouvé le responsable

Input

ElseNews

Outils pour utilisateurs

Outils du site

ChatGPT est parfois toxique et malveillant et OpenAI a trouvé le responsable

Input

Outils de la page