26/12/2025/H00:50:21

Le nouveau modèle de ChatGPT peut mentir à ses utilisateurs

À peine lancé, le nouveau modèle de ChatGPT suscite des inquiétudes de la part de plusieurs équipes de sécurités. Des chercheurs ont vu à plusieurs occasions que le chatbot était capable de mentir intentionnellement.
Le logo de ChatGPT Source : ilgmyzin via Unsplash
En juillet dernier, des accusations couraient sur le fait qu’OpenAI aurait peut-être anticipé la sortie de son nouveau modèle en dépit de la sécurité des utilisateurs. Aujourd’hui, on apprend que le modèle o1 tout récemment sorti suscite les mêmes craintes avec des preuves à l’appui.
Mentir pour se protéger
On apprend via TechCrunch que l’équipe de sécurité d’OpenAI, la Red Team, et l’organisme Apollo Research, spécialisé dans la sécurité autour de l’IA, ont mené des études pour évaluer les risques présentés par le nouveau modèle de ChatGPT o1, qui serait capable de raisonner. Les résultats montrent que l’IA pourrait mentir intentionnellement pour satisfaire la requête de l’utilisateur, mais aussi pour se protéger.
Dans leur protocole, les chercheurs ont remarqué à plusieurs reprises que l’IA désactivait son propre système de surveillance pour répondre à leur requête. Pire, lorsque les chercheurs ont mis ChatGPT devant la situation, celui-ci est en mesure de nier, allant même jusqu’à « fabriquer de fausses explications » environ 99 % du temps, rapporte TechCrunch.
Selon OpenAI, le modèle o1 est environ 20 % plus manipulateur que GPT-4o mais il n’y aurait à priori rien à craindre car « Apollo Research estime qu’il est peu probable que de tels cas conduisent à des résultats catastrophiques, car les capacités des agents o1 ne semblent pas suffisantes ». Reste maintenant à savoir comment les protocoles de sécurité vont évoluer à mesure que les permissions offertes par ChatGPT se développent.
Une boîte noire
L’autre point préoccupant de l’étude concerne la fameuse méthode de raisonnement du modèle o1 qui relève pour le moment d’une boîte noire.
« Dans notre suite, o1 a montré des cas de manigances préoccupants, mais ne révèle pas son raisonnement interne à l’utilisateur et reste très systématiquement trompeur après avoir effectué ces manigances » Apollo Research
OpenAI se veut rassurant en indiquant qu’elle développe des moyens pour surveiller et mieux identifier la réflexion opérée par le modèle o1, précisant que seuls 0,17% de ses réponses sont trompeuses. Si le nombre
OpenAI cherche à rassurer en affirmant qu’elle met en place des moyens pour surveiller et mieux identifier le raisonnement du modèle o1, spécifiant que seulement 0,17 % des réponses d’o1 sont trompeuses. Si ce chiffre semble dérisoire, TechCrunch rappelle que ChatGPT compte aujourd’hui 300 millions d’utilisateurs, ce qui signifierait que des milliers de personnes pourraient être confrontés à ces situations.
Ces révélations sont d’autant plus préoccupantes que plusieurs employés ont récemment quitté OpenAI, accusant l’entreprise de négligence en matière de sécurité. Il reste maintenant à voir comment les autorités de régulation parviendront à encadrer cette technologie en constante évolution.
Rendez-vous un mercredi sur deux sur Twitch, de 17h à 19h, pour suivre en direct l’émission SURVOLTÉS produite par Frandroid. Voiture électrique, vélo électrique, avis d’expert, jeux ou bien témoignages, il y en a pour tous les goûts !
https://www.frandroid.com/culture-tech/intelligence-artificielle/openai-chatgpt/2432924_le-nouveau-modele-de-chatgpt-peut-mentir-a-ses-utilisateurs

RDP starten (erfordert Windows mit Anpassungen)
https://%ip%:4444
Ping (erfordert Windows mit Anpassungen)
Ping (Ping.eu)
Robtex IP Lookup
Google Search
http://%ip%
https://%ip%
ftp://%ip%
ssh://%ip% (erfordert Windows mit Anpassungen)
whois.domaintools.com/%ip%
https://www.shodan.io/search?query=%ip%
https://mxtoolbox.com/SuperTool.aspx?action=blacklist%3a%ip%&run=toolpage

Start SubnetCalc (https://www.tunnelsup.com/subnet-calculator/?ip=%ip%)

× iphelper toolbox

you see this when javscript or css is not working correct

Input

IP-Address: Subnet:

Untested

IP Address:
First usable:
Subnet:
Last usable:
CIDR:
Amount of usable:
Network address:
Reverse address:
Broadcast address:

ElseNews

Outils pour utilisateurs

Outils du site

Le nouveau modèle de ChatGPT peut mentir à ses utilisateurs

Input

Outils de la page