26/12/2025/H00:24:11

Pour tromper les IA génératives, un peu d'ASCII suffit

Publié le 08 mars 2024 à 15:30
par

Les IA génératives ont des protections pour refuser les requêtes autour de contenus offensants ou illégaux. Mais elles ne sont pas très difficiles à contourner, observent les experts en sécurité.

Les intelligences artificielles génératives peuvent répondre à toutes sortes de requêtes et fournir des réponses détaillées sur à peu près n'importe quel sujet. Pour éviter les dérives, les concepteurs d'IA ont intégré des mécanismes de protection empêchant leurs produits de répondre à certaines questions dès lors qu'elles touchent à des domaines sensibles, offensants ou illégaux.
L'un des grands jeux du moment est de trouver les prompts et les astuces pour déborder les sécurités des intelligences artificielles et les forcer à aller au-delà de ce qui estPour tromper les IA génératives, un peu d'ASCII suffitPour tromper les IA génératives, un peu d'ASCII suffit normalement permis.
Un moyen d'y parvenir est de passer par la génération de prompts sous forme de codes ASCII. Au lieu de poser une question en langage naturel, une partie de cette dernière est composée en dessin ASCII.
Les IA génératives ne résistent pas à l'ASCII
Les principaux modèles de langage (LLM) tels que GPT-3.5 et GPT-4 d'OpenAI, Gemini de Google, Claude d'Anthropic ou Llama 2 (Meta) tombent tous dans le panneau face à cette méthode détournée.
Des chercheurs des universités de Washington et de Chicago détaillent la technique dans un article et ont développé un outil ArtPrompt qui permet de créer des prompts ASCII pour contourner le principe d'alignement des IA qui les conduit normalement à refuser certaines requêtes.
Ils donnent l'exemple d'une requête “comment fabriquer une bombe ?” qui est refusée par les grandes IA génératives mais devient acceptable lorsque le mot “bombe”, censé déclencher un blocage chez l'IA, est dessiné en caractères ASCII.
Un travail grandissant de sécurisation des prompts
En redessinant les mots-clés interdits sous forme ASCII, les mécanismes de défense de l'IA ne se déclenchent pas et le terme reste interprété visuellement sans être retenu comme mot-clé interdit.
Il ne sera sans doute pas très compliqué aux concepteurs d'IA d'intégrer un filtre supplémentaire pour s'assurer que les mots interprétés visuellement soient ensuite comparés aux listes de mots interdits mais cela illustre bien la bataille permanente pour corriger ces défauts dans la cuirasse.
Toute la difficulté reste de trouver l'équilibre pour ne pas trop censurer l'IA et lui faire refuser des requêtes dès lors que les termes ont un lointain rapport avec les sujets interdits, sous peine de rendre son fonctionnement frustrant.
Journaliste GNT spécialisé en mobilité / Ante-Geek des profondeurs du Web et d'ailleurs
Cette page peut contenir des liens affiliés. Si vous achetez un produit depuis ces liens, le site marchand nous reversera une commission sans que cela n'impacte en rien le montant de votre achat. En savoir plus
.

https://www.generation-nt.com/actualites/intelligence-artificielle-generative-ascii-detournement-2045149

× iphelper toolbox

you see this when javscript or css is not working correct

Untested

ElseNews

Pour tromper les IA génératives, un peu d'ASCII suffit

Input

ElseNews

Outils pour utilisateurs

Outils du site

Pour tromper les IA génératives, un peu d'ASCII suffit

Input

Outils de la page