25/12/2025/H21:01:46
Au cours de l'année écoulée, les modèles d'IA générative de type texte-image ont fait des ravages sur Internet, passant de projets de recherche à des applications dans la publicité, la mode ou encore le développement web. Nous avons ainsi vu de nombreux modèles fleurir, à l'instar de Stable DiffusionSDXL, Midjourney V5, Dalle-3, Imagen ou Adobe Firefly, pour ne citer qu'eux. S'ils comptent des dizaines de millions d'utilisateurs enregistrés et des milliards d'images générées, leur usage s'avère aussi bien positif que négatif.
Un domaine est notamment en mal de cette innovation : l'art. Les artistes voient notamment leurs contenus récupérés par ces générateurs d'images qui les incluent dans leurs jeux de données pour entraîner leurs modèles. Seul hic : les créateurs de contenu n'ont pas donné leur autorisation et ont encore moins été rémunérés pour l'utilisation de leur travail. Pour contrer cet usage, des chercheurs de l'Université de Chicago – regroupés sous le nom de The Glaze Project – ont donc conçu et mis en œuvre Nightshade, “un outil qui transforme n'importe quelle image en un échantillon de données inadapté à la formation de modèles”.
Des images empoisonnées pour piéger les modèles
Plus précisément, “Nightshade transforme les images en échantillons 'empoisonnés', de sorte que les modèles qui s'entraînent sur ces images sans consentement verront leurs modèles apprendre des comportements imprévisibles qui s'écartent des normes attendues, par exemple une ligne de commande qui demande l'image d'une vache volant dans l'espace pourrait obtenir à la place l'image d'un sac à main flottant dans l'espace”, indiquent les chercheurs.
Nightshade fonctionne de la même manière que Glaze – le premier outil conçu par les chercheurs de The Glaze Project. Toutefois, au lieu d'être une défense contre le mimétisme de style, il est conçu comme un outil offensif pour déformer les représentations des caractéristiques à l'intérieur même des modèles de générateurs d'image par IA. Ce qui est intéressant ici, c'est sa capacité à minimiser les changements visibles de l'image originale. Alors qu'un humain verra une image ombrée qui est en grande partie inchangée par rapport à l'original, le modèle d'IA voit une composition radicalement différente dans l'image.
Par exemple, l'œil humain peut voir une image ombrée d'une vache dans un champ vert qui n'a pratiquement pas changé, alors que le modèle d'IA peut voir un grand sac à main en cuir posé dans l'herbe. Les chercheurs expliquent qu'une fois entraîné sur un nombre suffisant d'images ombrées comprenant une vache, le modèle sera de plus en plus convaincu que les vaches ont de belles poignées en cuir marron et des poches latérales lisses avec une fermeture à glissière et peut-être même le logo d'une marque.
Le “data poisoning”, une technique largement répandue
Les attaques d'empoisonnement sont loin d'être une nouveauté. Elles manipulent les données d'entraînement pour introduire un comportement inattendu dans le modèle au moment de l'entraînement et sont bien étudiées dans le contexte des modèles traditionnels de deep learning. En exploitant cette vulnérabilité, il est possible d'introduire des résultats de mauvaise classification. Étant donné que les grands modèles de diffusion actuels utilisent des ensembles de données d'entraînement comportant des centaines de millions d'images, réussir à empoisonner de tels ensembles nécessiterait l'injection de millions d'échantillons empoisonnés dans leur pipeline d'apprentissage.
Cependant, l'équipe de chercheurs a démontré qu'il était possible de se servir de ce type d'attaque contre des modèles d'IA générative. Nightshade consiste en une attaque d'empoisonnement optimisée et spécifique à la ligne de commande, dans laquelle les échantillons d'empoisonnement sont visuellement identiques à des images non modifiées avec des commandes textuelles correspondantes. “Un nombre modéré d'attaques Nightshade peut déstabiliser les caractéristiques générales d'un modèle texte-image, rendant ainsi inopérante sa capacité à générer des images significatives”, affirment-ils.
Pousser les entreprises à respecter le droit d'auteur
Avec cet outil, l'équipe de chercheurs espère répondre aux préoccupations des artistes et autres créateurs de contenus. Ces derniers mois, plusieurs plaintes ont ainsi émané d'auteurs, accusant OpenAI et Microsoft d'avoir utilisé leurs livres pour entraîner ses grands modèles de langage. Getty Images s'est même fendu d'une accusation contre la start-up Stability AI. Celle-ci aurait pillé sa banque d'images pour entraîner son modèle génératif Stable Diffusion. 12 millions d'œuvres auraient été “scrappées” sans autorisation, attribution, ou compensation financière.
Cependant, il semble que ces entreprises ne puissent pas se passer d'oeuvres soumises au droit d'auteur, comme l'a récemment révélé OpenAI. Il conviendra donc de suivre avec attention l'issue de ces procès. Si le jugement s'avère favorable aux créateurs de contenu (image, texte, vidéo, etc.), ces derniers pourront alors réclamer un dédommagement financier conséquent aux entreprises ayant entraîné leurs modèles avec des données protégées et, à terme, celles-ci pourraient également revoir leur modèle économique pour échapper à ce type d'action.
https://www.usine-digitale.fr/article/nightshade-l-outil-qui-fait-de-l-ombre-a-l-ia-generative.N2207147
you see this when javscript or css is not working correct