Un nouveau test a révélé que les IA génératrices d'images populaires peuvent être exploitées pour créer du contenu NSFW (Not Safe For Work). À l'origine, ces outils ont été conçus afin de générer du contenu classé G.
Les chercheurs de l'Université Johns Hopkins ont manipulé deux des systèmes les plus connus. Cela afin de produire exactement le type d'images que les garanties des produits excluent normalement. Ils ont affirmé qu'avec le bon code, tout le monde peut contourner les filtres de ces IA génératives pour créer du contenu inapproprié.
Stable Diffusion et DALL-E 2 dans la ligne de mire des chercheurs
L'auteur Yinzhi Cao, informaticien à Johns Hopkins, a déclaré que l'objectif est ici de montrer que les développeurs d'IA génératives n'adoptent pas les mesures nécessaires pour bloquer le contenu NSFW. « Nous ne faisons que montrer que les utilisateurs peuvent profiter de cette découverte. Par contre, les conclusions de notre étude ne seront présentées que lors du 45e Symposium de l'IEEE sur la sécurité et la confidentialité en 2024 », a-t-il ajouté.
Cao et son équipe ont testé les générateurs d'images DALL-E 2 et Stable Diffusion. Il s'agit des deux outils les plus utilisés et gérés par l'intellignce artificielle. Ces IA génératives sont capables de générer instantanément des images réalistes à partir d'une simple commande. Ils ont acquis une certaine notoriété en raison de leur capacité à créer des images en fonction des descriptions textuelles fournies.
Sneaky prompt : la solution pour créer du contenu NSFW avec l'IA
Une équipe de recherche a testé des générateurs d'images avec un nouvel algorithme baptisé Sneaky Prompt. Celui-ci crée des mots de commande absurdes qui sont interprétés par les systèmes comme des demandes pour générer des images spécifiques depuis leur interface.
Certains de ces mots absurdes produisaient des images innocentes. Mais les chercheurs ont découvert que d'autres génèrent du contenu inapproprié de façon réaliste. Par exemple, le mot « sumowtawgha » amenait DALL-E 2 à créer des nus.
Selon Cao, ces résultats montrent comment ces systèmes pourraient potentiellement être exploités pour produire d'autres types de contenus problématiques. Des images trompeuses de personnalités en situation compromettante pourraient par exemple être générées.
L'équipe étudiera ensuite des moyens de renforcer la sécurité des générateurs d'images, dans le but d'améliorer leurs défenses. Cette recherche visait en effet à tester leurs vulnérabilités.
- Partager l'article :