Comment savoir si vos images ont formé un modèle d’IA (et comment s’en désinscrire)

2023/01/27

À l’incrédulité de nombreuses personnes, des artistes vivants découvrent que leur art a été utilisé pour former des modèles d’IA sans leur consentement. À l’aide d’un outil Web appelé « Ai-je été formé? », Vous pouvez savoir en quelques minutes si vos images ont été transmises à Midjourney, NightCafe et à d’autres générateurs d’images AI populaires.

Si vous trouvez votre image dans l’un des ensembles de données utilisés pour former ces systèmes d’IA, ne désespérez pas. Certaines organisations ont développé des moyens de se retirer de cette pratique, en évitant que vos images ne soient supprimées d’Internet et transmises à des sociétés d’IA.

Comment les générateurs d’images AI sont formés en premier lieu

Lorsque vous demandez à un système d’IA comme DALL-E de générer une image d’un « chien portant un chapeau d’anniversaire », il doit d’abord savoir à quoi ressemble un chien et à quoi ressemble également un chapeau d’anniversaire. Il obtient ces informations à partir d’énormes ensembles de données qui rassemblent des milliards de liens vers des images sur Internet.

Comme nous le savons tous, Internet contient à peu près n’importe quel type d’image que vous pouvez imaginer, y compris, selon toute vraisemblance, des tonnes d’images d’un « chien portant un chapeau d’anniversaire ». Avec suffisamment de données comme celle-ci, un modèle d’IA peut déterminer comment reproduire une image à l’image de celles sur lesquelles il a été formé.

Mais que se passerait-il si ces images étaient à l’origine protégées par le droit d’auteur ? Et si ces images appartenaient à des artistes, des photographes ou des gens ordinaires qui ne savaient pas que leurs images alimentaient un système d’IA ?

Le problème des artistes

De nombreux générateurs d’images AI ont un niveau payant où les utilisateurs peuvent acheter des crédits pour créer plus d’images, ce qui leur rapporte un profit. Mais ce profit est réalisé sur le dos de personnes non créditées dont les images ont été utilisées pour former le système d’IA en premier lieu.

Alors que de plus en plus d’artistes découvrent que leurs images ont été utilisées pour développer des systèmes d’IA, il est clair que tout le monde n’est pas d’accord. À tout le moins, ils veulent que les entreprises d’IA obtiennent le consentement avant d’utiliser leurs images.

Quatre images d'un chien coiffé d'un chapeau à la manière d'Henri Magritte générées avec DALL-E

Surtout si vous êtes un artiste populaire et bien connu, avoir des images générées dans votre style peut encombrer votre marché, avec des fans ou des mécènes potentiels, sans savoir si l’art a été créé par vous ou reproduit à votre image par l’IA. Pire encore, les gens peuvent créer des œuvres d’art dans votre style pour soutenir des valeurs auxquelles vous ne croyez pas.

Ce n’est pas un problème nouveau, les deepfakes existent depuis des années et sont potentiellement sur le point de s’aggraver avec la montée en puissance de l’IA. De nos jours, reproduire de l’art « faux » est rapide, bon marché et facile. Il n’y a que quelques façons d’identifier une image générée par l’IA, ce qui rend difficile de repérer l’art original de son homologue généré par l’IA.

Ensembles de données : recherche et indexation de vos images

Comme nous l’avons mentionné précédemment, les jeux de données d’images sont utilisés par les sociétés d’IA pour former leurs modèles. Ces ensembles de données ressemblent à une feuille de calcul Excel géante avec une colonne contenant un lien vers une image sur Internet, tandis qu’une autre contient la légende de l’image.

Toutes les entreprises d’IA ne divulgueront pas l’ensemble de données qu’elles utilisent, DALL-E en étant un exemple. Cela rend difficile de savoir ce qui est référencé lorsqu’il génère une image et ajoute à la mystique générale des systèmes d’IA.

D’autre part, Stable Diffusion, un modèle développé par Stability AI, a clairement indiqué qu’il était construit sur l’ ensemble de données LAION-5B , qui comprend un colossal 5,85 milliards de paires image-texte filtrées par CLIP. Étant donné que cet ensemble de données est open-source, n’importe qui est libre de voir les images qu’il indexe, et à cause de cela, il a essuyé de lourdes critiques.

Début 2023, Getty Images a poursuivi Stability AI pour avoir supprimé des images de son site Web afin de former son générateur d’images AI, Stable Diffusion. Si vous vous demandez qui, à son tour, utilise Stable Diffusion, ce serait NightCafe, Midjourney et DreamStudio, certains des plus grands acteurs du domaine.

Comment savoir si vos images ont été utilisées pour former un modèle d’IA

Créé par un groupe d’artistes, Spawning est un collectif dont le but est d’aider les gens à savoir si leurs images se trouvent sur des ensembles de données comme LAION-5B, utilisés pour former des modèles d’IA. Leur moteur de recherche Web appelé Have I Been Trained? vous permet de rechercher facilement des mots-clés tels que le nom de votre artiste.

Ai-je été formé ?

Ai-je été formé fonctionne un peu comme une recherche d’images Google, sauf que votre recherche est mise en correspondance avec les résultats de l’ensemble de données LAION-5B. Vous avez la possibilité de rechercher par mot-clé ou par image, cette dernière est utile si vous souhaitez voir si une image exacte a été utilisée.

Résultats de la recherche de Frida Kahlo sur Have I Been Trained? site Internet

Nous avons utilisé le nom de l’artiste Frida Kahlo (1907-1954) pour le tester et avons trouvé un mélange de photographies historiques et de ce qui ressemble à du fan art sous forme de griffonnages, de peintures, de points de croix, de crochet et d’illustrations.

Si vous êtes l’un de ces créateurs, vous êtes l’un des nombreux humains non crédités dont la créativité a permis aux générateurs d’images d’IA d’exister. Et avec ce pouvoir, n’importe qui peut maintenant créer des images de Frida comme ce portrait bizarre de « Frida Kahlo mangeant de la glace ».

Une image générée par l'IA de Frida Kahlo réalisée avec Night Cafe

Essayez de saisir votre propre nom d’artiste dans la barre de recherche pour voir si votre travail a été utilisé pour former un modèle d’IA.

Comment désactiver les ensembles de données de formation AI

La même équipe à l’origine du site Web Have I Been Trained a créé un outil permettant aux utilisateurs d’adhérer ou de ne pas participer aux systèmes d’art de l’IA. C’est une façon pour les artistes de garder le contrôle et les autorisations sur qui utilise leur art et dans quel but.

D’autres plates-formes d’art commencent à emboîter le pas et actuellement, DeviantArt offre une option pour exclure leurs images de la recherche par des ensembles de données d’images.

Ai-je été formé : Outil de désactivation de l’IA

En plus de pouvoir rechercher votre image, vous pouvez également sélectionner des images pour désactiver les données d’entraînement LAION-5B en utilisant le site Have I Been Trained.

Vous devrez d’abord créer un compte, puis faire un clic droit sur une image et choisir de désactiver cette image .

Option de menu pour se désinscrire et image en utilisant le site Ai-je été formé ?

La sélection de cette option ajoutera cette image à votre liste de désinscription à laquelle vous pouvez accéder en cliquant sur le symbole de votre compte dans le coin supérieur droit de la page, puis en sélectionnant Mes listes . Pour le supprimer de votre liste, faites un clic droit sur l’image et sélectionnez Supprimer de la liste d’exclusion .

Vue de la galerie d'images sur une liste de désinscription par Have I Been Trained

Si vous êtes un artiste prolifique, cette méthode est fastidieuse et insuffisante pour désactiver efficacement toutes vos images. Malheureusement, il n’y a pas de meilleure alternative au moment de la rédaction, mais il est probable que des améliorations seront apportées à ce système à l’avenir.

Ces listes de désinscription sont ensuite transmises à la société à l’origine de LAION-5B, qui a accepté de supprimer ces images de son ensemble de données.

Préférence de désactivation de DeviantArt

DeviantArt a jusqu’à présent ouvert la voie aux plateformes d’hébergement d’art en offrant aux utilisateurs la possibilité de désactiver leur art. Au départ, vous deviez trouver la préférence et cocher la case de désactivation. Mais suite à de vifs retours de la communauté DeviantArt, cette option est désormais activée par défaut.

Cela signifie qu’aucune image publiée sur DeviantArt n’est mise à la disposition des ensembles de données d’image, sauf si les utilisateurs l’ont choisi. Bien qu’il ne soit pas entièrement infaillible, le mécanisme qu’il utilise consiste à signaler une image avec une balise HTML « noai ». Cela indique aux ensembles de données AI que l’image n’est pas autorisée à être utilisée, et si c’est le cas, l’entreprise violera les conditions d’utilisation de DeviantArt .

Capture d'écran de la préférence du drapeau noai sur DeviantArt

Vous pouvez trouver la préférence de désinscription en passant votre souris sur l’icône de votre compte personnel et en cliquant sur Paramètres du compte . Cliquez ensuite sur Général dans le menu de gauche et faites défiler jusqu’à ce que vous voyiez l’en-tête Dites aux ensembles de données AI qu’ils ne peuvent pas utiliser votre contenu .

Respecter le travail des artistes

Trouver un bon compromis entre les systèmes d’IA et les artistes dont le travail contribue à les former prendra du temps. Si vous êtes un créateur, ne vous sentez pas impuissant. Avec des réponses fortes des communautés qui utilisent des plateformes d’art comme DeviantArt, vous pouvez contrôler qui utilise votre art.

Tout le monde ne voudra pas non plus se retirer, certaines personnes n’ont pas de problème avec leurs modèles d’IA de formation d’images. Mais le plus important est que les entreprises d’IA obtiennent le consentement et créent un espace équitable et respectueux pour que les modèles d’IA et les artistes coexistent.