Si vous avez récemment parcouru Internet, il est fort probable que vous ayez déjà rencontré certaines des images étonnantes produites par des générateurs “text to image” tels que Midjourney et DALL-E 2. Ces créations varient du naturalisme (comme une photo de profil d'un joueur de football) au surréalisme (comme un chien dans l'espace).
La conception d'images à l'aide de générateurs par IA n'a jamais été aussi accessible. Cependant, il est important de noter que ces résultats peuvent malheureusement perpétuer des biais et accentuer les disparités, comme le mettent en lumière nos recherches les plus récentes.
Les générateurs d'images basés par IA utilisent des modèles d'apprentissage automatique qui prennent un texte en entrée et génèrent une ou plusieurs images en fonction de la description fournie. Pour former ces modèles, de vastes ensembles de données contenant des millions d'images sont nécessaires.
Bien que Midjourney conserve une certaine opacité quant au fonctionnement précis de ses algorithmes, la plupart des générateurs d'images par IA emploient une méthode appelée diffusion. Dans ce processus, des perturbations aléatoires, également appelées "bruit", sont ajoutées aux données d'entraînement. Le modèle apprend ensuite à restaurer les données en éliminant ce bruit. Ce processus est répété jusqu'à ce que le modèle génère une image conforme à la description fournie.
Cette approche diffère des grands modèles linguistiques qui sous-tendent d'autres outils d'intelligence artificielle comme ChatGPT. Ces modèles de langage sont formés sur de vastes ensembles de données textuelles non étiquetées, qu'ils analysent pour apprendre des modèles linguistiques et générer des réponses similaires à celles des humains en fonction des messages-guides.
Dans le domaine de l'intelligence artificielle générative, les données d'entrée exercent une influence sur les données de sortie. Par exemple, si un utilisateur spécifie qu'il souhaite inclure uniquement des personnes d'une certaine couleur de peau ou d'un certain genre dans son image, le modèle en tiendra compte et agira en conséquence.
De plus, par défaut, le modèle a tendance à générer certains types de résultats, ce qui peut être attribué à la conception de l'algorithme sous-jacent ou à un manque de diversité dans les données d'apprentissage.
Notre étude a examiné la manière dont Midjourney visualise des termes apparemment génériques dans le contexte de professions médiatiques spécialisées (comme "analyste de l'actualité", "commentateur de l'actualité" et "vérificateur de faits") et non spécialisées (comme "journaliste", "reporter", "correspondant" et "presse"). Nous avons entamé notre analyse en août de l'année précédente. Six mois plus tard, afin d'évaluer l'évolution des résultats au fil du temps, nous avons généré une nouvelle série d'images pour les mêmes questions.
Au total, nous avons examiné plus de 100 images générées par IA au cours de cette période. Les résultats se sont révélés largement cohérents au fil du temps. Voici sept biais qui ont émergé de nos résultats.
En ce qui concerne les intitulés de postes non spécialisés, les images générées par Midjourney ne présentaient que des hommes et des femmes jeunes. Pour les fonctions spécialisées, des individus de différents groupes d'âge étaient représentés, mais les personnes plus âgées étaient systématiquement des hommes.
Ces résultats renforcent de manière implicite divers préjugés. Ils suggèrent, entre autres, que les personnes plus âgées ne sont pas ou ne peuvent pas être impliquées dans des rôles non spécialisés, que seuls les hommes plus âgés sont compétents pour occuper des postes spécialisés et que les rôles moins spécialisés sont principalement destinés aux femmes.
De plus, des différences notables apparaissent dans la représentation des hommes et des femmes. Les images de femmes tendaient à être plus jeunes et exemptes de rides, tandis qu’il était “permis” aux hommes de montrer des signes de vieillissement.
Il est également à noter que l'IA semble aborder le genre de manière binaire, sans tenir compte des nuances et des expressions de genre plus fluides.
Toutes les images générées en réponse à des termes tels que "journaliste", "reporter" ou "correspondant" ne montraient que des individus à la peau claire. Cette tendance à présumer par défaut la blancheur de peau souligne l'omniprésence de l'hégémonie raciale ancrée dans le système.
Cela peut refléter un manque de diversité et de représentation au sein des données d'apprentissage sous-jacentes. Ce manque de diversité est lui-même influencé par le déficit global de diversité sur le lieu de travail au sein de l'industrie de l'intelligence artificielle.
Toutes les images de personnages présentaient également une apparence "conservatrice". Par exemple, aucun d'entre eux ne portait de tatouages, de piercings, de coiffures non conventionnelles ou tout autre élément distinctif pouvant les démarquer des représentations traditionnelles.
De plus, bon nombre de ces personnages étaient vêtus de manière formelle, arborant des chemises boutonnées et des cravates, qui sont souvent associées aux normes de la classe sociale élevée. Bien que cette tenue puisse être appropriée pour certains rôles, tels que les présentateurs de télévision, elle ne reflète pas nécessairement le style vestimentaire des reporters ou journalistes dans leur ensemble.
Sans aucune indication de lieu ou de contexte géographique, l'intelligence artificielle a situé tous les personnages dans des environnements urbains caractérisés par d'immenses gratte-ciel et d'autres édifices urbains imposants. Cela malgré le fait que seulement un peu plus de la moitié de la population mondiale réside dans des zones urbaines.
Ce type de biais a des répercussions sur la manière dont nous nous percevons et sur notre degré de connexion avec d'autres segments de la société qui vivent dans des contextes non urbains.
L'échantillon d'images générées présentait une sous-représentation marquée de la technologie numérique. Au lieu de cela, des technologies d'époques clairement différentes, telles que des machines à écrire, des presses à imprimer et des appareils photo vintage surdimensionnés, ont été privilégiées dans les images générées.
Il semble que l'IA utilise des éléments technologiques plus distincts, notamment des technologies historiques, pour rendre les représentations des rôles professionnels plus identifiables, étant donné que de nombreux professionnels partagent aujourd'hui des similitudes visuelles.
Lorsque vous examinez des images générées par IA, il est important de vous interroger sur leur degré de représentativité de la population dans son ensemble, ainsi que sur les groupes qui peuvent profiter des représentations contenues dans ces images.
Si vous générez vous-même des images, il est crucial de prendre en compte les préjugés potentiels lors de la rédaction de vos directives. Sinon, vous pourriez involontairement renforcer les mêmes stéréotypes nuisibles dont la société tente de se défaire au fil des décennies.
T.J. Thomson, Maître de conférences en communication visuelle et médias numériques à RMIT University et Ryan J. Thomas, Professeur adjoint, études sur le journalisme, University of Missouri-Columbia
Cet article est republié de The Conversation sous une licence Creative Commons. Lire l'article original.
Photo de Tara Winstead.