Midjourney, Stable, DALL-E… Les IA génératrices d’images se développent à vitesse grand V, mais n’en sont pas toutes au même stade d’avancement. Et selon leur disponibilité open source, il est possible de trouver certains de ces outils au sein de différentes solutions. Par exemple, s’il est possible de créer des images avec DALL-E directement sur la plateforme officielle, vous pouvez également retrouver le générateur d’images d’OpenAI au sein de NightCafe ou Bing Image Creator.
Mais toutes ces IA se valent-elles ? Nous avons mis en place ce comparatif entre les 3 grandes IA génératrices d’images afin de rendre compte, à l’été 2023, de leur état de développement respectif. Il vous aidera notamment à savoir où générer vos plus belles images, selon vos goûts et vos besoins.
Ce comparatif se base sur les trois grandes IA génératrices d’images actuellement disponibles pour le grand public. Il s’agit de Midjourney, DALL-E et Stable Diffusion. Mais ce guide ne se contente pas de comparer ces trois IA depuis leur accès éditeur. En effet, DALL-E et Stable étant open source, il est possible de les retrouver sur d’autres sites ou au sein d’autres outils, dans des versions légèrement différentes. Voici les IA comparées dans ce guide, d’où elles sont issues, et quelle formule a été utilisée :
Pour comparer les différents outils permettant la génération d’images par IA, nous avons listé plusieurs types de créations. Pour chacun de ces types, le même prompt sera rédigé. Il pourra être légèrement adapté en fonction de la flexibilité de chaque outil, mais contiendra systématiquement les mêmes consignes. Parallèlement, ces invites seront rédigées en anglais, car tous les outils ne sont pas disponibles en français, ou ne le maîtrisent pas avec la même aisance. Voici les différents styles visuels que nous souhaitons comparer :
Voici les versions des IA utilisées pour chaque outil et support :
Pour cette première comparaison, nous allons tester les capacités de photo-réalisme de nos trois IA. Générer des visages ou des mains dans un style confondant avec la réalité n’est pas toujours une tâche facile pour les IA génératives, voyons comment elles s’en sortent avec une requête très basique. Le prompt : a realistic photo of a young happy couple – une photo réaliste d’un jeune couple heureux.
Pour ce deuxième test, nous allons demander à nos IA génératrices d’images de recréer un style artistique : l’impressionnisme. Ce style et courant pictural a été l’idéal d’artistes tels que Claude Monet ou Auguste Renoir. Mais Midjourney, DALL-E et Stable sont-ils capables d’en faire autant ? Voici le prompt utilisé : an impressionist painting of a football game – une peinture impressionniste d’un match de football.
Imiter un courant artistique permet de laisser une certaine marge créative à l’IA, qui tentera uniquement de copier le style. Mais pour être plus précis et obtenir un nouveau regard sur les capacités des IA génératrices d’images, il est possible de leur demander d’imiter le style d’un artiste en particulier. Pour cet exemple, nous avons choisi Hokusai, célèbre pour ses estampes et notamment La Grande Vague de Kanagawa. Voici le prompt utilisé : a landscape, Hokusai art style – un paysage, dans le style de Hokusai.
Comment s’en sortent les IA avec la génération de détails ? Sont-elles capables de créer des images particulièrement précises ? Nous avons fait l’expérience avec des moustaches de chat. En effet, la multitude de détails que demande une image représentant le museau d’un félin est-elle un problème pour nos IA ? La réponse ci-dessous, avec le prompt suivant : a very detailed zoom of a cat’s whiskers – un zoom très détaillé sur les moustaches d’un chat.
Nous avons besoin d’un logo, mais sans graphiste, l’IA peut-elle nous être utile ? Ces systèmes de génération d’images ont souvent du mal à reproduire un élément textuel, ce que nous allons coupler avec notre demande de logo. Voici notre prompt : a brand logo for a record label named « Better Days » – un logo pour un label de musique appelé « Better Days ». L’IA est-elle capable d’imaginer un logo et d’y inclure notre court élément de texte ?
Pour cette dernière comparaison, nous souhaitons tester « l’imaginaire » des IA génératrices d’images. En réalité, il s’agit plutôt de comprendre comment elles fonctionnent et vers quoi le corpus qui a servi à créer leur modèle les dirige, si on leur laisse le champ libre. En leur demandant simplement de générer une image d’un monde imaginaire, voyons ce qu’elles nous proposent. Le prompt : an imaginary world on no common basis – un monde imaginaire sans base commune.
Grâce à ces quelques exemples de prompts très basiques, nous pouvons tirer plusieurs conclusions quant à l’état d’avancement et les capacités de chacun des outils testés. Premièrement, il est assez clair que Midjourney possède une belle avance sur ses concurrents. C’est notamment le seul des trois outils à être capable de générer des images photo-réalistes d’êtres humains. DALL-E et Stable sont à la frontière de la vallée de l’étrange, générant des humains dont les défauts peuvent nous paraître monstrueux. Pourtant, tous trois sont capables de produire des visuels photo-réalistes : on le voit particulièrement à l’occasion de l’exercice des moustaches de chat, où les détails sont assez impressionnants.
Pour ce qui est de reproduire ou de s’inspirer d’un artiste ou d’un courant artistique existant, Midjourney fait à nouveau état de performances intéressantes. L’outil est à la fois capable d’imiter un artiste ou un courant, de s’en inspirer et de le personnaliser. On le voit notamment avec l’expérience de Hokusai : trois images s’inspirent assez fidèlement de l’œuvre de l’artiste en y ajoutant une touche créative supplémentaire et la quatrième est confondante avec l’œuvre originale. Stable Diffusion a plutôt bien respecté les consignes, avec des résultats imparfaits mais qui pourraient l’être en ajustant les prompts. DALL-E, pour sa part, est passé totalement à côté des deux exercices, sauf dans sa version améliorée disponible via Bing Image Creator.
Gros point faible pour les trois IA testées, quel que soit leur support : une véritable incapacité à reproduire du texte. Nos logos ne devaient comporter que deux mots, mais aucune des IA n’a été capable de reproduire le texte demandé et de l’intégrer à un design. Pour ces éléments textuels, il est sans doute préférable d’utiliser des outils tels que Canva ou Adobe Express. Le design des logos fut quant à lui peu inspiré mais, à nouveau, un travail sur les prompts peut permettre d’arriver à ses fins.
Le dernier exercice, laissant une certaine liberté créative à nos IA, révèle plusieurs choses, notamment sur l’origine de leur inspiration. Les mondes imaginaires créés par Midjourney, DALL-E et Stable ne sont pas tous construits sur les mêmes bases. Midjourney semble tirer son inspiration du fantastique, des contes traditionnels, de l’animation japonaise avec une touche de Moebius, tandis que DALL-E s’oriente plutôt vers la science-fiction et l’espace, voire vers une certaine cyberculture. Stable, dans sa version réussie de l’exercice, s’est largement inspiré des cartes médiévales, qui mêlaient souvent géographie et fantastique.
Chose assez étonnante : selon le support utilisé, un même outil peut démontrer des capacités différentes. Nous avons eu beaucoup de mal à obtenir des résultats crédibles sur le site officiel de DALL-E. En revanche, la version améliorée utilisée dans Bing Image Creator est beaucoup plus probante, au point qu’on se demande parfois s’il s’agit du même outil. Au sein de NightCafe, il convient de bien étudier les options disponibles. En effet, il est possible d’opter pour un style en amont de la génération et il est même préférable de le faire ! Ne tentez pas de générer une image photo-réaliste sans choisir l’option adéquate, les résultats pourraient être particulièrement décevants.