"ChatGPT peut désormais voir, entendre et parler." Dans une note de blog parue lundi 25 septembre, OpenAI a dévoilé ce qui s'annonce comme une petite révolution pour son robot conversationnel, l'outil qui a initié dès son lancement officiel en novembre dernier un engouement mondial pour l'intelligence artificielle générative. ChatGPT devient multimodal, c'est-à-dire que GPT-4, le grand modèle de langage (LLM) sur lequel il s'appuie, est à présent capable d'ingérer différentes sources de données.
En plus de soumettre à l'outil des prompts textuels qui permettent d'engager des conversations à l'écrit, les utilisateurs de ChatGPT pourront en effet lui présenter des images ou lui parler directement à haute voix. Le chatbot sera également en mesure de répondre à l'oral. Ces nouvelles fonctionnalités seront rendues accessibles aux abonnés des formules payantes ChatGPT Plus et Enterprise, au cours des deux prochaines semaines.
OpenAI cite plusieurs cas d'usages pour la fonctionnalité vocale, reprenant ainsi l'exemple de Larry le hérisson, un personnage fictif inventé par un enfant que l'entreprise a utilisé pour annoncer DALL-E 3, d'ailleurs intégré à ChatGPT. "Raconte-nous une histoire du soir sur Larry le hérisson", demande ainsi un parent dans la vidéo de présentation de l'entreprise. Capable de comprendre les voix grâce au système de reconnaissance vocale Whisper, ChatGPT se mue en assistant personnel et se lance alors dans un récit oral qu'il peut interpréter dans un total de cinq voix différentes.
La start-up américaine encourage ses utilisateurs à se munir pour cela de son application mobile. Sa technologie de reconnaissance d'images, compatible avec l'appareil photo d'un smartphone Android ou iOS mais également avec des captures d'écran et des documents présentant du texte et des images, permet de nouvelles manières de solliciter ChatGPT. Dans une vidéo promotionnelle, OpenAI demande à son outil des conseils pour abaisser la selle d'un vélo, photo de l'engin à l'appui. Les utilisateurs peuvent même dessiner sur les photos qu'ils veulent soumettre à ChatGPT, entourant par exemple les zones les plus importantes.
Ces fonctionnalités seront déployées de manière graduelle, d'abord aux abonnés payants puis aux développeurs, précise la start-up. "Nous croyons en la mise à disposition progressive de nos outils, ce qui nous permet d'apporter des améliorations et d'affiner l'atténuation des risques au fil du temps, tout en préparant chacun à des systèmes plus puissants à l'avenir. Cette stratégie devient encore plus importante avec les modèles avancés impliquant la voix et la vision." Créée avec des doubleurs professionnels mais aussi conçue pour reproduire une voix à partir d'un court échantillon oral, la fonctionnalité vocale pourrait notamment être détournée pour usurper une identité, reconnaît OpenAI.
L'entreprise californienne prévient également que ChatGPT présente des limites. D'une part, dans ses capacités de compréhension et de génération de contenus, notamment en ce qui concerne les images et les voix ; et d'autre part, dans son rapport aux langues étrangères. "Le modèle est efficace pour transcrire des textes en anglais mais ses performances sont médiocres dans d'autres langues, en particulier celles dont l'écriture n'est pas romaine", concède OpenAI, allant jusqu'à déconseiller ChatGPT pour un usage professionnel dans un contexte non anglophone.
Sélectionné pour vous