Menu
Libération
Tech

OpenAI dévoile ChatGPT-4o, une version qui parle, voit et badine même un peu

La nouvelle version gratuite, GPT-4o, a été dévoilée dans une démonstration digne d’un film de science-fiction. De quoi faire suer la concurrence d’OpenAI dans un domaine ultra-concurrentiel.
GPT-4o pourrait "raisonner" à travers l'audio, la vidéo et le texte. (Artur Widak/NurPhoto. AFP)
publié le 13 mai 2024 à 22h34

Un petit «o» pour «omni». OpenAI a présenté ce lundi 13 mai une nouvelle version de ChatGPT, GPT-4o. Ce nouveau modèle d’intelligence artificielle n’est pas «omniscient» malgré son petit nom, mais cette version peut désormais tenir des conversations orales et fluides avec ses utilisateurs et «raisonner» en temps réel via l’audio, la vision et le texte. Elle sera accessible à tous gratuitement dans les prochaines semaines, a annoncé la start-up californienne lors d’une présentation vidéo diffusée en direct.

«Ces deux dernières années, nous nous sommes attachés à améliorer l’intelligence des modèles» d’IA générative «et nous avons obtenu d’excellents résultats», a déclaré Mira Murati, directrice technologique d’OpenAI. «Mais c’est la première fois que nous faisons un grand pas en avant en matière de facilité d’utilisation. C’est extrêmement important, il s’agit de l’avenir de l’interaction entre nous et les machines», a-t-elle ajouté.

Ces nouvelles capacités vont être progressivement ajoutées à ChatGPT, en commençant par le texte et l’image, d’abord pour les abonnés payants, ainsi que les utilisateurs gratuits, avec des limites en termes de capacité d’usage. La nouvelle version du «Voice Mode» (mode vocal) doit arriver dans les prochaines semaines pour les abonnés.

Avec deux de ses collègues, Mira Murati a démontré comment les utilisateurs vont pouvoir interagir avec ChatGPT, lors de conversations reproduisant des discussions entre humains.

Lire les émotions et flirter

En mode vocal, ChatGPT serait (le conditionnel est de mise depuis la démonstration truquée de Google Gemini en décembre) désormais capable de lire les émotions des utilisateurs sur les visages via la caméra d’un smartphone, de les guider pour faire des exercices de respiration, de leur raconter une histoire ou encore de les aider à résoudre un problème mathématique. Et les utilisateurs peuvent facilement l’interrompre donnant cette impression de fluidité de conversation.

Dans les extraits de démonstration ci-dessous ChatGPT a par exemple utilisé ses capacités de vision et de voix pour guider un étudiant dans un problème de mathématiques. Ou répondu de façon sarcastique, avec le ton qui va avec.

Dans une autre démonstration, les chercheurs ont montré la capacité du modèle GPT-4o à traduire des langues en temps réel.

Mais de cette démo, on retiendra surtout le badinage entre ingénieur et machine. «Tu as l’air joyeux. […] Tu veux me dire quelle est la source de toute cette bonne humeur ?», a ainsi demandé la machine à un ingénieur d’OpenAI, qui lui a répondu être en train de montrer au public à quel point elle est «utile et fabuleuse». «Oh arrête, tu me fais rougir», s’est-elle exclamée en retour. Un moment de flirt qui a rappelé à la Silicon Valley les inspirations de Sam Altman, le patron d’OpenAI. Dans le passé, ce dernier avait confié adorer le film de science-fiction Her de Spike Jones, dans lequel Joaquin Phoenix tombe amoureux d’une IA, à travers ses conversations orales avec elle. «C’était incroyablement prophétique», avait-il expliqué en septembre dernier lors d’une conférence. «Et cela nous a inspirés à plus d’un titre, […] notamment l’idée que nous ayons tous un agent personnalisé qui essaie de nous aider.» Une référence qu’il a répétée sur son compte Twitter juste après la présentation de ce lundi.

Le trentenaire milliardaire promeut régulièrement sa vision d’une IA qui sera un jour «générale», c’est-à-dire dotée de capacités cognitives humaines, capable de réaliser des percées scientifiques au service de l’humanité.

Tenter de doubler la concurrence

Fin 2022, avec le lancement de ChatGPT - qui génère des contenus sur simple requête en langage courant -, OpenAI a mis sur les rails l’IA générative, une révolution qui a pris de court tous les géants technologiques. Depuis, toute la Silicon Valley s’est lancée dans une course aux outils et assistants d’IA toujours plus performants.

Les annonces d’OpenAI interviennent alors qu’Alphabet (Google) doit présenter ses dernières innovations mardi, tandis que Microsoft, principal investisseur d’OpenAI, a prévu un événement pour la presse et les développeurs la semaine prochaine.

Vendredi, Sam Altman, le patron d’OpenAI, avait démenti les rumeurs au sujet des annonces que préparait son entreprise. «Pas GPT-5, pas un moteur de recherche», avait-il déclaré sur X (ex-Twitter). «Mais […] nous avons travaillé sur des nouvelles choses et nous pensons que les gens vont adorer», avait-il ajouté. «Pour moi, c’est comme de la magie.»

La société OpenAI, initialement créée comme un laboratoire de recherche à but non lucratif, a été valorisée à quelque 80 milliards de dollars, selon le New York Times, lors d’une vente de titres en février dernier. Et d’après le Financial Times, ses revenus annuels sont de l’ordre de 2 milliards de dollars depuis décembre 2023, soit un niveau de croissance exceptionnel comparable à une poignée d’autres start-up de la région, dont Google et Meta (Facebook).

«Une part très importante de notre mission consiste à mettre gratuitement à la disposition du public tous nos outils d’IA avancés», a déclaré Mira Murati lundi. «Nous pensons qu’il est très important que les gens comprennent de façon intuitive ce que la technologie peut faire», a ajouté la directrice technologique d’OpenAI. Peu après son lancement à la fin de 2022, ChatGPT a été l’application à atteindre le plus rapidement 100 millions d’utilisateurs actifs mensuels. Cependant, le trafic mondial vers le site de ChatGPT a connu des hauts et des bas au cours de l’année passée et ne revient à son pic de mai 2023 que maintenant, selon la firme d’analyse Similarweb. La pression pour élargir la base d’utilisateurs de ChatGPT est donc bien réelle face à la concurrence. Cette version «omni» et surtout gratuite pourrait grandement aider.