A quand la musique ? Après le texte avec ChatGPT et les images avec Dall-E, OpenAI a dévoilé jeudi 15 février (dans la soirée, heure de Paris) son outil de génération de vidéos par intelligence artificielle. Baptisé Sora, le nouveau jouet de Sam Altman est capable de créer des vidéos réalistes d’une durée maximum d’une minute après une simple saisie de texte décrivant la scène demandée.
«Prompt [«instruction», ndlr] : une bande-annonce présentant les aventures d’un homme de l’espace portant un casque de moto tricoté en laine rouge, avec un ciel bleu, un désert de sel, un style cinématique et tourné en 35 mm, avec des couleurs vives.» Voilà l’un des exemples postés par OpenAI sur Twitter (renommé X). Et le résultat est saisissant. Surtout pour une nouvelle plateforme encore en cours de test, selon la start-up californienne. Mais qui dit phase de test dit bugs. En témoigne tout de même la vidéo d’une femme «bien habillée marchant dans les rues de Tokyo», et dont les internautes n’ont pas manqué de remarquer que les jambes changent de sens au bout de seize secondes de vidéo.
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) February 15, 2024
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
OpenAI ne cache pas certaines imperfections de son outil, dont une confusion entre la gauche et la droite ou l’incapacité à maintenir une continuité visuelle durant toute la vidéo. «Par exemple, une personne prendre une bouchée de biscuit, mais après, le biscuit peut ne pas avoir de trace de morsure», explique l’éditeur. Sora peut néanmoins «générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis», détaille la start-up sur son site, où elle partage de nombreux autres tests de son générateur avec les prompts associés. Impossible en revanche de s’amuser avec le nouveau produit d’OpenAI pour le moment. Pour le grand public tout du moins.
Un produit encore inabouti
Sam Altman, le patron d’OpenAI, a déclaré sur Twitter que sa société allait «offrir à un nombre limité de créateurs l’accès» à Sora, dans le cadre d’une phase expérimentale. En attendant une accessibilité à plus grande échelle, l’homme a invité les utilisateurs à partager leurs propositions pour générer des vidéos, avant d’en diffuser quelques exemples dans la foulée sur la plateforme. Parmi les heureux sélectionnés, la «course de vélos sur un océan avec des animaux en guise de cyclistes» ou «deux golden retrievers en train d’enregistrer un podcast sur une montagne». Et Sora s’exécute.
https://t.co/qbj02M4ng8 pic.twitter.com/EvngqF2ZIX
— Sam Altman (@sama) February 15, 2024
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024
Pour OpenAI, Sora sert de base à des «programmes capables de comprendre et de simuler le monde réel». L’entreprise espère ainsi qu’elle «constituera une étape importante dans la réalisation de l’intelligence artificielle générale», un système hautement autonome qui surpasserait les humains dans la plupart des tâches économiquement rentables et dont rêve Sam Altman. Avec un adepte du progrès à tout prix aux commandes d’OpenAI – dont le retour après son court licenciement fin 2023 marquait une victoire des «pressés» de la tech, avide de progrès, face aux «prudents» tournés vers un environnement plus lent mais moins à risque – le projet a tout de même de quoi inquiéter.
Mais en dévoilant ce nouvel outil, la compagnie a affirmé que la question de la sécurité constituait un enjeu essentiel et que des simulations seraient organisées avec des utilisateurs mis au défi de produire des dysfonctionnements ou de créer des contenus inappropriés, afin de mieux définir les limites de la plateforme. «Nous allons engager des décideurs politiques, des éducateurs et des artistes à travers le monde pour comprendre leurs préoccupations et identifier les cas positifs d’utilisation de cette nouvelle technologie», s’est justifié OpenAI. Meta, Google et Runway AI, qui travaillent sur des applications similaires dites «text-to-video», ont aussi présenté des échantillons.