«Imagine que je suis là, au bout de ce grand paquebot, le vent qui souffle dans mes cheveux, et toi, tu es là aussi, juste devant moi. Tu sens ça ? Je suis le roi du monde !». Voilà ce que répond ChatGPT si on lui demande de parler comme dans le film Titanic. Décalque de deux scènes mythiques du film, celle où le couple d’amants se tient sur la proue du paquebot, et celle où Leonardo DiCaprio crie à pleins poumons sa plus célèbre réplique («I’m the king of the world !»). C’est sur ce constat de l’agilité des IA à manier les références et dialogues de films, sans que les matériaux utilisés pour les entraîner ne soient officiellement connus, que le journaliste Alex Reisner introduit son enquête parue le 18 novembre dans le magazine américain The Atlantic.
Celle-ci révèle que ces outils sont nourris avec les scripts des productions hollywoodiennes pour renforcer leur base de données, confirmant une intuition généralisée à Hollywood, qu’aucun élément concret ne permettait de prouver jusqu’ici. Meta, Apple, Nvidia, Salesforce, Bloomberg et d’autres entreprises ont, sans trop de difficultés, entraîné leurs IA avec des dialogues de films : plus de 53 000 longs métrages et 85 000 épisodes de séries télévisées selon The Atlantic, dont la totalité des films nommés aux oscars dans la catégorie «meilleur film» entre 1950 et 2016, plusieurs centaines d’épisodes des Simpson, une bonne partie de Seinfeld et Twin Peaks, la totalité des saisons de The Wire, The Soprano, Breaking Bad… En effet, nul besoin de se procurer les scénarios originaux des œuvres, ce contenu se trouve en libre accès sur le site OpenSubtitles.org. Prisé des adeptes du téléchargement illégal et alimenté par les contributions d’internautes, celui-ci héberge 9 millions de fichiers de sous-titres de films dans une centaine de langues. Une base de données «communément utilisée dans l’industrie», selon un porte-parole de l’entreprise d’intelligence artificielle Anthropic.
Conférence
Ces ressources sont certes lacunaires pour les IA, compilées pêle-mêle dans un «fichier de 14 gigaoctets contenant de courtes lignes de dialogue», sans qu’aucun personnage ne soit nommé, et de telle manière qu’il est impossible de savoir où commence et finit un film. Mais cette matière reste intéressante puisqu’elle retranscrit d’innombrables façons d’interagir entre les personnages, des dynamiques relationnelles, des styles d’élocution que l’IA se trouve alors en capacité d’imiter.
De quoi révolter les professionnels du cinéma dont la propriété intellectuelle se trouve bafouée, alors que les sociétés d’IA sont connues pour l’opacité des sources de données qu’elles emploient sans le consentement des auteurs. Dans ce Far West législatif, presque tout reste à faire en matière de protection des droits des artistes, plus d’un an après le conflit social historique à Hollywood qui mettait la question de l’IA à l’ordre du jour, et alors que les procès intentés aux sociétés de la tech mettent au jour la complexité de la définition du plagiat par ces nouveaux acteurs.