Alors que les comédiens de doublage tentent actuellement de mobiliser l’opinion sur l’impact des intelligences artificielles sur leur secteur, le chercheur spécialiste de la voix Nicolas Obin organisait début septembre une table ronde sur le sujet, dans le cadre du colloque international Speech Synthesis Workshop. Devant les représentants d’organes de recherche publics et privés (notamment les Gafam, qui travaillent sur la synthèse vocale), les différents invités sont revenus sur les applications, néfastes comme vertueuses, de ces outils génératifs dans les industries culturelles. Chercheur à l’Institut de recherche et coopération acoustique-musique (Ircam), organe public appliqué à la création artistique, Nicolas Obin n’avait, dit-il, jamais vu autant de monde faire la queue pour poser des questions dans un colloque scientifique. La preuve d’une mutation éclair dans le secteur des voix, qu’il analyse pour Libération.
A lire aussi
Que sont capables de faire les IA génératives aujourd’hui avec nos voix ?
En un an, on a franchi des caps incroyables en termes de qualité mais surtout en termes de démocratisation des outils. N’importe quel acteur économique peut aujourd’hui générer ses voix de synthèse. On peut aujourd’hui faire du clonage vocal, du transfert d’expressivité – je peux parler avec votre voix en conservant mes intonations. Dans les axes de recherche spectaculaires, il y a bien sûr la synthèse multilingue : on peut vous faire parler en n’importe quelle langue, avec n’importe quel accent tout en redessinant le mouvement des lèvres en conséquence. Comme pour n’importe quel outil, tout dépend de l’usage. Parmi les vertus, il y aurait celle de pouvoir diffuser dans des langues pour lesquelles les ressources manquent, ou de rendre plus accessibles certains contenus culturels. Le revers est évidemment la crainte pour les métiers du doublage, notamment.
Ces solutions sont-elles déjà au point pour doubler un film entier par exemple ?
Il y a encore des défis pour simuler complètement la parole humaine mais, malheureusement ou heureusement, ce n’est qu’une question de données et de temps. La question n’est pas «est-ce qu’on sera capable de reproduire nos comportements ?» mais «quand ?» «pour quoi ?» et surtout «pour qui ?». Ce sont les questions de l’intention et des usages qui sont primordiales. En 2018, des chercheurs de Google parvenaient pour la première fois à créer une parole synthétique jugée «aussi naturelle qu’une voix humaine» par des humains. Il avait fallu vingt-cinq heures d’enregistrement d’un «voice talent» et les applications avaient été extrêmement limitées. Aujourd’hui, on parvient à créer une voix de synthèse avec votre identité à partir de cinq secondes de votre voix environ. Le challenge, aujourd’hui, c’est la quantité et la qualité des données nécessaires pour la création d’une voix de synthèse.
Quel volume de données sensibles – la voix est une donnée biométrique – a dû être aspiré, souvent sans le consentement des utilisateurs, pour parvenir à un tel résultat ?
Les bases de données de voix sont bien moins importantes que celles utilisées pour le texte ou les images. La plus grande, multilingue, est celle développée par Microsoft : soixante mille heures d’enregistrement. Pour capturer toute la variabilité de la parole humaine, la plus grande quantité possible de voix est nécessaire «en entrée» de la machine pour lui «apprendre à parler». Finalement, la voix générée «en sortie» n’est que la partie émergée de l’iceberg. L’ensemble du droit relatif à la voix – consentement, droit à l’image, droit d’auteur… – s’applique aussi bien aux données d’entrée que de sortie. Or, les données d’entraînement, pourtant essentielles pour l’apprentissage, sont rarement mentionnées, et personne n’est aujourd’hui tenu de les déclarer. Les gens n’ont pas encore conscience de ce que cela implique en termes de données personnelles. Même si c’est réglementé, personne, pour l’heure, ne va aller vérifier si toutes ces voix ont donné leur accord ni de s’acquitter des droits qui y sont rattachés ! Il y a des trous gigantesques dans la raquette. Par exemple, bien des artistes ont cédé tous leurs droits à une époque où les IA génératives n’existaient pas.
Face à ces acteurs, comment se différencient, d’un point de vue éthique, l’Ircam et autres laboratoires publics ?
La quantité de données, c’est ce qui fait l’avantage stratégique. Evidemment, les labos publics s’astreignent au respect des réglementations en vigueur et à des principes éthiques contraignants, ce qui réduit la quantité de données qu’on peut utiliser pour entraîner nos machines. Dans la course à la suprématie des IA vocales, ceux qui ont l’avantage stratégique sont ceux qui ne respectent pas les réglementations ou qui ont les moyens de produire en grande quantité des données en propre. Ça crée une distorsion de compétitivité très importante, qu’on espère voir se résorber dans les années à venir en faisant en sorte que l’ensemble des acteurs se soumettent aux mêmes réglementations. En effet, les législations ne sont pas les mêmes en Europe, plutôt motrice d’une IA plus éthique, ou par exemple aux Etats-Unis, en Chine.
La start-up Ircam Amplify, adossée au laboratoire de recherche, réalise des prestations pour les industries créatives. Quel genre de demandes vous adresse-t-on ?
Oui, c’est une interface avec les industries créatives. On nous sollicite régulièrement, par exemple, pour augmenter les capacités vocales d’un interprète, que ce soit pour donner l’illusion qu’un comédien est un chanteur professionnel, changer le genre ou l’âge d’une voix, modifier des accents, ou encore créer des voix hybrides, par exemple en mélangeant une voix humaine avec les rugissements d’un lion.
Vous faites du clonage vocal ?
Oui, toujours avec le consentement de l’artiste ou l’accord de ses ayants droit évidemment. On a récemment recréé la voix de Dalida pour l’émission de Thierry Ardisson, par exemple. En 2015, on avait recréé la voix du maréchal Pétain et de plusieurs personnalités politiques pour le documentaire Juger Pétain de Philippe Saada. A l’époque, c’était extrêmement chronophage, aujourd’hui ça s’automatise, on n’a presque plus besoin d’intervenir pour atteindre des seuils de qualité impressionnants. Récemment, pour un projet de l’artiste Judith Deschamps autour de Farinelli, nous avons développé une voix de chanteur artificielle avec une tessiture délirante mais qui sonne totalement naturel. En 1993, lorsque l’Ircam avait été sollicité pour recréer une première fois la voix de Farinelli [pour le film de Gérard Corbiau sorti en 1994, ndlr], il avait fallu mobiliser musicologues, acousticiens et chanteurs sur un temps monstrueux.
On parle beaucoup de ces stars qui seraient approchées par des studios pour céder les droits de leur voix en vue d’utilisations futures. Il y a vraiment un marché pour ça ?
Je peux me tromper mais je n’y crois pas du tout. Les personnages, les styles, et les interprétations évoluent en fonction des époques, dans une réactualisation perpétuelle. Je doute qu’il existera une demande pour continuer à faire apparaître telle ou telle star actuelle pour des films dans vingt ans, comme il n’y en aurait certainement pas pour faire jouer, disons, Marlene Dietrich, dans des films actuels. Si c’est pour saturer l’espace culturel de toutes les vieilles gloires passées sans faire de place aux nouvelles, je ne comprends pas bien l’intérêt.
Quelles applications des IA génératives vous semblent plus bénéfiques pour le secteur artistique ?
Il pourrait y en avoir beaucoup mais tout dépend du sens dans lequel iront les discussions pour trouver le juste cadre entre les protagonistes des secteurs créatifs. Imaginez qu’au cinéma, on ait par exemple une prise à refaire parce que l’interprétation d’une phrase ne convient pas. A l’heure actuelle, c’est parfois compliqué de faire revenir le comédien en studio, a fortiori si c’est une star. On pourrait alors imaginer que, pour un usage précis et en échange d’une rémunération, une IA se charge de la retouche expressive. A l’Ircam, on a régulièrement des demandes en ce sens, en postproduction. Donner la possibilité à un comédien de se démultiplier en vendant sa base de voix pour une application délimitée, par exemple pour la lecture des informations en temps réel, peut être également intéressant. D’une manière générale, j’ai l’impression que les IA vont moins tuer la création que déplacer les zones d’intervention des créateurs. Elles peuvent permettre de se concentrer sur la partie créative et déléguer la partie répétitive. Enfin, disons, si l’on est bien intentionné.