Pour pouvoir informer en un éclair de la taille de la tour Eiffel, du nombre d’habitants à Blois ou écrire un poème qui s’inspire de la prose de Baudelaire, les grands modèles de langage (LLM) que sont ChatGPT, LLaMA ou Claude ont besoin d’apprendre. Et d’apprendre beaucoup. Pour entraîner leurs outils, les développeurs leur font avaler des tonnes et des tonnes de données. Livres, articles de journaux, films, sites Internet : tout y passe. Problème : puisque les données appartiennent forcément à quelqu’un, les récupérer légalement coûte cher.
Pour économiser des centaines de millions d’euros, certains géants du secteur auraient trouvé la parade en utilisant des œuvres sans en rémunérer leurs auteurs. Aux Etats-Unis, des dizaines de procédures sont en cours, lancées par des artistes, écrivains, acteurs ou maisons d’édition dénonçant ces pratiques. Parmi elles, l’affaire Kadrey v Meta Platforms, qui oppose certains écrivains à Meta (et son IA LLaMA) a tapé dans l’œil des journalistes Clément Pouré et Soizic Pénicaud de Mediapart.
Des millions de livres recensés
En se fondant sur les documents rendus publics à l’occasion de cette procédure et des entretiens avec d’anciens salariés de Meta, le média d’investigation révèle ce lundi 22 décembre que la maison mère de Facebook aurait eu recours à plusieurs reprises à la base de données de Library Genesis (LibGen), un site Internet pirate qui recense des millions de livres, pour entraîner son grand modèle de langage.
Parmi les employés du laboratoire Fundamental AI Research (Fair) de Meta, piloté à l’époque par le Français Yann Le Cun, un chercheur intéresse plus particulièrement Mediapart : Guillaume Lample. Selon des éléments réunis par le média, le Français aurait poussé pour avoir recours à LibGen pour créer et entraîner son grand modèle de langage et rattraper le retard pris sur ChatGPT et Midjourney.
«Comme l’attestent des éléments de code révélés dans le cadre de l’enquête, des mails internes et plusieurs auditions», Guillaume Lample a lancé en octobre 2022 et pendant plusieurs mois des téléchargements sur LibGen. Au total, il aurait récupéré sur le site pirate par moins de 70 To de données (soit 70 000 gigas). Une fois LLaMA mis en ligne, Meta a réfléchi à allouer un budget pour avoir accès, légalement, aux ouvrages sous licence, avant de se raviser par la suite. Et les chercheurs se sont tournés, à nouveau, vers des sources gratuites et vers LibGen.
Mistral AI assure utiliser des données «de haute qualité»
Si le cas de Guillaume Lample intéresse tant Mediapart, c’est qu’après une dizaine d’années chez Meta, l’ingénieur a fondé, en 2023, sa propre entreprise avec deux autres associés : Mistral AI. La petite boîte française s’est rapidement fait une place dans le secteur de l’intelligence artificielle et est aujourd’hui valorisée à 12 milliards d’euros.
A lire aussi
A son lancement, l’entreprise a d’ailleurs promis d’utiliser des données «de haute qualité» et de négocier des accords de licence. Depuis, elle a noué des partenariats avec l’AFP, avec l’INA et la Bibliothèque nationale de France. Mais pour plusieurs employés de Meta cités dans l’article de Mediapart, il ne fait aucun doute que pour mettre sur pied leur première version (Mistral 7B), les ingénieurs de Mistral ont également eu recours à LibGen. Pour autant, rien ne prouve pour l’heure que Mistral AI ait eu recours aux mêmes piratages que Meta pour entraîner son LLM.
Auprès de Mediapart, l’entreprise assure utiliser «des informations publiques disponibles sur Internet, des jeux de données non publics sous licence auprès de tiers, ainsi que des données générées en interne de manière synthétique» pour entraîner son LLM. Meta et Guillaume Lample n’ont, eux, pas répondu aux sollicitations de Mediapart.




