«Qui est le plus grand : le Titanosaurus, l’Argentinosaurus ou le Seismosaurus ?» (demandé à ChatGPT le 9 juillet). «La chakchouka est-elle autorisée dans le régime cétogène ?» (demandé à Claude le 21 mai). On demande vraiment tout est n’importe quoi à l’IA. On s’interroge, on se livre, on confie parfois des informations sensibles. Or, plusieurs centaines de milliers de requêtes – comme celles qui figurent plus haut – ont été méticuleusement archivées sur Internet, et sont consultables par qui le souhaite.
Le 30 juillet dernier, le magazine américain Fast Company révélait que plusieurs conversations d’utilisateurs avec ChatGPT étaient accessibles sur Google. Tout simplement. Le 3 août, un blogueur anonyme, «dead1nfluence», renchérissait en publiant le résultat de ses investigations personnelles : en plus de ChatGPT, les pages de Grok, Claude, et d’autres intelligences artificielles génératrices de textes étaient également archivées en ligne. L’annonce a été reprise le 7 août par le pure-player spécialisé dans le numérique 404media qui déclare avoir eu accès à près de 130 000 pages archivées.
Des données sensibles dans la nature
Ces innombrables documents sont disponibles sur Internet Archive, sorte de bibliothèque numérique monumentale. Créé en 1996, ce site s’attelle à archiver chaque page indexée sur le web, et en a collecté pour l’heure 835 milliards. Lorsque l’on cherche «Chatgpt.com» ou «Claude.ia» dans ce flot de liens et de captures d’écran, des centaines d’occurrences apparaissent.
Décryptage
Ce sont parfois des captures d’écran, plus souvent de simples liens (qui ne renvoient à aucune page), qui contiennent les recherches des utilisateurs. Ces résultats sont également datés. Les requêtes sont parfois inoffensives. Les uns s’interrogent sur les effets de «la marijuana sur les rêves», souhaitent des «techniques pour décorer son salon», ou veulent en savoir plus sur l’évolution de «l’inflation dans l’Union européenne».
Mais d’autres internautes partagent des informations bien plus sensibles. Un utilisateur a ainsi envoyé des coordonnées de carte bancaire lors d’une conversation avec ChatGPT, comme en témoigne une page archivée sur la bibliothèque numérique. Un autre – certainement un développeur – a demandé à l’IA de corriger ses séquences de code Python, qui contiennent des informations personnelles – dont l’identifiant de sa boîte email, ou encore l’organisation des dossiers dans son ordinateur. Une possible mine d’or pour des hackers. 404media raconte également avoir relevé diverses informations intimes dans ces données – contrat confidentiel, conversation sur un problème relationnel…
Une faille de sécurité ?
Pour éviter de se retrouver sur Internet Archive, ces outils d’intelligence artificielle auraient pu se prémunir en amont : il est notamment possible d’empêcher l’indexation de son site grâce à certains outils informatiques. Retirer cet énorme contenu aujourd’hui pourrait être laborieux, mais ce n’est pas impossible – il suffit de saisir la plateforme. Il semble que certaines entreprises s’y sont déjà attelées, car lorsque l’on clique sur certains liens de leurs pages archivées, Internet Archive indique qu’elles ont été récemment retirées.
Sollicitée par 404media, l’entreprise créatrice de Claude a assuré que seules les pages partagées par l’utilisateur en ligne avaient pu être indexées. Egalement interrogée, OpenAI a assuré que les résultats de son outil, ChatGPT, avaient été archivés avec l’accord des internautes concernés, et que cela visait «à aider les utilisateurs à découvrir des conversations utiles». Au sujet des informations potentiellement sensibles qui se baladent sur le Web, les entreprises se sont, pour le moment, gardées de répondre.