Menu
Libération
Pipeau

Google a un peu (beaucoup) triché sur les compétences de son modèle d’IA Gemini

Pas de discussion en temps réel, questions et réponses abrégées ou encore voix inexistante : l’impressionnante vidéo de démonstration révélée par Google la semaine dernière de sa nouvelle intelligence artificielle est en réalité trompeuse.
La firme californienne avait publié le 6 décembre une vidéo de démonstration de plus de six minutes. (Jakub Porzycki/NurPhoto.AFP)
publié le 12 décembre 2023 à 18h14

Google a bien baratiné son monde en présentant sa super intelligence artificielle Gemini. En fin de semaine dernière, le géant californien sortait sous les yeux émerveillés des techos d’Internet une vidéo de son nouveau bolide algorithmique. Reconnaître le dessin d’un canard, tenir une conversation fluide avec un humain, localiser des pays sur une carte… Tout dans ces 6 minutes et 23 secondes de démonstration semblait montrer que la maison mère du plus célèbre moteur de recherche mondial était enfin parvenue à détrôner son concurrent OpenAI, entreprise à l’origine de ChatGPT. Toutefois, depuis des révélations du média américain Bloomberg samedi 9 décembre, la future Ferrari de l’IA semble s’être muée en citrouille.

«C’était fallacieux et trompeur», «quelle honte», «ne jamais croire les vidéos marketing en IA»… Sur les réseaux sociaux, les critiques de technophiles trahis s’empilent. Pour les internautes et médias, le doute quant aux capacités réelles de Gemini - censé être rendu accessible à une partie des clients de Google mercredi 13 décembre - s’est immiscé à la lecture d’une petite phrase glissée dans la description YouTube de la vidéo en question : «Pour les besoins de cette démo, la latence a été réduite et les réponses de Gemini ont été raccourcies par souci de concision». Ah tiens ?

Dans la présentation, l’IA semble pourtant être en mesure de voir le monde qui l’entoure, de déployer une logique similaire à celle d’un être humain et de n’avoir besoin que de petites relances de la part de son testeur pour saisir ses demandes et lui répondre de vive voix. Mais selon les informations du média américain Bloomberg, désormais confirmées par Google, la démonstration n’a pas été réalisée en temps réel. Ni à l’oral. Et encore moins avec une telle rapidité.

Pour commencer, Gemini n’a pas de voix. Cette dernière, de synthèse, a bel et bien été ajoutée au montage. Dans les faits, aucune question n’a été posée oralement : toutes ont été formulées à l’écrit. Pas de canard non plus dessiné en direct devant la machine. L’algorithme s’est surtout contenté de photos à analyser. Le tout dans un montage qui a bien évidemment coupé les temps de latence trop longs entre chaque réplique.

Ultime trahison aux yeux des afficionados de nouvelles technologies : les «prompts», à savoir les demandes formulées par le testeur, ont eux aussi été raccourcis. Par exemple, dans la vidéo, Gemini était confronté à trois dessins d’astres du système solaire. «Est-ce que c’est le bon ordre ?», entendait-on alors le testeur de Google demander. Une question bien courte… et bien éloignée de celle effectivement posée à l’écrit qui est : «Est-ce que c’est le bon ordre en prenant en compte la distance avec le Soleil. Explique ton raisonnement». Autrement dit : l’algorithme a été beaucoup plus pris par la main qu’il n’y paraît dans la publicité de la firme californienne.

Au milieu de la colère des internautes, une interrogation demeure : en comparaison à celles de GPT-4, le modèle haut de gamme d’OpenAI, quelles sont les réelles compétences de Gemini ? Comme le relève Bloomberg en épluchant un tableau comparatif partagé par Google, Gemini Ultra, sa version la plus puissante, l’emporte certes sur le produit d’OpenAI dans la plupart des catégories présentées. Mais seulement d’une courte tête. Pour rappel, GPT-4 a été rendu public il y a près de 10 mois déjà, en mars 2023, et une nouvelle version encore plus pointue devrait sortir dans les prochaines semaines. Dommage pour Google qu’il ne soit pas là aussi possible de couper au montage.