Question posée par Seb, le 29 juillet 2021,
Bonjour,
Impossible d’avoir raté Emmanuel Macron croulant sous les colliers de fleurs et de coquillages : le chef d’Etat était en visite dans les îles Marquises, un des cinq archipels de la Polynésie française, au milieu de l’océan pacifique sud. A cette occasion, le Président a eu l’honneur d’être baptisé d’un patronyme marquisien, la langue locale. Lors de son passage à Hiva Oa, la maire Joëlle Frébault l’a ainsi surnommé «Te Hakaiki Taha’oa», traduit dans la presse française comme «grand chef qui marche et qui va loin».
Or dans la journée du 29 juillet, des internautes qui ont essayé de traduire cette expression en français avec le populaire outil «Google Traduction» ont trouvé une autre réponse : le marquisien n’étant pas répertorié, la langue détectée était le maori et l’interprétation donnée était «l’effet secondaire».
Le maori étant également une langue polynésienne, certains se sont demandé si les hôtes marquisiens avaient joué un tour au président français. L’avaient-ils affublé d’un patronyme humoristique, dans leur langue ou une autre langue polynésienne ? La réponse est non. L’anomalie pourrait être liée à un bug fréquemment rencontré avec les langues rares, ou à une manipulation intentionnelle de la base de données, via l’espace collaboratif de la plateforme.
Le chef qui marche loin
Traduits littéralement et séparément, les mots de l’expression Te Hakaiki Taha’oa donnent «le», «chef», «marche», «loin», comme CheckNews a pu le vérifier dans le dictionnaire du site de l’académie marquisienne. Le linguiste marquisien Edgar Tetahiotupa, consulté par l’intermédiaire de la présidence de la Polynésie française, confirme à CheckNews que «la traduction est bien celle qui a été annoncée publiquement, lors du passage du président de la République, par la maire d’Hiva Oa, Joëlle Frébault».
Bien qu’appartenant aussi à la famille des langues polynésiennes, le maori (parlé par le peuple autochtone éponyme de Nouvelle-Zélande) est très différent du marquisien. Pour commencer, les mots marquisiens «hakaiki» et «oa» n’existent pas en maori. Seul le second terme, «taha» (marche) existe, mais signifie dans cette langue «à côté», dans le sens que possède le mot anglais «side» dans l’expression «side effect» (effet secondaire). L’expression «effet secondaire» se traduit néanmoins par «painga taha», terminologie que l’on retrouve sur divers sites médicaux maoris.
De «l’effet secondaire» à «la banque»
Alors, pourquoi le site Google Traduction assimile-t-il une expression marquisienne à du maori, et pourquoi livre-t-il l’expression «effet secondaire» ? En utilisant des outils permettant de simuler une connexion Internet depuis un pays étranger, nous avons cherché les résultats donnés par Google Traduction depuis d’autres territoires. Depuis la plupart des pays testés, essayer de traduire «Te Hakaiki Taha’oa» depuis le maori ne donne aucun résultat. Mais, surprise, depuis l’Allemagne et la Pologne, une réponse est donnée à cette requête. «Te Hakaiki Taha’oa» signifierait… «la banque».
En réalité, là encore, aucun des mots du lexique maori lié à la banque («putea») n’a à voir avec les mots marquisiens.
Bugs bibliques
Pourquoi Google Traduction propose-t-il ces résultats fantaisistes en réponse à ces requêtes ? Ce n’est pas la première fois que des résultats absurdes amusent les utilisateurs du service en ligne. À l’été 2018, le magazine Vice donnait l’exemple suivant : en tapant 19 fois le mot «dog» et en traduisant du maori vers l’anglais, le résultat obtenu était : «L’horloge du Jugement dernier est à douze heures trois minutes. Nous faisons l’expérience de personnages et d’une évolution dramatique du monde, ce qui indique que nous nous approchons de plus en plus de la fin des temps et du retour de Jésus.» Des répétitions du mot «ag», traduite depuis le somali, renvoyaient également à des déclarations d’inspiration bibliques. Une explication soulevée à l’époque était liée à la méthode d’apprentissage du logiciel.
Cet apprentissage, en effet, est essentiellement automatisé : le système informatique confronte de centaines de textes bilingues glanés sur le web, et en déduit une correspondance entre les mots rencontrés. À côté de documentations institutionnelles issues de territoires où plusieurs langues officielles se côtoient, l’un des textes traduits dans le plus grand nombre de langages au monde se trouve être… La Bible. Et face à des requêtes incohérentes (mots répétés, expressions étrangères au langage sélectionné), Google Traduction «déraillerait». L’outil fournirait alors des réponses absurdes à une requête absurde.
Selon un porte-parole de Google interrogé par CheckNews, ce problème se rencontrerait surtout avec des langues pour lesquelles le corpus bilingue en ligne est peu fourni. Moins une langue a de locuteurs, moins il y a de traductions officielles disponibles en ligne, et moins le système informatique de Google a d’occasions d’affiner ses analyses. Et de corriger ses erreurs.
Un détournement du volet collaboratif de Google Traduction ?
Les deux traductions fautives sont par ailleurs politiquement connotées : une référence à la situation sanitaire pour la première, et au passé professionnel du chef de l’État pour la seconde. Une autre explication plausible peut ainsi être envisagée : celle d’une manipulation intentionnelle de la base de données par une poignée d’utilisateurs disposant d’un peu de méthode et de patience. Car lorsqu’une traduction proposée par Google semble imparfaite ou erronée, les utilisateurs du service peuvent soumettre, en deux clics, une suggestion de correction. Cette suggestion n’est pas immédiatement validée, mais alimente une base de données dédiée.
Les utilisateurs de Google traduction peuvent ainsi contribuer bénévolement à la vérification des différentes correspondances présentes dans cette base. Pour ce faire, il suffit de se déclarer locuteur d’une langue, et de prendre quelques secondes pour lire des traductions tirées de la base des suggestions d’utilisateurs (également alimentées par des traductions signalées comme erronées par d’autres usagers). Si un certain nombre d’utilisateurs distincts valide une suggestion comme étant une traduction correcte, celle-ci est intégrée à l’intelligence artificielle de Google Traduction.
L’équipe de CheckNews, en se déclarant locuteur du maori, a pu consulter des propositions de traduction du maori vers l’anglais, et constater le caractère farfelu d’un grand nombre de réponses. Les bénévoles peuvent ainsi se voir suggérer l’association de «popopopo» avec «ur mom sux» (transcription approximative de «your mom sucks»).
Plusieurs propositions identiques ont été soumises à notre examen de façon répétée. Dans le cas d’une langue rare, pour laquelle peu de suggestions viennent alimenter l’outil de validation, il est donc théoriquement possible de «forcer» la validation de traductions humoristiques ou absurdes.
Des utilisateurs se sont-ils coordonnés pour associer le nom marquisien d’Emmanuel Macron à des pseudo-traductions en maori, connotées politiquement ? Contactée, la société Google n’était pas en mesure de déterminer si la traduction de la séquence de mots «Te Hakaiki Taha’oa» produisait déjà ce résultat avant le 26 juillet, date du «baptême» marquisien du président de la République.