Comment faire simple pour étudier ce qui est compliqué? Trois chercheurs italiens spécialistes de la complexité ont imaginé une méthode d'analyse du contenu de textes. Elle ne requiert aucune connaissance sémantique ou linguistique, et pour cause. Elle s'appuie sur le zip, un outil diffusé sur l'Internet pour compresser les textes et réduire leur temps de transmission. Le trio l'a détourné et affirme pouvoir découvrir la langue d'un texte, classer les langues par proximité et même découvrir l'auteur d'un écrit...
La compression de textes repose sur une idée simple. Rechercher les répétitions de caractères, de mots et de groupes de mots dans un texte, sans se soucier du sens. Et, ensuite, les coder par des symboles plus compacts. La phrase «Avant l'heure, c'est pas l'heure. Après l'heure, c'est plus l'heure» (67 caractères) deviendra, par exemple, «Avant @ % pas @. Après @ % plus @» (32 caractères). Le «dictionnaire» des mots ainsi codés vient s'ajouter en fin de texte. Plus le document est long et plus la compression est aisée.
Proximité. Pour comparer les langues, l'équipe de Vittorio Loreto (université la Sapienza, Rome, Italie) a utilisé la déclaration des droits de l'homme, l'un des écrits les plus traduits au monde. Il en résulte que compresser un texte en basque langue non indo-européenne sur la base d'un dictionnaire de compression établi pour le même texte en italien n'est pas du tout efficace. Pour le français, en revanche, la proximité avec l'italien donne de mei