Menu
Libération
Selon une étude

Eaux intoxiquées ou polluées : des modèles informatiques pour vérifier leur qualité

Est-il prudent de se baigner à cet endroit ? Des modèles informatiques sont capables de répondre à cette question en se basant uniquement sur les données de pollution des jours précédents.
Pendant trois mois, des modèles informatiques tenté de prédire la qualité de l'eau sur certaines plages du lac Michigan (Photo Frederic Reglain. Divergence)
publié le 26 juillet 2018 à 7h03

Arriver sur la plage et se rendre compte que la baignade y est interdite à cause d’une eau contaminée par des bactéries a de quoi décevoir. Mais il y a pire : nager dans une eau intoxiquée ou polluée sans le savoir, les conséquences pouvant être bien plus dangereuses qu’une après-midi au sec.

Pour éviter cette mésaventure, des chercheurs ont voulu développer un modèle informatique capable de prédire la qualité de l'eau quasiment en temps réel à partir des données de contamination des jours précédents. Leurs résultats sont publiés dans le journal Environmental Science & Technology.

Quelle était la question ?

Actuellement, pour tester si l’eau est propre à la baignade, des prélèvements sont faits sur le site puis sont analysés au laboratoire pour prononcer le verdict. Malgré les techniques modernes, cette analyse peut prendre du temps ; un délai durant lequel les baigneurs risquent de contracter une infection si l’eau est de piètre qualité. L’équipe de chercheurs a donc voulu développer un modèle informatique capable de détecter le plus rapidement possible la pollution de l’eau.

Comment les chercheurs ont-ils procédé ?

C’est le lac Michigan, dans le nord des Etats-Unis, qui a été choisi comme lieu de l’expérience. Début juillet, 30 plages de ce site ont été fermées en raison d’un niveau de bactéries trop élevées. Particulièrement en cause, la bactérie Escherichia coli pouvant provoquer des gastro-entérites ou des infections urinaires. Les chercheurs disposaient du niveau de bactéries enregistré dans l’eau chaque jour pendant trois mois sur quatre plages du lac ainsi que d’informations supplémentaires telles que la température de l’eau, sa turbidité (comprendre la teneur en matériaux légers en suspension d’un cours d’eau) ou les précipitations quotidiennes.

Les modèles utilisés par les chercheurs fonctionnent par apprentissage autonome, c’est-à-dire qu’ils se sont entraînés, tout seuls, sur les trois mois de données pour arriver à des prédictions satisfaisantes.

Comment cela fonctionne-t-il ? Le modèle va tenter de prévoir le niveau de bactérie d’un jour J parmi les trois mois de données. Il prend en paramètres d’entrée les niveaux de bactérie des jours précédant cette date et potentiellement d’autres informations complémentaires, puis rend en sortie une prédiction du niveau de bactéries de ce jour. Il compare ensuite avec la valeur réelle, dans les données, et le modèle va apprendre de son erreur. Puis il va faire le même exercice avec un autre jour et va se rapprocher peu à peu de la bonne prédiction.

Qu’ont-ils découvert et à quoi ça sert ?

Les chercheurs ont comparé la précision des prédictions faites par cinq de leurs modèles. La différence principale entre les modèles résidait dans le nombre de paramètres d’entrée. Les modèles les plus précis étaient ceux qui tenaient compte non seulement du niveau de bactéries des jours précédents, mais aussi des paramètres supplémentaires décrits plus haut.

L’un des modèles des chercheurs s’est distingué. Il prenait en entrée uniquement le niveau de bactérie des jours précédents mais les chercheurs avaient appliqué aux données un traitement particulier ayant pour but de les rendre plus lisibles avant d’entrer dans la phase d’apprentissage. Les mesures biologiques peuvent en effet parfois manquer de précision ou être bruitées (c’est-à-dire que des données parasites gênent leur compréhension) et elles ne sont pas toujours facilement exploitables par une machine.

Deux conclusions principales peuvent être tirées de l’expérience des chercheurs. D’abord, il peut être possible de prédire informatiquement et de manière précise la qualité de l’eau du jour, sur une plage, à partir des jours précédents. Et cette prédiction est possible, même pour les plages pour lesquelles nous ne disposons que de très peu de paramètres.

Pour François Jouve, professeur de mathématiques appliquées à l'université Paris-Diderot, l'utilisation d'algorithmes d'apprentissage pour cette application est intéressante mais il déplore tout de même la taille du jeu de données des chercheurs : «Trois mois de données, cela me semble peu pour réaliser l'apprentissage et la validation de ces modèles informatiques. Je pense que d'autres tests seront nécessaires.» En attendant, prudence sur les lieux de baignade.