Le plomb : un enjeu sanitaire majeur aux États-Unis

Par Jérémie Sicard, Malo Gendry, Louis Dubois-Leprou, Lucas Beretti

On estime aujourd’hui, qu’aux États-Unis l’intoxication au plomb serait la cause indirecte de près de 400 000 décès. Malgré une tendance à la baisse, ce problème demeure l’une des principales causes de mortalité dans ce pays.

Le saturnisme pouvant entraîner divers symptômes, tels que des troubles moteurs ou des troubles du comportement, est encore très difficile à diagnostiquer. Le plomb étant présent dans de nombreux composants environnementaux, la contamination affecte les individus durablement et touche particulièrement les enfants.

Afin de mieux limiter les effets de cette intoxication et de mieux en comprendre les causes, la ville de New York a levé plusieurs campagnes de dépistage d’intoxication au plomb. Afin d’être efficaces, celles-ci doivent être réalisées à grande échelle, et sont donc très onéreuses.

Notre aide à la ville de New York

Afin d’aider la ville de New York, nous avons essayé de développer deux outils d’aide à la décision. Le 1er modèle a pour but de prédire l’évolution des cas de saturnisme dans les quartiers de New York. À court terme, cet outil pourrait partiellement remplacer les dépistages massifs. Il devrait ainsi permettre à la ville de New York de concentrer ses efforts de dépistages et de soins dans les zones considérées comme les plus à risques pour la contamination au plomb.

Nous désirions aussi développer un deuxième outil permettant la compréhension des principaux facteurs d’intoxications. Nous saurions ainsi quelles sont les zones sensibles et quels sont les facteurs environnants ayant le plus d’impact vis-à-vis de cette problématique sanitaire. Sur le long terme, ceci pourrait nous permettre de proposer un plan d’actions à la ville de New York en désignant des zones prioritaires et les actions à y mener.

Les données utilisées

Notre premier travail a été bibliographique afin de recenser différents facteurs pouvant influencer la contamination au plomb chez les enfants de moins de six ans tels que la présence de traces de plomb dans l’habitation ou encore la vétusté du logement. Puis, nous avons donc trouvé des jeux de données opendata comprenant les variables citées précédemment que nous avons qualifiées de variables explicatives environnantes.

Les individus de notre jeu de données ont été caractérisés par une des zones géographiques de la ville de New York à une année donnée.

Notre jeu de données comporta alors, pour chaque individu, une valeur de la variable cible qui est la proportion d’enfants pour 1000 testés ayant une concentration en plomb de plus de 5 mcg/dL dans le sang et une valeur des différentes variables explicatives environnantes.

L’enjeu de la fusion

Cependant, l’une des principales difficultés de notre projet était l’absence d’un jeu de données exploitable directement, listant les différentes variables environnantes et les variables cibles pour chaque zone géographique et année associée.

Nous avons donc dû fusionner une dizaine de jeux de données intermédiaires afin de créer notre propre jeu de données final. Mais ceux-ci ne possédaient pas la même temporalité ni le même niveau géographique d’analyse.

Nous avons alors défini une échelle géographique qui le “community district” associé à une clé d’identification que nous avons créée : le geoID (59 à New York). Nous avons également délimité une échelle temporelle allant de 2011 à 2018.

Des données incomplètes

Une nouvelle problématique est apparue lors de la fusion des jeux de données et notamment lors du choix de l’échelle temporelle.

En effet, trois des jeux de données intermédiaires ne possédaient pas des valeurs pour chaque année allant de 2011 à 2018. Nous avons donc dû répondre à ce manque en utilisant deux techniques faisant appel respectivement à l’évolution quasi-linéaire d’une variable et à la monotonie de l’évolution d’une variable pour différents “geoID” dans le temps.

Ainsi, à ce stade, nous possédions un jeu de données global comportant 472 individus défini comme suit :

Individus		Variable cible	Variables environnantes explicatives
geoID	Année	5 mcg/dl ou plus	Nb maisons avec plomb	…	Proportion de maisons construites avant 1950
101	2011
	…
	2018
102	2011
	…
	2018

L’intoxication : un processus lent et localisé

La contamination au plomb étant un processus lent, ancré dans le temps, les changements ne semblent pas s’opérer directement, il y a donc un fort lien de corrélation entre la contamination au plomb de l’année actuelle et celles des années précédentes.

Pour associer la dimension temporelle à notre analyse, nous avons donc directement incorporé, pour chaque individu, la proportion du nombre d’enfants contaminés par le plomb aux années N-1, N-2 et N-3.

Quant à la dimension spatiale, les enfants new-yorkais n’étant pas cantonnés à leur propre community district, ils peuvent facilement être contaminés lors de leurs activités dans des community districts voisins, nous avons donc voulu prendre en compte le voisinage des community districts.

Nous avons alors discrétisé la ville de New York en 5 zones géographiques de même superficie et associé à chaque barycentre d’un geoID son appartenance à l’une des zones géographiques.

Deux modèles pour deux objectifs

Notre objectif était de prédire le taux de contamination au plomb d’un community district d’une année sur l’autre. Actuellement, des tests massifs sont effectués chaque année à New York, nous donnant accès aux données de contamination des années précédentes. Ces données sont majeures dans la prédiction de la contamination d’une année : ce taux n’étant pas sujet à d’importantes variations pour des années consécutives.

Cependant, si dans le futur, la ville de New York est amenée à ne plus effectuer de dépistages massifs, mais simplement un dépistage dans certains quartiers de New York, notre modèle ne serait alors plus utilisable, car nous n’aurions plus accès aux données de contamination des années précédentes.

Par conséquent, nous avons décidé de construire deux modèles de régression selon chaque cas de figure :

modèle comprenant les variables explicatives environnantes et la contamination au plomb des années précédentes
modèle comprenant seulement les variables explicatives environnantes

Nous souhaitons construire à la fois un modèle ayant de bonnes prédictions et qui soit facilement interprétable pour expliquer les causes de la contamination au plomb dans un quartier donné. Ainsi, des modèles tels que la régression linéaire ou l’arbre de décision correspondent à notre étude.

Performance des modèles

Nom du modèle	Root MSE (Root Mean Square Error)	R²
Régression linéaire	0.00256	0.93
Régression de Ridge	0.00233	0.94
Régression de Lasso	0.00234	0.94
Arbre de décision	0.00321	0.89

Comparaison des modèles utilisant les variables environnantes et contamination des années précédentes

On obtient de très bon résultats sur les modèles de régression linéaire.

Nom du modèle	Root MSE (Root Mean Square Error)	R²
Régression linéaire	0.00705	0.47
Régression de Ridge	0.00715	0.45
Régression de Lasso	0.00690	0.49
Arbre de décision	0.00762	0.37

Comparaison des modèles utilisant seulement les variables environnantes

Les résultats se dégradent considérablement par rapport au premier cas de figure. Il est intéressant de constater que notre modèle n’est plus fiable pour prédire précisément le taux de contamination, mais arrive tout de même à tirer des tendances à partir des données comme le montre l’observation de ces 2 cartes (La couleur représente le taux de personnes contaminées au plomb au-delà d’un certain seuil).

Après observation de l’impact de chacune de nos variables, on peut affirmer que la proportion de maisons construites avant 1950, la proportion d’habitations ayant déclaré des problèmes d’entretien et la proportion de maisons pauvres sont les trois facteurs qui influent le plus sur une intoxication au plomb.

Des perspectives d’amélioration

Notre projet dispose de résultats encourageants, mais ce dernier doit encore faire face à certaines limites. En effet, notre algorithme de prédiction se base trop sur les intoxications des années précédentes, ainsi si l’on veut garder de bonnes prédictions, il faut continuer le dépistage massif.

Une piste d’amélioration serait l’introduction de nouvelles variables telles que la présence de parents fumeurs ou encore la compréhension de l’anglais par la famille. De plus, l’utilisation de petits échantillons comme ceux que nous avons formés, peut limiter la détection d’associations importantes, qui pourrait réduire l’influence de certaines variables environnantes. Il faudrait donc pouvoir augmenter le nombre d’individus de notre jeu de données en se ramenant à des zones géographiques encore plus petites que celles que nous avons définies.