Par Nicolas HOULIER, Guillemette MASSOT, Guillaume MICHONNEAU et Aymeric MOULARD, élèves du parcours Data Science de l’IMT Atlantique.
Alors que l’Inde devrait se hisser à la troisième place des puissances économiques mondiales en 2020, le pays reste l’un des états qui compte le plus fort taux d’inégalité au monde. La pauvreté persiste dans le pays et environ 20% de la population indienne vit encore sous le seuil de pauvreté (fixé à 1,9 $/jour/personne), d’après la Banque Mondiale. Toutes les régions ne sont pas égales face à cela, et les principales touchées restent celles du Nord, tels que Chhattisgarh, Jharkhand et Odisha (anciennement Orissa). Cette situation se trouve renforcée par les faibles investissements de l’état indien dans le secteur de la santé. En effet, l’Inde se classe à la 159ème place sur 187 dans ce domaine en 2016, d’après la Banque Mondiale.
La pauvreté et les faibles investissements de l’état indien, entre autres, entraînent de graves problèmes sanitaires. Ainsi l’Inde a longtemps été le premier pays du monde en termes de mortalité infantile. Bien que celle-ci soit en fort recul depuis 10 ans, le taux reste élevé, avec plus de 39 bébés décédés dans leur première année pour 1000 naissances en 2017, d’après une étude du CIA World Factbook. L’Inde est désormais le 47e pays avec le taux de mortalité infantile le plus élevé au monde, d’après cette même étude, ce qui montre une amélioration limitée des conditions sanitaires en Inde.
Notre étude va donc porter sur la mortalité infantile en Inde, et particulièrement dans les régions les plus pauvres. Elle se basera sur la méthodologie CRISP-DM, qui se décompose en six phases distinctes.
Ces six phases, que sont la compréhension du besoin métier, la compréhension des données, la préparation des données, la modélisation, l’évaluation et le déploiement, permettront de comprendre les différentes étapes que nous avons suivies lors de ce projet. Nous allons les expliciter une à une dans la suite de l’article.
Diminuer la mortalité infantile, oui … Mais comment ?!
Cette phase de compréhension du besoin métier consiste à comprendre les problématiques métier que la Data Science tente de résoudre. Dans notre cas, nous constatons que malgré une forte croissance économique, l’Inde reste marquée par la pauvreté, notamment dans les régions du nord. La mortalité infantile est dans ces régions un véritable fléau. Il paraît donc primordial d’aider notre client, le gouvernement indien, à tirer parti des données qu’il possède en matière de santé publique. Notre objectif est de cibler les districts les plus touchés et les facteurs déterminants afin d’aider le gouvernement à investir correctement et aux endroits clés afin de diminuer la mortalité infantile.
Des fichiers, des variables et des individus !
Lors de la phase de la compréhension des données, nous nous intéressons aux données mises à notre disposition et à leur lien avec notre problématique. Notre jeu de données est un jeu de données de santé publique publié par le gouvernement indien sur leur plateforme opensource, faisant 3.24 GB.
Nos données concernent uniquement sept régions : Rajasthan, Bihar, Assam, Jharkhand, Odisha, Chhattisgarh et Madhya Pradesh, parmi les vingt-neuf existantes en Inde. Ces régions sont situées dans le nord du pays et correspondent d’après notre étude bibliographique aux régions les plus touchées par la pauvreté. Notre jeu de données se décompose en dix fichiers. Un fichier de description des variables, qui n’est cependant pas exhaustif, et ne permet pas toujours de comprendre la signification des données. Et neuf autres comportant les données d’environ un million de femmes chacun, réparties selon 197 variables. Deux régions possèdent en effet deux fichiers de données. Cette division en plusieurs documents a constituée une première contrainte, compliquant la compréhension du dataset dans les premières phases du projet.
Par ailleurs certaines colonnes ne sont pas directement en lien avec notre étude sur la mortalité infantile.
Fusion des fichiers et grand nettoyage !
La préparation des données est l’ensemble des étapes menées sur les données brutes pour créer un nouvel ensemble de données sur lequel appliquer les algorithmes.
Comme vu dans la partie précédente, notre jeu de données était divisé en plusieurs dossiers, la première étape de préparation a donc d’abord consisté à regrouper l’ensemble en un seul fichier.
Après une étude approfondie de nos données, nous nous sommes rendus compte que les questionnaires soumis aux femmes enceintes avaient évolués au cours des années, ainsi, certaines colonnes étaient composées en grande partie de NA. Nous avons donc effectué un tri des données, en supprimant les colonnes remplies entièrement ou en majorité de NA, ainsi que celles remplies de valeurs constantes.
Par ailleurs, comme nous l’avons souligné dans la partie précédente, le fichier descriptif ne nous permettait pas de comprendre la signification de certaines variables, nous avons donc dû les supprimer.
Les réponses aberrantes, comme un nombre total d’enfant de 68 pour une femme, ont aussi été éliminées pour permettre une étude cohérente. Ces données sont appelées des outliers.
Nous avons par ailleurs créé de nouvelles variables en agglomérant des variables existantes. Ainsi, la variable santé a été créée en pondérant les colonnes sur l’eau courante, les toilettes privatives, l’électricité et la présence d’un réfrigérateur. La colonne « mortalité infantile » a aussi dû être créée, car elle ne figurait pas directement dans nos données.
Alors, Big Data ou pas Big Data ?
La phase de modélisation résume le choix, le paramétrage et la mise en place des différents algorithmes sur notre jeu de données pour pouvoir répondre à notre objectif.
Dans un premier temps, nous avons envisagé de faire de la prédiction de mortalité infantile sur les individus. Cependant, la classe était minoritaire quelle que soit la tranche regardée, donc la prédiction donnait invariablement la classe majoritaire. Il n’y avait ainsi pas de gain d’information.
Ceci nous a mené à changer d’angle d’attaque. Nous nous sommes plutôt intéressés aux districts eux-mêmes, c’est-à-dire que nous avons adopté une approche plus statistique. Cette seconde approche est par ailleurs plus pragmatique : il est en effet peu probable que le gouvernement indien affecte ses moyens au cas par cas. Des investissements par district semblent plus raisonnables. Nous devons donc définir les districts cibles, en fonction de leur richesse, niveau d’éducation, de santé, de mortalité infantile. La détermination de ces districts doit être aisément comprise par le gouvernement indien, c’est pourquoi nous avons d’abord utilisé des arbres de décision.
Ainsi, en nous plaçant à l’échelle des districts, nous avons pu obtenir des arbres de décision de la forme de celui ci-dessus, qui nous ont apporté des premières informations sur les facteurs prépondérants de la mortalité infantile. On remarque bien que les noeuds supérieurs de l’arbre résultent du nombre de filles par famille, de la richesse moyenne et de la santé moyenne. L’éducation moyenne du district et le nombre de garçons par foyer étant des facteurs subalternes dans l’arbre.
De ce fait nous avons pu déduire, comme nous le supposions, que les feuilles de l’arbre après les noeuds impliquant une santé moyenne élevée avaient une plus faible mortalité infantile que les autres. Mais contrairement à l’idée reçue, dans cet arbre, la richesse et l’éducation ne vont pas de paire avec une mortalité infantile plus faible.
Cependant, cet arbre étant tronqué pour des raisons de lisibilité, et étant réduit sciemment aux variables que nous maîtrisons le mieux au moment de cette phase de modélisation, il ne nous donne pour l’instant qu’un aperçu des facteurs discriminants pour la mortalité infantile.
Nous avons alors construit un score pour classer les districts en fonction de la mortalité infantile, de son évolution dans le temps, de l’évolution du niveau de santé et de richesse. Beaucoup des districts avec les plus hauts scores de risque se trouvent au Rajasthan, ce qui sous-entend que c’est là que le gouvernement indien doit concentrer ses efforts.
Pour conclure sur l’utilisation du Big Data, le fait que nous ayons choisi d’œuvrer sur les districts a engendré une réduction considérable du dataset de travail. En effet, nous ne travaillons plus que sur un dataset de 201 individus (les districts) et une trentaine de colonnes. Dès lors, dans ce cas précis, employer des techniques d’analyse Big Data est inutile.
Du coup, quels sont les facteurs ?
L’étape d’évaluation vise à vérifier que l’étude menée dans la partie précédente apporte une réponse à la problématique métier.
Un premier traitement statistique des données nous a permis d’évaluer la proportion de mortalité infantile dans chaque état. On constate que ces chiffres sont particulièrement élevés, notamment pour le Jharkhand et le Rajasthan qui dépassent un taux de 10%. Il convient donc d’identifier les facteurs menant à de tels taux de mortalité infantile.
État |
Assam |
Bihar1 |
Bihar2 |
Chhattisgarh |
Jharkhand |
Madhya Pradesh1 |
Madhya Pradesh2 |
Odisha |
Rajasthan |
Total |
Natalité |
2 103 662 |
2 274 477 |
2 197 414 |
1 603 056 |
2 860 296 |
1 414 122 |
1 498 181 |
1 731 272 |
2 387 846 |
18 070 325 |
Mortalité infantile (%) |
9,82 |
9,16 |
8,76 |
6,20 |
11,54 |
8,58 |
6,52 |
9,09 |
10,42 |
9,20 |
Pour cela, nous avons utilisé les algorithmes de fouille de données présentés dans la partie précédente. Il ressort de cette analyse que les facteurs les plus déterminants sont, par ordre d’importance : District; Nombre d’enfants; Groupe social; Éducation; Santé; Richesse.
La faiblesse de cette étude réside dans les constatations suivantes. Tout d’abord, les variables fournies ne sont pas toutes explicites, et nous ont ainsi empêché d’utiliser à fond le dataset. Secondement, l’anonymisation des districts a pour conséquence directe l’impossibilité d’enrichir les données comme nous l’aurions souhaité (en incluant le type d’industries implantées par exemple).
Ainsi, le classement que nous avons effectué demande encore de la part du gouvernement indien un travail afin de retrouver dans les districts bien classés les opérations menées, ce qui ouvrira la voie à une amélioration de la situation dans les moins bons districts.
Pour la suite des opérations …
Enfin lors de la phase de déploiement, l’objectif est de mettre à disposition la connaissance obtenue lors de la modélisation et de permettre l’utilisation de notre modèle.
Dans notre cas, nous allons mettre à la disposition de l’état indien notre code commenté ainsi qu’une documentation pour le détailler, afin qu’il puisse l’utiliser et déterminer quelles sont les régions à aider et quels sont les facteurs à améliorer dans ces régions.
Au niveau de la maintenance, notre documentation contiendra par ailleurs un résumé des données utilisées par notre modèle, afin que les questionnaires maintiennent ces questions et que le gouvernement indien ait conscience de l’importance d’obtenir une réponse à celles-ci. En outre, ce dernier n’aura aucun mal à continuer cette étude, notre travail étant codé sous R (logiciel libre).