Le plomb : un enjeu sanitaire majeur aux États-Unis

Par Jérémie Sicard, Malo Gendry, Louis Dubois-Leprou, Lucas Beretti

On estime aujourd’hui, qu’aux États-Unis l’intoxication au plomb serait la cause indirecte de près de 400 000 décès. Malgré une tendance à la baisse, ce problème demeure l’une des principales causes de mortalité dans ce pays.

 Le saturnisme pouvant entraîner divers symptômes, tels que des troubles moteurs ou des troubles du comportement, est encore très difficile à diagnostiquer. Le plomb étant présent dans de nombreux composants environnementaux, la contamination affecte les individus durablement et touche particulièrement les enfants.

Afin de mieux limiter les effets de cette intoxication et de mieux en comprendre les causes, la ville de New York a levé plusieurs campagnes de dépistage d’intoxication au plomb. Afin d’être efficaces, celles-ci doivent être réalisées à grande échelle, et sont donc très onéreuses.

Notre aide à la ville de New York

Afin d’aider la ville de New York, nous avons essayé de développer deux outils d’aide à la décision. Le 1er modèle a pour but de prédire l’évolution des cas de saturnisme dans les quartiers de New York. À court terme, cet outil pourrait partiellement remplacer les dépistages massifs. Il devrait ainsi permettre à la ville de New York de concentrer ses efforts de dépistages et de soins dans les zones considérées comme les plus à risques pour la contamination au plomb.

Nous désirions aussi développer un deuxième outil permettant la compréhension des principaux facteurs d’intoxications. Nous saurions ainsi quelles sont les zones sensibles et quels sont les facteurs environnants ayant le plus d’impact vis-à-vis de cette problématique sanitaire. Sur le long terme, ceci pourrait nous permettre de proposer un plan d’actions à la ville de New York en désignant des zones prioritaires et les actions à y mener.

Les données utilisées

Notre premier travail a été bibliographique afin de recenser différents facteurs pouvant influencer la contamination au plomb chez les enfants de moins de six ans tels que la présence de traces de plomb dans l’habitation ou encore la vétusté du logement. Puis, nous avons donc trouvé des jeux de données opendata comprenant les variables citées précédemment que nous avons qualifiées de variables explicatives environnantes.

Les individus de notre jeu de données ont été caractérisés par une des zones géographiques de la ville de New York à une année donnée.

Notre jeu de données comporta alors, pour chaque individu, une valeur de la variable cible qui est la proportion d’enfants pour 1000 testés ayant une concentration en plomb de plus de 5 mcg/dL dans le sang et une valeur des différentes variables explicatives environnantes.

L’enjeu de la fusion

Cependant, l’une des principales difficultés de notre projet était l’absence d’un jeu de données exploitable directement, listant les différentes variables environnantes et les variables cibles pour chaque zone géographique et année associée.

Nous avons donc dû fusionner une dizaine de jeux de données intermédiaires afin de créer notre propre jeu de données final. Mais ceux-ci ne possédaient pas la même temporalité ni le même niveau géographique d’analyse.

Nous avons alors défini une échelle géographique qui le “community district” associé à une clé d’identification que nous avons créée : le geoID (59 à New York). Nous avons également délimité une échelle temporelle allant de 2011 à 2018.

Des données incomplètes

Une nouvelle problématique est apparue lors de la fusion des jeux de données et notamment lors du choix de l’échelle temporelle.

En effet, trois des jeux de données intermédiaires ne possédaient pas des valeurs pour chaque année allant de 2011 à 2018. Nous avons donc dû répondre à ce manque en utilisant deux techniques faisant appel respectivement à l’évolution quasi-linéaire d’une variable et à la monotonie de l’évolution d’une variable pour différents “geoID” dans le temps.

Ainsi, à ce stade, nous possédions un jeu de données global comportant 472 individus défini comme suit :

Individus

Variable cible

Variables environnantes explicatives

geoID

Année

5 mcg/dl ou plus

Nb maisons avec plomb

Proportion de maisons construites avant 1950

101

2011

2018

102

2011

2018


L’intoxication : un processus lent et localisé

La contamination au plomb étant un processus lent, ancré dans le temps, les changements ne semblent pas s’opérer directement, il y a donc un fort lien de corrélation entre la contamination au plomb de l’année actuelle et celles des années précédentes.

Pour associer la dimension temporelle à notre analyse, nous avons donc directement incorporé, pour chaque individu, la proportion du nombre d’enfants contaminés par le plomb aux années N-1, N-2 et N-3.

Quant à la dimension spatiale, les enfants new-yorkais n’étant pas cantonnés à leur propre community district, ils peuvent facilement être contaminés lors de leurs activités dans des community districts voisins, nous avons donc voulu prendre en compte le voisinage des community districts.

Nous avons alors discrétisé la ville de New York en 5 zones géographiques de même superficie et associé à chaque barycentre d’un geoID son appartenance à l’une des zones géographiques.

Deux modèles pour deux objectifs

Notre objectif était de prédire le taux de contamination au plomb d’un community district d’une année sur l’autre. Actuellement, des tests massifs sont effectués chaque année à New York, nous donnant accès aux données de contamination des années précédentes. Ces données sont majeures dans la prédiction de la contamination d’une année : ce taux n’étant pas sujet à d’importantes variations pour des années consécutives.

Cependant, si dans le futur, la ville de New York est amenée à ne plus effectuer de dépistages massifs, mais simplement un dépistage dans certains quartiers de New York, notre modèle ne serait alors plus utilisable, car nous n’aurions plus accès aux données de contamination des années précédentes.

Par conséquent, nous avons décidé de construire deux modèles de régression selon chaque cas de figure :

  1. modèle comprenant les variables explicatives environnantes et la contamination au plomb des années précédentes
  2. modèle comprenant seulement les variables explicatives environnantes

Nous souhaitons construire à la fois un modèle ayant de bonnes prédictions et qui soit facilement interprétable pour expliquer les causes de la contamination au plomb dans un quartier donné. Ainsi, des modèles tels que la régression linéaire ou l’arbre de décision correspondent à notre étude.

Performance des modèles

Nom du modèleRoot MSE (Root Mean Square Error)
Régression linéaire0.002560.93
Régression de Ridge0.002330.94
Régression de Lasso0.002340.94
Arbre de décision0.003210.89
Comparaison des modèles utilisant les variables environnantes et contamination des années précédentes

On obtient de très bon résultats sur les modèles de régression linéaire.

Nom du modèleRoot MSE (Root Mean Square Error)
Régression linéaire0.007050.47
Régression de Ridge0.007150.45
Régression de Lasso0.006900.49
Arbre de décision0.007620.37
Comparaison des modèles utilisant seulement les variables environnantes

Les résultats se dégradent considérablement par rapport au premier cas de figure. Il est intéressant de constater que notre modèle n’est plus fiable pour prédire précisément le taux de contamination, mais arrive tout de même à tirer des tendances à partir des données comme le montre l’observation de ces 2 cartes (La couleur représente le taux de personnes contaminées au plomb au-delà d’un certain seuil).

Après observation de l’impact de chacune de nos variables, on peut affirmer que la proportion de maisons construites avant 1950, la proportion d’habitations ayant déclaré des problèmes d’entretien et la proportion de maisons pauvres sont les trois facteurs qui influent le plus sur une intoxication au plomb.

Des perspectives d’amélioration

Notre projet dispose de résultats encourageants, mais ce dernier doit encore faire face à certaines limites. En effet, notre algorithme de prédiction se base trop sur les intoxications des années précédentes, ainsi si l’on veut garder de bonnes prédictions, il faut continuer le dépistage massif.

Une piste d’amélioration serait l’introduction de nouvelles variables telles que la présence de parents fumeurs ou encore la compréhension de l’anglais par la famille. De plus, l’utilisation de petits échantillons comme ceux que nous avons formés, peut limiter la détection d’associations importantes, qui pourrait réduire l’influence de certaines variables environnantes. Il faudrait donc pouvoir augmenter le nombre d’individus de notre jeu de données en se ramenant à des zones géographiques encore plus petites que celles que nous avons définies.

Automatiser le calcul des notes des joueurs dans le jeu vidéo FIFA

Par Sarah FEDOUACH, Corentine NICOLAS et Lola SPASOJEVIC

Le secteur des jeux vidéo est en pleine expansion. Les entreprises se doivent d’être concurrentielles et à la pointe de l’innovation. Parmi les jeux vidéo les plus populaires se trouve FIFA. C’est un jeu vidéo de football créé par EA Sport en 1993, une entreprise qui développe des jeux vidéo de sport en ligne. Dans ce jeu, les joueurs de football possèdent une note sur 100 qui définit leur prestation et donc leur niveau dans le jeu. Cette note est actuellement calculée à la main par 8000 bénévoles qui étudient tous les matchs de toutes les ligues chaque année et retravaillée par 200 data editors de chez FIFA.

Fig 1 : Meilleurs joueurs dans FIFA 21 (https://www.ea.com/fr-fr/games/fifa/fifa-21/ratings)

Comment rendre le calcul de ces notes plus rapide et moins cher?

Notre projet propose d’aider FIFA à simplifier le calcul des notes des 17000 joueurs qui composent le jeu en se basant sur leurs statistiques de matchs (buts, cartons, nombre de matchs sans prendre de buts…). La difficulté a été de comprendre quelles variables peuvent être utiles pour le calcul des notes et ainsi remplacer l’avis subjectif de 8000 bénévoles. Après avoir sélectionné les données pertinentes et grâce à des algorithmes de machine learning, nous pouvons prédire ces notes en fonction des performances réelles. Le produit que nous proposons serait donc directement intégré au système informatique de FIFA.

Choix du dataset et des statistiques footballistiques

Afin de construire notre modèle nous avons eu l’idée de récolter des données sur les performances réelles des joueurs mais aussi de leurs clubs. Dans un souci de simplicité, nous avons décidé de travailler uniquement sur les 5 plus grands championnats d’Europe (Premier League, La Liga, Bundesliga, Serie A et Ligue 1) et les saisons 2017/18, 2018/19, 2019/20, ce qui correspond à 45 datasets, 98 équipes et près de 2200 joueurs. A cela, on ajoute les datasets contenant les notes FIFA des années 2018, 2019, 2020 et 2021 qui vont nous permettre d’entraîner notre modèle.

Des statistiques à la prédiction de notes

Notre but étant d’obtenir un dataset par année (toutes ligues confondues), nous avons dû faire correspondre les noms des joueurs des datasets statistiques avec ceux des datasets de notes FIFA afin de les fusionner.

Les équipes de foot ne se valent … pas

Cependant, il nous paraissait important que les clubs des joueurs soient une features d’entraînement de notre modèle. C’est pourquoi nous avons dû créer un score équipe. Ce score a été créé en comparant (en termes de points et de nombre de buts) chaque club d’une ligue au premier de cette ligue. Grâce à ce score il est, par exemple, possible de comparer directement les performances du Real Madrid avec celles de Liverpool.

Regardons les données de plus près.

Nous avons étudié la corrélation de nos variables avec les notes des joueurs. Deux variables sont corrélées positivement si leur coefficient de corrélation est proche de 1 et corrélées négativement si leur coefficient de corrélation est proche de -1. Deux variables corrélées ou anti corrélées signifient qu’elles mesurent un phénomène similaire. Cela apporte du bruit et peut induire le modèle en erreur.

Fig 3 : Matrice de corrélation du dataset de la saison 2017/2018

Nous avons gardé une seule variable par groupe de variables corrélées et nos datasets finaux ont chacun 28 colonnes.
Nous avons ensuite décidé d’étudier l’influence de certaines variables par rapport aux différentes positions des joueurs sur le terrain. Quatre postes sont représentés dans notre dataset: les attaquants, les défenseurs, les gardiens et les milieux de terrain.

Fig 4 : Nombre de buts en fonction de la note
(à gauche pour les gardiens, à droite pour les attaquants)

Comme nous pouvions nous en douter, le nombre de buts n’a pas d’influence sur la note des gardiens tandis que cela est plus corrélé avec les notes des attaquants. Nous avons donc tracé les matrices de corrélation par postes pour trouver les variables qui influent le plus sur la note par poste.
Nous avons donc décidé d’établir deux modèles différents présentés ci-dessous:

Fig 5 : Présentation des méthodes de calcul des scores

Comment évaluer nos résultats ?

Nous souhaitons prédire une note pour cela nous allons utiliser des algorithmes de régression (le Random Forest, l’algorithme du plus proche voisin, XG Boost Regressor, Stochastic Gradient Descent Regressor et la régression linéaire). La métrique que nous avons choisie est la racine de l’erreur quadratique moyenne.
Notre but est de tester plusieurs modèles et algorithmes afin de déterminer ceux qui minimisent cette erreur. Nous avons décidé de vous présenter uniquement les modèles qui prennent en compte la note de l’année précédente, les autres ayant une erreur 3 fois plus élevée.

Algorithme GlobalGlobalPar poste : Forward
RandomForest1.124 1.141
KNeighbors4.0024.020
XGBRegressor1.2491.253
SGDRegressor192.19478.247
LinearRegression1.365 1.362

Concernant le modèle global, nous remarquons que le meilleur algorithme est le RandomForest suivi de près par XGBRegressor et la régression linéaire. Nous pouvions nous en douter car les forêts de décisions sont des algorithmes qui fonctionnent bien sur des petits datasets car ils utilisent la technique de Bootstraps.

Fig 7 : Étude des notes prédites en fonction des notes réelles pour le XGB Regressor
Fig 6 : Étude des notes prédites en fonction des notes réelles pour le Random Forest

Nous remarquons qu’il n’y a pas de valeurs aberrantes. Le nuage de points pour le Random Forest est plus resserré que celui du XGBoost : il fait donc moins d’erreurs.
Dans le cas du modèle par poste, les trois meilleurs modèles sont : le RandomForest, le XGBoost et la régression linéaire. Après analyse, nous pouvons tirer les mêmes conclusions que pour le modèle global.
Dans les deux cas de figure, le meilleur modèle est le RandomForest. Comparons donc les performances des modèles par poste pour ce modèle.

RMSEModèle globalModèle par poste
Defender1.1421.137
Midfielder1.1251.137
Goalkeeper1.0561.173
Forward1.1591.141

Le modèle global possède des performances supérieures au modèle par poste. Nous optons donc pour créer un modèle global. Nous supposons que le modèle par poste est pour l’instant moins efficace car nous ne présentons pas assez de données d’entraînement.

Déploiement et commercialisation

Notre produit sera intégré au système informatique de FIFA. Il permettra à FIFA un gain de temps et d’argent. En effet, les modèles mettent environ 3 secondes à faire les prédictions pour tous les joueurs. Il suffit de mettre à jour régulièrement les statistiques des joueurs dans la base de données pour avoir des notes les plus fiables possible. Ce qui est négligeable par rapport au
temps que FIFA met à coordonner les 8000 bénévoles et 200 data editors Le temps de calcul de ces notes est donc réduit. De plus, l’ajout de notre algorithme pourrait améliorer la satisfaction client grâce aux mises à jour régulières et donc conduire à une augmentation du taux de ventes.
On peut aussi quantifier le gain d’argent pour FIFA en termes de salaires économisés. En effet, FIFA économisera environ 14,5 millions d’euros.

Sélection automatique de commentaires utilisateurs pertinents

Par Yassine EL OUAHIDI, Justin GUIRAUTANE, Jean SAVARY, étudiants en Data Science à IMT Atlantique.

L’essor des « contenus utilisateurs »

Les opinions des utilisateurs quant aux services/biens proposés, par une plateforme prennent aujourd’hui une place de plus en plus importante lors de la phase de réservation ou d’achat. Selon une étude,94% des utilisateurs n’ont pas acheté un produit en ligne suite à la lecture d’avis négatifs. En parallèle, on constate une augmentation du nombre d’avis propres à un produit ou un service, ainsi qu’une grande diversité dans leur contenu.

Nombre de nouvelles reviews Google par trimestre
Nombre de nouvelles reviews Google par trimestre [https://searchengineland.com/googles-growth-in-online-local-reviews-continues-to-dominate-but-292571]
Pour un même produit, on peut observer divers axes de notations relatifs : pour des logements, on pensera notamment à la propreté, la conformité à l’annonce, etc. Les “reviews” apportent donc bien plus de détails et d’informations précises quant à l’avis vis-à-vis d’un produit/service que ne fournissent pas les notations (généralement une note de 1 à 5). Effectivement, plusieurs notes faibles peuvent correspondre à divers aspects très différents qui ont paru critiques aux utilisateurs. Par exemple, dans notre cas des logements, une personne peut être marquée par la très mauvaise localisation d’un logement alors qu’une autre peut porter une plus grande importance à la propreté. Dans les deux cas, il s’agira d’avis négatifs, dont les notes pourront être semblables, mais qui se perdront dans la masse de commentaires tous aussi disparates.
Il est d’autant plus décisif d’extraire de la valeur de ces “avis utilisateurs”. L’idée à retenir de ce projet est de générer de la valeur pour les utilisateurs à partir de données issues de ces utilisateurs, dans l’idée de construire une boucle vertueuse.

Exploiter les avis utilisateurs, oui … Mais comment ?

La difficulté première de ce projet est d’être en mesure de comparer la pertinence de deux commentaires entre eux au regard de l’intérêt d’un utilisateur. Sur quel aspect va-t-on mesurer la valeur d’un commentaire pour un potentiel acheteur ? Cette réflexion nous a naturellement amenés à la formulation de la problématique suivante :

“Comment définir une relation d’ordre au sein d’un ensemble d’avis utilisateurs relatifs à un produit donné, pour un utilisateur donné ?”

Notons l’importance de la mention « […] produit donné, pour un utilisateur donné ». L’ensemble de nos analyses et constructions de modèles porteront, comme nous le verrons par la suite, sur une simulation respectant le cadre : un produit donné pour une catégorie de produits donnée, pour un utilisateur spécifique.

Cas d’usage

« Archibald souhaite acheter un nouveau produit d’entretien ménager et réalise une recherche sur le site. À ce stade, nous recueillerons l’ensemble des produits disponibles sur la marketplace, répondant à la recherche d’Archibald. La marketplace lui proposera alors, selon son système de recommandation, un certain nombre de produits. À cet instant, après avoir analysé l’ensemble des commentaires disponibles, nous demanderons à Archibald d’indiquer par une phrase les caractéristiques, propres au type de produit qu’il recherche, auxquelles il est sensible. Suite à cela, nous calculerons via notre algorithme de machine learning, un score de similarité entre l’entrée d’Archibald et l’ensemble des commentaires disponibles pour chaque produit. Cette similarité, comme nous le verrons, prendra en compte des notions thématiques (par exemple, Archibald évoque l’odeur du produit d’entretien), mais aussi grammaticale et sémantique. À l’issue de cette brève phase, lorsque Archibald sélectionnera l’un des produits de la liste proposée, nous aurons sélectionné pour lui les 3 commentaires de ce produit les plus à même de satisfaire les critères qu’il a aura entré plus tôt. »

Avant d’être en mesure de réaliser cette « aide à la décision », via une sélection automatique de commentaires pertinents, nous devons satisfaire les besoins suivants : recueillir l’ensemble des commentaires relatifs à un produit, traiter ce texte de manière à appliquer des algorithmes de machine learning, définir une mesure sur laquelle nous comparerons deux commentaires (relation d’ordre).

Notre proposition de valeur

Une fois que nous serons en mesure de comparer divers commentaires au regard de l’intérêt d’un utilisateur, nous pourrons nous présenter comme un tiers de confiance, transparent, apportant une aide à la décision aux clients souhaitant acheter un produit. Notre apport de valeur du côté du site intégrant notre solution est l’augmentation de la satisfaction client via une navigation facilité par la lecture de commentaires sélectionnés spécifiquement. Les utilisateurs trouveront plus rapidement les informations qu’ils cherchent dans les reviews, et gagnerons du temps sur un site équipé de notre solution. Les clients seront plus fidèles au site et plus propices à consulter plus de pages. De cette satisfaction pourra suivre une hausse potentielle du taux de vente.

Plongée au cœur des reviews, l’incroyable récit de notre périple !

Choix du dataset…

Nous avons choisi notre dataset de manière à garantir l’universalité de notre produit, ie ayant pour objectif de pouvoir s’intégrer de manière rapide et simple sur tout type de site de e-commerce. Nous avons donc cherché un dataset contenant au moins les champs suivants : identifiant d’un avis utilisateur, identifiant du produit relatif à l’avis, contenu textuel de l’avis utilisateur. D’autres champs pourront être utilisés pour améliorer le produit, mais dans sa première version nous nous en tenons à cela.

Le prototype que nous avons construit est basé sur une base de données fournie par datafiniti.co.

La base de données utilisée pour mener à bien le prototype est constituée de 70260 commentaires utilisateurs relatifs à un ensemble de 600 produits différents vendus sur 14 sites.

… du site…

Étudions rapidement la distribution des commentaires en fonction du site.

On observe la nette prédominance des sites Walmart (~ 45% du total) et Bestbuy (~ 36% du total).

Étudions alors notre variable d’intérêt : le contenu textuel des commentaires : Walmart apparaît comme le site le plus intéressant pour la suite de notre projet. En effet, les commentaires sont deux fois plus longs, avec une médiane à 14 mots contre 7 pour Bestbuy. Ainsi que des catégories plus intéressantes, car plus propices à trouver des commentaires plus objectifs. Bestbuy contenant majoritairement des commentaires de produits liés à l’audiovisuel (films, musique, …) .

Pour la suite du prototype, nous avons donc uniquement sélectionné les commentaires utilisateurs relatifs aux produits vendus sur Walmart.

… de la catégorie…

Plus spécifiquement dans la catégorie des produits d’entretien ménager (« Household Essentials ») contenant environ 8 552 avis (en ayant retiré les avis en doublons).

… et enfin, du Produit !

En outre, pour l’évaluation du modèle, décrite par la suite, nous utiliserons le produit sélectionné ci-dessous. Pour rappel, comme mentionné dans la problématique, notre produit réalise une sélection de commentaires pour un utilisateur et un produit donnés.

Rentrons dans le cœur du projet : de la donnée brute à la sélection de commentaires !

Traitement des textes

La première étape, sur laquelle repose en grande partie l’efficacité des algorithmes évoqués plus tard, consiste au traitement des données textuelles des commentaires utilisateurs de sorte à les rendre « compréhensibles » par des modèles de machine learning. Pour cette phase, nous utiliserons la librairie de référence « Spacy » sous Python, connue pour ses modèles de traitements de textes certes complexes, mais bien plus performants que des modèles issus de l’autre librairie de référence « NLTK ».

Le pre-processing peut être résumé par le schéma suivant :

« Nous adorons tous la Data Science, mais encore plus les produits d’entretien ménagers » → « nous, adorons, tous, data, science, mais, plus, les, produits, d’entretien, ménagers ».

Passons ensuite à nos modèles. Dans le but énoncé plus haut – la similarité entre l’entrée utilisateur et notre base de commentaires

Comment quantifier la similarité entre deux textes ?

Une similarité entre deux textes peut-être de plusieurs types : sémantique, grammaticale, thématique ou autre. Dans notre cas, nous procédons en deux temps.

  1. D’abord en étudiant la similarité thématique. Nous extrayons les thèmes principaux de tous les commentaires du produit donné, pour ainsi pouvoir sélectionner les commentaires dont les thèmes principaux sont très proches des thèmes extraits de l’entrée utilisateur. Pour cette première étape, nous utilisons un LDA.
  2. Ensuite, en étudiant la similarité sémantique nous cherchons parmi les commentaires en sortie de notre LDA, les 3 étant le plus sémantiquement proches de l’entrée utilisateur. Pour cela, nous utilisons un doc2vec avec pour mesure de similarité, la similarité cosinus.
Etape 1. Extraction des thèmes principaux

Rapide explication du LDA (Latent Dirichlet Allocation). Le LDA fait parti des modèles d’extraction de topics ou « Topic modeling » . Ces algorithmes partent du postulat qu’il existe, au sein d’un corpus de textes, des thèmes latents. Ainsi, ces modèles attribuent à chaque texte un pourcentage d’appartenance à chacun des thèmes détectés au sein d’un corpus.

Nous appliquons donc notre meilleur modèle de LDA, entraîné sur un corpus de commentaires relatifs à la catégorie « Household Essentials », pour attribuer à chaque commentaire des coefficients d’appartenance aux 6 topics identifiés. Nous faisons de même pour l’entrée utilisateur. Les commentaires les plus similaires thématiquement (quantile 75%) sont envoyés en entrée du modèle suivant le doc2vec.

Cette étape, effectuée en amont de notre Doc2vec est primordiale dans notre calcul de similarité. Plutôt que de longues explications, voici un exemple pour mieux comprendre : (a) Si l’on utilise un Doc2vec (de même pour Word2vec) pour prédire les documents similaires à un texte contenant le mot « French », on obtiendra probablement des documents contenant « German » ou « English » , car ces mots sont utilisés dans des contextes grammaticaux similaires. (b) Si l’on utilise un LDA en amont et que l’on cherche à prédire les mots similaires à un texte contenant le mot « French » et évoquant le thème de la « nourriture », on obtiendra cette fois non plus des documents contenant « German » ou « English » mais plutôt « baguette », « vin », « boulangerie ».

Etape 2. Calcul de similarité sémantique entre textes

En sortie de l’étape précédente, nous avions donc plusieurs commentaires qui ont été sélectionnés. Ensuite parmi ces commentaires on sélectionne les 3 commentaires ayant les plus hauts scores de similarité sémantique.
Une fois que deux textes sont représentés sous forme de vecteur grâce au doc2vec, il est possible de calculer leur similarité cosinus.

Nous sommes donc à présent en possession d’une relation d’ordre !

Notre sélection actuelle n’est basée que sur ce score de similarité. Des améliorations ont bien entendu été envisagées, notamment l’ajout de features telle que la longueur du message, le nombre de verbes/adjectifs, etc. Nous avons également songé à entraîner un algorithme supervisé dont la variable à prédire est l’utilité d’un message (ie champ « ce commentaire vous a été utile ? »).

Comment évaluer notre sélection ?

Du non supervisé au supervisé

Notre modèle étant non supervisé, nous n’avons pas accès à une méthode directe permettant de l’évaluer. En effet, nous donnons un top 3 des commentaires les plus pertinents, mais il est impossible de garantir que ce sont bien ceux qu’il fallait choisir dans l’ensemble disponible. Pour pallier cela, une approche classique consiste à rendre le problème supervisé afin de pouvoir l’évaluer. Nous avons alors aléatoirement extrait 100 commentaires d’un produit donné, puis nous avons écrit 100 entrées utilisateurs. Nous avons ensuite associé à chacune des entrées les 3 commentaires que nous jugions les plus pertinents parmi ceux extraits. Grâce à cet « étiquetage » manuel, nous avons donc les entrées et les sorties du modèle qui devient alors supervisé. Finalement, nous comparons le résultat renvoyé par le modèle à celui que nous avons indiqué.

Qu’en est-il des résultats ?

21 % des commentaires sélectionnés par notre modèle sont jugés pertinents par les utilisateurs.

Comme on peut l’imaginer assez naturellement, les scores fournis plus haut peuvent être améliorés en ne considérant pas un top 3, mais un top 5 ou plus. On constate effectivement qu’en augmentant le nombre de commentaires à prédire, on a potentiellement plus de chances de choisir les bons.

Ces scores sont relativement faibles, mais il est difficile d’en conclure quoi que ce soit. En effet, la sélection de commentaires pertinents est un sujet très subjectif. Ainsi, notre test est biaisé par la personne qui a écrit et labellisé les entrées utilisateurs. De plus, notre procédure de test est appliquée sur un faible volume de données qui ne suffit pas à conclure.

Déploiement, commercialisation

Notre produit peut s’intégrer sous forme d’API au sein du site d’un partenaire. Pour faire ses preuves en utilisation, nous pouvons fournir un accès gratuit à nos services durant un période de 2 mois, période durant laquelle notre solution sera soumise à un A/B test dont l’objectif sera de quantifier l’augmentation d’indicateurs de performance utilisés par l’entreprise (le taux de conversion/vente semble pertinent). Après une période de tests, notre outil sera vendu sous forme d’abonnement mensuel, dont le tarif sera calculé sous forme d’un pourcentage du nombre de ventes réalisées.

Simulation de déploiement

Les gains potentiels grâce à notre solution sont aujourd’hui difficilement évaluables. Cependant, l’essor des plateformes d’achat en ligne nous garantit que de plus en plus de gens consommeront en ligne, et seront donc sensibles aux commentaires des autres utilisateurs. En considérant que notre modèle aura une influence sur le volume des ventes d’un produit donné, nous pouvons estimer le gain pour des plateformes à différentes échelles. Ci-dessous, un exemple avec le produit “Clorox wipes” vendu 5.99$ sur walmart.com.

Sur quels facteurs se concentrer pour réduire de manière efficace la criminalité ?

Par Victoire BONAUD, Auriane BORDENAVE, Mathura CHANDRAKUMAR et Guillaume LE GOFF, étudiants en Data Science à IMT Atlantique.

Depuis quelques années, le taux de criminalité global à New York a décliné, contrairement à d’autres grandes villes des USA. Pour autant, le taux de “hate crimes” (meurtres, viols, assauts graves) a beaucoup augmenté ces dernières années : 3,3 millions de victimes en 2018 contre 2,7 en 2015.

A la suite de ces constatations, le maire de New York, Monsieur Bill de Blasio, a lancé the office for the prevention of Hate Crimes, ou aussi appelé le MOCJ (Mayor’s office of Criminal Justice), en été 2019 afin d’empêcher ce type de crimes.

Il y a une réelle problématique concernant les stratégies à mettre en place dans le cadre de prévention contre les crimes violents.

Quel outil pour le Maire de New York ?

Pour aider le maire de New York, nous voulons créer un outil d’aide à la décision. Ce dernier permettrait de prédire l’impact de la modification de certains éléments, ou couples d’éléments, sur la criminalité pour chaque quartier de New York.

Quelles données utiliser ?

Nous avons cherché des données Open Data qui pourraient être liées à la criminalité, suite à la lecture de documents scientifiques traitant du sujet. Nous nous sommes ainsi concentrés, en premier lieu, sur des données socio-démographiques. Nous avons trouvé 7 variables d’intérêt comprenant le nombre d’habitants, le taux de personnes nées à l’étranger, le taux de pauvreté, le taux de chômage, le taux de diversité ethnique et le taux de jeunes déconnectés, par quartier de New York et par année entre 2000 et 2018.

Cependant, il est difficile pour le maire de mener des actions qui auront un impact direct sur ces variables. Comment avoir un impact direct sur la pauvreté ou le taux de chômage ?

Nous avons donc cherché d’autres sources de données qui permettaient d’avoir des renseignements notamment sur le nombre de commissariats, sur les infrastructures présentes dans différents quartiers et sur les évènements sociaux. Ce sont sur ces critères que le maire de New-York pourra influer.

Que faire de toutes ces données ?

Dans un premier temps, il s’agissait d’effectuer une préparation des données, qui a pris beaucoup de temps. En effet, le défi était de fusionner 11 bases de donnés puis de les regrouper en un seul dataset qui nous permette de répondre à notre problématique.

Le dataset final regroupe les données par quartiers et par années entre 2006 et 2018.

Pour fusionner les différents datasets, nous disposions des coordonnées GPS des événements et infrastructures. Il fallait donc faire correspondre ces coordonnées GPS aux Community District auxquels elles appartenaient. Cela a été effectué à l’aide d’une librairie Python de traitement des données géospatiales : geopandas. La ville de New-York met également à disposition des fichiers contenant les formes de chaque Community District, ce qui a permis d’effectuer l’opération.

Suite à ce travail nous nous sommes retrouvés avec le dataset suivant:

Mais la préparation des données ne s’est pas arrêtée là. En effet, notre problématique étant d’observer l’impact de certaines actions sur la variation de crime dans un quartier, nous avons décidé de faire d’autres modifications au dataset afin que notre étude soit plus adaptée à nos besoins.

Dans un second temps, nous avons donc décidé d’ajouter des colonnes qui expriment les variations de données d’une année sur l’autre plutôt que seulement les chiffres de l’année en cours. Par exemple, à partir de la colonne “Commissariats” on ajoute la colonne “Différence de commissariats” qui correspond au nombre de commissariats sur l’année étudiée moins le nombre de commissariats de l’année précédente.

Une fois toute cette base de données regroupée et afin d’avoir une première idée des influences de certaines variables, nous avons fait une première étude de corrélation. Nous avons retrouvé des corrélations plutôt intuitives et cohérentes. En temps normal ces études de corrélations permettent de supprimer les variables redondantes. Mais dans le cadre de notre modèle nous n’avons pas jugé utile d’en retirer, permettant à notre client d’avoir plus de choix de modification de données lors de la simulation de l’évolution du nombre de crimes dans un quartier.

La base de donnée finale est donc de 767 lignes par 55 colonnes.

Un problème de classification …

Plutôt que de prédire le nombre de crimes d’un quartier d’une année sur l’autre nous avons décidé de prédire la variation de crimes et de la regrouper en 3 classes : Augmentation, Diminution ou Stagnation du nombre de crimes par rapport à l’année précédente. La stagnation correspond à une variation du nombre de crime inférieure, en valeur absolue à 200.

Deux algorithmes nous intéressent tout particulièrement : l’arbre de décision et la régression logistique. En effet, ces deux algorithmes ont la particularité d’être facilement lisibles, ils ne sont pas des boîtes noires. Il est donc possible d’extraire les règles permettant de mener à la décision de l’appartenance à une catégorie ou à une autre.

Evaluation de nos modèles

Algorithme

Temps d’exécution

Précision

Aire ROC

Arbre de décision

< 1 seconde

55%

0.61

Random Forest (50 arbres)

~ 1 seconde

75.9%

0.77

Régression

Logistique

< 1 seconde

78.1%

0.51

Ainsi, l’algorithme de Random Forest est le plus performant dans notre étude (Aire ROC bien supérieur à 0.5, qui correspond à une classification faite au hasard).

De plus, il est toujours intéressant d’étudier l’arbre de décision sachant que cela nous permet d’identifier des associations de variables influençant la variation de crime dans le même sens pour aider à jouer sur les facteurs pour trouver les bonnes combinaisons de facteurs réduisant le crime.

Des scénarios prometteurs

Ainsi, nos modèles nous ont permis d’identifier des facteurs influençant la criminalité positivement et négativement. Nous avons donc simulé différents types de scénarios pour visualiser l’impact sur la criminalité.

Nous avons réalisé un premier scénario augmentant le nombre d’évènements sociaux de 30% : la criminalité diminuerait dans 3 quartiers.

Avec un deuxième scénario, nous avons cette fois augmenté le nombre d’événements sociaux de 10% et les infrastructures sociales de 2% : nous remarquons alors que la criminalité baisse dans 10 quartiers. Nous conseillons donc au maire de se concentrer en premier temps sur ces quartiers et d’y mettre en place d’avantage d’évènements sociaux.

Des améliorations sont tout à fait envisageables. Nous pourrions déterminer des associations de variables plus précis à l’avenir pour permettre la réalisation de scénarios encore plus efficaces pour la diminution du crime à New York. De plus, il serait intéressant de réaliser les modèles sur des groupes (clusters) de quartiers afin d’avoir des résultats encore plus précis selon le type de quartier. En effet, les variables n’influencent pas les quartiers de la même manière.

Mobiliser les montres connectées pour prévenir les accidents de la route liés à la somnolence

Par Faycal HAFID, Andy MÉRY, Mohamed MOUSSAOUI, Alla NOOR, étudiants en Data Science IMT Atlantique.

La somnolence au volant représente un véritable danger pour les automobilistes. En effet, une étude de l’American Automobile Association démontre que le risque est conséquent car plus d’un accident mortel sur six est lié à l’assoupissement au volant.

De plus, les conséquences économiques sont lourdes avec un préjudice estimé à plus de 30 milliards de dollars. C’est d’autant plus le cas pour les sociétés de transport routier dont les conducteurs sont confrontés à un haut facteur de risque puisqu’ils travaillent pendant de longues durées et souvent de nuit. Effectivement, une étude indique que près de 20% des conducteurs professionnels interrogés affirment s’être déjà endormis au cours du mois courant.

Une start-up imaginaire désireuse de sauver des vies

Pour être fidèles aux considérations business présentes en Data Science, nous nous sommes projetés dans le futur en start-upers, souhaitant mettre en pratique nos compétences pour répondre à des problèmes du quotidien. Ainsi, notre jeune start-up Rouse envisage-t’elle de développer une application mobilisant le Machine Learning pour exploiter les données d’un bracelet connecté porté par le conducteur qui surveillera ses constantes biologiques et l’alertera si jamais elle détecte un assoupissement.

Le business plan de Rouse est divisé en deux phases de déploiement. En effet, il s’agira dans un premier temps de concevoir un modèle sur des données académiques obtenues au cours d’étude sur le sommeil qui permettra de valider la faisabilité d’un tel projet. Dans un second temps, nous déploierons cette solution au sein d’un environnement de test représentatif du cas d’utilisation réel.

Des données pertinentes … issues d’Apple watches !

Le jeu de données utilisé provient de la banque de données open data en ligne PhysioNet, spécialisée dans les données physiologiques. Il a été collecté au département de Neurologie de l’université du Michigan via une étude sur le sommeil et se présente la forme de signaux de mesures de rythme cardiaque (battements par minute) et d’accélération (mesurées en g) ainsi que le nombre de pas. Ces données ont été collectées en faisant porter des Apple Watch à des participants qui les surveillaient pendant leur sommeil.

Le volume des données est assez grand pour permettre à la fois d’entraîner un modèle et de l’évaluer. En effet, les durées d’enregistrements sont de 7 heures en moyenne par patient, avec 75% des patients ayant au moins 8 heures d’enregistrement! Voici ci-dessous une visualisation des données à notre disposition sur une fenêtre de trente secondes :

Visualisation pour un patient
Visualisation pour un patient

Le patient s’endort, puis il y a un court épisode durant lequel il se réveille puis se rendort tout de suite après : on peut voir le changement dans le rythme cardiaque qui augmente puis revient à des valeurs précédentes. Cela indique que, dans une certaine mesure, les données sont pertinentes pour répondre à la problématique et sont suffisamment représentatives pour mettre en exergue une transition entre un état éveillé et un état de sommeil léger c’est-à-dire un assoupissement.

Passer le balai sur les mauvaises données

Allez hop ! Il est temps de nettoyer les données pour par la suite mettre en place notre modèle. Elles sont sous forme de fichiers .txt différents par patient et par attribut. Il a donc fallu assembler les données des différents attributs pour un même patient puis aussi rassembler les données de tous les patients confondus.

Ceci n’a pas été simple car les données ne sont pas toutes exactement de la même forme, ce qui est indispensable afin de faire une jointure et générer des attributs. L’idée est donc de mettre en forme les données du rythme cardiaque, leur attribuer le bon label, et de mettre les données d’accélérations sous la même forme pour permettre la jointure.

Place à nos algorithmes de Machine Learning

Des considérations liées à la nécessité de classifier en temps réel et ne pas avoir à traiter les flux entrants nous ont menés à implémenter un modèle de forêt aléatoire (RandomForest), et dans un deuxième temps des modèles de Naive Bayes et SVM.

Nous avons opté pour les deux critères d’évaluation suivants :

  • Précision : elle permet de qualifier les performances de la classification par le modèle
  • Rappel pour les labels 1 et 2 : il est crucial de maximiser la détection des vrais positifs qui correspondent à un état d’endormissement (passage de l’état 1 à 2).

Tableau comparatif des modèles
Tableau comparatif des modèles

Parmi les modèles de classifieurs entraînés, nous pouvons conclure avec certitude que Random Forest est le plus adapté. Comme nos données sont des signaux physiologiques collectés par un dispositif électronique, nous devons tester notre modèle face au bruit éventuel qui peut s’infiltrer. Nous avons donc classifié des données auquel on a ajouté du bruit, pour différents SNR (rapport signal à bruit) et nous avons comparé les performances obtenues par le modèle que nous avons sélectionné : le Random Forest. Les résultats illustrés ci-dessous sont des résultats auxquels on pouvait s’attendre : plus le SNR est bas (plus l’intensité bruit dépasse celle du signal) plus les performances du modèle faiblissent.

Évolution du rappel en fonction du SNR
Évolution du rappel en fonction du SNR

On se prépare pour la suite !

Ces résultats prometteurs nous permettent de suivre le déroulement prévu du projet et donc de planifier une phase de déploiement qui nous servira à suivre la performance du modèle dans des cas réels.

Il sera alors nécessaire de porter notre attention sur de nouvelles considérations, en particulier le fondement juridique. En effet, jusqu’alors nous avions utilisé une base de données sous la licence permissive OPEN DATA ODC-BY 1.0. Les personnes soumises à l’enregistrement de leurs données biologiques étaient Américaines ; conséquemment la conformité à la RGPD n’était pas requise.

Néanmoins, le cadre légal sera plus contraignant une fois le dispositif mis en place puisqu’il faudra respecter la RGPD. Plus spécifiquement, le signal physiologique qu’est la fréquence cardiaque possède un degré de protection supplémentaire en tant que donnée sensible par rapport aux données conventionnelles qui nécessite de mettre en place une solution de cryptographie adéquate.

Rouse se devra également de trouver un financement pour poursuivre un tel déploiement. Nous estimons que les résultats préliminaires encourageants permettront de convaincre des investisseurs de placer leur confiance en notre projet.

[:en]GitHub Business Model Analysis[:]

[:en]

The purpose of this paper is to serve as a continuation of our previous study on the intellectual property of GitHub, the largest web-based code sharing platform in the world. Since the writing of the previous paper, GitHub has officially been purchased by Microsoft for $7.5 billion  and this paper will seek to understand the business model that made GitHub attractive enough of a venture for such a sale to happen.

As a quick introduction, let us discuss who GitHub is. Table 1 below gives us some of the latest statistics concerning GitHub. GitHub was founded in 2007 by three partners – Chris Wanstrath, Tom Preston-Werner, and P. J. Hyett. It was written in Ruby and was the first code sharing plat- form to provide distributed version control (using Git), as opposed to a centralized version control system being offered by major competitors at the time SourceForge, GoogleCode, and CodePlex. This meant that developers could clone an entire instance of a project and merge modifications much easier than ever before. GitHub’s popularity grew exponentially fast as evidenced by Figure 1. In addition to using Git, GitHub is also popular today for a number of other services it provides that are discussed in the following section.

This paper seeks to study in detail the business model of GitHub. The paper will utilize Osterwalder’s business model canvas as a guide. We will start by reviewing the value proposition of GitHub, that is, what exactly GitHub has to offer in terms of services. We will then study the infrastructure that GitHub has built to provide the services it does. Next we will discuss some other options available for code sharing and how GitHub’s services differ from its competitors. We will look at how GitHub has segmented the market to whom it offers its service and the various propositions it offers for each segmentation, before concluding with a short discussion on GitHub’s finances.

If you are interested in the content of this paper, please click the link below: 

Link of the article: Github-business-model

 

Author: Fred Michael GONSALVES, Jie SONG

[:]

Comment le gouvernement indien peut-il réduire la mortalité infantile dans certaines régions de son pays ?

Par Nicolas HOULIER, Guillemette MASSOT, Guillaume MICHONNEAU et Aymeric MOULARD, élèves du parcours Data Science de l’IMT Atlantique.

Alors que l’Inde devrait se hisser à la troisième place des puissances économiques mondiales en 2020, le pays reste l’un des états qui compte le plus fort taux d’inégalité au monde. La pauvreté persiste dans le pays et environ 20% de la population indienne vit encore sous le seuil de pauvreté (fixé à 1,9 $/jour/personne), d’après la Banque Mondiale. Toutes les régions ne sont pas égales face à cela, et les principales touchées restent celles du Nord, tels que Chhattisgarh, Jharkhand et Odisha (anciennement Orissa). Cette situation se trouve renforcée par les faibles investissements de l’état indien dans le secteur de la santé. En effet, l’Inde se classe à la 159ème place sur 187 dans ce domaine en 2016, d’après la Banque Mondiale.

La pauvreté et les faibles investissements de l’état indien, entre autres, entraînent de graves problèmes sanitaires. Ainsi l’Inde a longtemps été le premier pays du monde en termes de mortalité infantile. Bien que celle-ci soit en fort recul depuis 10 ans, le taux reste élevé, avec plus de 39 bébés décédés dans leur première année pour 1000 naissances en 2017, d’après une étude du CIA World Factbook. L’Inde est désormais le 47e pays avec le taux de mortalité infantile le plus élevé au monde, d’après cette même étude, ce qui montre une amélioration limitée des conditions sanitaires en Inde.

Notre étude va donc porter sur la mortalité infantile en Inde, et particulièrement dans les régions les plus pauvres. Elle se basera sur la méthodologie CRISP-DM, qui se décompose en six phases distinctes.

Ces six phases, que sont la compréhension du besoin métier, la compréhension des données, la préparation des données, la modélisation, l’évaluation et le déploiement, permettront de comprendre les différentes étapes que nous avons suivies lors de ce projet. Nous allons les expliciter une à une dans la suite de l’article.

Diminuer la mortalité infantile, oui … Mais comment ?!

Cette phase de compréhension du besoin métier consiste à comprendre les problématiques métier que la Data Science tente de résoudre. Dans notre cas, nous constatons que malgré une forte croissance économique, l’Inde reste marquée par la pauvreté, notamment dans les régions du nord. La mortalité infantile est dans ces régions un véritable fléau. Il paraît donc primordial d’aider notre client, le gouvernement indien, à tirer parti des données qu’il possède en matière de santé publique. Notre objectif est de cibler les districts les plus touchés et les facteurs déterminants afin d’aider le gouvernement à investir correctement et aux endroits clés afin de diminuer la mortalité infantile.

Des fichiers, des variables et des individus !

Lors de la phase de la compréhension des données, nous nous intéressons aux données mises à notre disposition et à leur lien avec notre problématique. Notre jeu de données est un jeu de données de santé publique publié par le gouvernement indien sur leur plateforme opensource, faisant 3.24 GB.


Nos données concernent uniquement sept régions : Rajasthan, Bihar, Assam, Jharkhand, Odisha, Chhattisgarh et Madhya Pradesh, parmi les vingt-neuf existantes en Inde. Ces régions sont situées dans le nord du pays et correspondent d’après notre étude bibliographique aux régions les plus touchées par la pauvreté. Notre jeu de données se décompose en dix fichiers. Un fichier de description des variables, qui n’est cependant pas exhaustif, et ne permet pas toujours de comprendre la signification des données. Et neuf autres comportant les données d’environ un million de femmes chacun, réparties selon 197 variables. Deux régions possèdent en effet deux fichiers de données. Cette division en plusieurs documents a constituée une première contrainte, compliquant la compréhension du dataset dans les premières phases du projet.

Par ailleurs certaines colonnes ne sont pas directement en lien avec notre étude sur la mortalité infantile.

Fusion des fichiers et grand nettoyage !

La préparation des données est l’ensemble des étapes menées sur les données brutes pour créer un nouvel ensemble de données sur lequel appliquer les algorithmes.

Comme vu dans la partie précédente, notre jeu de données était divisé en plusieurs dossiers, la première étape de préparation a donc d’abord consisté à regrouper l’ensemble en un seul fichier.

Après une étude approfondie de nos données, nous nous sommes rendus compte que les questionnaires soumis aux femmes enceintes avaient évolués au cours des années, ainsi, certaines colonnes étaient composées en grande partie de NA. Nous avons donc effectué un tri des données, en supprimant les colonnes remplies entièrement ou en majorité de NA, ainsi que celles remplies de valeurs constantes.

Exemple de colonnes remplies majoritairement de NA dans le fichier Madhya Pradesh-Partie 1

Par ailleurs, comme nous l’avons souligné dans la partie précédente, le fichier descriptif ne nous permettait pas de comprendre la signification de certaines variables, nous avons donc dû les supprimer.

Les réponses aberrantes, comme un nombre total d’enfant de 68 pour une femme, ont aussi été éliminées pour permettre une étude cohérente. Ces données sont appelées des outliers.

Nous avons par ailleurs créé de nouvelles variables en agglomérant des variables existantes. Ainsi, la variable santé a été créée en pondérant les colonnes sur l’eau courante, les toilettes privatives, l’électricité et la présence d’un réfrigérateur. La colonne « mortalité infantile » a aussi dû être créée, car elle ne figurait pas directement dans nos données.

Alors, Big Data ou pas Big Data ?

La phase de modélisation résume le choix, le paramétrage et la mise en place des différents algorithmes sur notre jeu de données pour pouvoir répondre à notre objectif.

Dans un premier temps, nous avons envisagé de faire de la prédiction de mortalité infantile sur les individus. Cependant, la classe était minoritaire quelle que soit la tranche regardée, donc la prédiction donnait invariablement la classe majoritaire. Il n’y avait ainsi pas de gain d’information.

Ceci nous a mené à changer d’angle d’attaque. Nous nous sommes plutôt intéressés aux districts eux-mêmes, c’est-à-dire que nous avons adopté une approche plus statistique. Cette seconde approche est par ailleurs plus pragmatique : il est en effet peu probable que le gouvernement indien affecte ses moyens au cas par cas. Des investissements par district semblent plus raisonnables. Nous devons donc définir les districts cibles, en fonction de leur richesse, niveau d’éducation, de santé, de mortalité infantile. La détermination de ces districts doit être aisément comprise par le gouvernement indien, c’est pourquoi nous avons d’abord utilisé des arbres de décision.

Ainsi, en nous plaçant à l’échelle des districts, nous avons pu obtenir des arbres de décision de la forme de celui ci-dessus, qui nous ont apporté des premières informations sur les facteurs prépondérants de la mortalité infantile. On remarque bien que les noeuds supérieurs de l’arbre résultent du nombre de filles par famille, de la richesse moyenne et de la santé moyenne. L’éducation moyenne du district et le nombre de garçons par foyer étant des facteurs subalternes dans l’arbre.

De ce fait nous avons pu déduire, comme nous le supposions, que les feuilles de l’arbre après les noeuds impliquant une santé moyenne élevée avaient une plus faible mortalité infantile que les autres. Mais contrairement à l’idée reçue, dans cet arbre, la richesse et l’éducation ne vont pas de paire avec une mortalité infantile plus faible.

Cependant, cet arbre étant tronqué pour des raisons de lisibilité, et étant réduit sciemment aux variables que nous maîtrisons le mieux au moment de cette phase de modélisation, il ne nous donne pour l’instant qu’un aperçu des facteurs discriminants pour la mortalité infantile.

Nous avons alors construit un score pour classer les districts en fonction de la mortalité infantile, de son évolution dans le temps, de l’évolution du niveau de santé et de richesse. Beaucoup des districts avec les plus hauts scores de risque se trouvent au Rajasthan, ce qui sous-entend que c’est là que le gouvernement indien doit concentrer ses efforts.

Pour conclure sur l’utilisation du Big Data, le fait que nous ayons choisi d’œuvrer sur les districts a engendré une réduction considérable du dataset de travail. En effet, nous ne travaillons plus que sur un dataset de 201 individus (les districts) et une trentaine de colonnes. Dès lors, dans ce cas précis, employer des techniques d’analyse Big Data est inutile.

Du coup, quels sont les facteurs ?

L’étape d’évaluation vise à vérifier que l’étude menée dans la partie précédente apporte une réponse à la problématique métier.

Un premier traitement statistique des données nous a permis d’évaluer la proportion de mortalité infantile dans chaque état. On constate que ces chiffres sont particulièrement élevés, notamment pour le Jharkhand et le Rajasthan qui dépassent un taux de 10%. Il convient donc d’identifier les facteurs menant à de tels taux de mortalité infantile.

État

Assam

Bihar1

Bihar2

Chhattisgarh

Jharkhand

Madhya Pradesh1

Madhya Pradesh2

Odisha

Rajasthan

Total

Natalité

2 103 662

2 274 477

2 197 414

1 603 056

2 860 296

1 414 122

1 498 181

1 731 272

2 387 846

18 070 325

Mortalité infantile (%)

9,82

9,16

8,76

6,20

11,54

8,58

6,52

9,09

10,42

9,20

Pour cela, nous avons utilisé les algorithmes de fouille de données présentés dans la partie précédente. Il ressort de cette analyse que les facteurs les plus déterminants sont, par ordre d’importance : District; Nombre d’enfants; Groupe social; Éducation; Santé; Richesse.

La faiblesse de cette étude réside dans les constatations suivantes. Tout d’abord, les variables fournies ne sont pas toutes explicites, et nous ont ainsi empêché d’utiliser à fond le dataset. Secondement, l’anonymisation des districts a pour conséquence directe l’impossibilité d’enrichir les données comme nous l’aurions souhaité (en incluant le type d’industries implantées par exemple).

Ainsi, le classement que nous avons effectué demande encore de la part du gouvernement indien un travail afin de retrouver dans les districts bien classés les opérations menées, ce qui ouvrira la voie à une amélioration de la situation dans les moins bons districts.

Pour la suite des opérations …

Enfin lors de la phase de déploiement, l’objectif est de mettre à disposition la connaissance obtenue lors de la modélisation et de permettre l’utilisation de notre modèle.

Dans notre cas, nous allons mettre à la disposition de l’état indien notre code commenté ainsi qu’une documentation pour le détailler, afin qu’il puisse l’utiliser et déterminer quelles sont les régions à aider et quels sont les facteurs à améliorer dans ces régions.

Au niveau de la maintenance, notre documentation contiendra par ailleurs un résumé des données utilisées par notre modèle, afin que les questionnaires maintiennent ces questions et que le gouvernement indien ait conscience de l’importance d’obtenir une réponse à celles-ci. En outre, ce dernier n’aura aucun mal à continuer cette étude, notre travail étant codé sous R (logiciel libre).

Les data au service de la médecine pour combattre le diabète

Par : Alice Calliger, Ahmed Krichene et Pierre-Yves Mousset, élèves du Parcours Data Science de l’IMT Atlantique.

Le diabète, maladie souvent sous-estimée, touche aujourd’hui plus de 400 millions de personnes dans le monde et l’OMS prévoit plus de 600 millions de cas d’ici 2040. Cette progression est une réalité encore trop peu connue à l’heure actuelle, qu’il ne faut pas négliger. En effet, plus de 5 millions de personnes sont décédées du diabète en 2015 ce qui place cette maladie comme forte cause de mortalité dans le monde. De plus, il y a une réelle problématique concernant la connaissance de la maladie car 1 personne diabétique sur 2 ne sait pas qu’elle est atteinte. C’est pourquoi, il y a un véritable besoin de sensibilisation et de prévention de cette maladie, encore trop ignorée à ce jour.

Quelques chiffres clés

Source : International Diabetes Federation

Qu’est-ce-que le diabète ?

Le diabète est une maladie liée au mauvais traitement du sucre par l’organisme, qui conduit à une hyperglycémie et donc à un taux élevé de glucose dans le sang. Lorsqu’on mange des glucides, ils sont transformés en glucose. Les cellules du pancréas détectent alors une augmentation de glycémie et sécrète en conséquence des hormones (de l’insuline) qui permettent de réguler le taux de glycémie. Chez les diabétiques, ce système de régulation n’est pas présent. On considère qu’une personne a du diabète si son taux de glycémie dépasse 1.26 g/l à deux reprises dans la journée ou est égale ou supérieure à 2 g/l à n’importe quel moment. Il existe deux types de diabètes : un type I, maladie auto-immune qui apparaît dans la jeunesse et un type II qui apparaît plus tardivement, souvent après 40 ans et qui peut être lié à une mauvaise hygiène de vie. Le premier type, beaucoup plus rare, est souvent très rapidement diagnostiqué dès le plus jeune âge. A l’inverse, le second type de diabète représente plus de 90% des diabétiques et il est souvent inconnu des personnes atteintes. C’est donc le diabète de type II qui sera le sujet de notre étude.

Mais quelles sont les causes de cette maladie ?

De nombreux facteurs de risque sont souvent cités quand on parle de diabète. Le tabac, l’alcool, le cholestérol, l’alimentation, la pratique de sport, la sédentarité constituent un panel d’exemples de déclencheurs probables du diabète.

Notre projet, d’où proviennent nos données ?

Pour palier à ce manque de prévention et sensibilisation, nous avons voulu créer un outil permettant d’évaluer le risque d’une personne de développer le diabète.

A l’aide d’un questionnaire d’une dizaine de questions, nous pouvons prédire votre risque de devenir diabétique. Cette campagne de prévention permettra ainsi de sensibiliser les gens afin qu’ils changent si besoin leurs habitudes alimentaires, sportives, ou qu’ils prennent rendez-vous pour vérifier leur état de santé. En effet, comme pour de nombreuses maladies, un dépistage précoce permettra un meilleur traitement.

Afin de suivre et de détecter tout type de maladie, l’organisme américain Centers for Disease Control and Prevention met en place tous les ans un sondage auprès de ses citoyens qui renseigne de leur état de santé, de leur suivi médical ou encore de leur hygiène de vie. Le BRFSS (Behavioral Risk Factor Surveillance System), l’entité responsable de ces travaux, recueille des données dans les 50 États ainsi que dans le District de Columbia et dans trois territoires américains. BRFSS réalise plus de 400 000 entrevues avec des adultes chaque année, ce qui en fait le plus important système d’enquête sur la santé mené de façon continue au monde. C’est cette base de donnée que nous avons utilisée durant ce projet.

Nous tenons à préciser que les données utilisées dans le cadre de cette étude sont anonymisées afin de préserver la vie privée des gens. De plus, toutes les données produites par les agences fédérales sont dans le domaine public (cf section 105 of the Copyright Act), ce qui nous a permis d’utiliser librement et légalement ces informations.

Description de notre dataset

Les individus interrogés ont été sélectionnés au hasard. On obtient un échantillon assez représentatif de la population américaine notamment vis à vis du nombre de diabétiques. Ces graphes présentent la répartition des individus par genre et âge.

Nous avons donc développé plusieurs algorithmes basés sur ce dataset permettant d’évaluer le risque d’un individu de développer du diabète.

Pour mener à bien ce projet, nous avons suivi une démarche rigoureuse, commençant par la compréhension du besoin métier jusqu’à la mise en place de notre solution.

Ce schéma présente ainsi les différentes étapes de ce projet :

Préparation des données et analyse des données

La compréhension et la préparation des données a sûrement été le plus gros challenge de notre projet. En effet, les données brutes récupérées comportaient environ 330 variables encodées qui correspondent aux différentes réponses recueillies lors du questionnaire. Nous avons choisi de travailler sur les données de différentes années soit de 2011 à 2016. En agrégeant les données, nous obtenons un unique fichier de 2.821.503 lignes.

Nous avons en premier lieu étudier chaque colonne en utilisant une documentation d’explication des résultats du sondage, fourni par le BFRSS. La compréhension des variables nous a permis de sélectionner 100 colonnes. Les deux critères de sélection sont : Le nombre de valeurs manquantes pour la colonne concernée et la pertinence de la question. En effet, certaines variables avaient très peu de données ou n’apportaient rien à notre étude. Nous avons donc pu faire un premier tri.

Ensuite, nous avons étudié de plus près les relations existantes entre les différentes variables en utilisant une matrice de corrélation. Cela nous a permis d’affiner notre sélection. Nous avons utilisé 28 colonnes afin de construire des attributs pertinents.

Quels algorithmes ?

Nous nous sommes attaqués ici à un problème de classification, il s’agit de déterminer à l’aide de différents paramètres (taille, poids, fréquence de sport, etc…) si un individu risque d’être diabétique ou non.

Il existe de nombreux algorithmes de machine learning pour résoudre ce genre de problématique. Nous avons décidé de nous pencher sur 4 algorithmes qui sont en général particulièrement efficace pour ce type de classification binaire : la régression logistique, l’arbre de décision, le random forest et le support machine vector.

Comment évaluer nos modèles ?

Il existe plusieurs manières d’évaluer ce type de modèle.

Dans le cadre du machine learning et des algorithmes de type supervisé, on sépare souvent le dataset en deux parties (70%-30%), un qui servira à créer notre modèle (entraînement) et un deuxième à tester notre modèle.

Une première manière simple et efficace d’évaluer notre modèle est de regarder la matrice de confusion et ses métriques :

La courbe de ROC prenant en argument la sensibilité et la spécificité permet également d’évaluer un modèle à sortie binaire. On réalise la courbe de ROC de notre algorithme et on calcule ensuite l’aire sous la courbe (valeurs comprises entre 1 et 0.5). Plus l’aire est proche de 1 plus le modèle est pertinent, une aire proche de 0.5 sera équivalente à la probabilité de lancer une pièce et de deviner si le résultat sera pile ou face, autrement le hasard.

Voici un tableau récapitulatif des résultats des algorithmes réalisés avec le langage de programmation R (temps d’exécution obtenus sur une machine bureautique basique en 2018).

Algorithme

Temps d’exécution

Précision

Aire ROC

Régression logistique

7 minutes

91,69%

0,91

Arbre de décision

3 secondes

90,59%

0,5

Random Forest (250 arbres)

37 minutes

94,31%

0,92

Support Vector Machine

5 heures

90,58%

0,5

On constate donc que le Random Forest est l’algorithme le plus adapté à notre projet.

Une solution fiable et efficace

Afin de constituer le questionnaire de notre outil, nous avons cherché les variables qui influent le plus notre prédiction. Ces facteurs de risque sont présentés par ordre d’importance, ordre trouvé grâce à nos algorithmes.

Améliorer les résultats grâce à des technologies Big Data

L’exécution de certains algorithmes comme le Random Forest est assez coûteuse en temps, comme on peut le voir sur dans le tableau précédent. C’est pourquoi, nous nous sommes intéressés à l’utilisation d’une plateforme Big data pour réduire ce temps d’éxécution.

L’Institut Mines-Télécom et le GENES ont mis en place une plateforme de traitement de données massives : “Teralab”. Elle a une capacité de traitement importante avec une mémoire vive de plusieurs teraoctets et permet un traitement distribué des données: notre algorithme ne tourne plus sur une seul machine mais sur plusieurs à la fois d’où une réduction de son temps d’exécution.

Nous avons donc décidé d’utiliser cette plateforme pour notre projet. Pour cela, nous avons réécrit nos algorithmes en un autre langage : PySpark. Et le résultat est sans appel, nous obtenons un gain d’apprentissage de 9 !

Notre algorithme permet de prédire le risque d’avoir du diabète. Cette solution peut être utilisée afin de sensibiliser des individus au sein d’une population. Nous avons pensé développer une interface web permettant de recueillir les habitudes de vie d’une personne grâce à un questionnaire. Notre algorithme va ainsi pouvoir évaluer les probabilités que cette personne soit atteinte de cette maladie. Dans une version ultérieure, l’algorithme pourrait aussi faire des recommandations pour diminuer ce risque.

D’autres améliorations sont possibles. Il est probablement intéressant d’utiliser un dataset plus adéquat au problème pour l’apprentissage de l’algorithme. En effet, des informations sur l’hérédité pourraient améliorer la précision des résultats. Il pourrait aussi être judicieux de faire la distinction entre les différents types de diabètes.

[:fr]Instagram : Business model d’une plateforme de partage de photo[:]

[:fr]Les nouvelles technologies ont bouleversé les rapports humains dans la société, notamment la façon d’interagir. Les réseaux sociaux reflètent particulièrement cette évolution. Les communications deviennent virtuelles, les souvenirs sont partagés et affichés devant tout le monde. Mais plus que de simples supports de partage, les réseaux sociaux sont aussi des entreprises avec un business modèle bien établi et dont les cotations en bourse révèlent leur potentiel commercial. Nous allons nous intéresser au business modèle des réseaux sociaux et notamment celui d’Instagram, un réseau social de partage de photos et vidéos. Quelles sont les caractéristiques du marché des réseaux sociaux ? Quel est le business modèle d’Instagram ? Tout d’abord nous verrons les caractéristiques économiques de ce marché et comment Instagram se positionne dessus, ensuite nous étudierons le business model d’Instagram et enfin nous analyserons l’écosystème autour de cette application.

1. Étude du marché des réseaux sociaux et positionnement d’Instagram

1.1.        Les offres

Les nouvelles technologies ont permis un nouveau support de diffusion de photos et videos. Un nouveau marché a pris place grâce à cette innovation de rupture, celui du partage de données numériques sur internet. Le secteur de la photographie a été impacté et des entreprises de partage de photos en ligne ont vu le jour comme Snapchat, Instagram, PhotoBucket mobile, Pinterest, Tumblr, Ficklr, etc … Ces entreprises proposent de retravailler les photos prises, souvent sur le smartphone, de les stocker et de les partager sur un réseaux social ( Facebook, twitter, Instagram ) ou encore de les imprimer en version papier ( service souvent payant). Photobox est le leader européen dans ce marché en plein essor, avec une croissance à deux chiffres [1]. Instagram essaie de s’y placer en soutenant des partenariats avec des entreprises comme Cheerz pour qu’elles puissent imprimer sous forme d’album, de carnet les photos des utilisateurs Instagram (cf III). Cela profite à l’application car elle devient alors aussi un support permettant d’accéder à un autre marché, celui des impressions photos, et donc d’offrir plus de services à ses utilisateurs.

1.1.        Les clients

Sur plus de 7 milliards d’individus sur Terre, 2,9 milliards utilisent les réseaux sociaux [2]. Le public est principalement constitué de jeunes (16 -34 ans), entre 40 et 50% pour Instagram, Pinterest ou encore Tumblr. Ils utilisent principalement ces sites de retouche de photos pour partager avec leurs amis leurs voyages, leurs moments de la vie quotidienne, leurs sorties. Ils sont aussi plus sensibles à avoir un réseau social pour pouvoir liker, commenter les photos de leurs amis. Une frange plus agée d’utilisateurs se développe aussi, pour les mêmes raisons mais aussi afin d’avoir un support pour stocker leurs photos de voyage, les retoucher, en former des albums et les imprimer [3]. En effet, avec la “fin” des appareils photos à pellicule, il n’y avait plus de moyen simple d’imprimer ses photos.

1.1.        Histoire et positionnement d’Instagram

Instagram a été créé en 2010 par  Kevin Systrom et Michel Mike Krieger après une levée de fond de 500 000$, à peu près en même temps que ses concurrents (Pinterest en 2010, Tumblr en 2007). Cependant, l’application a réussi à s’imposer sur le marché de la photo en ligne. L’application connait une croissance très soutenue depuis sa création et atteint en 2017 plus de 800 millions d’utilisateurs. C’est le deuxième réseau social le plus utilisé [4] dans le monde, possédant un public très jeune et très actif (41% qui a entre 16 et 24 ans [4], et passe 30 minutes par jour sur l’application avec 4,2 milliards de likes chaque jour). L’application a notamment profité de son rachat par Facebook en 2012 pour 1 milliard d’euros pour mettre à jour son algorithme d’affichage de publications et aussi ses conditions générales d’utilisation en utilisant davantage les données personnelles des utilisateurs (cf II).

D’autres applications de partage de photo et de vidéo existent : Snapchat, Pinterest, 500px ou encore Flickr. Flickr et 500px sont principalement utilisés par les photographes amateurs et professionnels. Contrairement à Instagram, ces deux applications proposent peu de fonctionnalités gratuites. Par exemple, pouvoir uploader un nombre illimité de photos est un service payant pour 500px. Flickr possède seulement 100 millions d’utilisateurs. Les 800 millions d’utilisateurs d’Instagram permettent donc d’offrir une meilleure visibilité.

Le principal concurrent d’Instagram est Snapchat, une application permettant le partage de photo et de vidéo de quelques secondes à ses « amis ». Cette application est très populaire chez les jeunes. Pour faire face à ce concurrent, Instagram a lancé les « Stories », permettant d’offrir un service similaire à celui de Snapchat. Les utilisateurs d’Instagram peuvent maintenant partager une photo ou une vidéo pour une durée de 10 secondes uniquement.  Instagram espère ainsi attirer une population plus jeune adepte de Snapchat. L’application Instagram est plus utilisée quotidiennement : 300 000 millions d’utilisateurs actifs par jour sur Instagram  contre 150 millions pour Snapchat [5]. De plus, Instagram est une meilleure vitrine pour les marques et les influenceurs. En effet, tout le monde peut avoir accès au contenu d’un compte Instagram. Pour pouvoir le contenu Snapchat, il faut être « ami » avec le propriétaire du compte. Pour ajouter un  « ami », il faut connaître le pseudo. Le contenu publié par une marque est donc plus visible sur Instagram pour un nombre d’utilisateurs plus important.

D ’abord, Instagram a permis gratuitement aux photographes amateurs d’améliorer leurs photos; ils pouvaient ainsi les partager avec leurs amis et en être fier. L’application se situe sur le service continu vis à vis de l’utilisation des appareils photos :

-1 fois dans de temps  en temps : achat d’un appareil photo

-suivi dans le temps (service de mise à disposition, capacité technique entretenue) : photographe

-continu : partage instantané et illimité de photo sur les réseaux sociaux: Instagram

Un avantage d’Instagram est aussi d’être un réseau social où les utilisateurs peuvent partager leurs photos, liker à la fois celles de leurs amis mais aussi celles de professionnels et de stars. Instagram a, par ailleurs, permis de vulgariser la photographie. Chaque personne possédant un smartphone et donc un appareil photo, peut devenir un photographe et exposer ses images au monde entier et à ses amis. L’application permet de créer en quelque sorte un nouveau besoin chez l’utilisateur : prendre des photos pour alimenter son compte Instagram et obtenir le plus de “like” possible. De nouveaux phénomènes ont émergé, comme le fait de prendre son plat en photo avant de le manger. Ces phénomènes témoignent d’un emballement d’une partie de la société autour des réseaux sociaux.

Par ailleurs, Instagram touche aussi un large public de publicitaires. 2 millions d’annonceurs ont un compte, et 90% des plus grandes marques sont présentes sur Instagram. Le format de pub photo ou vidéo est en effet très intéressant pour les marques car il est marquant. De ce fait, Instagram est le support privilégié des entreprises, surtout compte tenu du nombre important d’utilisateurs (fig1). Les entreprises cherchent à publier des photos qui correspondent à l’esprit de la marque, à son univers, en mettant en valeur leurs produits. Elles peuvent aussi lancer des jeux-concours autour de leurs produits, ce qui développe un centre d’intérêt autour de la marque et est souvent relayé par de nombreux utilisateurs. L’exemple type est le partage de la publication du jeu par les utilisateurs avec le hashtag du concours et ils peuvent éventuellement gagner un avantage (voyage sncf gratuit, bon d’achat…). Les entreprises cherchent ainsi à capter l’attention de ce public jeune et actif qui se détourne des médias classiques (journaux, télévision…) et cela marche car 46% des utilisateurs suivent une marque.

Figure 1 : évolution de l’utilisation des comptes des marques sur différents réseaux sociaux

Source : https://blog.globalwebindex.net/

Il faut cependant être cohérent avec l’image de la marque. On peut voir sur la figure 2 l’extrait du compte Instagram de deux marques, Citroën et Mini. Celui de Citroën est plus flou avec des images qui ne valorisent pas forcément la voiture ou qui ne sont pas attractives, alors que celui de Mini est bien plus épuré, avec la couleur de la voiture en accord avec le paysage. Ainsi Mini profite bien plus de l’intérêt artistique d’Instagram afin de mettre en valeur ses produits [6].

             

Figure 2 : extrait du compte Instagram de Citroën à gauche, et celui de Mini à droite

Source : https://www.markentive.fr/blog/instagram-un-social-media-de-pur-branding-pour-les-marques/#

2.               Le business modèle d’Instagram

2.1.        Un marché biface : services offerts par la plateforme

Instagram fonctionne sur un marché biface.

Le premier service offert est un service pour l’utilisateur. Il a la possibilité de partager des photos et de visualiser les photos des autres utilisateurs. Ce service est standardisé, mais la plateforme tend à l’individualiser. En effet, le fil d’actualité de chaque utilisateur est personnalisé. Seules les publications susceptibles d’intéresser l’utilisateur seront affichées. Des comptes pouvant plaire à l’utilisateur sont également proposés en fonction de ses intérêts et de ses goûts. Ce service est gratuit.

La plateforme propose également un service pour les entreprises, marques ou publicitaires [8]. Il permet aux professionnels de faire de la pub pour leurs entreprises ou pour un produit. Ainsi, ils espèrent gagner en notoriété, en visibilité tout en augmentant leur taux de transformation (nombre de personnes qui regardent ou cliquent sur la publicité et qui vont ensuite acheter effectivement le produit). Faire de la publicité sur Instagram présente un avantage pour les entreprises. En effet, par rapport à de la publicité classique (spots télévisés, campagne d’affiches dans les espaces publics…), Instagram propose de cibler uniquement la population susceptible d’être intéressée par le produit  suivant des critères géographiques ou des centres d’intérêts.

Figure 3 : positionnement d’Instagram coût/variété/personnalisation

Instagram propose donc des services de plus en plus individualisés grâce à l’utilisation de l’algorithme de sélection et l’utilisation des données personnelles des utilisateurs. Les professionnels n’achètent plus des produits mais des fonctionnalités.

Le service pour les professionnels est payant et représente la principale source de revenu pour Instagram. Pour l’achat de ses fonctionnalités, l’entreprise définit un budget pour chaque publicité diffusée. Instagram utilise ce budget pendant toute la durée de diffusion. Le budget représente le montant que l’entreprise souhaite ou est prêt à dépenser pour la diffusion de sa pub.

Cependant, Instagram ne donne pas d’informations précises concernant le prix d’une publicité et sur la manière dont ce prix est fixé. Les marques et les entreprises sont tout de même prêtes à payer un service leur permettant d’être visibles sur la plateforme. En effet, de plus en en plus de marques et d’entreprises sont présentes sur Instagram. En septembre 2017, il y avait plus de 2 millions d’annonceurs présent sur Instagram. Leur objectif est de profiter des 800 millions d’utilisateurs [2]. De plus, d’après le blog du modérateur, 80% des utilisateurs [2] suivent une marque ou une entreprise sur Instagram. Grâce à leur présence sur ce réseau social, les marques ont l’occasion de travailler leur image auprès de la population des 18-35 ans, les principaux utilisateurs de la plateforme.  Elles espèrent instaurer une proximité entre les utilisateurs et la marque, grâce aux photos postées reflétant l’expérience utilisateur [6] (ie ce que va vivre l’utilisateur lorsqu’il va utiliser le produit) et ainsi créer une communauté autour de la marque.

La plateforme bénéficie d’un effet réseau du côté utilisateur. Une personne sera plus encline et aura plus envie d’utiliser Instagram si ses amis sont déjà présents sur la plateforme, afin de pouvoir accéder à leur contenu et partager son propre contenu avec eux. Du côté des entreprises, on a un effet de rendement croissant d’adoption. Les entreprises ont tendance à choisir Instagram pour profiter du nombre important d’utilisateurs et maximiser leur visibilité. Le nombre d’abonnés est un élément central dans le business model d’Instagram. Parallèlement, les entreprises ou marques reconnues, comme Nike ou Chanel, publient du contenu esthétique de qualité (fig 4). Ce contenu va attirer les utilisateurs.

Figure 4 : contenu esthétique de Chanel

Source : compte instagram @chanelofficiel

La plateforme propose donc deux types de services qui sont de plus en plus personnalisés. Cela est possible grâce à l’utilisation des données personnelles combinée avec un algorithme de sélection.

2.2.        Utilisation des données personnelles et algorithme de sélection

En effet, lorsqu’un utilisateur crée un compte Instagram, il accepte les Conditions Générales d’Utilisation (CGU) [7] et la politique de confidentialité du service. Il autorise ainsi Instagram à collecter et à utiliser ses données personnelles. Même si l’utilisateur reste propriétaire de ses données, il cède le droit à Instagram de les partager avec les entreprises appartenant au groupe Facebook, aux prestataires de services et aux publicitaires.

De  plus, la plateforme utilise un algorithme de sélection. Depuis 2016, l’algorithme de sélection utilisé est celui de Facebook, le News Feed Ranking Algorithm. Il est difficile de protéger un algorithme. En effet, l’algorithme est assimilé à un principe mathématique et fait donc partie du domaine des idées. En ce sens, on ne peut donc pas breveter un algorithme. Cependant, l’algorithme peut être incorporé dans un programme qui, sous contraintes d’innovation et d’une plus-value, peut être breveté. Mais l’idée de l’algorithme pourra toujours être exploitée par un tiers. Une autre solution est de protéger l’algorithme par le secret. L’algorithme est tenu secret par l’entreprise. Elle pourra obtenir réparation en cas d’utilisation ou de divulgation d’informations protégées par le secret. L’algorithme de Facebook est protégé par le secret. Il  permet d’offrir un service personnalisé aux utilisateurs et aux professionnels, comme évoqué précédemment. Cependant, son utilisation a modifié le fonctionnement du fil d’actualité. Avant, les publications étaient affichées par ordre chronologique. L’utilisateur voyait toutes les publications des pages suivies ou aimées. Avec le nouvel algorithme, seules les publications jugées intéressantes pour l’utilisateur sont affichées [9]. L’utilisateur voit donc maintenant uniquement le contenu publié par un nombre réduit de comptes. Pour afficher le contenu d’un compte en particulier, l’utilisateur doit activer les notifications, pour manifester son intérêt. Cet algorithme favorise donc les comptes avec beaucoup de followers. En effet, les nouveaux arrivants auront moins de “like” sur leur publication. La probabilité qu’ils apparaissent sur le fil d’actualité d’un utilisateur est donc moins importante. Par cette stratégie, Instagram les pousse à investir encore plus dans leur compte, comme par exemple en payant plus de publicités et de fonctionnalités afin d’être mieux référencés dans les fils d’actualité et de profiter du nombre très important d’utilisateurs d’Instagram.

3.3.        Exploitation du contenu utilisateur

Instagram n’a  ni le droit de vendre les photos de ses utilisateurs ni le droit d’en faire des œuvres dérivées (article 17 USC paragraph 106). Cependant, ce contenu peut être utilisé pour du contenu sponsorisé ou des publicités [7]. Grâce aux publications sponsorisées, la marque peut afficher son contenu sur les fils d’actualité des utilisateurs non abonnés.

En effet, d’après les Conditions Générales d’Utilisation (CGU) d’Instagram, l’utilisateur reste propriétaire du contenu qu’il poste sur la plateforme. Il conserve ses droits d’auteurs, ce qui signifie que les tiers ne peuvent pas reproduire sur d’autres supports ses photos. Cependant, les CGU comportent une clause de licence d’utilisation au profit d’Instagram. En effet, en les acceptant, l’utilisateur cède une licence non exclusive, entièrement payée, libre de droit, transférable, sous licenciable et mondiale sur tout le contenu qu’il publie [7].  Cette licence d’utilisation peut bénéficier à Instagram, mais également à d’autres puisqu’elle est transférable

Par exemple, si un utilisateur publie une photo d’une nouvelle paire de basket, la marque peut utiliser cette photo pour faire de la publicité, à condition qu’elle ne modifie pas la photo originale. Dans ce cas, la marque paye Instagram qui lui transfère ensuite la licence. Instagram monétise le contenu utilisateur.

3.        Ecosystème autour d’Instagram

Un écosystème s’est développé autour de la plateforme, comme par exemple l’apparition d’influenceurs, ou d’applications partenaires. Instagram ne gagne pas d’argent directement mais cependant le développement de cet écosystème est bénéfique pour la plateforme.

3.1.        Influenceurs, marques et contenu sponsorisé

Une marque ou une entreprise peut faire appel à des influenceurs pour promouvoir leurs produits. Les influenceurs sont souvent des bloggers ou des youtubeurs populaires chez les jeunes, principaux utilisateurs d’Instagram.

Par exemple, une marque de cosmétique propose un nouveau produit à tester à une youtubeuse beauté. La youtubeuse postera ensuite une photo du produit avec son avis sur son profil Instagram. Elle sera rémunérée par la marque pour cette publication (cf fig 5).

Figure 5 : publication de l’influenceuse The Dollbeauty pour Lancôme

Source : compte instagram @thedollbeauty

Il s’agit d’un partenariat entre la marque et l’influenceur, bénéfique aux deux parties.

Ces partenariats sont lucratifs pour les influenceurs. Le graphique ci-dessous présente le prix moyen d’une publication sponsorisée suivant le domaine.

Figure 6 : prix moyen d’une publication sponsorisée

Source : http://www.zdnet.fr/blogs/watch-it/une-publication-sponsorisee-sur-instagram-coute-en-moyenne-300-dollars-39848694.htm

En contrepartie, la marque profite de la notoriété de l’influenceur. En effet, les jeunes, principaux utilisateurs d’Instagram, sont sensibles aux conseils et aux avis des influenceurs qu’ils suivent.

Pour le moment, Instagram ne prend aucune commission sur les publications sponsorisées résultant d’un partenariat entre une marque et un influenceur.

Les influenceurs attirent les marques sur la plateforme. Un nombre plus important de marques présentes représente également un nombre de clients potentiels pour leur service de publicité plus important. D’autre part, les marques et les influenceurs publient un contenu esthétique de qualité, recherché par les utilisateurs d’Instagram. Cela va donc attirer encore plus d’utilisateurs, fournissant un public plus important pour les entreprises faisant de la publicité, et attirant donc plus d’entreprises. Les influenceurs stimulent donc l’effet de croisé du marché biface et permettent de développer le service payant d’Instagram. La plateforme augmente ses revenus de manière indirecte.

3.2.        API et applications complémentaires

L’application est une propriété d’Instagram. Cependant, les développeurs ont la possibilité d’utiliser l’API Instagram librement, à condition d’avoir un compte Instagram. En effet, l’API est sous licence mondiale, non-exclusive, non sous-licenciable. Elle permet de développer des applications ou des services reposant sur le réseau social et video. Par exemple, une application propose un service d’impression des photos Instagram.

Cependant, ces applications doivent respecter certains critères. En effet, les CGU concernant l’API ont changé en 2016. Les applications doivent dorénavant apporter une plus-value à la plateforme. Seules les applications offrant les services suivant sont autorisées [10]:

  • partage du contenu instagram avec d’autres appli ou service comme par exemple l’impression de photo
  • pour les professionnels : analyse du public du marché potentiel, aide pour développer une stratégie de communication
  • aident les éditeurs de contenu à découvrir justement du contenu pertinent et à le partager en utilisant des systèmes d’encapsulage.

Après son développement, chaque nouvelle application doit approuver par Instagram avant d’être mise en ligne. Instagram espère ainsi éliminer toutes les applications parasites offrant une solution alternative à la plateforme. Elle espère ainsi garder le monopole.

De plus, grâce à aux services complémentaires développés, Instagram gagne en attractivité auprès à la fois des utilisateurs et des professionnels. Par exemple, l’application Cheerz propose l’impression directe des photos Instagram.

Iconosquare est une application donnant des indicateurs sur la communauté d’’un compte (évolution de l’audience, localisation des abonnés…), sur l’impact des publications, sur les performances d’un hashtag dans le but d’aider les professionnels à optimiser leur utilisation de leur compte Instagram. D’autres services sont également proposés, comme trouver le meilleur influenceur pour représenter l’entreprise. Ces services sont payants. Instagram ne touche aucune commission sur ces services payants. L’ancien nom de cette application était “Statigram”. Ils ont dû changer de nom à cause d’Instagram, l’application étant protégée par le droit des marques. En effet, leur nom, leur logo, les icônes, les boutons et les en-têtes de leurs pages sont protégés. L’imitation et l’utilisation est interdite sans autorisation écrite d’Instagram. De plus, d’après les conditions d’utilisation de l’API, l’identité de la nouvelle application ne doit pas faire référence au nom Instagram.

Grâce à ces applications et services complémentaires, Instagram veut attirer toujours plus de nouveaux utilisateurs et de professionnels. En contrepartie, les applications complémentaires peuvent utiliser le label “Instagram Partner”. Cela leur apporte de la crédibilité et de la notoriété.

 

Conclusion

En 7 ans, Instagram a su s’imposer sur le marché concurrentiel de la photo numérique, et se positionne à la 2ème place des réseaux sociaux les plus utilisés, derrière son grand frère Facebook. L’application profite de son format visuel, le partage de photos, pour attirer les marques et les utilisateurs. Elle adapte son service à chacune de ces catégories, elle affiche des pubs ciblés sur les centres d’intérêt des utilisateurs et récupère les données de ces derniers pour justement adapter le contenu des pubs à leurs goûts. Instagram cherche aussi diversifier le profil de ses utilisateurs en offrant de nouveaux services comme l’impression de photos Instagram. Ces services sont réalisés par des applications extérieures mais elles sont encouragées grâce à la mise à disposition de l’API d’Instagram. Instagram doit cependant continuer d’innover pour rester l’application la plus tendance auprès des jeunes.

Bibliographie

[1] une équipe de direction renforcée pour Photobox, Les echos, consulté le 12/12, disponiblesur : https://business.lesechos.fr/directions-generales/strategie/business-plan/0204121978188-une-equipe-de-direction-renforcee-pour-photobox-107848.php

[2] chiffres réseaux sociaux 2017, blog du modérateur, consulté le 11/12, disponible sur : https://www.blogdumoderateur.com/chiffres-reseaux-sociaux/

[3] Le marché des albums photos en ligne, Businesscoot, consulté le 11/12, disponible sur : http://www.businesscoot.com/le-marche-des-albums-photos-en-ligne-372/

[4] Chiffres d’instagram – 2017, blog du modérateur, consulté le 28/11/2017, disponible sur : https://www.blogdumoderateur.com/chiffres-instagram/

[5] Zoom sur le succès d’Instagram- krds, consulté le 5/01/2018, disponible sur : http://krds.com/fr/fr/zoom-sur-le-succes-dinstagram/

[6] Le branding sur Instagram, markentive, consulté le 13/12/2017, disponible sur : https://www.markentive.fr/blog/instagram-un-social-media-de-pur-branding-pour-les-marques/#

[7] Conditions Générales d’Utilisation d’Instagram, Instagram, consulté le 16/11/2017, disponible sur :

https://help.instagram.com/478745558852511

[8] Faire de la publicité sur Instagram, consulté le 1/12/2017, disponible sur : https://business.instagram.com/advertising/

[9] Fonctionnement du nouvel algorithme de sélection et ses conséquences, consulté le 30/11/2017, disponible sur :

https://www.actance.net/actualites/comment-fonctionne-algorithme-instagram.html

[10] Nouvelles règles concernant l’utilisation de l’API Instagram, consulté le 13/12/2017, disponible sur :

https://www.iphonologie.fr/9460-instagram-regles-utilisation-api/

[:]

[:fr]Cockos (Reaper) : business modèle et propriété intellectuelle de l’entreprise[:]

[:fr]Ce rapport présente les principaux enjeux de l’économie des logiciels de MAO (Musique Assistée par Ordinateur) et la place dans cet écosystème du logiciel Reaper, propriété de l’entreprise Cockos. La propriété intellectuelle de cette entreprise est aussi mis en lien avec sa stratégie économique.

 

Business modèle et propriété intellectuelle de Cockos (Reaper)[:]