Ces dernières années, un exode rural massif a rassemblé les populations de nombreuses régions indiennes dans les grandes villes du sud de l’Inde. Cette évolution démographique a eu pour impact de faire de ces villes, qui étaient jusque-là des bastions de leur langue régionale (Kannada, Tamoul), un melting pot de toutes les langues indiennes. On retrouve ainsi dans ces villes des populations entières qui ne parlent pas la même langue et qui ont des problèmes pour s’exprimer dans la langue historique de la ville.
Dans ce contexte, les centres téléphoniques de relations clients d’une grande entreprise du sud de l’Inde sont dans l’incapacité de rediriger les appels de ses clients vers des opérateurs parlant la même langue qu’eux. Alors qu’ils utilisaient jusque-là des données géographiques pour savoir vers quel opérateur rediriger un appel. Un système inefficace aujourd’hui. C’est dans cette optique que cette entreprise cherche à développer un assistant vocal permettant de détecter la langue parlée par le client et de le rediriger vers le bon opérateur.
Un assistant vocal: pour qui ? comment ?
Dans ce cadre, nous intervenons pour Airtel, le premier opérateur de téléphonie mobile en Inde. Grâce à cet assistant vocal, le client sera directement redirigé vers un conseiller pouvant répondre à sa question dans sa langue natale.
Pour sa création, l’entreprise nous demande à partir d’un clip vocal de moins de 5 secondes sous format .wav de détecter la langue parlée par le client pour pouvoir rediriger l’appel vers le bon conseiller. L’entreprise se chargera par la suite de rediriger la personne directement vers quelqu’un qui sera familier avec son problème à l’aide d’une reconnaissance vocale du problème exposé.
Schéma illustrant le cas d’usage
La grande majorité des habitants et néo-habitants des grandes villes du Sud de l’Inde maîtrisent les rudiments de l’anglais et de l’hindi, qui sont les langues officielles de l’union indienne. L’idée est donc de demander à l’utilisateur en Anglais et en Hindi d’exposer son problème dans la langue de son choix. Airtel se charge d’envoyer les 5 premières secondes de parole du client à notre système qui devrait pouvoir analyser et détecter la langue à partir des 5 premières secondes d’audio. Après avoir détecté la langue, notre système renvoie la réponse chez Airtel qui pourra rediriger l’appel vers le bon conseiller.
Il a été convenu avec l’entreprise d’obtenir un taux de réussite supérieur à 80% pour que le système soit considéré comme satisfaisant.
Quelles données utiliser ?
Pour réaliser notre part de cet assistant vocal, nous avions besoin d’enregistrements vocaux d’Indiens. Le nombre de langues parlées en Inde étant élevé, nous avons décidé de nous concentrer sur les langues principales du sud de l’Inde. Ces dernières correspondent à celles traditionnelles du sud de l’Inde, le Kannada, le Tamoul et le Telugu, ainsi que l’Hindi (parlé par plus de 50% de la population Indienne) et l’anglais. De plus, ces cinq langues couvrent environ 99% des habitants des grandes villes du Sud de l’Inde et représentent l’intégralité des langues gérées dans les call centers.
Dans un premier temps, nous avons utilisé des données de différents datasets: Common Voice, Google Research, LibriVox, LibriSpeech et Microsoft Research.
Lors de notre projet, nous avons dû effectuer un changement de dataset car les audios provenaient de datasets différents pour chaque langue. Ils représentaient chacun des conditions d’enregistrement différentes (matériels professionnels ou amateurs, lieux d’enregistrement…). C’est ce facteur qui influe la classification et c’est ce facteur qui peut être détecté par notre modèle plutôt que la langue parlée.
Ainsi, nous avons donc testé notre modèle avec de nouveaux datasets pour les trois langues régionales provenant de la même source (Google Research). Nous considérerons donc, par la suite, les nouveaux jeux de données.
Descriptions des datasets
Après une étude des statistiques descriptives de nos données, nous remarquons que la majorité des fichiers audios dont nous disposons ont une durée entre 5 à 10s.
Graphique représentant le nombre d’enregistrements correspondant à une certaine durée pour chaque langue
Langues
Durée d’enregistrement
Anglais
323 min
Tamoul
424 min
Telugu
341 min
Hindi
173 min
Kannada
458 min
Tableau synthétisant la durée d’enregistrement pour chaque langue
Graphique représentant le nombre d’enregistrements pour chaque genre (femme ou homme)
Enfin, les locuteurs sont différents et ces enregistrements concernent globalement autant d’hommes que de femmes, d’âges variés, parlant de différents sujets. Ces données sont donc très utiles dans notre cas.
Des enregistrements aux images
Afin d’homogénéiser nos différentes données audios, celles-ci doivent être mises sous le même format, les fichiers MP3 seront donc convertis en fichier WAV car c’est ce format qui est le plus utilisé pour les traitements audio. Tous les fichiers audios seront aussi échantillonnés en 8 kHz car c’est la fréquence utilisée en téléphonie.
Nous avons ensuite découpé nos fichiers audios pour ne garder que des enregistrements de cinq secondes pour correspondre à notre cas d’usage.
Enfin, en s’inspirant de certains travaux de Deep learning pour le speech-to-text, nous avons décidé d’utiliser un modèle de réseaux de neurones convolutifs qui prend en entrée une image d’un mel-spectrogramme. Un spectrogramme est une représentation visuelle du son en temps et en fréquence avec des intensités de pixels représentant l’amplitude ou l’énergie du son à ce moment et à cette fréquence. L’avantage d’utiliser des spectrogrammes par rapport aux données wav brutes est que notre analyse sera abordée comme étant un problème de classification d’image.
Image d’un mel-spectrogramme générée à partir d’un audio de 5 secondes
Ci-dessous, le nombre d’images obtenues pour chaque langue :
Langues
Kannada
Telugu
Tamil
Anglais
Hindi
Nombre d’images
3039
1478
2861
1585
2081
Nombre d’images obtenues pour chaque langue
Des résultats satisfaisants?
Comme évoqué précédemment, nous avons utilisé un réseau de neurones convolutifs créé à l’aide de Keras sous Python.
Premier modèle (différentes sources de datasets)
Deuxième modèle (changement de datasets)
Notre algorithme arrive à prédire la bonne langue, en moyenne, pour 94% (accuracy) des données.
Notre algorithme est moins performant puisqu’il se trompe dans 18% des cas (accuracy = 0.82).
Tableau des résultats obtenus pour les deux modèles
Les matrices de confusion permettent d’exprimer les prédictions de notre algorithme par rapport à la véritable langue à laquelle appartient une image. On remarque clairement une baisse de l’efficacité du modèle avec le changement des datasets. Notre modèle semble avoir des difficultés pour différencier les trois langues traditionnelles du sud de l’Inde (le Kannada, le Tamoul et le Telugu). Cette différence d’efficacité s’explique par la grande ressemblance entre ces trois langues.
Nous avons donc joué sur les variables de notre modèle, pour améliorer sa performance. Voici les résultats du modèle final:
Notre modèle final estime la bonne langue dans 91% des cas. De plus, les résultats pour chaque langue sont supérieurs à 80%. Ces derniers respectent donc le taux fixé par l’entreprise (taux d’erreur inférieur à 20%).
Et pour la suite ?
Des améliorations sont possibles pour notre algorithme, l’entreprise Airtel pourra continuer l’entraînement de l’algorithme avec ses propres datasets. La taille du dataset peut aussi être augmentée en ajoutant un bruit de fond qui correspondrait à l’environnement d’un client qui appellerait le call center, cela permettrait d’augmenter l’efficacité de l’algorithme pour notre cas d’usage. Notre algorithme de détection de langues peut être testé sur d’autres langues indiennes (comme le Bengali, le Gujarati, le Punjabi) afin de vérifier l’efficacité de celui-ci.
Déploiement
Pour la mise en production de notre algorithme, celui-ci utilisera la voix du client afin de faire une prédiction sur la langue de celui-ci. Les lois en Inde concernant l’enregistrement de la voix des clients ne sont pas clairement définies, les entreprises peuvent enregistrer des appels de clients sans leurs consentements. Notre algorithme est donc en adéquation avec la loi indienne.
L’économie collaborative est un modèle socio-économique qui repose sur le partage ou l’échange de biens, de services ou de connaissances entre particuliers. La direction générale de la concurrence, de la consommation et de la répression des fraudes la définit de la manière suivante : « L’économie collaborative, également appelée économie de partage, ou de pair à pair, s’avère être aujourd’hui un mode novateur de consommation en matière d’échanges sur les plateformes d’offres commerciales de biens et de services entre particuliers » [1]. Pour assurer ce concept de partage entre particuliers, des structures diverses, telles que des plateformes, associations ou projets par exemple, se mettent en place pour jouer le rôle d’intermédiaires.
Le secteur agricole adopte de plus en plus de démarches collaboratives pour assurer l’alimentation de la population. Même si nous accordons de moins en moins de budget à notre alimentation [2], bien se nourrir est un besoin de première nécessité. Alors qu’une personne sur 9 souffre de sous-alimentation dans le monde en 2017 [3], la crise sanitaire mondiale que nous vivons actuellement a mis en lumière le contraste complexe entre une planète de plus en plus peuplée, des ressources naturelles qui s’appauvrissent et malgré tout, le besoin indéniable d’assurer l’alimentation saine de toute la population, notamment par l’entraide entre consommateurs et avec les producteurs. En France, comme dans plusieurs autres pays d’ailleurs, le confinement du début de l’année a permis à de nombreuses personnes de remettre en question leur mode de consommation, notamment dans le domaine de l’alimentation. Une volonté de manger sain, bio et local s’est répandue sur le territoire et cela a favorisé le développement des approvisionnements en circuits courts [4]. Les AMAP (Associations pour le Maintien d’une Agriculture Paysanne), qui visent à rapprocher localement un groupe de consommateurs engagés avec des petits producteurs, s’inscrivent dans cette démarche. En effet, elles répondent au besoin de se nourrir sainement tout en bénéficiant de lien social et de transparence, via un système de distribution de paniers alimentaires en circuit court.
Cette étude vise à éclaircir le contexte complexe que subit le secteur agricole actuellement et à analyser le positionnement et le business model des AMAP, en particulier de l’AMAP de Plougonvelin, Penn Ar Bed [5], dans ce vaste écosystème de l’alimentation durable et saine.
Démarche d’étude de la structure d’économie collaborative choisie : l’AMAP Penn Ar Bed
Dans le cadre de cette étude, ma démarche s’est déroulée comme l’indique le schéma ci-dessus. Après une étude bibliographique de l’environnement, du contexte et de la concurrence et proposition de valeur des AMAP, je me suis renseignée pour choisir un cas d’étude, une AMAP en particulier, intéressante à étudier et à comparer à d’autres AMAP et d’autres structures concurrentes. Ce choix s’est fait après des discussions informelles avec des amapiens (parisiens et bretons). J’ai pu ensuite structurer l’étude du Business Model de l’AMAP Penn Ar Bed. J’ai décidé de contacter la Présidente de cette AMAP, afin d’avoir des données plus précises, qualitatives et quantitatives, pour mon analyse. J’ai eu l’occasion d’effectuer un entretien téléphonique puisqu’une visite en présentiel n’était pas possible à cause du contexte sanitaire.
Dans ce rapport, nous verrons donc les résultats de ces recherches et de cet entretien, que j’ai expliqués puis analysés, ce qui permet d’avoir une idée précise du Business Model de l’AMAP Penn Ar Bed.
I – Contexte et environnement du secteur agricole
Cette année, entre les débats sur les lois gouvernementales sur l’agriculture, la prise de conscience écologique grandissante et le confinement dû à la crise sanitaire mondiale, le secteur agricole se situe au cœur d’un marché complexe, reflet de ce contexte tendu.
1) Les débats politiques autour de l’agriculture
Depuis plusieurs mois, les réformes concernant la loi PAC (Politique Agricole Commune) sont débattues en Europe.
La promulgation de la loi PAC remonte à 1962, à la sortie de la Seconde Guerre Mondiale [6], période pendant laquelle il était nécessaire de produire intensément pour nourrir toute la population, malgré les destructions massives de la guerre. Cette loi visait donc à favoriser et aider les agriculteurs avec une production importante et intensive.
De nos jours, ce besoin n’est plus une priorité, puisque le contexte du changement climatique nous amène à devoir repenser notre agriculture pour qu’elle soit plus durable. Cependant, cette loi privilégie encore les grands producteurs avec un haut rendement, ce qui favorise la monoculture qui appauvrit nos sols.
Depuis les années 2000, la loi PAC a été réformée pour s’adapter au contexte européen qui a évolué et pour promouvoir des pratiques plus écologiques. Néanmoins, seulement 30% des aides versées aux agriculteurs concernent, dans la réforme de 2013, des pratiques plus vertes, en faveur de la biodiversité. Ces aides ne peuvent pas être perçues par des petits producteurs locaux, tels que ceux des AMAP par exemple, dont les rendements sont jugés trop faibles. Or, de plus en plus d’agriculteurs souffrent de dépression, voire se suicident, notamment du fait de difficultés financières et de manque de soutien [7].
La loi PAC ne fait plus l’unanimité aujourd’hui, c’est pourquoi elle est actuellement au cœur de débats pour réorienter l’agriculture vers des pratiques plus durables et soutenir les petits agriculteurs de plus en plus démunis.
Les AMAP ont ainsi pour mission de soutenir les paysans avec de la trésorerie garantie grâce à un paiement intégral en début de saison et réduire les inégalités apparues à cause de la loi PAC sur la production massive.
2) Alimentation et changement climatique
Le contexte climatique des dernières années s’aggrave vite et le secteur agricole est un des premiers touchés. [8] De plus en plus de sécheresses, tempêtes, inondations et autres catastrophes naturelles sont dénombrées, y compris dans des pays moins touchés habituellement, comme la France. Cela a souvent pour conséquence de ravager les productions agricoles et de mettre en péril la survie des petits producteurs, peu soutenus par l’Etat.
Pour remédier à cela, plusieurs initiatives et nouvelles méthodes de production sont mises en place, telles que la permaculture ou les circuits courts. Ces projets gagnent petit à petit de l’importance au sein du territoire français et également sur la scène internationale pour mener le secteur de l’alimentation vers des pratiques durables et respectueuses de l’environnement. Tant pour la production que la consommation, la conscience écologique s’éveille peu à peu.
3) L’impact du confinement sur les circuits courts
La crise sanitaire que nous connaissons actuellement, liée à la pandémie de la Covid-19 accélère cette prise de conscience environnementale. Manger local et bio est devenu important pour nombre de foyers, notamment depuis les confinements successifs, qui ont contribué aux modifications des comportements des consommateurs. [4] Les circuits courts, et notamment les AMAP, comptent de plus en plus d’adhérents, désireux d’adopter une consommation alimentaire locale et raisonnée.
Les populations ont fait preuve de beaucoup de solidarité pendant cette période troublante et difficile. C’est le cas par exemple à Plougonvelin, où le soutien aux producteurs locaux était une priorité [9].
L’AMAP Penn Ar Bed a d’ailleurs pu bénéficier de visibilité dans ce contexte, tout comme de nombreuses autres AMAP en Bretagne par exemple à Bannalec, où le nombre d’adhérents et de contrats a augmenté malgré les craintes des producteurs sur le déroulement du confinement [10]. Les gestes barrières et de distanciation sociale peuvent en effet rendre réticents les consommateurs à sortir de chez eux. En France, les ventes en drive ont d’ailleurs augmenté de 61% entre le 9 et le 15 mars et l’e-commerce de 90% [9]. De nombreuses structures du secteur agricole, dont les AMAP, se sont donc organisées pour s’adapter aux contraintes des confinements et de plus en plus de citoyens ont opté pour cette alternative plutôt que les hypermarchés, préférant la vente en plein air, d’autant plus que le local est souvent associé à la qualité et la confiance.
Le principe des AMAP prend tout son sens dans ce contexte d’engagement environnemental et social. En effet, le lien social entre producteurs et consommateurs est un des piliers du système des AMAP, couplé à une volonté de favoriser l’agroécologie et la nourriture locale et bio.
Reste à savoir si cet engagement se poursuivra post-confinement…
II – Positionnement des AMAP dans l’écosystème agricole
Dans ce contexte complexe du secteur agricole, les AMAP constituent une alternative prometteuse pour se nourrir en circuit court et faire fleurir l’économie collaborative.
1) Principe de fonctionnement et Historique des AMAP
Une AMAP (Association pour le Maintien d’une Agriculture Paysanne) est une association loi 1901 qui rassemble plusieurs producteurs avec un groupe de consommateurs – en moyenne 50 personnes – qui sont adhérents à l’association. En tant qu’adhérents, ils s’engagent à payer les producteurs pour toute la saison – en général un semestre ou une année – en échange de paniers hebdomadaires de produits alimentaires frais, locaux et de saison. On trouve dans ces paniers principalement des fruits et légumes, mais dans certaines AMAP, il peut également y avoir des œufs, du miel, de la viande et même des galettes ou des crêpes en Bretagne, ou encore de la bière, comme c’est le cas dans l’AMAP de Penn Ar Bed. Par leur engagement en tant qu’adhérents de l’association, les consommateurs doivent également aider de temps en temps pour les distributions des paniers ou pour accompagner les producteurs. Ils bénéficient en retour d’événements sociaux comme des pique-niques partagés avec les autres adhérents, appelés amapiens, mais aussi d’idées de recettes de la part des producteurs et des opportunités pour visiter leurs fermes et en apprendre plus sur leur métier, au plus grand plaisir des familles venues avec leurs enfants.
Fonctionnement et proposition de valeur de l’AMAP Penn Ar Bed
La première AMAP a été créée en France en 2001 dans le Var en Provence à l’occasion d’un “café-écolo” autour de l’alimentation et en particulier la “malbouffe”. Le concept est inspiré des Tei-Kei, apparues au Japon en 1965 pour remettre en confiance les consommateurs après plusieurs crises alimentaires. Tei-kei signifie d’ailleurs littéralement “mettre un visage sur le producteur”. [11] D’autres structures similaires existent à l’international, comme les CSA (Community Supported Agriculture) aux Etats-Unis, au Canada ou en Grande-Bretagne par exemple, pour rapprocher producteurs et consommateurs et répondre au besoin des populations de se nourrir sainement, si possible biologiquement, et de manière transparente, dans un monde de plus en plus peuplé.
On dénombre désormais plus de 2000 AMAP en France en 2015 [12]. Cela représente plus de 250 000 amapien.ne.s, et donc encore plus de consommateurs de paniers issus d’AMAP !
2) En quoi les AMAP font-elles partie de l’économie collaborative ?
Les AMAP sont des structures d’économie collaborative puisqu’elles fonctionnent sur un système d’organisation collaboratif qui prône la valorisation sociale, via la création de processus de socialisation autour d’activités qui rassemblent adhérents et producteurs, et le partage des risques, via les contrats annuels ou semestriels entre le groupe de consommateurs et les producteurs. Enfin, les AMAP visent également à redynamiser l’économie locale par un mix marchand-bénévolat des adhérents à l’AMAP.
Ces structures associatives sont non lucratives, donc elles ne sont pas en constante recherche de profit. Ainsi, elles fonctionnent grâce à l’engagement bénévole des adhérents et elles valorisent la proximité entre ces consommateurs-bénévoles et les producteurs. Les AMAP sont donc des structures de pair à pair collaboratives.
3) Proposition de valeur des AMAP par rapport à la concurrence
Il existe deux catégories de concurrence au système des AMAP : la grande distribution et les épiceries bios, qui sont une concurrence indirecte, et les autres formes de circuits courts, qui regroupent les concurrents directs.
Dans le premier cas, la grande distribution et les épiceries bios (La Vie Claire, Biocoop, etc) ne rendent pas le service de proximité avec le producteur, et, en ce sens, les AMAP ont une grande valeur ajoutée et peuvent aisément se différencier. De plus, les supermarchés font beaucoup plus de marge sur leurs produits bios que sur les autres, car les consommateurs désireux d’acheter bio sont prêts à payer plus cher. Ainsi, les prix des paniers des AMAP peuvent être avantageux.
Parmi les concurrents directs, on trouve les ventes directement à la ferme, les marchés de plein air, et les plateformes telles que La Ruche Qui Dit Oui. Comme les AMAP, ces structures ne fournissent pas seulement un bien privé (nourriture) mais également un service (lien social, visites des fermes, échanges entre consommateurs et avec producteurs, événements, partage et échange de recettes). Dans ce service, l’AMAP tente d’ailleurs d’aller plus loin que les autres initiatives, en créant une véritable communauté engagée et solidaire.
L’entreprise La Ruche Qui Dit Oui diffère en effet sur plusieurs points fondamentaux des AMAP, notamment le choix de la structure administrative. La Ruche Qui Dit Oui, au contraire des AMAP, est une structure d’économie collaborative qui fonctionne via du pair à pair marchand. En effet, les responsables de ruches, qui jouent le rôle d’intermédiaire entre les consommateurs des paniers alimentaires, et les producteurs, sont rémunérés par une commission sur le prix des paniers. Cette commission vise également à réaliser du profit pour faire croître l’entreprise.
C’est une des différences majeures d’ambition entre les Ruches et les AMAP. Cette absence d’intermédiaire dans les AMAP apporte une grande valeur ajoutée à cette structure de circuits courts. Afin de garantir la fiabilité et la sécurité de cette vision, les AMAP sont régies par une charte des AMAP, exigeante et pertinente pour former une communauté de consommateurs engagés et désireux d’adopter une alimentation saine, locale et durable. Cette charte assure la fluidité entre ses adhérents et les producteurs, et garantit le respect des deux parties de leurs engagements mutuels.
La stratégie de La Ruche Qui Dit Oui a été de rendre plus flexible et à la demande le système des AMAP, en permettant aux consommateurs d’éviter un engagement trop fort et à long terme, ainsi que des achats ponctuels s’il le souhaite. On peut ainsi considérer que LRQDO “uberise” les AMAP. Néanmoins, les prix sont relativement similaires entre les Ruches et les AMAP donc c’est une « uberisation » qui n’agit pas sur la baisse des prix mais principalement sur la rapidité, le choix et la flexibilité de l’offre pour les consommateurs. Ce sont donc les producteurs qui en périssent puisque leurs revenus sont plus faibles afin de rémunérer les intermédiaires dans la structure des Ruches tout en garantissant un prix des paniers compétitif par rapport aux AMAP. C’est pourquoi plusieurs AMAP ont protesté contre le système des Ruches qui place les petits producteurs dans une situation encore plus précaire. Cela coïncide avec leur ambition de protection des producteurs, de proximité consommateurs-producteurs et de valorisation d’une alimentation saine, locale et durable.
Ce sont les principaux ‘key assets’ des AMAP, protégés par la charte des AMAP [13], qui rendent la proposition de valeur de la structure difficile à imiter et à concurrencer : les Ruches s’adressent en effet à un public différent, que les AMAP ne souhaitent pas conquérir si pour cela, un assouplissement de la charte est nécessaire. L’engagement des consommateurs nécessaire au bon fonctionnement des AMAP constitue en effet une valeur ajoutée forte qui permet de garantir un lien social et une proximité entre les producteurs et les consommateurs, qu’il n’est pas question d’abandonner, puisqu’au contraire, elle forge une communauté de personnes qui partagent les mêmes idéaux et ambitions.
Dans le cadre de mon étude, et pour aboutir à cette analyse comparative, j’ai décidé de réaliser un tableau de comparaison entre ces deux structures, sur plusieurs aspects de leurs Business Models respectifs : ce tableau est donc disponible en Annexe.
4) Le cas de l’AMAP Penn Ar Bed à Plougonvelin
Dans le cadre de mon étude, j’ai choisi d’étudier une AMAP en particulier : il s’agit de l’AMAP Penn Ar Bed, à Plougonvelin [5].
J’ai choisi cette AMAP, d’abord pour une question de proximité, afin de pouvoir me rendre sur place, ce qui n’a malheureusement pas pu avoir lieu à cause des conditions sanitaires ces derniers mois. Sa position géographique, en Bretagne, dans une zone peu urbanisée est également intéressante à étudier pour comparer les effets de cette localisation sur l’organisation et le Business Model de cette association par rapport à d’autres AMAP, situées dans des régions très urbanisées, en région parisienne par exemple. Autre que le contraste géographique, les similarités et différences entre certaines AMAP peuvent être liées à la catégorie socio-professionnelle de la population autour de la localisation de l’AMAP. Plougonvelin, banlieue riche de Brest, regroupe ainsi une population de catégorie socio-professionnelle élevée, comme peuvent l’être les cibles des AMAP parisiennes. Comparer ces structures peut donc nous permettre de trouver des liens entre l’urbanisation et/ou la catégorie socio-professionnelle, et les motivations des consommateurs amapiens.
Une des particularités de cette AMAP qui m’a intriguée aussi, est sa méthode de création puisqu’elle est née en 2013 de l’initiative d’un collectif local, le collectif Tamm-ha-Tamm [14]. Cela lui permet de bénéficier de l’expertise de personnes engagées sur des questions sociales et environnementales locales et également de se lancer au sein d’un réseau déjà existant, un véritable atout pour toute nouvelle structure qui s’implante. Le collectif avait déjà réfléchi à la mise en place d’une structure pour fournir des paniers alimentaires sains et locaux à ses habitants mais n’avait pas décidé sur le type de structure à mettre en place. C’est la rencontre avec le maraîcher, en reconversion professionnelle, qui a repris les terres familiales, que le choix de l’AMAP est venu. L’objectif principal était pour le maraîcher de tester un système de panier, pour déterminer les quantités à produire, et perfectionner ses connaissances techniques sur les cultures, tout en misant sur une structure respectueuse de l’environnement, locale et valorisant les produits bio.
C’est une structure qui peut faire peur aux producteurs au début, comme ça a été le cas pour la laitière dans l’AMAP Penn Ar Bed, puisque le modèle est peu connu dans le milieu agricole. La laitière, qui vendait initialement uniquement au marché de Kerinou à Brest a hésité à rejoindre par appréhension de bousculer sa routine et par crainte qu’elle soit déstabilisée, mais finalement le concept d’avoir une trésorerie à l’avance pour les producteurs et le lien social lui ont particulièrement plu et elle voudrait même rejoindre d’autres AMAP du Finistère, comme me l’a indiqué la Présidente de l’AMAP Penn Ar Bed, Karine Boennec, avec qui j’ai eu l’occasion d’échanger par téléphone, le 8 décembre dernier, dans le cadre de ma démarche d’étude, présentée précédemment.
L’AMAP Penn Ar Bed à Plougonvelin regroupe 8 producteurs (maraîcher, laitière, boucher, apiculteur, producteur d’herbe aromatiques et médicinales, brasseur, boulanger, productrice de légumes lactofermentés) et un groupe de 65 adhérents, appelés les amapiens : chaque adhérent rassemble plusieurs consommateurs, comme sa famille ou ses amis par exemple, puisque les paniers sont de quantité suffisante pour plusieurs personnes.
Comme nous l’avons détaillé précédemment, les principales propositions de valeur des AMAP, et notamment l’AMAP Penn Ar Bed, résident dans la proximité et le lien social fort entre les consommateurs et les petits producteurs locaux qui souhaitent, ensemble, promouvoir et s’engager pour une alimentation saine, durable et locale. Nous allons dans les parties suivantes détailler l’étude du Business Model de l’AMAP Penn Ar Bed dont le résumé schématique est disponible en annexe.
III – Structure des coûts de l’AMAP Penn Ar Bed
1) Activités Clés
L’activité principale des AMAP concerne la distribution hebdomadaire des paniers de nourriture bio, locale et saine. Ces distributions peuvent s’effectuer dans des lieux publics mis à disposition au profit de l’AMAP ou dans les lieux choisis par l’AMAP pour assurer une distribution fluide, chaleureuse et conviviale. Dans le cas de l’AMAP Penn Ar Bed, la distribution s’effectue par exemple proche de la Pointe Saint Mathieu, puisque c’est là où se situe la production du maraîcher, à l’initiative de la création de l’AMAP. C’est un lieu emblématique du Finistère, par ses paysages, ses chemins de randonnées et sa vue sur toute la baie de Brest.
Des visites de la ferme du maraîcher peuvent également être organisées au moment des distributions, ce qui enchante les familles venues avec leurs enfants. L’AMAP Penn Ar Bed veille en effet à garantir le lien social fort entre les amapiens et les producteurs grâce à des événements pour faire découvrir le milieu agricole aux consommateurs. L’échange et le partage, tant via des discussions autour de connaissances ou bonnes pratiques, que via de l’aide manuelle ou organisationnelle pour les producteurs, sont au cœur des activités clés de l’AMAP Penn Ar Bed.
Cette AMAP, comme de nombreuses autres, cherchent de plus en plus à promouvoir une agriculture respectueuse de l’environnement, en tendant au maximum vers des productions biologiques. En milieu peu urbanisé, on peut néanmoins leur reprocher de ne pas considérer l’impact environnemental dans sa globalité, à savoir les déplacements en voiture pour se rendre sur le lieu des distributions, excentré du centre-ville. C’est un des avantages des AMAP en milieu urbain, par rapport à Penn Ar Bed, ainsi que d’autres AMAP qui ont privilégié une localisation publique, comme une école par exemple, ce qui permet aux habitants de venir récupérer leur panier alimentaire en même temps que leurs enfants par exemple. Les AMAP, grâce à leur charte et leur engagement, visent à inviter les habitants locaux à changer leur mode de consommation, via l’alimentation, et cela fait partie de leur proposition de valeur. Avec un peu d’optimisme, on peut imaginer que, via une sensibilisation aux enjeux liés à l’activité humaine, cela pourra avoir une influence à plus long terme sur les comportements des consommateurs, dans d’autres secteurs, que ce soit le logement, le textile, ou les mobilités.
2) Ressources Clés
La principale force de la structure d’AMAP par rapport à ses principaux concurrents est de bénéficier d’une ressource puissante : l’engagement bénévole de ses consommateurs. Ce sont en effet les groupes de consommateurs qui s’organisent entre eux au sein de l’association pour assurer les distributions et l’organisation interne et externe, avec les producteurs et autres partenaires clés.
Ce temps donné par les amapiens pour l’association est une ressource primordiale pour le bon fonctionnement de la structure ainsi que pour assurer un soutien aux producteurs, qui sont donc plus enclins à privilégier l’AMAP que d’autres structures de distribution. C’est notamment ce qui s’est produit à l’AMAP Penn Ar Bed pendant les confinements successifs. En effet, la demande auprès des producteurs locaux a fortement augmenté par crainte des consommateurs d’aller dans de trop grandes surfaces, et les adhérents à l’AMAP se sont vus prioritaires dans les distributions par rapport aux autres consommateurs, grâce à leur engagement temporel et financier, puisque les paniers sont payés à l’avance sur une durée prédéfinie de 6 mois dans la plupart des cas.
3) Partenaires Clés
Comme nous l’avons vu à plusieurs reprises, les petits producteurs locaux, qui cherchent à s’orienter vers l’agroécologie, la permaculture, les productions biologiques et d’autres initiatives similaires, sont les principaux partenaires de la structure d’AMAP. Dans le cas de Penn Ar Bed, on en dénombre 8 : un maraîcher, une laitière, un boucher, un producteur d’herbes aromatiques et médicinales bio, un apiculteur, un boulanger, un brasseur, ainsi qu’une productrice de légumes lactofermentés. Cela peut concerner des personnes en reconversion professionnelle, comme d’autres qui ont toujours fait ce métier. Financièrement, passer par une AMAP offre la possibilité de ne pas subir les difficultés à obtenir un prêt bancaire en étant aidé pour le lancement de l’activité, par exemple.
Ces partenariats ne sont pas exclusifs : les producteurs vendent leurs produits dans d’autres structures également : cantines scolaires, marchés de plein air et épiceries bio notamment pour les producteurs de l’AMAP Penn Ar Bed.
Dans le cadre de ces partenariats, un système mutualiste est instauré. Lors des Assemblées Générales annuelles, les producteurs et les consommateurs fixent, ensemble, les prix des paniers, justes et équitables pour les deux parties.
Enfin, un rapport de proximité est garanti par ces partenariats, avec un engagement mutuel des deux parties : bénévolat et soutien de la part des consommateurs et compensation des paniers en cas de problème climatique par exemple, de la part des producteurs.
Au cours de notre étude, nous avons pu présenter la place centrale des producteurs dans la structure d’AMAP. Pour éclaircir ce point, il faut retenir que les producteurs ne sont pas des adhérents à l’AMAP : ils ne cotisent pas à l’année et ne sont pas considérés comme des amapiens, qui regroupent uniquement les consommateurs adhérents. Néanmoins, ils sont les partenaires de l’AMAP les plus importants : sans eux, la structure ne pourrait pas exister et il est nécessaire de les mettre au cœur du fonctionnement de l’AMAP pour garantir un lien social fort entre consommateurs et producteurs, via une co-construction du système.
En lien avec cette proximité consommateur-producteur, on distingue également plusieurs réseaux d’AMAP qui visent à mettre en relation les AMAP membres afin d’échanger des bonnes pratiques ou des connaissances par exemple. Le réseau le plus connu est le réseau MIRAMAP (Mouvement Inter-Régional des AMAP) [12] puisqu’il est national. Il vise à mutualiser toutes les démarches des AMAP, à les aider dans leur lancement, leur activité et leur bon fonctionnement. Pour centraliser toutes les données, et principalement les ressources utiles aux AMAP, la plateforme AMAPartage a vu le jour. L’annuaire national des AMAP, http://reseau-amap.org/, recense, quant à lui, toutes les initiatives d’AMAP sur l’ensemble du territoire.
L’AMAP Penn Ar Bed n’est pour l’instant pas très active au sein du réseau MIRAMAP, mais elle a en revanche rejoint récemment le réseau Breizh’AMAP, réseau régional des AMAP de Bretagne, qui regroupe une centaine d’AMAP bretonnes, et planifie de participer et de s’investir dans des événements régionaux via cette structure pour se rapprocher d’autres AMAP voisines, dès que la situation sanitaire le permettra.
Enfin, les AMAP sont, dans certains cas, partenaires d’acteurs publics, notamment le Ministère de l’Agriculture et de l’Alimentation, qui peuvent subventionner de telles initiatives, sous la loi des associations 1901. Toutefois, de nombreuses structures refusent de dépendre de ces subventions pour prôner une évolution vers un modèle autosuffisant : c’est par exemple le choix qu’a fait l’AMAP de Penn Ar Bed.
4) Structure des coûts
En ce qui concerne les coûts liés au fonctionnement de l’AMAP, la principale composante regroupe tous les frais monétaires liés aux diverses productions agricoles : achat des matières premières, des ustensiles et des contenants, maintenance et renouvellement des machines utilisées, salaire des producteurs, etc. Ces coûts sont pris en charge dans le prix des paniers, fixé à l’avance par les producteurs et les consommateurs, afin d’être le plus équitable possible. Les revenus de l’AMAP servent uniquement au bon fonctionnement de l’association et au financement de la communication, du marketing et des événements par exemple.
Un coût non monétaire est également non négligeable puisque les bénévoles, et notamment la présidente de l’association, donnent beaucoup de leur temps pour assurer la gestion interne de l’AMAP : trésorerie, relation avec les partenaires, logistique, communication interne et externe, etc. Il n’y a pas d’intermédiaire entre les producteurs et les consommateurs, donc les coûts monétaires sont minimisés, mais cela implique une nécessité de s’investir en temps pour l’association.
Enfin, en ce qui concerne la communication, les supports utilisés et les événements organisés (stand annuel au forum des associations de Plougonvelin par exemple) nécessitent un investissement financier, mais également temporel.
IV – Structure des revenus de l’AMAP Penn Ar Bed
1) Relation Client
La structure d’AMAP vise, par essence, à rapprocher les producteurs des consommateurs. La relation client est donc au cœur du fonctionnement des AMAP. Contrairement à ses principaux concurrents, comme La Ruche Qui Dit Oui, qui font appel à un intermédiaire, les AMAP se sont débarrassées des intermédiaires entre les producteurs et les consommateurs via la structure associative qui permet de les rassembler. Elle n’agit pas comme une entreprise tierce qui viendrait chercher des consommateurs pour leur vendre les paniers de ses producteurs partenaires mais plutôt comme un groupement qui met les consommateurs au milieu de l’organisation, au plus près des producteurs.
Les contacts entre amapiens et producteurs sont donc très fréquents et rapprochés : lors des distributions hebdomadaires, lors des événements sociaux (visites de fermes, pique-niques collectifs, etc) et également lors des Assemblées Générales annuelles qui rassemblent tout le monde, producteurs comme amapiens, pour faire les bilans annuels, prendre les décisions pour les années suivantes, qu’elles soient financières ou organisationnelles.
En revanche, les consommateurs n’ont pas la possibilité de choisir le contenu des productions. Par exemple, s’il y a des intempéries sur une production, le panier prévu initialement sera modifié avec d’autres aliments du même producteur. La quantité doit rester équivalente mais le panier comportera dans ce cas plus de produits dont les cultures n’auraient pas été endommagées. Le consommateur est informé des différents aliments fournis par les producteurs de l’AMAP, selon la saison (2 contrats par an en général) et il choisit seulement avec quels producteurs il souhaite établir un contrat, mais ne décide pas du contenu des productions. La relation de proximité permet néanmoins de suggérer et d’échanger des idées de nouvelles productions, selon les envies des amapiens et les contraintes (météorologiques, géographiques, etc) des producteurs. Dans le cas de l’AMAP Penn Ar Bed, le contrat avec la boulangère dure seulement 3 mois pour qu’il y ait plus de variété dans les pains distribués aux amapiens, pour éviter qu’ils se lassent et souhaitent acheter leur pain en dehors de l’AMAP.
2) Canaux de Distribution et de Communication
L’AMAP Penn Ar Bed jouit principalement d’un effet de réseau très local et fonctionne notamment grâce au bouche à oreille pour convaincre de nouveaux adhérents de rejoindre le mouvement et la communauté. Cela est lié au principe même et à la volonté des AMAP, qui ne cherche pas à se fondre dans les lois du marché via un marketing poussé. Néanmoins, au contraire de l’AMAP Penn Ar Bed qui ne cherche pas à s’étendre, comme en témoigne sa communication extérieure peu développée, dans des milieux plus urbanisés, on trouve un marketing un peu développé et une communication plus importante, via les réseaux sociaux et les sites internet notamment, afin de conquérir potentiellement de nouveaux segments de clientèle. C’est le cas par exemple, en Île-de-France, où des supports de communication et des logiciels de gestion sont développés puis partagés entre AMAP du réseau régional, contrairement au réseau Breizh’amap qui ne dispose même pas, quant à lui, d’un site internet dédié. Cela peut peut-être s’expliquer par le fait que les AMAP parisiennes cherchent à élargir leur public, notamment grâce à un marketing solide et une application mobile ergonomique et ludique. Cela peut en effet être un point d’entrée efficace pour convaincre les personnes qui ne prennent pas le temps de se renseigner et de transformer leur mode de consommation alimentaire, car à Paris, tout va plus vite, parfois trop vite. Néanmoins, par essence, les AMAP ne souhaitent pas devoir assouplir leur charte pour recruter des consommateurs. Elles misent plutôt sur l’effet de réseau local pour assurer de la visibilité à la structure et ainsi garantir la viabilité du contrat.
Dans l’AMAP Penn Ar Bed, la communication externe s’effectue exclusivement via le site internet vitrine, en version gratuite uniquement, ce qui limite le nombre de publications, de photos en ligne, au regret de la Présidente de l’AMAP qui aimerait pouvoir développer plus cette interface. Il fait office aujourd’hui de flyer et permet également le dépôt des contrats entre les consommateurs et les producteurs.
En interne, la communication s’effectue par mail pour organiser les distributions, les roulements parmi les bénévoles pour les différentes actions internes à assurer. Depuis le confinement, de nouveaux usages de ces mails se sont révélés pertinents afin de compenser la perte de lien social en présentiel. Une lettre hebdomadaire a ainsi été mise en place pour informer les adhérents des nouveautés hebdomadaires de l’association, des questions organisationnelles, et également pour échanger et partager des conseils, bonnes pratiques, recettes ou autres messages pour rester en contact entre amapiens.
3) Segments de clientèle
Selon la typologie effectuée par une enquête PIPAME sur les différentes catégories de consommateurs, les AMAP, et en particulier celle de Plougonvelin, ciblent principalement les ‘engagés’. Ce sont en effet des personnes désireuses d’avoir un impact positif sur l’environnement en adoptant une consommation alimentaire locale et de saison, et dans la mesure du possible, bio mais également en valorisant les petits producteurs locaux : on les appelle des consom’acteurs. La place des amapiens comme consommateurs-bénévoles nécessite un engagement fort dans l’association pour maintenir le fonctionnement de son système mutualiste et sans intermédiaire, où équité, transparence et convivialité sont les maîtres mots.
Dans l’AMAP Penn Ar Bed, on retrouve ainsi beaucoup de familles et de couples de personnes âgées, mais également quelques groupes d’étudiants, d’autant plus depuis le confinement de mars qui les a incités à bousculer leurs habitudes et à remettre en question leur mode de consommation, notamment pour l’alimentation.
Les ‘opportunistes’ peuvent également être attirés par les prix très attractifs des paniers des AMAP, en comparaison aux rayons bio des supermarchés, qui n’hésitent pas à gonfler leurs marges sur ces types de produits. Néanmoins, les prix des paniers des AMAP sont similaires aux prix en vente directe à la ferme ou dans les marchés, donc les ‘opportunistes’ qui souhaitent manger local et bio privilégieront les circuits courts aux rayons bio des supermarchés, sans avoir particulièrement de préférence entre AMAP ou autre circuit court, en terme de prix.
Les ‘idéalistes’, quant à eux, cherchent à avoir un impact positif mais sans nécessité d’engagement, donc ils ne constituent pas un public cible de l’AMAP Penn Ar Bed qui est très attachée à cet engagement de sa communauté pour mettre au premier plan la convivialité, le partage et la vision commune à tous les adhérents en matière d’alimentation durable, locale et saine. Les ‘idéalistes’ sont ainsi ciblés plus particulièrement par La Ruche Qui Dit Oui, principal concurrent des AMAP, qui a opté pour un système avec intermédiaire et plus flexible, tout en conservant une volonté d’avoir un impact environnemental et social.
4) Flux de revenus
Les AMAP sont des associations loi 1901 à but non lucratif, donc ces structures ne cherchent pas à faire du profit pour se pérenniser.
La principale source de revenu regroupe les paiements par les consommateurs des contrats longue durée (semestriel ou annuel). Comme nous l’avons vu précédemment, ces prix sont fixés équitablement en accord entre producteurs et consommateurs donc ils permettent de financer tout ce qui est lié aux productions agricoles et aux salaires des producteurs.
Pour mener des projets d’ampleur, tel que l’achat de nouvelles terres agricoles par exemple, les AMAP peuvent faire appel à des subventions publiques du ministère de l’agriculture. Néanmoins, ce n’est pas le cas de toutes les AMAP. En effet, l’AMAP Penn Ar Bed ne souhaite pas dépendre de telles subventions donc elle a choisi de ne pas en demander. Cela est en accord avec la volonté de s’approcher de l’autosuffisance de l’AMAP.
L’AMAP Penn Ar Bed a donc décidé de mettre en place une cotisation annuelle de 10€ pour chaque amapien afin de subvenir aux besoins organisationnels de l’association et également pour faire face à d’éventuels imprévus, comme une perte d’une partie des cultures agricoles à cause de maladies, plantes invasives, catastrophe climatique, etc.
Enfin, l’investissement en tant que bénévoles de tous les adhérents constitue une source de revenu non monétaire non négligeable puisqu’elle permet d’assurer le bon fonctionnement de l’association et également d’être en mesure d’apporter de l’aide et du soutien aux producteurs.
Conclusion
Ainsi, la réalisation de cette étude a permis de mettre en lumière la valeur ajoutée des AMAP, et en particulier l’AMAP Penn Ar Bed de Plougonvelin, parmi les alternatives de circuits courts pour avoir une alimentation saine, locale et durable. Les avantages de ces structures peuvent se regrouper selon les 3 axes : écologiquement sain, socialement équitable et économiquement viable. Voici ci-dessous, pour synthétiser, la matrice SWOT de l’AMAP Penn Ar Bed.
Opportunités
Menaces
– volonté de consommer local et bio -questions environnementales de plus en plus prises en compte – développement du réseau régional Breizh’amap
– dérèglement climatique – difficultés pour passer à l’échelle – perte de lien social liée au confinement
Forces
Faiblesses
– mise en valeur des circuits courts – solidarité producteurs-consommateurs et fort lien social (système mutualiste) – prix équitable et abordable – valorisation d’une communauté engagée et animée d’une vision commune (bénéfice d’un réseau déjà existant puisque l’AMAP a été créée par un collectif de Plougonvelin, responsable de nombreuses actions sociales)
– contraintes d’engagement long terme (semestre ou année) du consommateur ne visent qu’une petite partie de la population sans chercher à s’étendre – peu d’échanges avec d’autres AMAP pour le moment
En définitive, cette étude a permis de révéler le positionnement des AMAP vis-à-vis de sa concurrence au sein de l’écosystème du secteur agricole et des circuits courts. L’étude détaillée du Business Model a mis en lumière la forte valeur ajoutée de la structure d’AMAP, qui, d’ailleurs, prend de l’ampleur en terme de nombre de structures et d’adhérents, sur le territoire français, à l’instar de nombreuses plateformes d’économie collaborative, sans doute en lien avec la récente prise de conscience collective de mettre au premier plan la solidarité et le respect de l’environnement.
Annexes
Tableau comparatif entre l’AMAP et La Ruche qui dit oui (LRQDO)
Critère
AMAP
LRQDO
Type de structure
Association
Entreprise
Type de système
Pas de système marchand (les consommateurs sont bénévoles, participent à la fixation des prix etc.)
Système marchand
Implication des parties prenantes
Engagement fort du consommateur et des producteurs
Accès ponctuel possible, pas d’engagement particulier du consommateur
Revenu
L’intégralité du prix revient au producteur
Commission gardée sur le prix de 16,7% (équitablement partagée entre l’entreprise et le responsable de ruche), prix fixé par le producteur
Type de vente
Paiement annuel / semestriel encaissé au fur et à mesure donc pas de vente à proprement parler : les paniers sont remis en présence des producteurs en direct et avec des moments d’échanges
Vente directe (via la plateforme) : pas d’intermédiaire qui implique une baisse du coût de revient d’un côté
Perspective d’évolution
Pas de passage à l’échelle si cela nécessite un assouplissement de la charte Pas une mode mais bien une lame de fond
Passage à l’échelle envisagé et déjà entamé avec création de nouveaux emplois, recherche de nouveaux inscrits
Communication
Faible communication et peu adaptée aux réseaux actuels et aux modes de consommation actuels (1 site vitrine au design peu attractif, faible utilisation de l’effet de réseau via les réseaux sociaux)
Communication forte et pertinente : site internet, réseaux sociaux → adaptée aux jeunes générations
[2] Voir le graphique en Annexe 1 – Étude de l’INSEE sur les dépenses de consommation alimentaire des ménages de 1960 à 2014, parue le 9/10/2015, https://www.insee.fr/fr/statistiques/1379769
On estime aujourd’hui, qu’aux États-Unis l’intoxication au plomb serait la cause indirecte de près de 400 000 décès. Malgré une tendance à la baisse, ce problème demeure l’une des principales causes de mortalité dans ce pays.
Le saturnisme pouvant entraîner divers symptômes, tels que des troubles moteurs ou des troubles du comportement, est encore très difficile à diagnostiquer. Le plomb étant présent dans de nombreux composants environnementaux, la contamination affecte les individus durablement et touche particulièrement les enfants.
Afin de mieux limiter les effets de cette intoxication et de mieux en comprendre les causes, la ville de New York a levé plusieurs campagnes de dépistage d’intoxication au plomb. Afin d’être efficaces, celles-ci doivent être réalisées à grande échelle, et sont donc très onéreuses.
Notre aide à la ville de New York
Afin d’aider la ville de New York, nous avons essayé de développer deux outils d’aide à la décision. Le 1er modèle a pour but de prédire l’évolution des cas de saturnisme dans les quartiers de New York. À court terme, cet outil pourrait partiellement remplacer les dépistages massifs. Il devrait ainsi permettre à la ville de New York de concentrer ses efforts de dépistages et de soins dans les zones considérées comme les plus à risques pour la contamination au plomb.
Nous désirions aussi développer un deuxième outil permettant la compréhension des principaux facteurs d’intoxications. Nous saurions ainsi quelles sont les zones sensibles et quels sont les facteurs environnants ayant le plus d’impact vis-à-vis de cette problématique sanitaire. Sur le long terme, ceci pourrait nous permettre de proposer un plan d’actions à la ville de New York en désignant des zones prioritaires et les actions à y mener.
Les données utilisées
Notre premier travail a été bibliographique afin de recenser différents facteurs pouvant influencer la contamination au plomb chez les enfants de moins de six ans tels que la présence de traces de plomb dans l’habitation ou encore la vétusté du logement. Puis, nous avons donc trouvé des jeux de données opendata comprenant les variables citées précédemment que nous avons qualifiées de variables explicatives environnantes.
Les individus de notre jeu de données ont été caractérisés par une des zones géographiques de la ville de New York à une année donnée.
Notre jeu de données comporta alors, pour chaque individu, une valeur de la variable cible qui est la proportion d’enfants pour 1000 testés ayant une concentration en plomb de plus de 5 mcg/dL dans le sang et une valeur des différentes variables explicatives environnantes.
L’enjeu de la fusion
Cependant, l’une des principales difficultés de notre projet était l’absence d’un jeu de données exploitable directement, listant les différentes variables environnantes et les variables cibles pour chaque zone géographique et année associée.
Nous avons donc dû fusionner une dizaine de jeux de données intermédiaires afin de créer notre propre jeu de données final. Mais ceux-ci ne possédaient pas la même temporalité ni le même niveau géographique d’analyse.
Nous avons alors défini une échelle géographique qui le “community district” associé à une clé d’identification que nous avons créée : le geoID (59 à New York). Nous avons également délimité une échelle temporelle allant de 2011 à 2018.
Des données incomplètes
Une nouvelle problématique est apparue lors de la fusion des jeux de données et notamment lors du choix de l’échelle temporelle.
En effet, trois des jeux de données intermédiaires ne possédaient pas des valeurs pour chaque année allant de 2011 à 2018. Nous avons donc dû répondre à ce manque en utilisant deux techniques faisant appel respectivement à l’évolution quasi-linéaire d’une variable et à la monotonie de l’évolution d’une variable pour différents “geoID” dans le temps.
Ainsi, à ce stade, nous possédions un jeu de données global comportant 472 individus défini comme suit :
Individus
Variable cible
Variables environnantes explicatives
geoID
Année
5 mcg/dl ou plus
Nb maisons avec plomb
…
Proportion de maisons construites avant 1950
101
2011
…
2018
102
2011
…
2018
L’intoxication : un processus lent et localisé
La contamination au plomb étant un processus lent, ancré dans le temps, les changements ne semblent pas s’opérer directement, il y a donc un fort lien de corrélation entre la contamination au plomb de l’année actuelle et celles des années précédentes.
Pour associer la dimension temporelle à notre analyse, nous avons donc directement incorporé, pour chaque individu, la proportion du nombre d’enfants contaminés par le plomb aux années N-1, N-2 et N-3.
Quant à la dimension spatiale, les enfants new-yorkais n’étant pas cantonnés à leur propre community district, ils peuvent facilement être contaminés lors de leurs activités dans des community districts voisins, nous avons donc voulu prendre en compte le voisinage des community districts.
Nous avons alors discrétisé la ville de New York en 5 zones géographiques de même superficie et associé à chaque barycentre d’un geoID son appartenance à l’une des zones géographiques.
Deux modèles pour deux objectifs
Notre objectif était de prédire le taux de contamination au plomb d’un community district d’une année sur l’autre. Actuellement, des tests massifs sont effectués chaque année à New York, nous donnant accès aux données de contamination des années précédentes. Ces données sont majeures dans la prédiction de la contamination d’une année : ce taux n’étant pas sujet à d’importantes variations pour des années consécutives.
Cependant, si dans le futur, la ville de New York est amenée à ne plus effectuer de dépistages massifs, mais simplement un dépistage dans certains quartiers de New York, notre modèle ne serait alors plus utilisable, car nous n’aurions plus accès aux données de contamination des années précédentes.
Par conséquent, nous avons décidé de construire deux modèles de régression selon chaque cas de figure :
modèle comprenant les variables explicatives environnantes et la contamination au plomb des années précédentes
modèle comprenant seulement les variables explicatives environnantes
Nous souhaitons construire à la fois un modèle ayant de bonnes prédictions et qui soit facilement interprétable pour expliquer les causes de la contamination au plomb dans un quartier donné. Ainsi, des modèles tels que la régression linéaire ou l’arbre de décision correspondent à notre étude.
Performance des modèles
Nom du modèle
Root MSE (Root Mean Square Error)
R²
Régression linéaire
0.00256
0.93
Régression de Ridge
0.00233
0.94
Régression de Lasso
0.00234
0.94
Arbre de décision
0.00321
0.89
Comparaison des modèles utilisant les variables environnantes et contamination des années précédentes
On obtient de très bon résultats sur les modèles de régression linéaire.
Nom du modèle
Root MSE (Root Mean Square Error)
R²
Régression linéaire
0.00705
0.47
Régression de Ridge
0.00715
0.45
Régression de Lasso
0.00690
0.49
Arbre de décision
0.00762
0.37
Comparaison des modèles utilisant seulement les variables environnantes
Les résultats se dégradent considérablement par rapport au premier cas de figure. Il est intéressant de constater que notre modèle n’est plus fiable pour prédire précisément le taux de contamination, mais arrive tout de même à tirer des tendances à partir des données comme le montre l’observation de ces 2 cartes (La couleur représente le taux de personnes contaminées au plomb au-delà d’un certain seuil).
Après observation de l’impact de chacune de nos variables, on peut affirmer que la proportion de maisons construites avant 1950, la proportion d’habitations ayant déclaré des problèmes d’entretien et la proportion de maisons pauvres sont les trois facteurs qui influent le plus sur une intoxication au plomb.
Des perspectives d’amélioration
Notre projet dispose de résultats encourageants, mais ce dernier doit encore faire face à certaines limites. En effet, notre algorithme de prédiction se base trop sur les intoxications des années précédentes, ainsi si l’on veut garder de bonnes prédictions, il faut continuer le dépistage massif.
Une piste d’amélioration serait l’introduction de nouvelles variables telles que la présence de parents fumeurs ou encore la compréhension de l’anglais par la famille. De plus, l’utilisation de petits échantillons comme ceux que nous avons formés, peut limiter la détection d’associations importantes, qui pourrait réduire l’influence de certaines variables environnantes. Il faudrait donc pouvoir augmenter le nombre d’individus de notre jeu de données en se ramenant à des zones géographiques encore plus petites que celles que nous avons définies.
Le secteur des jeux vidéo est en pleine expansion. Les entreprises se doivent d’être concurrentielles et à la pointe de l’innovation. Parmi les jeux vidéo les plus populaires se trouve FIFA. C’est un jeu vidéo de football créé par EA Sport en 1993, une entreprise qui développe des jeux vidéo de sport en ligne. Dans ce jeu, les joueurs de football possèdent une note sur 100 qui définit leur prestation et donc leur niveau dans le jeu. Cette note est actuellement calculée à la main par 8000 bénévoles qui étudient tous les matchs de toutes les ligues chaque année et retravaillée par 200 data editors de chez FIFA.
Comment rendre le calcul de ces notes plus rapide et moins cher?
Notre projet propose d’aider FIFA à simplifier le calcul des notes des 17000 joueurs qui composent le jeu en se basant sur leurs statistiques de matchs (buts, cartons, nombre de matchs sans prendre de buts…). La difficulté a été de comprendre quelles variables peuvent être utiles pour le calcul des notes et ainsi remplacer l’avis subjectif de 8000 bénévoles. Après avoir sélectionné les données pertinentes et grâce à des algorithmes de machine learning, nous pouvons prédire ces notes en fonction des performances réelles. Le produit que nous proposons serait donc directement intégré au système informatique de FIFA.
Choix du dataset et des statistiques footballistiques
Afin de construire notre modèle nous avons eu l’idée de récolter des données sur les performances réelles des joueurs mais aussi de leurs clubs. Dans un souci de simplicité, nous avons décidé de travailler uniquement sur les 5 plus grands championnats d’Europe (Premier League, La Liga, Bundesliga, Serie A et Ligue 1) et les saisons 2017/18, 2018/19, 2019/20, ce qui correspond à 45 datasets, 98 équipes et près de 2200 joueurs. A cela, on ajoute les datasets contenant les notes FIFA des années 2018, 2019, 2020 et 2021 qui vont nous permettre d’entraîner notre modèle.
Des statistiques à la prédiction de notes
Notre but étant d’obtenir un dataset par année (toutes ligues confondues), nous avons dû faire correspondre les noms des joueurs des datasets statistiques avec ceux des datasets de notes FIFA afin de les fusionner.
Les équipes de foot ne se valent … pas
Cependant, il nous paraissait important que les clubs des joueurs soient une features d’entraînement de notre modèle. C’est pourquoi nous avons dû créer un score équipe. Ce score a été créé en comparant (en termes de points et de nombre de buts) chaque club d’une ligue au premier de cette ligue. Grâce à ce score il est, par exemple, possible de comparer directement les performances du Real Madrid avec celles de Liverpool.
Regardons les données de plus près.
Nous avons étudié la corrélation de nos variables avec les notes des joueurs. Deux variables sont corrélées positivement si leur coefficient de corrélation est proche de 1 et corrélées négativement si leur coefficient de corrélation est proche de -1. Deux variables corrélées ou anti corrélées signifient qu’elles mesurent un phénomène similaire. Cela apporte du bruit et peut induire le modèle en erreur.
Fig 3 : Matrice de corrélation du dataset de la saison 2017/2018
Nous avons gardé une seule variable par groupe de variables corrélées et nos datasets finaux ont chacun 28 colonnes. Nous avons ensuite décidé d’étudier l’influence de certaines variables par rapport aux différentes positions des joueurs sur le terrain. Quatre postes sont représentés dans notre dataset: les attaquants, les défenseurs, les gardiens et les milieux de terrain.
Fig 4 : Nombre de buts en fonction de la note (à gauche pour les gardiens, à droite pour les attaquants)
Comme nous pouvions nous en douter, le nombre de buts n’a pas d’influence sur la note des gardiens tandis que cela est plus corrélé avec les notes des attaquants. Nous avons donc tracé les matrices de corrélation par postes pour trouver les variables qui influent le plus sur la note par poste. Nous avons donc décidé d’établir deux modèles différents présentés ci-dessous:
Fig 5 : Présentation des méthodes de calcul des scores
Comment évaluer nos résultats ?
Nous souhaitons prédire une note pour cela nous allons utiliser des algorithmes de régression (le Random Forest, l’algorithme du plus proche voisin, XG Boost Regressor, Stochastic Gradient Descent Regressor et la régression linéaire). La métrique que nous avons choisie est la racine de l’erreur quadratique moyenne. Notre but est de tester plusieurs modèles et algorithmes afin de déterminer ceux qui minimisent cette erreur. Nous avons décidé de vous présenter uniquement les modèles qui prennent en compte la note de l’année précédente, les autres ayant une erreur 3 fois plus élevée.
Algorithme Global
Global
Par poste : Forward
RandomForest
1.124
1.141
KNeighbors
4.002
4.020
XGBRegressor
1.249
1.253
SGDRegressor
192.194
78.247
LinearRegression
1.365
1.362
Concernant le modèle global, nous remarquons que le meilleur algorithme est le RandomForest suivi de près par XGBRegressor et la régression linéaire. Nous pouvions nous en douter car les forêts de décisions sont des algorithmes qui fonctionnent bien sur des petits datasets car ils utilisent la technique de Bootstraps.
Fig 7 : Étude des notes prédites en fonction des notes réelles pour le XGB Regressor
Fig 6 : Étude des notes prédites en fonction des notes réelles pour le Random Forest
Nous remarquons qu’il n’y a pas de valeurs aberrantes. Le nuage de points pour le Random Forest est plus resserré que celui du XGBoost : il fait donc moins d’erreurs. Dans le cas du modèle par poste, les trois meilleurs modèles sont : le RandomForest, le XGBoost et la régression linéaire. Après analyse, nous pouvons tirer les mêmes conclusions que pour le modèle global. Dans les deux cas de figure, le meilleur modèle est le RandomForest. Comparons donc les performances des modèles par poste pour ce modèle.
RMSE
Modèle global
Modèle par poste
Defender
1.142
1.137
Midfielder
1.125
1.137
Goalkeeper
1.056
1.173
Forward
1.159
1.141
Le modèle global possède des performances supérieures au modèle par poste. Nous optons donc pour créer un modèle global. Nous supposons que le modèle par poste est pour l’instant moins efficace car nous ne présentons pas assez de données d’entraînement.
Déploiement et commercialisation
Notre produit sera intégré au système informatique de FIFA. Il permettra à FIFA un gain de temps et d’argent. En effet, les modèles mettent environ 3 secondes à faire les prédictions pour tous les joueurs. Il suffit de mettre à jour régulièrement les statistiques des joueurs dans la base de données pour avoir des notes les plus fiables possible. Ce qui est négligeable par rapport au temps que FIFA met à coordonner les 8000 bénévoles et 200 data editors Le temps de calcul de ces notes est donc réduit. De plus, l’ajout de notre algorithme pourrait améliorer la satisfaction client grâce aux mises à jour régulières et donc conduire à une augmentation du taux de ventes. On peut aussi quantifier le gain d’argent pour FIFA en termes de salaires économisés. En effet, FIFA économisera environ 14,5 millions d’euros.
Les opinions des utilisateurs quant aux services/biens proposés, par une plateforme prennent aujourd’hui une place de plus en plus importante lors de la phase de réservation ou d’achat. Selon une étude,94% des utilisateurs n’ont pas acheté un produit en ligne suite à la lecture d’avis négatifs. En parallèle, on constate une augmentation du nombre d’avis propres à un produit ou un service, ainsi qu’une grande diversité dans leur contenu.
Nombre de nouvelles reviews Google par trimestre [https://searchengineland.com/googles-growth-in-online-local-reviews-continues-to-dominate-but-292571]Pour un même produit, on peut observer divers axes de notations relatifs : pour des logements, on pensera notamment à la propreté, la conformité à l’annonce, etc. Les “reviews” apportent donc bien plus de détails et d’informations précises quant à l’avis vis-à-vis d’un produit/service que ne fournissent pas les notations (généralement une note de 1 à 5). Effectivement, plusieurs notes faibles peuvent correspondre à divers aspects très différents qui ont paru critiques aux utilisateurs. Par exemple, dans notre cas des logements, une personne peut être marquée par la très mauvaise localisation d’un logement alors qu’une autre peut porter une plus grande importance à la propreté. Dans les deux cas, il s’agira d’avis négatifs, dont les notes pourront être semblables, mais qui se perdront dans la masse de commentaires tous aussi disparates.
Il est d’autant plus décisif d’extraire de la valeur de ces “avis utilisateurs”. L’idée à retenir de ce projet est de générer de la valeur pour les utilisateurs à partir de données issues de ces utilisateurs, dans l’idée de construire une boucle vertueuse.
Exploiter les avis utilisateurs, oui … Mais comment ?
La difficulté première de ce projet est d’être en mesure de comparer la pertinence de deux commentaires entre eux au regard de l’intérêt d’un utilisateur. Sur quel aspect va-t-on mesurer la valeur d’un commentaire pour un potentiel acheteur ? Cette réflexion nous a naturellement amenés à la formulation de la problématique suivante :
“Comment définir une relation d’ordre au sein d’un ensemble d’avis utilisateurs relatifs à un produit donné, pour un utilisateur donné ?”
Notons l’importance de la mention « […] produit donné, pour un utilisateur donné ». L’ensemble de nos analyses et constructions de modèles porteront, comme nous le verrons par la suite, sur une simulation respectant le cadre : un produit donné pour une catégorie de produits donnée, pour un utilisateur spécifique.
Cas d’usage
« Archibald souhaite acheter un nouveau produit d’entretien ménager et réalise une recherche sur le site. À ce stade, nous recueillerons l’ensemble des produits disponibles sur la marketplace, répondant à la recherche d’Archibald. La marketplace lui proposera alors, selon son système de recommandation, un certain nombre de produits. À cet instant, après avoir analysé l’ensemble des commentaires disponibles, nous demanderons à Archibald d’indiquer par une phrase les caractéristiques, propres au type de produit qu’il recherche, auxquelles il est sensible. Suite à cela, nous calculerons via notre algorithme de machine learning, un score de similarité entre l’entrée d’Archibald et l’ensemble des commentaires disponibles pour chaque produit. Cette similarité, comme nous le verrons, prendra en compte des notions thématiques (par exemple, Archibald évoque l’odeur du produit d’entretien), mais aussi grammaticale et sémantique. À l’issue de cette brève phase, lorsque Archibald sélectionnera l’un des produits de la liste proposée, nous aurons sélectionné pour lui les 3 commentaires de ce produit les plus à même de satisfaire les critères qu’il a aura entré plus tôt. »
Avant d’être en mesure de réaliser cette « aide à la décision », via une sélection automatique de commentaires pertinents, nous devons satisfaire les besoins suivants : recueillir l’ensemble des commentaires relatifs à un produit, traiter ce texte de manière à appliquer des algorithmes de machine learning, définir une mesure sur laquelle nous comparerons deux commentaires (relation d’ordre).
Notre proposition de valeur
Une fois que nous serons en mesure de comparer divers commentaires au regard de l’intérêt d’un utilisateur, nous pourrons nous présenter comme un tiers de confiance, transparent, apportant une aide à la décision aux clients souhaitant acheter un produit. Notre apport de valeur du côté du site intégrant notre solution est l’augmentation de la satisfaction client via une navigation facilité par la lecture de commentaires sélectionnés spécifiquement. Les utilisateurs trouveront plus rapidement les informations qu’ils cherchent dans les reviews, et gagnerons du temps sur un site équipé de notre solution. Les clients seront plus fidèles au site et plus propices à consulter plus de pages. De cette satisfaction pourra suivre une hausse potentielle du taux de vente.
Plongée au cœur des reviews, l’incroyable récit de notre périple !
Choix du dataset…
Nous avons choisi notre dataset de manière à garantir l’universalité de notre produit, ie ayant pour objectif de pouvoir s’intégrer de manière rapide et simple sur tout type de site de e-commerce. Nous avons donc cherché un dataset contenant au moins les champs suivants : identifiant d’un avis utilisateur, identifiant du produit relatif à l’avis, contenu textuel de l’avis utilisateur. D’autres champs pourront être utilisés pour améliorer le produit, mais dans sa première version nous nous en tenons à cela.
Le prototype que nous avons construit est basé sur une base de données fournie par datafiniti.co.
La base de données utilisée pour mener à bien le prototype est constituée de 70260 commentaires utilisateurs relatifs à un ensemble de 600 produits différents vendus sur 14 sites.
… du site…
Étudions rapidement la distribution des commentaires en fonction du site.
On observe la nette prédominance des sites Walmart (~ 45% du total) et Bestbuy (~ 36% du total).
Étudions alors notre variable d’intérêt : le contenu textuel des commentaires : Walmart apparaît comme le site le plus intéressant pour la suite de notre projet. En effet, les commentaires sont deux fois plus longs, avec une médiane à 14 mots contre 7 pour Bestbuy. Ainsi que des catégories plus intéressantes, car plus propices à trouver des commentaires plus objectifs. Bestbuy contenant majoritairement des commentaires de produits liés à l’audiovisuel (films, musique, …) .
Pour la suite du prototype, nous avons donc uniquement sélectionné les commentaires utilisateurs relatifs aux produits vendus sur Walmart.
… de la catégorie…
Plus spécifiquement dans la catégorie des produits d’entretien ménager (« Household Essentials ») contenant environ 8 552 avis (en ayant retiré les avis en doublons).
… et enfin, du Produit !
En outre, pour l’évaluation du modèle, décrite par la suite, nous utiliserons le produit sélectionné ci-dessous. Pour rappel, comme mentionné dans la problématique, notre produit réalise une sélection de commentaires pour un utilisateur et un produit donnés.
Rentrons dans le cœur du projet : de la donnée brute à la sélection de commentaires !
Traitement des textes
La première étape, sur laquelle repose en grande partie l’efficacité des algorithmes évoqués plus tard, consiste au traitement des données textuelles des commentaires utilisateurs de sorte à les rendre « compréhensibles » par des modèles de machine learning. Pour cette phase, nous utiliserons la librairie de référence « Spacy » sous Python, connue pour ses modèles de traitements de textes certes complexes, mais bien plus performants que des modèles issus de l’autre librairie de référence « NLTK ».
Le pre-processing peut être résumé par le schéma suivant :
« Nous adorons tous la Data Science, mais encore plus les produits d’entretien ménagers » → « nous, adorons, tous, data, science, mais, plus, les, produits, d’entretien, ménagers ».
Passons ensuite à nos modèles. Dans le but énoncé plus haut – la similarité entre l’entrée utilisateur et notre base de commentaires
Comment quantifier la similarité entre deux textes ?
Une similarité entre deux textes peut-être de plusieurs types : sémantique, grammaticale, thématique ou autre. Dans notre cas, nous procédons en deux temps.
D’abord en étudiant la similarité thématique. Nous extrayons les thèmes principaux de tous les commentaires du produit donné, pour ainsi pouvoir sélectionner les commentaires dont les thèmes principaux sont très proches des thèmes extraits de l’entrée utilisateur. Pour cette première étape, nous utilisons un LDA.
Ensuite, en étudiant la similarité sémantique nous cherchons parmi les commentaires en sortie de notre LDA, les 3 étant le plus sémantiquement proches de l’entrée utilisateur. Pour cela, nous utilisons un doc2vec avec pour mesure de similarité, la similarité cosinus.
Etape 1. Extraction des thèmes principaux
Rapide explication du LDA (Latent Dirichlet Allocation). Le LDA fait parti des modèles d’extraction de topics ou « Topic modeling » . Ces algorithmes partent du postulat qu’il existe, au sein d’un corpus de textes, des thèmes latents. Ainsi, ces modèles attribuent à chaque texte un pourcentage d’appartenance à chacun des thèmes détectés au sein d’un corpus.
Nous appliquons donc notre meilleur modèle de LDA, entraîné sur un corpus de commentaires relatifs à la catégorie « Household Essentials », pour attribuer à chaque commentaire des coefficients d’appartenance aux 6 topics identifiés. Nous faisons de même pour l’entrée utilisateur. Les commentaires les plus similaires thématiquement (quantile 75%) sont envoyés en entrée du modèle suivant le doc2vec.
Cette étape, effectuée en amont de notre Doc2vec est primordiale dans notre calcul de similarité. Plutôt que de longues explications, voici un exemple pour mieux comprendre : (a) Si l’on utilise un Doc2vec (de même pour Word2vec) pour prédire les documents similaires à un texte contenant le mot « French », on obtiendra probablement des documents contenant « German » ou « English » , car ces mots sont utilisés dans des contextes grammaticaux similaires. (b) Si l’on utilise un LDA en amont et que l’on cherche à prédire les mots similaires à un texte contenant le mot « French » et évoquant le thème de la « nourriture », on obtiendra cette fois non plus des documents contenant « German » ou « English » mais plutôt « baguette », « vin », « boulangerie ».
Etape 2. Calcul de similarité sémantique entre textes
En sortie de l’étape précédente, nous avions donc plusieurs commentaires qui ont été sélectionnés. Ensuite parmi ces commentaires on sélectionne les 3 commentaires ayant les plus hauts scores de similarité sémantique.
Une fois que deux textes sont représentés sous forme de vecteur grâce au doc2vec, il est possible de calculer leur similarité cosinus.
Nous sommes donc à présent en possession d’une relation d’ordre !
Notre sélection actuelle n’est basée que sur ce score de similarité. Des améliorations ont bien entendu été envisagées, notamment l’ajout de features telle que la longueur du message, le nombre de verbes/adjectifs, etc. Nous avons également songé à entraîner un algorithme supervisé dont la variable à prédire est l’utilité d’un message (ie champ « ce commentaire vous a été utile ? »).
Comment évaluer notre sélection ?
Du non supervisé au supervisé
Notre modèle étant non supervisé, nous n’avons pas accès à une méthode directe permettant de l’évaluer. En effet, nous donnons un top 3 des commentaires les plus pertinents, mais il est impossible de garantir que ce sont bien ceux qu’il fallait choisir dans l’ensemble disponible. Pour pallier cela, une approche classique consiste à rendre le problème supervisé afin de pouvoir l’évaluer. Nous avons alors aléatoirement extrait 100 commentaires d’un produit donné, puis nous avons écrit 100 entrées utilisateurs. Nous avons ensuite associé à chacune des entrées les 3 commentaires que nous jugions les plus pertinents parmi ceux extraits. Grâce à cet « étiquetage » manuel, nous avons donc les entrées et les sorties du modèle qui devient alors supervisé. Finalement, nous comparons le résultat renvoyé par le modèle à celui que nous avons indiqué.
Qu’en est-il des résultats ?
21 % des commentaires sélectionnés par notre modèle sont jugés pertinents par les utilisateurs.
Comme on peut l’imaginer assez naturellement, les scores fournis plus haut peuvent être améliorés en ne considérant pas un top 3, mais un top 5 ou plus. On constate effectivement qu’en augmentant le nombre de commentaires à prédire, on a potentiellement plus de chances de choisir les bons.
Ces scores sont relativement faibles, mais il est difficile d’en conclure quoi que ce soit. En effet, la sélection de commentaires pertinents est un sujet très subjectif. Ainsi, notre test est biaisé par la personne qui a écrit et labellisé les entrées utilisateurs. De plus, notre procédure de test est appliquée sur un faible volume de données qui ne suffit pas à conclure.
Déploiement, commercialisation
Notre produit peut s’intégrer sous forme d’API au sein du site d’un partenaire. Pour faire ses preuves en utilisation, nous pouvons fournir un accès gratuit à nos services durant un période de 2 mois, période durant laquelle notre solution sera soumise à un A/B test dont l’objectif sera de quantifier l’augmentation d’indicateurs de performance utilisés par l’entreprise (le taux de conversion/vente semble pertinent). Après une période de tests, notre outil sera vendu sous forme d’abonnement mensuel, dont le tarif sera calculé sous forme d’un pourcentage du nombre de ventes réalisées.
Simulation de déploiement
Les gains potentiels grâce à notre solution sont aujourd’hui difficilement évaluables. Cependant, l’essor des plateformes d’achat en ligne nous garantit que de plus en plus de gens consommeront en ligne, et seront donc sensibles aux commentaires des autres utilisateurs. En considérant que notre modèle aura une influence sur le volume des ventes d’un produit donné, nous pouvons estimer le gain pour des plateformes à différentes échelles. Ci-dessous, un exemple avec le produit “Clorox wipes” vendu 5.99$ sur walmart.com.
Depuis quelques années, le taux de criminalité global à New York a décliné, contrairement à d’autres grandes villes des USA. Pour autant, le taux de “hate crimes” (meurtres, viols, assauts graves) a beaucoup augmenté ces dernières années : 3,3 millions de victimes en 2018 contre 2,7 en 2015.
A la suite de ces constatations, le maire de New York, Monsieur Bill de Blasio, a lancé “the office for the prevention of Hate Crimes”, ou aussi appelé le MOCJ (Mayor’s office of Criminal Justice), en été 2019 afin d’empêcher ce type de crimes.
Pour aider le maire de New York, nous voulons créer un outil d’aide à la décision. Ce dernier permettrait de prédire l’impact de la modification de certains éléments, ou couples d’éléments, sur la criminalité pour chaque quartier de New York.
Quelles données utiliser ?
Nous avons cherché des données Open Data qui pourraient être liées à la criminalité, suite à la lecture de documents scientifiques traitant du sujet. Nous nous sommes ainsi concentrés, en premier lieu, sur des données socio-démographiques. Nous avons trouvé 7 variables d’intérêt comprenant le nombre d’habitants, le taux de personnes nées à l’étranger, le taux de pauvreté, le taux de chômage, le taux de diversité ethnique et le taux de jeunes déconnectés, par quartier de New York et par année entre 2000 et 2018.
Cependant, il est difficile pour le maire de mener des actions qui auront un impact direct sur ces variables. Comment avoir un impact direct sur la pauvreté ou le taux de chômage ?
Nous avons donc cherché d’autres sources de données qui permettaient d’avoir des renseignements notamment sur le nombre de commissariats, sur les infrastructures présentes dans différents quartiers et sur les évènements sociaux. Ce sont sur ces critères que le maire de New-York pourra influer.
Que faire de toutes ces données ?
Dans un premier temps, il s’agissait d’effectuer une préparation des données, qui a pris beaucoup de temps. En effet, le défi était de fusionner 11 bases de donnés puis de les regrouper en un seul dataset qui nous permette de répondre à notre problématique.
Le dataset final regroupe les données par quartiers et par années entre 2006 et 2018.
Pour fusionner les différents datasets, nous disposions des coordonnées GPS des événements et infrastructures. Il fallait donc faire correspondre ces coordonnées GPS aux Community District auxquels elles appartenaient. Cela a été effectué à l’aide d’une librairie Python de traitement des données géospatiales : geopandas. La ville de New-York met également à disposition des fichiers contenant les formes de chaque Community District, ce qui a permis d’effectuer l’opération.
Suite à ce travail nous nous sommes retrouvés avec le dataset suivant:
Mais la préparation des données ne s’est pas arrêtée là. En effet, notre problématique étant d’observer l’impact de certaines actions sur la variation de crime dans un quartier, nous avons décidé de faire d’autres modifications au dataset afin que notre étude soit plus adaptée à nos besoins.
Dans un second temps, nous avons donc décidé d’ajouter des colonnes qui expriment les variations de données d’une année sur l’autre plutôt que seulement les chiffres de l’année en cours. Par exemple, à partir de la colonne “Commissariats” on ajoute la colonne “Différence de commissariats” qui correspond au nombre de commissariats sur l’année étudiée moins le nombre de commissariats de l’année précédente.
Une fois toute cette base de données regroupée et afin d’avoir une première idée des influences de certaines variables, nous avons fait une première étude de corrélation. Nous avons retrouvé des corrélations plutôt intuitives et cohérentes. En temps normal ces études de corrélations permettent de supprimer les variables redondantes. Mais dans le cadre de notre modèle nous n’avons pas jugé utile d’en retirer, permettant à notre client d’avoir plus de choix de modification de données lors de la simulation de l’évolution du nombre de crimes dans un quartier.
La base de donnée finale est donc de 767 lignes par 55 colonnes.
Un problème de classification …
Plutôt que de prédire le nombre de crimes d’un quartier d’une année sur l’autre nous avons décidé de prédire la variation de crimes et de la regrouper en 3 classes : Augmentation, Diminution ou Stagnation du nombre de crimes par rapport à l’année précédente. La stagnation correspond à une variation du nombre de crime inférieure, en valeur absolue à 200.
Deux algorithmes nous intéressent tout particulièrement : l’arbre de décision et la régression logistique. En effet, ces deux algorithmes ont la particularité d’être facilement lisibles, ils ne sont pas des boîtes noires. Il est donc possible d’extraire les règles permettant de mener à la décision de l’appartenance à une catégorie ou à une autre.
Evaluation de nos modèles
Algorithme
Temps d’exécution
Précision
Aire ROC
Arbre de décision
< 1 seconde
55%
0.61
Random Forest (50 arbres)
~ 1 seconde
75.9%
0.77
Régression
Logistique
< 1 seconde
78.1%
0.51
Ainsi, l’algorithme de Random Forest est le plus performant dans notre étude (Aire ROC bien supérieur à 0.5, qui correspond à une classification faite au hasard).
De plus, il est toujours intéressant d’étudier l’arbre de décision sachant que cela nous permet d’identifier des associations de variables influençant la variation de crime dans le même sens pour aider à jouer sur les facteurs pour trouver les bonnes combinaisons de facteurs réduisant le crime.
Des scénarios prometteurs
Ainsi, nos modèles nous ont permis d’identifier des facteurs influençant la criminalité positivement et négativement. Nous avons donc simulé différents types de scénarios pour visualiser l’impact sur la criminalité.
Nous avons réalisé un premier scénario augmentant le nombre d’évènements sociaux de 30% : la criminalité diminuerait dans 3 quartiers.
Avec un deuxième scénario, nous avons cette fois augmenté le nombre d’événements sociaux de 10% et les infrastructures sociales de 2% : nous remarquons alors que la criminalité baisse dans 10 quartiers. Nous conseillons donc au maire de se concentrer en premier temps sur ces quartiers et d’y mettre en place d’avantage d’évènements sociaux.
Des améliorations sont tout à fait envisageables. Nous pourrions déterminer des associations de variables plus précis à l’avenir pour permettre la réalisation de scénarios encore plus efficaces pour la diminution du crime à New York. De plus, il serait intéressant de réaliser les modèles sur des groupes (clusters) de quartiers afin d’avoir des résultats encore plus précis selon le type de quartier. En effet, les variables n’influencent pas les quartiers de la même manière.
La somnolence au volant représente un véritable danger pour les automobilistes. En effet, une étude de l’American Automobile Association démontre que le risque est conséquent car plus d’un accident mortel sur six est lié à l’assoupissement au volant.
De plus, les conséquences économiques sont lourdes avec un préjudice estimé à plus de 30 milliards de dollars. C’est d’autant plus le cas pour les sociétés de transport routier dont les conducteurs sont confrontés à un haut facteur de risque puisqu’ils travaillent pendant de longues durées et souvent de nuit. Effectivement, une étude indique que près de 20% des conducteurs professionnels interrogés affirment s’être déjà endormis au cours du mois courant.
Une start-up imaginaire désireuse de sauver des vies
Pour être fidèles aux considérations business présentes en Data Science, nous nous sommes projetés dans le futur en start-upers, souhaitant mettre en pratique nos compétences pour répondre à des problèmes du quotidien. Ainsi, notre jeune start-up Rouse envisage-t’elle de développer une application mobilisant le Machine Learning pour exploiter les données d’un bracelet connecté porté par le conducteur qui surveillera ses constantes biologiques et l’alertera si jamais elle détecte un assoupissement.
Le business plan de Rouse est divisé en deux phases de déploiement. En effet, il s’agira dans un premier temps de concevoir un modèle sur des données académiques obtenues au cours d’étude sur le sommeil qui permettra de valider la faisabilité d’un tel projet. Dans un second temps, nous déploierons cette solution au sein d’un environnement de test représentatif du cas d’utilisation réel.
Des données pertinentes … issues d’Apple watches !
Le jeu de données utilisé provient de la banque de données open data en ligne PhysioNet, spécialisée dans les données physiologiques. Il a été collecté au département de Neurologie de l’université du Michigan via une étude sur le sommeil et se présente la forme de signaux de mesures de rythme cardiaque (battements par minute) et d’accélération (mesurées en g) ainsi que le nombre de pas. Ces données ont été collectées en faisant porter des Apple Watch à des participants qui les surveillaient pendant leur sommeil.
Le volume des données est assez grand pour permettre à la fois d’entraîner un modèle et de l’évaluer. En effet, les durées d’enregistrements sont de 7 heures en moyenne par patient, avec 75% des patients ayant au moins 8 heures d’enregistrement! Voici ci-dessous une visualisation des données à notre disposition sur une fenêtre de trente secondes :
Visualisation pour un patient
Le patient s’endort, puis il y a un court épisode durant lequel il se réveille puis se rendort tout de suite après : on peut voir le changement dans le rythme cardiaque qui augmente puis revient à des valeurs précédentes. Cela indique que, dans une certaine mesure, les données sont pertinentes pour répondre à la problématique et sont suffisamment représentatives pour mettre en exergue une transition entre un état éveillé et un état de sommeil léger c’est-à-dire un assoupissement.
Passer le balai sur les mauvaises données
Allez hop ! Il est temps de nettoyer les données pour par la suite mettre en place notre modèle. Elles sont sous forme de fichiers .txt différents par patient et par attribut. Il a donc fallu assembler les données des différents attributs pour un même patient puis aussi rassembler les données de tous les patients confondus.
Ceci n’a pas été simple car les données ne sont pas toutes exactement de la même forme, ce qui est indispensable afin de faire une jointure et générer des attributs. L’idée est donc de mettre en forme les données du rythme cardiaque, leur attribuer le bon label, et de mettre les données d’accélérations sous la même forme pour permettre la jointure.
Place à nos algorithmes de Machine Learning
Des considérations liées à la nécessité de classifier en temps réel et ne pas avoir à traiter les flux entrants nous ont menés à implémenter un modèle de forêt aléatoire (RandomForest), et dans un deuxième temps des modèles de Naive Bayes et SVM.
Nous avons opté pour les deux critères d’évaluation suivants :
Précision : elle permet de qualifier les performances de la classification par le modèle
Rappel pour les labels 1 et 2 : il est crucial de maximiser la détection des vrais positifs qui correspondent à un état d’endormissement (passage de l’état 1 à 2).
Tableau comparatif des modèles
Parmi les modèles de classifieurs entraînés, nous pouvons conclure avec certitude que Random Forest est le plus adapté. Comme nos données sont des signaux physiologiques collectés par un dispositif électronique, nous devons tester notre modèle face au bruit éventuel qui peut s’infiltrer. Nous avons donc classifié des données auquel on a ajouté du bruit, pour différents SNR (rapport signal à bruit) et nous avons comparé les performances obtenues par le modèle que nous avons sélectionné : le Random Forest. Les résultats illustrés ci-dessous sont des résultats auxquels on pouvait s’attendre : plus le SNR est bas (plus l’intensité bruit dépasse celle du signal) plus les performances du modèle faiblissent.
Évolution du rappel en fonction du SNR
On se prépare pour la suite !
Ces résultats prometteurs nous permettent de suivre le déroulement prévu du projet et donc de planifier une phase de déploiement qui nous servira à suivre la performance du modèle dans des cas réels.
Il sera alors nécessaire de porter notre attention sur de nouvelles considérations, en particulier le fondement juridique. En effet, jusqu’alors nous avions utilisé une base de données sous la licence permissive OPEN DATA ODC-BY 1.0. Les personnes soumises à l’enregistrement de leurs données biologiques étaient Américaines ; conséquemment la conformité à la RGPD n’était pas requise.
Néanmoins, le cadre légal sera plus contraignant une fois le dispositif mis en place puisqu’il faudra respecter la RGPD. Plus spécifiquement, le signal physiologique qu’est la fréquence cardiaque possède un degré de protection supplémentaire en tant que donnée sensible par rapport aux données conventionnelles qui nécessite de mettre en place une solution de cryptographie adéquate.
Rouse se devra également de trouver un financement pour poursuivre un tel déploiement. Nous estimons que les résultats préliminaires encourageants permettront de convaincre des investisseurs de placer leur confiance en notre projet.
The purpose of this paper is to serve as a continuation of our previous study on the intellectual property of GitHub, the largest web-based code sharing platform in the world. Since the writing of the previous paper, GitHub has officially been purchased by Microsoft for $7.5 billion and this paper will seek to understand the business model that made GitHub attractive enough of a venture for such a sale to happen.
As a quick introduction, let us discuss who GitHub is. Table 1 below gives us some of the latest statistics concerning GitHub. GitHub was founded in 2007 by three partners – Chris Wanstrath, Tom Preston-Werner, and P. J. Hyett. It was written in Ruby and was the first code sharing plat- form to provide distributed version control (using Git), as opposed to a centralized version control system being offered by major competitors at the time SourceForge, GoogleCode, and CodePlex. This meant that developers could clone an entire instance of a project and merge modifications much easier than ever before. GitHub’s popularity grew exponentially fast as evidenced by Figure 1. In addition to using Git, GitHub is also popular today for a number of other services it provides that are discussed in the following section.
This paper seeks to study in detail the business model of GitHub. The paper will utilize Osterwalder’s business model canvas as a guide. We will start by reviewing the value proposition of GitHub, that is, what exactly GitHub has to offer in terms of services. We will then study the infrastructure that GitHub has built to provide the services it does. Next we will discuss some other options available for code sharing and how GitHub’s services differ from its competitors. We will look at how GitHub has segmented the market to whom it offers its service and the various propositions it offers for each segmentation, before concluding with a short discussion on GitHub’s finances.
If you are interested in the content of this paper, please click the link below:
Alors que l’Inde devrait se hisser à la troisième place des puissances économiques mondiales en 2020, le pays reste l’un des états qui compte le plus fort taux d’inégalité au monde. La pauvreté persiste dans le pays et environ 20% de la population indienne vit encore sous le seuil de pauvreté (fixé à 1,9 $/jour/personne), d’après la Banque Mondiale. Toutes les régions ne sont pas égales face à cela, et les principales touchées restent celles du Nord, tels que Chhattisgarh, Jharkhand et Odisha (anciennement Orissa). Cette situation se trouve renforcée par les faibles investissements de l’état indien dans le secteur de la santé. En effet, l’Inde se classe à la 159ème place sur 187 dans ce domaine en 2016, d’après la Banque Mondiale.
La pauvreté et les faibles investissements de l’état indien, entre autres, entraînent de graves problèmes sanitaires. Ainsi l’Inde a longtemps été le premier pays du monde en termes de mortalité infantile. Bien que celle-ci soit en fort recul depuis 10 ans, le taux reste élevé, avec plus de 39 bébés décédés dans leur première année pour 1000 naissances en 2017, d’après une étude du CIA World Factbook. L’Inde est désormais le 47e pays avec le taux de mortalité infantile le plus élevé au monde, d’après cette même étude, ce qui montre une amélioration limitée des conditions sanitaires en Inde.
Notre étude va donc porter sur la mortalité infantile en Inde, et particulièrement dans les régions les plus pauvres. Elle se basera sur la méthodologie CRISP-DM, qui se décompose en six phases distinctes.
Ces six phases, que sont la compréhension du besoin métier, la compréhension des données, la préparation des données, la modélisation, l’évaluation et le déploiement, permettront de comprendre les différentes étapes que nous avons suivies lors de ce projet. Nous allons les expliciter une à une dans la suite de l’article.
Diminuer la mortalité infantile, oui … Mais comment ?!
Cette phase de compréhension du besoin métier consiste à comprendre les problématiques métier que la Data Science tente de résoudre. Dans notre cas, nous constatons que malgré une forte croissance économique, l’Inde reste marquée par la pauvreté, notamment dans les régions du nord. La mortalité infantile est dans ces régions un véritable fléau. Il paraît donc primordial d’aider notre client, le gouvernement indien, à tirer parti des données qu’il possède en matière de santé publique. Notre objectif est de cibler les districts les plus touchés et les facteurs déterminants afin d’aider le gouvernement à investir correctement et aux endroits clés afin de diminuer la mortalité infantile.
Des fichiers, des variables et des individus !
Lors de la phase de la compréhension des données, nous nous intéressons aux données mises à notre disposition et à leur lien avec notre problématique. Notre jeu de données est un jeu de données de santé publique publié par le gouvernement indien sur leur plateforme opensource, faisant 3.24 GB.
Nos données concernent uniquement sept régions : Rajasthan, Bihar, Assam, Jharkhand, Odisha, Chhattisgarh et Madhya Pradesh, parmi les vingt-neuf existantes en Inde. Ces régions sont situées dans le nord du pays et correspondent d’après notre étude bibliographique aux régions les plus touchées par la pauvreté. Notre jeu de données se décompose en dix fichiers. Un fichier de description des variables, qui n’est cependant pas exhaustif, et ne permet pas toujours de comprendre la signification des données. Et neuf autres comportant les données d’environ un million de femmes chacun, réparties selon 197 variables. Deux régions possèdent en effet deux fichiers de données. Cette division en plusieurs documents a constituée une première contrainte, compliquant la compréhension du dataset dans les premières phases du projet.
Par ailleurs certaines colonnes ne sont pas directement en lien avec notre étude sur la mortalité infantile.
Fusion des fichiers et grand nettoyage !
La préparation des données est l’ensemble des étapes menées sur les données brutes pour créer un nouvel ensemble de données sur lequel appliquer les algorithmes.
Comme vu dans la partie précédente, notre jeu de données était divisé en plusieurs dossiers, la première étape de préparation a donc d’abord consisté à regrouper l’ensemble en un seul fichier.
Après une étude approfondie de nos données, nous nous sommes rendus compte que les questionnaires soumis aux femmes enceintes avaient évolués au cours des années, ainsi, certaines colonnes étaient composées en grande partie de NA. Nous avons donc effectué un tri des données, en supprimant les colonnes remplies entièrement ou en majorité de NA, ainsi que celles remplies de valeurs constantes.
Exemple de colonnes remplies majoritairement de NA dans le fichier Madhya Pradesh-Partie 1
Par ailleurs, comme nous l’avons souligné dans la partie précédente, le fichier descriptif ne nous permettait pas de comprendre la signification de certaines variables, nous avons donc dû les supprimer.
Les réponses aberrantes, comme un nombre total d’enfant de 68 pour une femme, ont aussi été éliminées pour permettre une étude cohérente. Ces données sont appelées des outliers.
Nous avons par ailleurs créé de nouvelles variables en agglomérant des variables existantes. Ainsi, la variable santé a été créée en pondérant les colonnes sur l’eau courante, les toilettes privatives, l’électricité et la présence d’un réfrigérateur. La colonne « mortalité infantile » a aussi dû être créée, car elle ne figurait pas directement dans nos données.
Alors, Big Data ou pas Big Data ?
La phase de modélisation résume le choix, le paramétrage et la mise en place des différents algorithmes sur notre jeu de données pour pouvoir répondre à notre objectif.
Dans un premier temps, nous avons envisagé de faire de la prédiction de mortalité infantile sur les individus. Cependant, la classe était minoritaire quelle que soit la tranche regardée, donc la prédiction donnait invariablement la classe majoritaire. Il n’y avait ainsi pas de gain d’information.
Ceci nous a mené à changer d’angle d’attaque. Nous nous sommes plutôt intéressés aux districts eux-mêmes, c’est-à-dire que nous avons adopté une approche plus statistique. Cette seconde approche est par ailleurs plus pragmatique : il est en effet peu probable que le gouvernement indien affecte ses moyens au cas par cas. Des investissements par district semblent plus raisonnables. Nous devons donc définir les districts cibles, en fonction de leur richesse, niveau d’éducation, de santé, de mortalité infantile. La détermination de ces districts doit être aisément comprise par le gouvernement indien, c’est pourquoi nous avons d’abord utilisé des arbres de décision.
Ainsi, en nous plaçant à l’échelle des districts, nous avons pu obtenir des arbres de décision de la forme de celui ci-dessus, qui nous ont apporté des premières informations sur les facteurs prépondérants de la mortalité infantile. On remarque bien que les noeuds supérieurs de l’arbre résultent du nombre de filles par famille, de la richesse moyenne et de la santé moyenne. L’éducation moyenne du district et le nombre de garçons par foyer étant des facteurs subalternes dans l’arbre.
De ce fait nous avons pu déduire, comme nous le supposions, que les feuilles de l’arbre après les noeuds impliquant une santé moyenne élevée avaient une plus faible mortalité infantile que les autres. Mais contrairement à l’idée reçue, dans cet arbre, la richesse et l’éducation ne vont pas de paire avec une mortalité infantile plus faible.
Cependant, cet arbre étant tronqué pour des raisons de lisibilité, et étant réduit sciemment aux variables que nous maîtrisons le mieux au moment de cette phase de modélisation, il ne nous donne pour l’instant qu’un aperçu des facteurs discriminants pour la mortalité infantile.
Nous avons alors construit un score pour classer les districts en fonction de la mortalité infantile, de son évolution dans le temps, de l’évolution du niveau de santé et de richesse. Beaucoup des districts avec les plus hauts scores de risque se trouvent au Rajasthan, ce qui sous-entend que c’est là que le gouvernement indien doit concentrer ses efforts.
Pour conclure sur l’utilisation du Big Data, le fait que nous ayons choisi d’œuvrer sur les districts a engendré une réduction considérable du dataset de travail. En effet, nous ne travaillons plus que sur un dataset de 201 individus (les districts) et une trentaine de colonnes. Dès lors, dans ce cas précis, employer des techniques d’analyse Big Data est inutile.
Du coup, quels sont les facteurs ?
L’étape d’évaluation vise à vérifier que l’étude menée dans la partie précédente apporte une réponse à la problématique métier.
Un premier traitement statistique des données nous a permis d’évaluer la proportion de mortalité infantile dans chaque état. On constate que ces chiffres sont particulièrement élevés, notamment pour le Jharkhand et le Rajasthan qui dépassent un taux de 10%. Il convient donc d’identifier les facteurs menant à de tels taux de mortalité infantile.
État
Assam
Bihar1
Bihar2
Chhattisgarh
Jharkhand
Madhya Pradesh1
Madhya Pradesh2
Odisha
Rajasthan
Total
Natalité
2 103 662
2 274 477
2 197 414
1 603 056
2 860 296
1 414 122
1 498 181
1 731 272
2 387 846
18 070 325
Mortalité infantile (%)
9,82
9,16
8,76
6,20
11,54
8,58
6,52
9,09
10,42
9,20
Pour cela, nous avons utilisé les algorithmes de fouille de données présentés dans la partie précédente. Il ressort de cette analyse que les facteurs les plus déterminants sont, par ordre d’importance : District; Nombre d’enfants; Groupe social; Éducation; Santé; Richesse.
La faiblesse de cette étude réside dans les constatations suivantes. Tout d’abord, les variables fournies ne sont pas toutes explicites, et nous ont ainsi empêché d’utiliser à fond le dataset. Secondement, l’anonymisation des districts a pour conséquence directe l’impossibilité d’enrichir les données comme nous l’aurions souhaité (en incluant le type d’industries implantées par exemple).
Ainsi, le classement que nous avons effectué demande encore de la part du gouvernement indien un travail afin de retrouver dans les districts bien classés les opérations menées, ce qui ouvrira la voie à une amélioration de la situation dans les moins bons districts.
Pour la suite des opérations …
Enfin lors de la phase de déploiement, l’objectif est de mettre à disposition la connaissance obtenue lors de la modélisation et de permettre l’utilisation de notre modèle.
Dans notre cas, nous allons mettre à la disposition de l’état indien notre code commenté ainsi qu’une documentation pour le détailler, afin qu’il puisse l’utiliser et déterminer quelles sont les régions à aider et quels sont les facteurs à améliorer dans ces régions.
Au niveau de la maintenance, notre documentation contiendra par ailleurs un résumé des données utilisées par notre modèle, afin que les questionnaires maintiennent ces questions et que le gouvernement indien ait conscience de l’importance d’obtenir une réponse à celles-ci. En outre, ce dernier n’aura aucun mal à continuer cette étude, notre travail étant codé sous R (logiciel libre).
Le diabète, maladie souvent sous-estimée, touche aujourd’hui plus de 400 millions de personnes dans le monde et l’OMS prévoit plus de 600 millions de cas d’ici 2040. Cette progression est une réalité encore trop peu connue à l’heure actuelle, qu’il ne faut pas négliger. En effet, plus de 5 millions de personnes sont décédées du diabète en 2015 ce qui place cette maladie comme forte cause de mortalité dans le monde. De plus, il y a une réelle problématique concernant la connaissance de la maladie car 1 personne diabétique sur 2 ne sait pas qu’elle est atteinte. C’est pourquoi, il y a un véritable besoin de sensibilisation et de prévention de cette maladie, encore trop ignorée à ce jour.
Quelques chiffres clés
Source : International Diabetes Federation
Qu’est-ce-que le diabète ?
Le diabète est une maladie liée au mauvais traitement du sucre par l’organisme, qui conduit à une hyperglycémie et donc à un taux élevé de glucose dans le sang. Lorsqu’on mange des glucides, ils sont transformés en glucose. Les cellules du pancréas détectent alors une augmentation de glycémie et sécrète en conséquence des hormones (de l’insuline) qui permettent de réguler le taux de glycémie. Chez les diabétiques, ce système de régulation n’est pas présent. On considère qu’une personne a du diabète si son taux de glycémie dépasse 1.26 g/l à deux reprises dans la journée ou est égale ou supérieure à 2 g/l à n’importe quel moment. Il existe deux types de diabètes : un type I, maladie auto-immune qui apparaît dans la jeunesse et un type II qui apparaît plus tardivement, souvent après 40 ans et qui peut être lié à une mauvaise hygiène de vie. Le premier type, beaucoup plus rare, est souvent très rapidement diagnostiqué dès le plus jeune âge. A l’inverse, le second type de diabète représente plus de 90% des diabétiques et il est souvent inconnu des personnes atteintes. C’est donc le diabète de type II qui sera le sujet de notre étude.
Mais quelles sont les causes de cette maladie ?
De nombreux facteurs de risque sont souvent cités quand on parle de diabète. Le tabac, l’alcool, le cholestérol, l’alimentation, la pratique de sport, la sédentarité constituent un panel d’exemples de déclencheurs probables du diabète.
Notre projet, d’où proviennent nos données ?
Pour palier à ce manque de prévention et sensibilisation, nous avons voulu créer un outil permettant d’évaluer le risque d’une personne de développer le diabète.
A l’aide d’un questionnaire d’une dizaine de questions, nous pouvons prédire votre risque de devenir diabétique. Cette campagne de prévention permettra ainsi de sensibiliser les gens afin qu’ils changent si besoin leurs habitudes alimentaires, sportives, ou qu’ils prennent rendez-vous pour vérifier leur état de santé. En effet, comme pour de nombreuses maladies, un dépistage précoce permettra un meilleur traitement.
Afin de suivre et de détecter tout type de maladie, l’organisme américain Centers for Disease Control and Prevention met en place tous les ans un sondage auprès de ses citoyens qui renseigne de leur état de santé, de leur suivi médical ou encore de leur hygiène de vie. Le BRFSS (Behavioral Risk Factor Surveillance System), l’entité responsable de ces travaux, recueille des données dans les 50 États ainsi que dans le District de Columbia et dans trois territoires américains. BRFSS réalise plus de 400 000 entrevues avec des adultes chaque année, ce qui en fait le plus important système d’enquête sur la santé mené de façon continue au monde. C’est cette base de donnée que nous avons utilisée durant ce projet.
Nous tenons à préciser que les données utilisées dans le cadre de cette étude sont anonymisées afin de préserver la vie privée des gens. De plus, toutes les données produites par les agences fédérales sont dans le domaine public (cf section 105 of the Copyright Act), ce qui nous a permis d’utiliser librement et légalement ces informations.
Description de notre dataset
Les individus interrogés ont été sélectionnés au hasard. On obtient un échantillon assez représentatif de la population américaine notamment vis à vis du nombre de diabétiques. Ces graphes présentent la répartition des individus par genre et âge.
Nous avons donc développé plusieurs algorithmes basés sur ce dataset permettant d’évaluer le risque d’un individu de développer du diabète.
Pour mener à bien ce projet, nous avons suivi une démarche rigoureuse, commençant par la compréhension du besoin métier jusqu’à la mise en place de notre solution.
Ce schéma présente ainsi les différentes étapes de ce projet :
Préparation des données et analyse des données
La compréhension et la préparation des données a sûrement été le plus gros challenge de notre projet. En effet, les données brutes récupérées comportaient environ 330 variables encodées qui correspondent aux différentes réponses recueillies lors du questionnaire. Nous avons choisi de travailler sur les données de différentes années soit de 2011 à 2016. En agrégeant les données, nous obtenons un unique fichier de 2.821.503 lignes.
Nous avons en premier lieu étudier chaque colonne en utilisant une documentation d’explication des résultats du sondage, fourni par le BFRSS. La compréhension des variables nous a permis de sélectionner 100 colonnes. Les deux critères de sélection sont : Le nombre de valeurs manquantes pour la colonne concernée et la pertinence de la question. En effet, certaines variables avaient très peu de données ou n’apportaient rien à notre étude. Nous avons donc pu faire un premier tri.
Ensuite, nous avons étudié de plus près les relations existantes entre les différentes variables en utilisant une matrice de corrélation. Cela nous a permis d’affiner notre sélection. Nous avons utilisé 28 colonnes afin de construire des attributs pertinents.
Quels algorithmes ?
Nous nous sommes attaqués ici à un problème de classification, il s’agit de déterminer à l’aide de différents paramètres (taille, poids, fréquence de sport, etc…) si un individu risque d’être diabétique ou non.
Il existe de nombreux algorithmes de machine learning pour résoudre ce genre de problématique. Nous avons décidé de nous pencher sur 4 algorithmes qui sont en général particulièrement efficace pour ce type de classification binaire : la régression logistique, l’arbre de décision, le random forest et le support machine vector.
Comment évaluer nos modèles ?
Il existe plusieurs manières d’évaluer ce type de modèle.
Dans le cadre du machine learning et des algorithmes de type supervisé, on sépare souvent le dataset en deux parties (70%-30%), un qui servira à créer notre modèle (entraînement) et un deuxième à tester notre modèle.
Une première manière simple et efficace d’évaluer notre modèle est de regarder la matrice de confusion et ses métriques :
La courbe de ROC prenant en argument la sensibilité et la spécificité permet également d’évaluer un modèle à sortie binaire. On réalise la courbe de ROC de notre algorithme et on calcule ensuite l’aire sous la courbe (valeurs comprises entre 1 et 0.5). Plus l’aire est proche de 1 plus le modèle est pertinent, une aire proche de 0.5 sera équivalente à la probabilité de lancer une pièce et de deviner si le résultat sera pile ou face, autrement le hasard.
Voici un tableau récapitulatif des résultats des algorithmes réalisés avec le langage de programmation R (temps d’exécution obtenus sur une machine bureautique basique en 2018).
Algorithme
Temps d’exécution
Précision
Aire ROC
Régression logistique
7 minutes
91,69%
0,91
Arbre de décision
3 secondes
90,59%
0,5
Random Forest (250 arbres)
37 minutes
94,31%
0,92
Support Vector Machine
5 heures
90,58%
0,5
On constate donc que le Random Forest est l’algorithme le plus adapté à notre projet.
Une solution fiable et efficace
Afin de constituer le questionnaire de notre outil, nous avons cherché les variables qui influent le plus notre prédiction. Ces facteurs de risque sont présentés par ordre d’importance, ordre trouvé grâce à nos algorithmes.
Améliorer les résultats grâce à des technologies Big Data
L’exécution de certains algorithmes comme le Random Forest est assez coûteuse en temps, comme on peut le voir sur dans le tableau précédent. C’est pourquoi, nous nous sommes intéressés à l’utilisation d’une plateforme Big data pour réduire ce temps d’éxécution.
L’Institut Mines-Télécom et le GENES ont mis en place une plateforme de traitement de données massives : “Teralab”. Elle a une capacité de traitement importante avec une mémoire vive de plusieurs teraoctets et permet un traitement distribué des données: notre algorithme ne tourne plus sur une seul machine mais sur plusieurs à la fois d’où une réduction de son temps d’exécution.
Nous avons donc décidé d’utiliser cette plateforme pour notre projet. Pour cela, nous avons réécrit nos algorithmes en un autre langage : PySpark. Et le résultat est sans appel, nous obtenons un gain d’apprentissage de 9 !
Notre algorithme permet de prédire le risque d’avoir du diabète. Cette solution peut être utilisée afin de sensibiliser des individus au sein d’une population. Nous avons pensé développer une interface web permettant de recueillir les habitudes de vie d’une personne grâce à un questionnaire. Notre algorithme va ainsi pouvoir évaluer les probabilités que cette personne soit atteinte de cette maladie. Dans une version ultérieure, l’algorithme pourrait aussi faire des recommandations pour diminuer ce risque.
D’autres améliorations sont possibles. Il est probablement intéressant d’utiliser un dataset plus adéquat au problème pour l’apprentissage de l’algorithme. En effet, des informations sur l’hérédité pourraient améliorer la précision des résultats. Il pourrait aussi être judicieux de faire la distinction entre les différents types de diabètes.