Aller au contenu principal

L’analyse économique des données massives

25 août 2017

L’utilisation croissante d’Internet et d’autres services numériques (transactions Interac, cartes de fidélité, etc.) a permis la création de bases de données gigantesques. Cela est bien connu, mais les problèmes qui se présentent quand on cherche à les utiliser le sont moins. Même dans les utilisations déjà courantes, à l’aide par exemple des algorithmes de Facebook ou de Google, les résultats sont souvent décevants, comme l’a bien expliqué récemment Mélanie Millette (professeure au département de communication sociale et publique de l’UQAM) à RDI économie. Alors, à quoi peut-on s’attendre de l’utilisation des données massives (ou big data) en économie? C’est la question à laquelle a tenté de répondre Serena Ng, professeure d’économie à la Columbia University, dans son étude intitulée Opportunities and Challenges: Lessons from Analyzing Terabytes of Scanner Data (Opportunités et défis: leçons tirées de l’analyse de téraoctets de données). L’auteure s’est intéressée aux données massives en premier lieu pour savoir ce qui rend leur utilisation si différente de celle de données traditionnelles utilisées habituellement par les économistes et si les outils économétriques existants peuvent permettre de les analyser efficacement.

Les données

Le principal problème lorsqu’on veut analyser des données massives est que la collecte d’information n’y est pas structurée de façon uniforme, comme dans les bases de données traditionnelles. Il faut donc «nettoyer» les données avant de les utiliser, mais les logiciels conçus à cette fin sont inutiles, car conçus en fonction de format connus et uniformes, ce qui n’est pas le cas ici, on l’a dit. On utilise souvent le concept des cinq V pour présenter l’origine des problèmes d’analyse des données massives, soit le volume (évidemment), la variété (de sources et de formats), la vitesse (d’ajouts de nouvelles données à la base existante), la variabilité (de dimensions) et la véracité (sources pas toujours fiables).

Jusqu’à maintenant, les économistes ont peu d’expérience avec l’utilisation des données massives, probablement parce que les cinq V représentent un obstacle plus important dans le type d’analyse qu’ils font que dans d’autres domaines, comme de décider de la prochaine pub qui sera affichée dans Facebook ou de prévoir la date de l’arrivée de la grippe dans une région en examinant la variation des achats de produits pour la combattre ou d’autres indicateurs pertinents. Pourtant, ces données peuvent contenir beaucoup d’éléments intéressants pour l’analyse économique et bénéficient d’un avantage énorme sur les autres sources, soit leur faible coût (en raison de la participation volontaire, mais pas toujours consciente, des consommateurs).

Les données utilisées par l’auteure de cette étude sont contenues dans une base de quatre teraoctets (soit quatre millions de millions d’octets ou 10 à la 12, ou encore 4000 gigaoctets) de données sur les ventes au détail hebdomadaires (prix et quantités vendues) collectées entre 2006 et 2010 par le groupe Nielsen (ce groupe ne rend pas disponibles ses données récentes, bien sûr…). Elles proviennent de 35 000 magasins d’alimentation, pharmacies et magasins de fournitures générales réparties dans tous les États des États-Unis et portent sur 1073 produits différents. L’intérêt de ces données est qu’elles contiennent de l’information collectée à une fréquence plus élevée et provenant de beaucoup plus de commerces que les données des sources traditionnelles (compilées par échantillonnage de commerces visités par des enquêteurs). Par contre, ces données ne touchent qu’une partie des biens achetés par les consommateurs (alors que les sources traditionnelles les contiennent tous) et ne contiennent aucune information sur leurs achats en service (idem). L’auteure s’est en plus penchée sur seulement six de ces biens : bière, vin étranger, viande, œufs, aliments pour animaux de compagnie et aliments pour bébés.

D’autres problèmes…

La taille de cette base de données ne permettant pas l’utilisation des outils informatiques disponibles à l’auteure, la première étape fut de la réduire en sélectionnant un échantillon basé sur certaines caractéristiques (comme les plus gros commerces, ceux qui ont eu des ventes au cours des 260 semaines des données, etc.), au risque de biaiser la source de données (les caractéristiques des ventes éliminées n’étant pas du tout les mêmes que celles conservées). Je me suis demandé quel était l’intérêt de disposer de données massives si on ne les exploite pas entièrement et surtout si on en finit par travailler avec un échantillon non représentatif! Passons…

Et l’auteure continue d’utiliser des trucs statistiques (elle parle de «data squashing», de compressions, d’estimations paramétriques, de décompositions, de randomisations et d’autres trucs très savants) pour avoir moins de données à analyser et pouvoir utiliser ses logiciels économétriques. Ses explications s’étendent sur une douzaine de pages, soit près de la moitié du texte de cette étude. Elle semble satisfaite, concluant que ses méthodes «préservent raisonnablement les caractéristiques des composants les plus importants», même si elle considère qu’il reste du travail à faire pour pouvoir effectuer des analyses que ses méthodes ne permettent pas.

Les huit pages suivantes portent sur les difficultés liées à la désaisonnalisation, les facteurs saisonniers n’étant pas toujours les mêmes chaque année (dépendant des dates de certains événements et même des équipes qui participent au Super Bowl dans le cas de la consommation de bière!), pour chaque bien (forte saisonnalité pour la bière et quasi inexistante pour les aliments pour bébés, par exemple) et dans chaque État (les ventes de bières ne diminuent pas autant l’hiver en Floride qu’au Wisconsin). Cette section examine aussi d’autres mouvements cycliques, notamment ceux causés par la crise débutée en décembre 2007 aux États-Unis. Malgré ses efforts, l’auteure est déçue des résultats, n’ayant pas réussi vraiment à éliminer les effets des variations saisonnières et des mouvements cycliques temporaires pour chacun des six biens analysés.

Conclusion

Les outils actuellement disponibles pour pouvoir analyser les données massives sont malheureusement mal adaptés à l’analyse économique. Beaucoup d’effort devra encore être investi pour pouvoir faire le lien entre les méthodes économétriques et les approches des algorithmes utilisés dans les modèles qui exploitent actuellement les données massives.

Selon l’auteure, il est inévitable de devoir laisser tomber une partie de l’information contenue dans des bases de données massives. Dans son étude, elle n’a au bout du compte exploité qu’une très faible proportion des données disponibles. Les choix des données utilisées et abandonnées peuvent bien sûr avoir un impact important sur l’utilisation des données massives et sur les résultats qu’il obtiendra. Dans ce sens, il deviendra de plus en plus difficile de pouvoir reproduire les résultats d’une étude (souvent une exigence des revues pour publier une étude), car des choix différents donneront des résultats possiblement très différents. Elle conclut que, comme les données massives sont là pour rester et même pour devenir encore plus répandues, les économistes n’ont pas le choix de développer des moyens de pouvoir les analyser.

Et alors…

Ce billet est le troisième que je consacre aux données massives. Le premier portait sur un document promotionnel produit par Montréal international contenant des données pas massives, mais farfelues (ce qui n’est pas vraiment étonnant dans un document promotionnel), et sur deux études plus prétentieuses, mais finalement aussi peu rigoureuses que le premier document qui assumait au moins son caractère promotionnel. Le deuxième présentait une étude beaucoup plus sérieuse qui expliquait très bien les avantages et désavantages de l’utilisation des données massives, ainsi que bien d’autres questions que ces données soulèvent (notamment de nature juridique et politique).

Je pensais que, un an plus tard, l’enthousiasme un peu naïf des auteurs des premières études que j’ai présentées aurait fait place à plus de réalisme, comme l’étude décrite dans mon deuxième billet. De fait, l’étude que j’ai présentée ici n’a pas les défauts des premières, mais en contient d’autres. Comme je l’ai mentionné dans le billet, je ne comprends pas l’intérêt d’utiliser l’information contenue dans une base de données massives si on ne l’exploite pas entièrement. Pire, on se voit obligé d’analyser qu’une très faible proportion de l’information disponible pour obtenir des résultats dont on ne connaît pas la fiabilité. Il est certain que je n’ai pas pu suivre à la trace les nombreuses manipulations statistiques de ces données pour pouvoir poser un verdict précis sur le niveau de fiabilité des résultats, mais quand l’auteure elle-même ne parvient pas à le faire et avoue candidement que les études faites avec des choix comme ceux qu’elle a faits ne peuvent pas être reproduites, il est clair que ces résultats ne peuvent pas être par la suite utilisés avec confiance. Ensuite, si on ne parvient pas à tirer des conclusions en analysant des données d’un domaine aussi simple que la vente de bières et d’aliments pour enfants, je me demande bien ce qu’on pourrait tirer de telles données dans des domaines plus sensibles (comme sur les effets d’une hausse du salaire minimum, par exemple!).

Finalement, l’auteure a beau parler en bien des algorithmes utilisés en marketing, j’aimerais bien qu’on m’explique ce que j’ai bien pu faire pour me faire proposer sur Facebook des listes d’automobiles à acheter (moi qui ne veut rien savoir des chars) ou des liens «suggérés» vers Abdos en Accéléré! Personnellement, ce genre de propositions déplacées me réjouit, car elles montrent que les intrusions massives de ces géants dans nos vies privées ne parviennent pas à nous percer à jour! Elles montrent aussi à quel point ces algorithmes et leurs composants d’intelligence artificielle sont encore déficients et à quel point Mélanie Millette avait raison, dans l’entrevue qu’elle a donnée à RDI économie dont j’ai parlée en amorce de ce billet, de trouver décevants les résultats de ces algorithmes!

Publicité
2 commentaires leave one →
  1. 25 août 2017 10 h 11 min

    «Finalement, l’auteure a beau parler en bien des algorithmes utilisés en marketing, j’aimerais bien qu’on m’explique ce que j’ai bien pu faire pour me faire proposer sur Facebook des listes d’automobiles à acheter (moi qui ne veut rien savoir des chars) ou des liens « suggérés » vers Abdos en Accéléré! Personnellement, ce genre de propositions déplacées me réjouit, car elles montrent que les intrusions massives de ces géants dans nos vies privées ne parviennent pas à nous percer à jour!»

    Un bon algorithme va y aller à l’occasion (par exemple 5% du temps) de suggestions aléatoires ou éloignées de nos centres d’intérêt perçus, histoire de pouvoir s’adapter à des changements dans nos habitudes et dans nos préférences.

    Aimé par 1 personne

  2. 25 août 2017 11 h 29 min

    J’ai parfois l’impression qu’ils font cela 95 % du temps plutôt que 5 %!

    Merci de l’info!

    J’aime

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

%d blogueurs aiment cette page :