Skip to content

Les données massives

2 avril 2016

big dataAvez-vous déjà entendu parler des données massives? Des mégadonnées alors? Au moins du Big Data, j’espère! Moi, j’ai subi des attaques massives d’information sur les trois, car ces expressions veulent dire la même chose. Et comme pour ces données, la quantité ne signifie pas la qualité! Mais, bon, je vais trop vite…

Cela fait quelques fois que je croise des études portant sur ce sujet, mais elles ne m’attiraient pas vraiment. En effet, ces études sentaient à plein nez l’attrait pour la nouveauté, pour un «buzzword» qui allait bien finir par disparaître comme tous les autres le font tôt ou tard, me disais-je… Mais, non, il s’est accroché!

Il faut dire que Montréal international (MI), organisme dont le mandat est d’attirer «de la richesse en provenance de l’étranger tout en accélérant la réussite de ses partenaires et de ses clients» a récemment mis sur pied une campagne pour que le Québec devienne «une des capitales mondiales du big data», domaine qu’il compare au «pétrole de la révolution numérique». De fait, certains aspects de ce domaine, comme on le verra, semblent aussi polluants que du pétrole…

La croissance de ce secteur serait tellement forte que le document accompagnant la campagne de MI présente un graphique (que j’ai reproduit dans l’image qui accompagne ce billet) qui parle d’une croissance annuelle moyenne de 24,8 % par année entre 2014 et 2020! Par contre, le document ne présente qu’une année historique (2013, puisque cette prévision date de juin 2014), sans vraiment mentionner d’où elle vient (le document ne cite que le nom de l’entreprise qui se permet ce genre de prévision). Quand je vois une prévision aussi précise (24,8 %) sur un phénomène récent et sur des bases aussi fragiles, je me dis aussitôt que tout cela relève davantage du marketing que de l’analyse rigoureuse. Mais, bon, je vais encore trop vite…

Que sont les données massives?

Selon Wikipédia, les données massives sont «des ensembles de données qui deviennent tellement volumineux qu’ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l’information». Ce sont des données qui sont par exemple contenues dans des sites de recherches d’emploi ou compilées par Google (vos historiques de recherche, notamment), par Facebook qui se sert de ces données entre autres pour vous proposer des publicités ou des statuts qui sont supposés vous intéresser (quand je reçois un statut du genre provenant de l’Institut Fraser, je me réjouis de constater que les algorithmes de Facebook ne soient pas vraiment au point!) ou par des organismes gouvernementaux pour faire diminuer la consommation d’énergie. Fiou, ces données peuvent parfois être vraiment utiles!

Deux études

En réaction à cette campagne de MI, je me suis finalement résolu à lire deux études sur le Big Data que j’avais mises de côté. La première porte sur l’utilisation des données massives pour analyser le marché du travail. Les données présentées dans cette étude proviennent notamment de sites de recherche d’emploi et de réseaux sociaux (je résume), comme Facebook, mais aussi de sites spécialisés comme LinkedIn (source plus intéressante, car liée plus directement aux activités professionnelles des utilisateurs).

S’il peut être de fait intéressant de compiler les comportements des travailleurs à l’aide des CV qu’on retrouve sur les sites de recherche d’emploi, leur utilisation me semble limitée. En effet, comme le soulèvent eux-mêmes les auteurs de cette étude, les personnes qui envoient leurs CV sur ces sites sont loin de représenter un échantillon représentatif de l’ensemble des travailleurs. D’une part, ils cherchent un emploi (ce qui n’est le cas que d’une minorité des travailleurs) et, d’autre part, on retrouve rarement des offres pour des emplois professionnels sur ces sites. En effet, les professionnels (médecins, ingénieurs informaticiens, économistes, etc.) utilisent en général des sites spécialisés et des réseaux de contacts, ou envoient directement leurs CV aux entreprises qui les intéressent. Ces données peuvent au mieux permettre de savoir qu’une tendance existe parmi les utilisateurs de ces sites (et même là, en supposant que les caractéristiques des utilisateurs de ces sites demeurent constantes, ce qui est douteux), mais surtout pas d’en mesurer l’ampleur ni l’évolution sur l’ensemble du marché du travail.

Les données de réseaux sociaux comme LinkedIn sont potentiellement plus intéressantes si on tente d’estimer l’importance relative d’un nouveau courant, car ce ne sont pas seulement des gens qui cherchent un emploi qui s’inscrivent à ce réseau, mais les personnes intéressées à échanger leurs expériences et à se créer des contacts (non, je n’y suis pas…). C’est d’ailleurs à l’aide de ces données que MI a estimé qu’il y a environ 14 100 spécialistes du secteur du Big Data au Canada, dont 2100 au Québec (voir la page numérotée 92 de son document de promotion). Si cette méthode permet probablement de se faire une idée de l’ordre de grandeur de leur nombre, il serait toutefois présomptueux de véhiculer ces données comme des faits.

L’autre étude que j’ai fini par lire était bien plus ambitieuse. Elle provient de la Ryerson University, probablement l’université la plus engagée au Canada dans la formation de spécialistes du Big Data.

Elle commence mal… Pour estimer la «pénurie» de talents au Canada dans le domaine, cette étude utilise une autre étude des États-Unis datant de 2011 (!) et prévoyant qu’il manquerait près de 1,7 million de spécialistes en Big Data dans ce pays en 2018. Se disant que le marché du travail canadien compte environ 10 fois moins d’emplois que celui des États-Unis, les auteurs concluent qu’il manque près de 170 000 spécialistes en Big Data au Canada (!!). Simple, non? Avec une telle entrée en matière, il était difficile de donner le moindre crédit à ce document. Mais, ce n’est pas tout!

Cette université a en effet organisé un sommet sur le sujet en avril 2015. Deux des principales recommandations de ce sommet étaient de former des spécialistes en Big Data dont les compétences correspondraient vraiment aux besoins des entreprises, et de définir les tâches de ces spécialistes, car aucun employeur n’était en mesure de le faire! Vous avez bien lu : ce document prétend estimer les pénuries dans un domaine où les employeurs ne peuvent définir les tâches des personnes dont ils ont besoin et demandent au système d’éducation de former des spécialistes en fonction de leurs besoins qu’ils sont incapables de définir!

Bouclons la boucle

Le document de MI mentionne bien sûr la pénurie de près de 170 000 spécialistes en Big Data (voir à la page 14). Bref, MI estime qu’il y a actuellement 14 100 spécialistes en Big Data au Canada, mais affirme dans le même document qu’il y aurait près de 170 000 emplois vacants dans le domaine, soit 12 fois plus qu’il n’y aurait d’emplois! Cela représenterait un taux de postes vacants avoisinant les 1200 %, alors qu’on s’inquiète quand ce taux atteint 5 % (ce taux était de 2,6 % en moyenne au Canada, selon les données les plus récentes)! Et il faudrait prendre tout cela au sérieux…

La création de valeur

On peut lire dans les documents cités que «Le monde produit en deux jours plus de données qu’il n’en a produit entre le début de l’humanité et 2003». Que cette comparaison soit exacte ou pas, il n’est pas difficile d’accepter le fait qu’on produit de plus en plus de données. On y lit aussi que ces données ne peuvent créer aucune valeur si on n’est pas en mesure de les exploiter. Mais, quand on constate les principales utilisations de ces données, on peut se demander de quelle valeur on parle… Considérez-vous qu’on a ajouté de la «valeur» lorsque vous recevez plein de pub sur des bicyclettes parce que vous avez cherché sur Internet différents modèles avant d’en acheter une (pub encore plus inutile si vous en avez déjà acheté une!)?

Et, nulle part dans le document de MI on ne parle de l’intrusion des collecteurs de données massives dans la vie privée des personnes auprès desquelles ils les amassent. Pourtant, voilà bien une des externalités négatives les plus inquiétantes de ce domaine, externalités qui sont en fait des valeurs négatives. Même si les entreprises protègent jalousement ce qu’elles considèrent leur propriété intellectuelle (même sur des connaissances qu’on a longtemps considéré comme des biens communs), elles considèrent non seulement que notre vie privée ne nous appartient pas, mais qu’elle leur appartient. Bref, si l’exploitation des données massives crée de la valeur, il semble que ce soit surtout de la valeur monétaire pour les entreprises, mais pas beaucoup pour nous!

Et alors…

Soyons clairs. Même si je ridiculise passablement les trois documents que j’ai présentés dans ce billet, cela ne veut pas dire que le traitement des données massives n’est pas un créneau prometteur. Manifestement, il l’est. Ce que je reproche le plus à ces trois documents, c’est leur manque de rigueur, l’enthousiasme qui aveugle leurs auteurs et leur caractère promotionnel. De même, je ne prétends pas que toutes les utilisations de ces données sont inutiles ou nuisibles. Mais, malheureusement, force est de reconnaître qu’elles le sont trop souvent.

Une autre chose qui me fatigue dans ces documents est le genre de mystique qui accompagne le concept des Big Data. Lorsque le texte de Wikipédia affirme qu’il est difficile de traiter ces données «avec des outils classiques de gestion de base de données ou de gestion de l’information», que veut-il dire? Pourtant, quand Facebook me propose un statut du parti conservateur, c’est probablement parce qu’il a codifié mes intérêts avec le mot «politique» (sans tenir compte des concepts de droite et de gauche) et qu’il les a associés une publicité codée elle aussi avec le mot «politique». Or, ce type de codification est appliqué depuis même avant la disponibilité des ordinateurs par les bibliothécaires! Rien de bien mystique là-dedans! De même, quand on utilise les signaux des téléphones interactifs dans les automobiles pour calibrer les feux de circulation ou pour trouver des trajets plus efficaces, il ne s’agit que du perfectionnement du bon vieux fil qu’on mettait sur les routes pour calculer le niveau de circulation sur une route. Cela dit, il est vrai que d’autres utilisations sont plus compliquées, mais si le texte de Wikipédia donne autant d’exemples d’utilisations, cela doit être parce qu’on est parvenu à les utiliser!

Bref, oui il faut s’intéresser au phénomène du Big Data. Mais, si on veut nous informer sur ce phénomène, peut-on le faire avec des études rigoureuses plutôt qu’avec des documents de marketing?

Publicités
7 commentaires leave one →
  1. Thomas Boisvert St-Arnaud permalink
    3 avril 2016 20 h 41 min

    C’est quand même paradoxal que des études sur l’analyse de données, probablement menées par des experts de l’analyse de données, soient si peu rigoureuses. J’apprécie votre ouverture sur la pertinence de ce créneau et la pondération de votre analyse.

    J'aime

  2. 3 avril 2016 21 h 38 min

    Merci!

    «C’est quand même paradoxal que des études sur l’analyse de données, probablement menées par des experts de l’analyse de données, soient si peu rigoureuses»

    Oui, paradoxal et troublant, je dirais. Surtout celle de l’Université Ryerson. J’imagine que mon hypothèse (l’enthousiasme qui aveugle leurs auteurs) explique un peu ce fait, mais elle ne l’excuse nullement.

    En connaissez-vous davantage sur le sujet pour parler de «la pertinence de ce créneau»? Je ne m’en prétends nullement un expert…

    J'aime

  3. Thomas Boisvert St-Arnaud permalink
    4 avril 2016 9 h 14 min

    Je ne suis pas un expert; loin de là. Je m’intéresse simplement de loin à l’intelligence d’affaires dans une perspective d’autogouvernance (Ostrom, coopératisme, etc.). À mon avis, pour prendre des décisions collectives éclairées, il faut nécessairement de l’information valide et la plus objective possible. Avec beaucoup de réserve (il y a beaucoup de danger, notamment dans l’interprétation de ces données), les «big datum» semblent avoir la propriété d’être une source assez grande, assez objective d’information.

    Je partage les craintes de beaucoup quant à leur utilisation. Également, je suis dubitatif au regard de l’engouement autour du concept. Comme le démontre votre résumé, beaucoup de raccourcis semblent avoir été empruntés : les données massives ne se distinguent pas beaucoup par leur qualité, mais surtout pour leur quantité. Toutefois, je ne crois pas qu’il faille rejeter le tout trop rapidement.

    Aimé par 1 personne

  4. 4 avril 2016 10 h 00 min

    Bien d’accord.

    J'aime

Trackbacks

  1. Le PIB et l’économie numérique |
  2. Les avantages et désavantages des données massives |
  3. Encore (et toujours) les robots! |

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :