Les avantages et désavantages des données massives
J’ai déjà publié un billet sur les données massives, mais les trois documents que j’y ai commentés (et y ai critiqués) étaient promotionnels et ne nous informaient donc pas sur les enjeux les entourant. J’ai depuis lu un document plus neutre provenant de la Federal Trade Commission (FTC) intitulé Big Data: A Tool for Inclusion or Exclusion? (Les données massives: un outil pour l’inclusion ou l’exclusion?) et présentant sans parti-pris évident les avantages et les désavantages de cet outil et les questions juridiques et politiques qu’il soulève.
Définition
Les données massives se caractérisent par la collecte et l’utilisation rapides de données très nombreuses provenant d’une grande variété de sources et par la création de nouvelles applications pour les analyser, les lier et en tirer des conclusions et des prévisions. Cela peut aussi bien se faire à l’aide de cartes dites de fidélité (qui permettent à une entreprise de connaître nos achats) que par les mots que nous utilisons dans nos recherches sur Internet ou par la compilation des pages que nous aimons sur Facebook ou ailleurs. L’utilisation des données massives peut dans certains cas apporter des bénéfices à la société (par exemple dans les domaines de l’éducation, de la santé et des transports) et permettre à des entreprises de personnaliser leur offre de biens et services, mais aussi nuire à de nombreuses personnes en plus de mettre en danger leur vie privée et la protection de leurs renseignements personnels.
Avantages et désavantages
Se basant sur un atelier public organisé par la FTC qui regroupait des universitaires, des représentants gouvernementaux, des membres d’organismes de défense des consommateurs, des dirigeants d’entreprises, des avocats et d’autres citoyens, les auteurs ont regroupé les commentaires reçus en deux catégories, la première présentant des utilisations positives, la deuxième les utilisations négatives.
– avantages :
- acceptation d’étudiants aux études supérieures en se basant sur des critères objectifs, ce qui a permis à des étudiants qui n’auraient pas été acceptés d’accéder à ces études;
- identification plus rapide d’élèves en difficulté d’apprentissage;
- octroi de prêts à des personnes qui n’auraient pas pu en recevoir avec les méthodes traditionnelles;
- aide aux diagnostics, aux traitements et surtout à la prévention en médecine;
- augmentation de la diversité en les utilisant dans le processus d’embauche (les entrevues traditionnelles avantagent les personnes qui ont des caractéristiques semblables à celles des recruteurs).
Les auteurs soulignent ensuite que des participants aux ateliers ont émis de nombreux bémols à ces avantages, notamment en raison de la qualité souvent douteuse des données massives (qui excluent souvent certaines catégories de la population, comme les personnes pauvres) ce qui peut mener à des décisions discriminatoires et néfastes envers les groupes mal représentés dans ces données. D’autres ont souligné que ces données ne peuvent faire ressortir que des corrélations, sans savoir si elles sont causales. Les auteurs précisent ensuite des effets potentiellement négatifs de ces données.
– désavantages :
- des personnes qui ont les mêmes caractéristiques que celles qui ont un comportement à risque peuvent se faire refuser l’accès à des services (prêts, cartes de crédit, etc.), même si leur dossier personnel est impeccable (cela peut aussi toucher les embauches, l’accès aux études supérieures, et bien d’autres domaines où on utilise ces données);
- certaines caractéristiques personnelles peuvent être rendues publiques uniquement grâce à des corrélations (par exemple, les «j’aime» de Facebook ont permis à cette entreprise de déterminer correctement 88 % des fois l’orientation sexuelle d’utilisateurs, 82 % leur religion, et 75 % leur consommation de drogues!);
- ces renseignements peuvent servir aux fraudeurs en permettant d’identifier les personnes les plus vulnérables;
- l’analyse des données massives peut faire augmenter les prix dans les quartiers pauvres (par exemple quand le volume d’achats faits sur Internet y est moins élevé).
Aspects juridiques
Les auteurs présentent dans cette section les principales lois qui encadrent directement ou indirectement l’utilisation des données massives. Comme cette section est très technique et que les lois peuvent être passablement différentes ici, je ne mentionnerai que quelques-uns de leurs domaines d’application :
- les entreprises qui possèdent de l’information personnelle pour des fins d’évaluation du crédit des consommateurs doivent prendre des mesures pour s’assurer de l’exactitude de ces informations et permettre aux consommateurs de les consulter et de pouvoir les corriger; en plus, elles ne peuvent les fournir que pour les fins pour lesquelles elles ont été amassées;
- si une entreprise peut utiliser les données qu’elle a amassées dans ses relations avec ses clients (par exemple avec les cartes de fidélité), elle sera soumise aux exigences mentionnées précédemment si elle veut les vendre ou les fournir à une autre entreprise, et doit entre autres aviser ses clients de cette possibilité;
- de nombreuses lois empêchent la discrimination basée sur «la race, la couleur, le genre ou le sexe, la religion, l’âge, le statut d’invalidité, l’origine nationale, l’état matrimonial et l’information génétique»; ces lois interdisent donc une utilisation de données massives basées directement ou indirectement sur ces caractéristiques, que ce soit dans des processus d’embauche et dans la location de logements ou dans l’octroi de prêts et dans la publicité (entre autres), même si des données montraient que les membres de ces groupes ont des comportements différents (plus avantageux ou désavantageux);
- les entreprises qui détiennent des informations personnelles doivent prendre des mesures raisonnables pour les protéger; le niveau de protection jugé «raisonnable» augmente avec la sensibilité des données détenues (on exigera davantage de mesures pour protéger le numéro de la carte de crédit d’une personne que son poids…);
- une entreprise ne peut pas vendre ses données à une autre qui risque de les utiliser d’une façon frauduleuse ou qui peut nuire au client (cette loi a déjà été appliquée, mais on peut douter de son efficacité).
Aspects politiques
Le document se penche ensuite sur des aspects plus politiques des données massives. En voici quelques-uns.
– Représentativité des données : Les données massives ne peuvent dans bien des cas être collectées que dans des secteurs couverts par des services Internet et qu’auprès des utilisateurs de ces services. Les auteurs donnent des exemples relatifs à certaines catastrophes (notamment lors de l’ouragan Sandy) où les activités sur les réseaux sociaux étaient bien plus nombreuses en provenance des endroits les moins touchés (les services Internet ont bien souvent été coupés dans les secteurs les plus touchés, souvent où on trouve le plus de pauvres, qui en plus utilisent bien moins ces services). Il fallait donc éviter de se servir des données provenant de ces sources pour planifier les interventions de secours.
Ils mentionnent aussi l’utilisation des données provenant des téléphones interactifs pour planifier une meilleure circulation automobile ou même des réparations de nids de poule. Dans ce dernier cas (cela s’est fait à Boston), on s’est aperçu que ces téléphones sont plus répandus dans les quartiers où vivent les personnes les plus riches et que l’utilisation de ces données pourrait retarder les réparations dans les quartiers les plus défavorisés. La ville a donc décidé de compléter ces données avec les observations des employés municipaux. Cela montre qu’il est possible de corriger le manque de représentativité de ces données si on est bien conscient de leurs biais.
– Reproduction de biais : Si on tente de chercher de bons candidats pour des emplois à partir des données sur les employés actuels, on ne pourra que reproduire les biais antérieurs (par exemple, sur la composition ethnique et sexuelle). Pire, comme les médias signalent plus fréquemment les crimes commis par des Noirs, les données massives sur la criminalité basées sur les médias sont biaisées à leurs dépens. Il est toutefois possible de contrecarrer ces biais en utilisant d’autres méthodes et d’autres sources, par exemple des données sur les comportements individuels plutôt que sur des corrélations qui sont non seulement pas nécessairement causales (comme mentionné précédemment), mais en plus trop souvent biaisées.
– Précision des prévisions : Encore là, le problème est la fiabilité des données massives. Les auteurs donnent pour exemple l’utilisation des mots utilisés pour les recherches sur Google. Un algorithme utilise par exemple la fréquence de l’utilisation du mot «grippe» (flu) pour prévoir l’apparition de cette maladie par région des États-Unis. En fait, l’utilisation de ce terme augmentera aussi si on parle dans les médias de l’apparition d’une grippe dans n’importe quelle région du monde. La cause qui explique l’augmentation des recherches d’un mot n’est donc pas toujours liée avec ce qui a été programmé dans l’algorithme… Les auteurs donnent d’autres exemples qui conduisent à de mauvaises conclusions dans les domaines du paiement du loyer par des locataires, de la publicité (on vous offre un produit si vous faites des recherches avec certains mots), l’utilisation des médias sociaux, etc. Les auteurs concluent qu’avant «d’utiliser des données massives pour prendre des décisions qui peuvent nuire à la capacité des consommateurs à effectuer des transactions, les entreprises devraient considérer les avantages et les désavantages potentiels, en particulier lorsque leurs politiques pourraient avoir une incidence négative sur certaines populations souvent déjà défavorisées».
– Préoccupations d’ordre éthique : Les entreprises doivent éviter de se servir des données massives quand leur utilisation peut mener à de la discrimination ou à d’autres formes d’iniquité. Les auteurs mentionnent qu’une entreprise a refusé de donner la priorité d’embauche à des personnes habitant près de leur bureau même si les données massives indiquaient une corrélation entre la durée en emploi et la proximité du lieu de travail, car, comme cette entreprise était située au centre-ville, les personnes appartenant à une minorité (ethnique, linguistique, sexuelle ou autre) et plus pauvres ne pouvaient se permettre d’habiter proche du centre-ville. Un peu à l’inverse, ces données peuvent parfois au contraire favoriser la diversité de l’embauche, comme mentionné plus tôt. Elles peuvent aussi servir à mieux connaître les différences de besoins de services municipaux dans les quartiers composés fortement de membres appartenant à une minorité.
Et alors…
Même s’il est relativement aride, ce document permet de mieux comprendre les avantages et désavantages des données massives et les aspects politiques et juridiques qui entourent leur utilisation. Et au bout du compte, je trouve que leurs avantages ne compensent pas leurs désavantages et que les lois qui encadrent leur utilisation, malgré leurs bonnes intentions, n’empêchent pas vraiment leur utilisation malveillante. Il demeure toujours dangereux de laisser volontairement des entreprises en connaître trop sur nous. Personnellement, je fournis le moins d’information possible à Facebook (ne répond par exemple jamais à ses demandes pour savoir si j’aime les sites qu’il propose), n’utilise jamais de carte de fidélité, n’ai pas de téléphone interactif et évite autant que possible de répondre à des sondages ou à toute question personnelle non nécessaire. Malgré ces précautions, je suis certain que nos Big Brothers privés en savent bien plus sur moi que je ne le voudrais…
Trackbacks