Aller au contenu principal

Algorithmes : la bombe à retardement

15 avril 2019

Avec Algorithmes : la bombe à retardement, Cathy O’Neil, mathématicienne, «lutte contre les dérives des algorithmes (…) [et] dévoile ces «armes de destruction mathématiques» qui se développent grâce à l’ultra-connexion et leur puissance de calcul» dans «des domaines aussi variés que l’emploi, l’éducation, la politique, nos habitudes de consommation».

Préface : Cédric Villani, mathématicien et homme politique français, raconte que la sortie de ce livre en anglais (avec un titre beaucoup plus pertinent, soit Weapons of Math Destruction. How Big Data Increases Inequality and Threatens Democracy ou Armes de destruction mathématiques – Comment les données massives accroissent les inégalités et menacent la démocratie) en 2016 lui a fait l’effet d’un coup de tonnerre.

Introduction : L’auteure raconte ses premiers contacts avec des données massives (big data) et explique pourquoi elle a tout de suite craint les ennuis qui découleraient de leur utilisation. Elle donne d’ailleurs de nombreux exemples de mauvaises utilisations de ces données ainsi que d’algorithmes opaques que personne ne comprend et qui donnent de mauvais résultats. Elle explique ensuite son cheminement professionnel et les raisons pour lesquelles elle a lancé un blogue, puis présente les objectifs de son livre (voir l’amorce de ce billet).

Les mécanismes d’une bombe : Tous les modèles sont des simplifications de la réalité. Toutefois, les conséquences de cette simplification varient considérablement d’un modèle à l’autre. L’auteure donne des exemples où la simplification a peu d’impact (comme l’utilisation des données sur les frappeurs au baseball pour placer ses joueurs défensifs) et d’autres où elle rend le modèle inefficace et même dangereux ou injuste (comme l’utilisation des notes d’élèves pour évaluer le travail des enseignant.es). Un bon modèle doit :

  • reposer sur des données fiables et les plus complètes possible;
  • évoluer avec ce qu’il simule;
  • comprendre des mécanismes de rétroaction (pour vérifier s’il fonctionne);
  • éviter l’application de moyennes à des cas individuels (notamment en matière de justice);
  • être transparent;
  • rejeter les boucles de rétroaction (qui font en sorte que le modèle génère lui-même ses résultats).

Sous le choc : L’auteure raconte son passage à l’emploi d’un gestionnaire de fonds spéculatifs, de 2007 à 2009. Contente au début de travailler sur du concret, elle a rapidement déchanté en constatant les conséquences de la crise financière commencée en 2008. Elle présente certaines des fraudes mises en œuvre à l’époque, le rôle des armes de destruction mathématiques (ADM) dans ces magouilles et les conséquences de leur utilisation. Face à ce désastre, elle a quitté cet emploi pour un autre dans une firme d’analyse de risques qui travaillait pour les banques et les gestionnaires de fonds. Constatant que ce travail ne visait pas vraiment à réduire les risques, mais plutôt à servir de paravent pour ses clients, elle l’a quitté en 2011 pour travailler comme experte en données responsable de la conception de modèles prédictifs d’achats et de clics des consommateurs. C’est aussi à cette époque qu’elle a commencé à tenir un blogue et à s’impliquer dans le mouvement Occupy Wall Street. Encore une fois déçue de l’utilisation que cette entreprise faisait des données et des mathématiques, elle a quitté cet emploi en 2013.

La course à l’armement : L’auteure aborde l’utilisation des données et des algorithmes dans les classements des universités. Ce système est un exemple d’un des pires défauts des ADM, car ce type de classements «génère une spirale presque infinie de multiples boucles de rétroaction destructrices». Par exemple, les universités mal classées sont boudées par les meilleur.es étudiant.es, ce qui fait encore baisser leur classement, peu importe la qualité réelle de ces universités et les mesures de redressement qu’elles mettent en œuvre. Et comme on pouvait s’y attendre (j’en parlais en 2010…), les universités se sont mises à améliorer les indicateurs retenus plutôt que ce que ces indicateurs sont censés mesurer, soit la qualité de l’enseignement et de la recherche, parfois en trichant. Elle présente ensuite les effets néfastes de la course aux indicateurs par les universités des États-Unis, dont l’augmentation des droits de scolarité et de la dette étudiante qui ne font pas partie des indicateurs considérés dans le classement des universités. Et cela a même permis à la création de firmes de consultant.es qui conseillent les universités pour améliorer leur classement.

Machine de propagande : Ce chapitre porte sur l’utilisation des ADM dans la publicité, surtout par les universités à but lucratif (qui visent souvent des personnes démunies en leur faisant de fausses promesses). Elle explique ensuite comment fonctionnent les ADM de ces universités (et d’autres secteurs) et décrit les dégâts qu’elles causent.

Victimes civiles : C’est maintenant au tour des ADM utilisées par les services policiers et par le système de justice de passer au crible de l’analyse de l’auteure. Si certains de ces systèmes sont utiles, par exemple en localisation des lieux de crimes importants, d’autres sont nuisibles, par exemple en localisation des lieux de crimes mineurs qui se concentrent dans les quartiers pauvres et auprès des personnes racisées, créant une autre boucle de rétroaction. L’auteure préférerait qu’on se concentre dans le milieu financier, où les crimes sont d’une importance autrement plus dévastatrice! Avec des hackeur.euses et des mathématicien.nes, elle a pu avoir accès aux fichiers d’interventions dans le cadre de la politique Stop-and-Frisk (interpeller et fouiller) de la ville de New York et a constaté que 85 % des personnes interpellées et fouillées étaient des «jeunes hommes d’origine hispanique ou afro-américaine», en grande majorité innocents et rarement liés à des crimes violents (environ 0,1 %). On peut parler dans ce cas de profilage racial institutionnalisé.

L’auteure passe ensuite à l’ADM utilisée par le système judiciaire pour déterminer les peines, se basant sur des risques de récidive. Voilà un autre algorithme qui entraîne des boucles de rétroaction dont les principales victimes sont aussi des personnes racisées et pauvres. On les arrête plus souvent donc elles auraient plus de possibilités de récidiver. Et, avec les progrès dans la collecte des données et les techniques pour les utiliser (dont la reconnaissance faciale), le pire reste à venir…

Inapte au service : Des ADM, souvent discriminatoires, sévissent aussi dans le domaine du recrutement, même pour des emplois au salaire minimum. Et, elles ne sont même pas toujours pertinentes, pénalisant encore une fois les personnes racisées et les plus pauvres.

L’angoisse au quotidien : Il en est de même des ADM utilisées pour confectionner des horaires variables ajustés aux temps morts, surtout dans le commerce de détail et dans la restauration, là où les salaires sont parmi les moins élevés et où une forte proportion de la main-d’œuvre est racisée et pauvre (on n’en sort pas…). Les salarié.es apprennent souvent leurs horaires à un ou deux jours d’avance, ce qui pénalise en premier lieu les familles, surtout monoparentales. Ce chapitre porte aussi sur l’utilisation d’ADM pour effectuer l’évaluation des employé.es, donnant à cet exercice une illusion d’objectivité, alors que ces ADM sont bien approximatives. L’auteure revient sur les évaluations des enseignant.es par des ADM. S’il y a un domaine où elles sont nocives, c’est bien lui, les facteurs expliquant le succès des élèves étant bien trop nombreux et variables pour pouvoir les modéliser de façon pertinente. Elle donne l’exemple d’un enseignant dont l’évaluation est passée de 6 % à 96 % en un an, sans qu’il change quoi que ce soit à sa façon d’enseigner…

Dommages collatéraux : Les cotes de crédit fournies aux banques par les agences d’évaluation de crédit (comme Equifax et Transunion) sont relativement fiables, car elles reposent sur des données objectives individuelles (et non sur des moyennes de caractéristiques ethniques, géographiques et autres comme celles qu’utilisent les ADM) qui sont connues et qu’on peut consulter et corriger, et car elles peuvent être modifiées en fonction des transactions qu’on fait sur une base régulière. Malheureusement, des sociétés financières (comme des sociétés émettrices de cartes de crédit) complètent de plus en plus ces cotes par celles générées par des ADM, entraînant les mêmes types de boucles de rétroaction injustes mentionnées dans les chapitres précédents. En plus, on ne connaît pas les données utilisées et on peut rarement et difficilement les faire corriger, même si les erreurs y sont nombreuses.

L’auteure précise par la suite que si les cotes de crédit sont pertinentes pour décider de l’octroi d’un prêt, elles ne le sont pas du tout pour choisir un.e locataire ou pour décider d’une embauche ou d’une promotion (ce qui se fait pourtant), car elles n’ont rien à voir avec la fiabilité d’une personne en emploi ou dans un logement. En effet, une mauvaise cote de crédit résulte souvent de circonstances dont cette personne n’est pas responsable (perte d’un emploi, frais médicaux exorbitants, etc.).

Zone à risque : Les sociétés d’assurances se sont, elles aussi, fait séduire par les ADM. Établie à la base sur la mutualisation des risques, l’industrie de l’assurance cherche toujours à estimer les risques individuels, augmentant par exemple ses tarifs d’assurance automobile pour les conducteur.trices qui ont de mauvais dossiers de conduite. Elle se sert aussi de données sur des caractéristiques (âge, lieu du domicile, etc.). Avec les ADM, elles vont bien plus loin dans ce sens (utilisant des caractéristiques déterminées par des algorithmes qu’elle ne connaît elle-même pas toujours), pénalisant encore une fois les plus pauvres et les personnes racisées. Et, elle offre en plus des rabais aux personnes qui acceptent d’implanter des espions (genres de boîtes noires) dans leur véhicule pour collecter encore plus de données sur leur façon de conduire, leurs trajets, leurs destinations, etc. Il en est de même des assurances santé offertes par les employeurs qui comprennent aussi des intrusions dans la vie privée. L’auteure en profite pour dénoncer l’utilisation de l’indice de masse corporelle (IMC) par les assureurs et par les employeurs, un indice qui imagine que le corps humain est en deux dimensions et qui est basé sur des moyennes appliquées à des individus qui ont des corps bien différents.

Le citoyen pour cible : L’auteure se penche cette fois sur les ADM qui visent l’ensemble des citoyen.nes, comme celles utilisées par les GAFAM (Google, Apple, Facebook, Amazon et Microsoft) et les partis politiques. Ce chapitre est intéressant, mais l’année de publication originale de ce livre (2016) transparaît, car les développements révélés par après sur les algorithmes utilisés par ces sociétés et par les partis politiques, notamment par Facebook et le parti républicain, ne lui étaient bien sûr pas connus.

Conclusion : L’auteure présente les effets cumulatifs des ADM présentées dans les chapitres précédents : consternants pour les personnes racisées ou pauvres, et en général positifs pour les autres (sauf pour leurs données personnelles et leur vie privée), surtout pour les plus riches qui bénéficient en quelque sorte des malheurs des premiers. Elle recommande ensuite de nombreuses mesures pour éviter les pires effets des ADM et donne des exemples d’utilisations positives de données massives.

Postface : L’auteure décrit les erreurs de plus en plus fréquentes et importantes dans les sondages politiques et donne de nouveaux exemples d’ADM néfastes et d’algorithmes plus utiles. Elle conclut que devant la menace des ADM, il faut agir et vite.

Et alors…

Lire ou ne pas lire? Lire, même si mes attentes envers ce livre n’ont pas toutes été atteintes. Il faut le lire, car l’auteure nous fournit un portrait exhaustif de l’utilisation des algorithmes et des données massives. Elle les décrit avec précision et analyse avec rigueur les conséquences de leur utilisation. Elle se soucie beaucoup de la qualité et de la pertinence des données utilisées, ce qui est aussi un de mes dadas. J’ai été un peu déçu, car elle ne mentionne pas toujours clairement l’ampleur de l’utilisation et des conséquences des algorithmes et des données massives qu’elle présente. Les exemples sont clairs, mais il est parfois difficile de savoir s’il ne s’agit que d’anecdotes ou si ceux-ci sont représentatifs d’une situation généralisée. Malgré ce bémol, j’en ai appris passablement, même s’il s’agit d’un domaine que je connaissais assez bien avant de lire ce livre. Il y a très peu de notes, provenant en forte majorité du traducteur (certaines m’ont fait sourire, notamment celles portant sur le baseball que le traducteur connaît manifestement mal), et elles sont en bas de page.

3 commentaires leave one →
  1. 16 avril 2019 11 h 07 min

    Bonjour
    je vous remercie pour ce blog qui m a ouvert les yeux sur une autre perspective des BigData et Algorithmes d’Analyse de Donnée. Cepandant, je félicite par la même occasion l’auteure pour son respect de la vie humaine et son sense de responsabilité. Ca n’a jamais été facile de quitter son job pour une question de moral…enfin pour beaucoup d’entre nous commun des mortelles. Car on tient tous à notre emploi et à notre gagne pain. Je respecte aussi le refus de la ségregation sous toutes ses formes adopté par Mme Cathy O’neil pour justifier son attitude.
    Il me semble que c’est trés bon livre à avoir dans sa biblio!

    Aimé par 1 personne

  2. Robert Lachance permalink
    19 avril 2019 8 h 58 min

    Je suis d’accord avec vous que le titre en anglais est plus pertinent; en français je pense que Les dangers des algorithmes aurait été suffisant, plus juste.

    Qu’est-ce qu’un algorithme ?

    Le Petit Robert – Ensemble des règles opératoires propres à un calcul ou à un traitement informatique. Enchaînement des actions nécessaires à l’accomplissement d’une tâche. Automate.

    Le titre tire sur le piano plutôt que sur le.a pianiste ou le.a compositeur.e. C’est injuste. Dans les chapitres, ce sont les utilisateur.es ou les modèles qui sont fautifs. À répétition. L’ensemble est instructif mais militant et tendancieux.

    « Elle … donne des exemples d’utilisations positives de données massives. »

    Fort bien !

    J’écrirais masse ou massif de données plutôt que données massives, comme j’écrirais vie de qualité plutôt que qualité de vie.

    P.S. Merci pour avoir retiré mon commentaire inopinément déposé sur votre billet antérieur.

    Aimé par 1 personne

  3. 19 avril 2019 17 h 23 min

    «Merci pour avoir retiré mon commentaire inopinément déposé sur votre billet antérieur.»

    Vous me l’aviez demandé…

    J'aime

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

%d blogueurs aiment cette page :