Aller au contenu principal

Les dérives de l’évaluation

5 Mai 2014

dérivesDans un récent billet sur le livre le Petit éloge de l’anarchisme de James C. Scott, j’ai mentionné brièvement que l’auteur montrait avec brio «l’inanité de vouloir évaluer les professeurs d’université uniquement avec des indicateurs liés au nombre de parution d’articles et de citations de ces articles». Puis, peu après, j’ai mis la main sur le dernier livre de Yves Gingras, Les dérives de l’évaulation et de la recherche : du bon usage de la bibliométrie, qui porte, lui, uniquement sur cette question!

L’évaluationite

L’auteur observe que, depuis quelques années, on «veut tout évaluer, les enseignants, les professeurs, les chercheurs, les programmes de formation et les universités». Ce n’est pas mal en soi, mais, la nouvelle «vision gestionnaire» porte les évaluateurs à rejeter l’évaluation qualitative pour ne se servir que d’indicateurs quantitatifs, laissant une place de choix à la bibliométrie – «méthode de recherche qui consiste à utiliser les publications scientifiques et leurs citations comme indicateurs de la production scientifique et des ses ouvrages». La fièvre de l’évaluation porte en plus bien des gestionnaires d’universités à se livrer à une «course frénétique vers le sommet des multiples «classements» des universités, alors que (…) ces classements n’ont aucune valeur scientifique». Or, la plupart de ces classements reposent sur une utilisation aveugle de la bibliométrie, sans tenir compte du véritable sens des données qu’elle procure, ni de ses caractéristiques, de ses forces et de ses faiblesses.

Les origines de la bibliométrie

L’auteur consacre son premier chapitre à retracer les origines de la bibliométrie. Les premières compilations de parutions et de citations de publications scientifiques visaient entre autres à fournir des outils aux bibliothécaires pour les aider à choisir les revues les plus pertinentes et à trouver des indicateurs permettant de déterminer quand le contenu d’une revue devenait obsolète pour pouvoir les enlever et faire de la place pour les nouvelles. D’autres voulaient s’en servir pour étudier l’histoire de leur discipline. Les relevés de citations permettaient aussi à des chercheurs de prendre connaissance de l’ensemble des textes se rapportant à un type pointu de recherche (je résume…), difficilement au début et plus facilement par la suite avec l’arrivée des premiers ordinateurs vers 1970.

Le développement des outils informatiques a permis les premières utilisations de la bibliométrie comme outil d’évaluation, mais seulement pour «produire une série d’indicateurs permettant de suivre l’évolution et de mesurer l’état de la science et de la technologie». Les possibilités de l’informatique progressant rapidement, on se servit de la bibliométrie à d’autres fins, notamment pour mesurer le niveau de développement de la science. Ce n’est finalement qu’au cours des années 1990, notamment grâce à un accès plus facile aux bases de données sur Internet, que les gestionnaires de chercheurs ont commencé à utiliser ces données pour évaluer leurs équipes, ce que l’auteur appelle de la «bibliométrie sauvage, sans aucune rigueur méthodologique», jetant «le discrédit sur un ensemble de méthodes pourtant indispensables pour qui veut analyser la dynamique globale des sciences».

Bibliométrie et dynamique des sciences

Loin de rejeter l’utilité de la bibliométrie, Yves Gingras plaide plutôt pour son utilisation là où elle est vraiment un outil pertinent. Par exemple, en histoire et en sociologie des sciences, ces données permettent de voir l’évolution très différentes des parutions, références et citations selon les disciplines. Alors qu’il était similaire vers 1900, le nombre de citations par article en sciences médicales était en 2008 trois fois plus élevé qu’en sciences sociales et environ vingt fois plus qu’en humanités (littérature, histoire, philosophie, etc.). Il en est de même de l’évolution du nombre d’auteurs. Cela montre éloquemment que l’utilisation de ces données, même si elles étaient pertinentes (ce qui n’est pas le cas), est une aberration lorsqu’on les utilise pour évaluer de la même façon les chercheurs de toutes les disciplines.

Ces données montrent aussi de grandes différences entre les disciplines dans l’évolution des collaborations (articles écrits par plus d’un auteur). Alors que 95 % des articles en sciences médicales sont écrits en collaboration, ce n’est le cas que de 10 % des articles en humanités (dont les chercheurs publient plus souvent des livres que des articles dans les revues par rapport aux autres disciplines, ce qui rend encore moins pertinente l’utilisation des données tirées des revues dans leur cas). Ce genre d’information tirées de ces données éclaire vraiment l’étude de l’évolution de la recherche dans différentes disciplines et est drôlement plus utile que leur utilisation pour évaluer des chercheurs!

La multiplication des évaluations

«depuis le milieu du XVIIème siècle jusqu’à nos jours, les chercheurs n’ont jamais cessé d’être évalués!»

Contrairement à ce que certains laissent entendre, on évalue en effet le travail des chercheurs depuis… qu’il y a des recherches! Les travaux de Newton l’ont même été en 1672… négativement! Il s’agissait au début essentiellement d’évaluations par des pairs et des supérieurs. C’est la recherche d’une plus grande «objectivité» qui a entraîné ce que l’auteur appelle l’épidémie de l’utilisation des données bibliométriques (nombre d’articles publiés, nombre de citations reçues, etc.) en évaluation. L’auteur explique ensuite les conséquences néfastes de cette utilisation aveugle, même lorsqu’on pondère ces résultats en fonction de la «qualité» des revues dans lesquelles les articles sont publiés (qualité dont l’évaluation est elle-même arbitraire, certaines revues encourageant ses auteurs à citer les autres auteurs de leur revue pour faire augmenter l’évaluation de leur revue, d’autres formant un cartel de citations croisées entre les revues…). Il résume ces utilisations ainsi : pour les évaluateurs, «mieux vaut un mauvais chiffre que pas de chiffre du tout…».

Autre effet pervers de ces systèmes d’évaluation, des départements et laboratoires de recherche en viennent à rejeter les sujets de recherche trop pointus peu importe leur intérêt pour la discipline, car les articles tirées de ces recherches ne seraient pas suffisamment cités, ce qui nuirait à l’évaluation des chercheurs, de l’équipe de recherche, du département et finalement de l’université! Ces modes d’évaluation ont aussi incité les chercheurs à publier en priorité en anglais pour avoir de meilleures possibilités d’être cité, aussi bien au Québec qu’en France.

L’évaluation de la recherche

«on ne peut évaluer quoi que ce soit si l’on n’identifie pas d’abord la mission et les objectifs de l’organisme visé.»

Le propos de cette citation peut sembler couler de source, mais cela n’empêche pas bien des organisations de choisir les indicateurs d’évaluation en fonction de leur disponibilité et non pas en fonction de leurs liens avec leur mission et leurs objectifs. Par exemple, un laboratoire de recherche voué à la protection de la population par la prise de mesures diverses n’a que faire des données bibliométriques!

L’auteur poursuit en analysant les sources de données et en mettant en garde sur les sources moins fiables ou moins pertinentes. Par exemple, Google Scholar a beau être gratuit, il contient du meilleur comme du pire et est facilement manipulable par des gens qui ont intérêt à faire augmenter leurs résultats. Même les sources plus fiables et payantes doivent être utilisées en fonction de leurs caractéristiques et de leur adéquation avec ce qu’on veut évaluer. Les données bibliométriques peuvent fournir de l’information sur la recherche (en prenant beaucoup de précaution), mais ne servent à rien pour évaluer la qualité de l’enseignement d’une université.

Cette réflexion amène l’auteur à s’interroger sur le comportement contradictoire des autorités des universités. Si elles sont presque unanimes à critiquer les critères utilisés pour établir les classements des universités, elles n’hésitent nullement citer ces classements lorsqu’ils leur sont favorables «pour vendre nos «produits» à des «acheteurs» potentiels, c’est-à dire les étudiants» avouera candidement une directrice des communications d’une université! Pire, d’autres universités paient des chercheurs abondamment cités pour qu’ils ajoutent leur établissement dans leur publication pour bénéficier des citations dans leur classement. Et ce ne sont que quelques exemples parmi les nombreux mentionnés par l’auteur.

Yves Gingras attribue ces incohérences aux conséquences de la marchandisation de l’éducation, «à la recherche d’une clientèle étrangère lucrative qui viendrait ainsi combler les revenus déclinants émanant des gouvernements et la baisse des étudiants locaux». Mais, pour Gingras, ces classements sont comme les habits neufs de l’empereur : l’empereur aimerait bien penser qu’il en porte, qu’ils sont bien jolis, mais, dans le fond, il sait bien qu’il est nu…

Et alors…

Lire ou ne pas lire? Lire! Tout d’abord, j’ai lu de nombreuses critiques de l’utilisation des données bibliométriques pour évaluer les professeurs, chercheurs et universités, mais toujours avec des anecdotes, jamais comme dans ce livre en mettant cette façon de faire en contexte. Ensuite, la critique de Gingras tient compte du fait que ces données, comme toutes données, ont leur utilité si elles sont interprétés correctement et utilisés pour ce qu’elles apportent. Puis, j’ai bien aimé la structure super logique de ce livre, passant de la définition de la bibliométrie aux différents niveaux d’analyse pensés par l’auteur.

Bien sûr, j’ai un petit reproche… Même si ce livre est court, à peine plus de 100 pages, était-ce nécessaire de mettre les 14 pages de notes à la fin du livre? Bon, disons que vu le petit format du livre, ce n’était pas très fatigant de les consulter, mais juste trop…

Cela dit, comme j’avais déjà lu de cet auteur Parlons science que j’avais bien aimé (même si je ne me souviens plus des détails), je m’attendais à du bon. Et c’est bien ce que j’ai eu!

5 commentaires leave one →
  1. 5 Mai 2014 22 h 02 min

    À un fin gastronome qui me disait que seul le nombre de livre vendus et de disques vendus défini la qualité d’un écrivain et d’un chanteur.

    Ce à quoi je lui répondit: « Donc McDonald est le top de la gastronomie! »

    L’État de Washington a implanté un système d’évaluation des professeurs (que François Legault voudrait implanter ici) qui a conduit à la mise a pied de milliers de professeurs qui ont ratés leurs évaluations, mis en péril des écoles en milieu défavorisé et augmenter le salaire moyen des professeurs de 20%… pour qu’au final après 5 ans qu’on se retrouve avec une moyenne générale des étudiants qui n’a pratiquement pas bougée!

    J’aime

  2. 5 Mai 2014 22 h 06 min

    Et on ne parle pas des fraudes qui en ont découlé!

    http://rfp.revues.org/1101

    J’aime

  3. Oli permalink
    6 Mai 2014 3 h 40 min

    Sans compter que dans ce modèle américain, les méthodes d’évaluation des étudiants et des profs (puisque dans ce genre de système, les professeurs sont évalués en se basant essentiellement sur les résultats des élèves à des tests standardisés) sont conçues par des firmes privées qui se retrouvent à empocher d’assez grosses sommes, d’une part parce que c’est leurs évaluations, et d’autre part parce que le tout se fait en ligne et entraîne des coûts uniquement pour donner aux écoles les moyens d’utiliser ces nouvelles évaluations.

    La principale raison de la mise en place de ces systèmes, ça demeure la popularité d’une logique comptable qui passe pour « le gros bon sens », mais les intérêts privés ne sont pas minces, en tout cas pour ce qui est des exemples américains!

    J’aime

  4. 6 Mai 2014 6 h 19 min

    Logique comptable (selon Yves Gingras) = mieux vaut un mauvais chiffre que pas de chiffre du tout!

    J’aime

Trackbacks

  1. La déconnomie |

Laisser un commentaire