Skip to content

La prétention des « sondages »

10 octobre 2015

sondageDepuis quelques années, en période d’élections, il arrive qu’on se mette à douter au sujet des sondages dont la presse nous inonde. Au moins d’août dernier, le blogue de la Presse, Science dessus dessous, titrait « Avez-vous vu ma marge d’erreur ? ».

De manière grossière et peut-être un brin trop sévère, je résumerai ainsi l’odeur qu’il s’en dégage: «Puisque la perfection (échantillon probabiliste) n’est pas atteignable, allons au moins coûteux et justifions n’importe quelle méthode.»

De manière plus nuancée on peut y lire la chose suivante à propos des panels web :

En attendant, la question est : peut-on s’y fier ? Lors d’une autre campagne, il y a quelques années (la pratique ne date pas d’hier), je me souviens avoir posé pas mal de questions là-dessus à Youri Rivest, sondeur chez CROP, qui m’avait répondu essentiellement que la technique avait été abondamment testée (en comparant avec des enquêtes téléphoniques) avant d’être utilisée, et que certaines réponses et caractéristiques des panels étaient toujours validées auprès d’une sorte d’«échantillon maître» tenu par chaque sondeur. Cela m’avait été confirmé par la sociologue de l’UdeM Claire Durant (sic), une spécialiste des sondages, qui demeurait tout de même prudente.

Je trouve la réponse un peu légère, c’est dire qu’on n’apprend pas de nos erreurs. Gallup tourne souvent dans sa tombe.

Dans le présent billet, je  désire  mettre la lumière sur une contribution intéressante dans ce billet de M. Cliche.  Les statisticiens, au Québec, comme vous le savez probablement, ne font pas partie d’un ordre professionnel mais il sont représentés néanmoins (bien timidement) par l’Association des statisticiennes et statisticiens du Québec. La présidente de l’Association, Véronique Tremblay, a donné la réplique  suivante :

M. Cliche,

Premièrement, je veux vous remercier d’avoir abordé le sujet des marges d’erreur et des sondages auprès de panels web dans votre blogue. Il s’agit d’un sujet qui soulève les discussions au sein même de la communauté de statisticiens.

Bien que je sois présidente de l’Association des statisticiennes et des statisticiens du Québec, je ne peux prétendre parler pour l’ensemble des statisticiens, mais je me permets de vous faire part de mon point de vue sur la question.

Commençons par la citation qui dit «pour qu’une méthode soit qualifiée de probabiliste, elle doit offrir une chance égale et connue à chaque personne admissible sur un territoire donné d’être sélectionnée dans un échantillon». Cette définition du sondage probabiliste est largement véhiculée mais elle démontre une certaine incompréhension du concept d’échantillonnage probabiliste. Pour qu’un échantillonnage soit probabiliste, il doit donner à chaque individu une probabilité non nulle et connue d’être sélectionné. Les probabilités de sélection n’ont pas à être égales : elles peuvent varier d’un individu à l’autre sans nuire au caractère probabiliste de l’échantillon. Il suffit de connaître cette probabilité et d’en tenir compte lors des estimations et du calcul des marges d’erreur, ce qu’un bon statisticien saura faire sans problème.

Le principal problème d’un panel web n’est pas tant au niveau du calcul de la marge d’erreur qu’au niveau du biais lié à la composition du panel. On pourrait bien spécifier une marge d’erreur pour un panel web, mais pour être rigoureux, il faudrait aussi préciser la population que représentent les répondants. Par exemple, dans votre article, on pourrait dire «47% des membres du panel web CROP» ou à la limite «47% des répondants» et non pas «47% de la population québécoise». Dans ce cas, on pourrait, à mon humble avis, accompagner le résultat d’une marge d’erreur.

La qualité du panel

Il faut aussi tenir compte du fait qu’il existe différentes qualités de panels web. Certains panels web sont dits «probabilistes», parce que les panélistes sont recrutés par téléphone sur une base aléatoire. Bien que les panels «probabilistes» ne fassent pas l’unanimité, il s’agit d’une alternative intéressante aux sondages téléphonique lorsque le budget est limité. Voici un texte intéressant à ce sujet http://web.stanford.edu/dept/communication/faculty/krosnick/Mode%2004.pdf.

Le taux de réponse

Le taux de réponse est aussi un élément central dans la qualité des résultats d’un sondage et devrait toujours être présenté, même pour un panel web. La non-réponse et les refus de répondre entraînent des biais importants. Les sondages web étant parfois fait très rapidement pour répondre aux besoins des journalistes, les taux de réponse sont très faibles.

La pondération

Pour la majorité des sondages, les probabilités de sélection sont inégales et le taux de réponse varie d’un groupe d’individus à l’autre. Pour réduire le biais associé à ces deux problèmes, on aura recours à la pondération des données (on attribue à chaque individu un poids qui correspond au nombre d’individus qu’il représente dans la population cible). La pondération réduit le biais mais elle a pour effet négatif d’augmenter la marge d’erreur. Le calcul des marges d’erreur pour des données pondérées est relativement complexe et la majorité des maisons de sondage n’en tienne pas compte. Par conséquent, elles sous-estiment largement la vraie marge d’erreur, qui peut facilement passer du simple au double après pondération.

Atténuer le «Terrible et Saint Courroux» des statisticiens

En plus d’éviter de présenter les résultats comme étant applicables à toute la population québécoise, voici une suggestion de ce que les journalistes pourraient présenter avec les résultats du sondage:
– Le panel web utilisé, une description du panel et la façon dont les panélistes sont recrutés (volontaire ou aléatoire par téléphone ou autre)
– Le taux de réponse et le traitement de la non-réponse
– La pondération effectuée et une marge d’erreur tenant compte de la pondération si le panel est probabiliste

J’apprécie sincèrement votre blogue. N’hésitez pas à communiquer avec moi si vous abordez de nouveau des sujets liés aux statistiques. Il me fera grand plaisir de vous répondre ou de vous diriger vers des spécialistes du sujet. J’en connais d’ailleurs plusieurs qui se feront un plaisir de discuter des méthodes de sondage avec vous.

Cordialement,

Véronique Tremblay ​, M.Sc., Stat.ASSQ
Présidente

 

Je seconde les propos de Mme Tremblay, en gros, il s’agit de diminuer un peu les prétentions des sondeurs. S’ils ne veulent pas ou ne peuvent pas constituer des échantillons probabilistes, qu’ils admettent du même souffle qu’ils ne peuvent pas bien inférer dans la population et qu’ils se limitent à inférer dans l’échantillon d’où ils tirent leurs participants. De toute façon c’est exactement la réelle limite de ce qu’ils peuvent faire.

On peut lire aussi à Statistique Canada des préoccupations semblables dans la section «Normes relatives aux sondages non probabilistes».

Je pense donc qu’une  bonne partie des experts en sondages, (les statisticiens, pas les propriétaires de firmes de sondages) sont très mal à l’aise avec la pratique courante (méthodes et interprétation des résultats).

Dans ce contexte particulier je pense qu’il vaut mieux garder ce débat ouvert étant donné l’influence considérable sur l’issue du vote. Et pourquoi pas des règles du DGE?

Publicités
15 commentaires leave one →
  1. 10 octobre 2015 14 h 26 min

    Si je comprends bien, les résultats des sondages basés sur un panel Web ne sont pas représentatifs pour l’ensemble de la population, mais le seraient pour les membres de ce panel (et les personnes présentant les même caractéristiques?). De même, les changements de résultats (hausses et baisses pour les partis) d’un sondage à l’autre basé sur un même panel (donc d’une même firme) seraient significatifs uniquement pour les personnes faisant partie de ces panels (et les personnes présentant les même caractéristiques?). Cela ne signifie pas que le niveau des résultats ni les mouvements qu’on y trouve sont les mêmes ppour l’ensemble de la population…

    J'aime

  2. Marie-Ève Mathieu permalink
    10 octobre 2015 14 h 27 min

    Merci pour cette explication claire de la marge d’erreur.

    Il y a toute une dimension à prendre en compte au-delà des chiffres: l’effet prescriptif des sondages. Ainsi, les grands journaux se commandent des sondages (si jamais un de ces sondages présentait une réalité qui leur déplaît – mettons que le parti Vert faisait une énorme percée en CB -, ils auraient la possibilité de ne pas en parler, de ne le publier). Il s’agit d’une première liberté prise avec la réalité. Ensuite, le choix de placer le sondage en première page ou non, etc. Et le texte qui l’accompagne. Ainsi, on prend un outil scientifique, avec une marge d’erreur qui devrait être spécifiée et comprise, et on le transforme en outil idéologique pour influencer les gens à voter pour les «gagnants», au lieu de «perdre» son vote. D’ailleurs, cette idée de perdre son vote est complètement ridicule, bien que répandue, ce n’est pas une course de chevaux, c’est un exercice démocratique. Il ne s’agit pas de gagner, mais de donner sa sanction au régime au meilleur de nos connaissances et convictions.

    J'aime

  3. lise trottier permalink*
    10 octobre 2015 15 h 22 min

    Darwin, oui, tu as bien compris. En théorie, on pourrait faire un sondage probabiliste par le Web. Il faudrait cependant que les gens sélectionnés le soient via un processus conforme. Par exemple, si tu rejoins un échantillon via le web mais que cet échantillon a été préalablement été constitué selon les règles de l’art, alors il n’y a pas de problèmes. J’ai tourné un peu les coins ronds mais dans la pratique, la majorité des échantillons sont constitués par volontariat avec récompenses $$$. Voir les diapos 5 et 6 de la présentation de Mme Durand.
    http://www.mapageweb.umontreal.ca/durandc/Recherche/Publications/Statcan2013/sondages_internet_statcan_durandc_fr.pdf
    Donc dans la majorité des cas, on devrait inférer (généraliser les estimations) dans la population des gens qui veulent se faire un peu d’argent en niaisant devant l’ordi!!! Cela peut être assez loin de la population Canadienne générale.

    Pour l’autre partie de ta question, je pense, selon la diapositive 12 de Mme Durand que ce ne sont pas les mêmes internautes qui sont rejoints. On fonctionne par quotas. Si une firme a un panel web de 50000 participants, elle lance les invitations et les 1000 premiers répondants sont choisis. Enfin, ça semble être commun comme manière. Donc on représente les gens qui sont toujours devant l’ordi…ce qui ne ressemble plus au Canayen moyen!

    J'aime

  4. lise trottier permalink*
    10 octobre 2015 15 h 35 min

    Marie-Ève, c’est certain que ce genre de manipulation peu exister. Je pense que nous comprenons tous la portée des sondages dans un scrutin comme celui qu’on vit présentement. Bien malin qui voudra voter stratégique en s’alignant sur les sondages dont on ne connait absolument pas la précision.

    J'aime

  5. 10 octobre 2015 16 h 27 min

    «Pour l’autre partie de ta question, je pense, selon la diapositive 12 de Mme Durand que ce ne sont pas les mêmes internautes qui sont rejoints.»

    OK, comme ces gens sont choisis au hasard parmi le pane, je pensais qu’ils étaient représentatifs du panel. Mais comme certains sont plus portés à répondre, ils forment comme un panel à l’intérieur du panel et ce panel a aussi un comportement différent!

    J'aime

  6. Sébastien Rivard permalink
    11 octobre 2015 13 h 02 min

    Pour ma part, les sondages devraient être limités ou interdits en période électorale, surtout compte tenu des mises en garde sur la méthodologie, mais aussi en raison de l’importance beaucoup trop grande qu’on leur accorde sur la place publique et dans les médias.

    Imaginez une élection où on se concentrerait sur le contenu politique et non sur le vote stratégique?

    J'aime

  7. Richard Langelier permalink
    11 octobre 2015 16 h 52 min

    «Des électeurs volages, des sondeurs au bord de la crise de nerfs : la multiplication des sondages menace-t-elle la démocratie ? Devrait-on limiter la publication de sondages en période électorale ? Non, estiment les experts consultés par Le Devoir. L’expérience démontre que l’interdiction des sondages comporte des effets pervers insoupçonnés.

    En Tunisie, par exemple, où la publication de sondages est interdite en campagne électorale, toutes sortes de rumeurs circulent sur les intentions de vote, explique Claire Durand. [1] Les partis politiques font circuler des sondages biaisés. Des groupes se livrent à des sondages non scientifiques. « C’est encore plus dangereux que d’avoir des sondages publiés, comme ici. » http://www.ledevoir.com/politique/canada/452281/elections-federales-en-attendant-le-vrai-sondage .

    Tout comme vous, M. Rivard, j’aimerais bien des élections portant sur le contenu politique. La réforme du mode de scrutin me semble un outil nécessaire, mais non suffisant.

    [1] En passant, Darwin, sur les tags, c’est écrit «Claire Durant».

    J'aime

  8. 11 octobre 2015 17 h 10 min

    «En passant, Darwin, sur les tags, c’est écrit «Claire Durant»»

    OK, je corrige. C’est indiqué ainsi parce que c’est de cette façon que l’a écrit Jean-François Cliche dans son billet (d’où l’ajout du «(sic)» après cette erreur dans la citation).

    J'aime

  9. Richard Langelier permalink
    11 octobre 2015 19 h 13 min

    Dans ce cas, Darwin, tu devrais peut-être écrire dans les tags: «Claire Durant (sic)». J’ai l’air de niaiser, mais c’est pour rappeler que j’ai déjà vu un sondage où des sondés indiquaient qu’ils s’amusaient à mentir lorsqu’ils répondaient à un sondage. Nous voilà revenus au paradoxe du menteur https://fr.wikipedia.org/wiki/Paradoxe_du_menteur. . Je croyais avoir compris Gödel et Tarski, mais c’était sans doute à l’époque où je croyais avoir la bosse des maths.

    J’imagine mal quelqu’un mentir dans une enquête sur la consommation des ménages ou les estimations de l’emploi par l’EPA. Cependant, comme tu l’écris souvent, Darwin, les données de l’Enquête sur la rémunération et les heures de travail (EERH) te permettent de relativiser les écarts montrés par les estimations de l’emploi par l’EPA.

    Pour revenir à votre commentaire, Sébastien Rivard, lorsqu’on m’appelle pour savoir si je suis intéressé par un produit miracle pour m’éviter de puer des pieds, je réponds: «mettez-le sur le marché. Si Pamela Anderson me conseille votre produit, je l’achèterai!» Depuis le début de la campagne, je me fais réveiller par des appels automatiques et je sacre autant que lorsque je me cogne un orteil.

    J'aime

  10. 11 octobre 2015 19 h 28 min

    «tu devrais peut-être écrire dans les tags: «Claire Durant (sic)»«

    En fait, le but des mots-clés est d’augmenter l’achalandage d’un billet, puisque l’algorithme de Google donne plus de poids à ces «tags» qu’à ce qui est écrit dans le texte. Or, la probabilité est bien plus forte que quelqu’un cherche «Claire Durand» que «Claire Durant (sic)». Enfin, je pense!

    J'aime

  11. Richard Langelier permalink
    11 octobre 2015 20 h 27 min

    Donc, en niaisant, j’ai fait augmenter la probabilité. Je peux aller écouter «Tout le monde en parle» en paix.

    J'aime

  12. lise trottier permalink*
    11 octobre 2015 21 h 35 min

    Je ne suis en général contre les interdictions mais je pensais plus à des règles et de la surveillance à exercer sur les boîtes de sondages. M’enfin, pour les sondages en campagne électorales….

    J'aime

  13. 14 octobre 2015 5 h 20 min

    On peut certainement se fier aux sondages dans la mesure de leurs limites connues mais impossibles à enseigner aux 99 % du bon peuple dans des délais raisonnables, pour ne nommer que cet aspect de l’idéal démocratique.

    Bryan Breguet le fait avec prudence pour établir ses projections du nombre de sièges que peuvent espérer les partis selon leurs pourcentages aux sondages. Son secret, en tirer après tri des moyennes et des courbes comme ici. Il participe à une redéfinition de la démocratie.

    http://www.tooclosetocall.ca/p/canada-2015.html

    On est inéluctablement dirigé vers un gouvernement libéral minoritaire à moins que la reine en décide autrement.

    J'aime

  14. 14 octobre 2015 19 h 20 min

    C’est ridicule !

    On vient de nous appeler de Montréal. J’ai répondu. On veut savoir pour qui je voterais s’il y avait des élections demain.

    Comment ne savent-ils pas que les élections n’auront lieu pour l’essentiel que le 19 octobre ?

    Comment savent-ils que je n’ai pas déjà voté ?

    Pourquoi se mêlent-ils de nos/mes affaires ?

    La prétention vous écrivez ? L’impudence !

    J'aime

  15. Richard Langelier permalink
    14 octobre 2015 20 h 16 min

    M. Lachance, imaginez ma situation. Je souffre de surdité. Évidemment, je ne dors pas avec mes appareils auditifs. J’ai un système qui active un vibrateur sous mon matelas, lorsque sonne le téléphone, la sonnerie de l’appartement ou mon détecteur de fumée. Je suis réveillé par des appels pour des sondages souvent automatisés. Même les organisateurs du parti pour lequel je suis pointé «sympathisant» me rappellent. Je suis au bout des nerfs! Au moins, les appels à une pétition par courriel, je peux décider de les supprimer quand ma conscience me dit que 5 par jour, c’est assez!

    J'aime

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :