Précision sur les sondages
Je compte poursuivre ma petite enquête sur les sondages, en regardant plus particulièrement comment varient les réponses des différents sous-quotas d’un sondage à l’autre. Cela risque de me prendre un peu de temps, surtout pour recueillir les données. Mais je compte mener à bien cette étude qui devrait me permettre de me faire une idée plus définitive sur les sondages…
Je me permets néanmoins de reproduire dans le cadre de ce bref billet une de mes réponses à certains commentaires. Je ne considère pas que tous les sondages se trompent lourdement. Je dis simplement que la faible variabilité des résultats entre sondages ne me paraît pas compatible avec la marge d’erreur intrinsèque au procédé d’échantillonnage derrière les sondages, et donc avec la prétendue méthode scientifique employée. Ces fameux 3% de marge d’erreur sont d’ailleurs reconnus par les instituts de sondage eux-mêmes à partir précisément de l’approximation gaussienne qui sert manifestement de base à tous leurs calculs (en particulier celui pour la marge d’erreur des résultats plus éloignés du 50-50). Donc la plupart des résultats sont me semble-t-il un peu “arrangés”.
Plus exactement, je vais me livrer à des spéculations un peu gratuites (et peut-être totalement fausses), mais je suppute que les sondeurs ne font pas exactement ce qu’ils disent faire. Par exemple, il est possible qu’ils utilisent les données de leurs concurrents (qui sont de fait plus ou moins publiques – modulo la petite cuisine interne) pour diminuer cette fameuse marge d’erreur. La conséquence est que les sondages au temps t ne représentent pas l’opinion au temps t contrairement a ce qu’ils disent, mais l’opinion sur un temps caractéristique de l’ordre de la quinzaine ou du mois. A mon avis, c’est la raison pour laquelle les sondages ont une grosse inertie qui permet de réduire la marge d’erreur, mais dans ce cas certains phénomènes commentés par les sondeurs :
- deviendraient des artefacts de la méthode de sondage (par exemple les fameux retournements),
- n’auraient carrément aucun sens, par exemple toute évolution des cotes sur des courtes périodes ( moins d’1 mois)
En attendant la suite, je vais revenir à mes préoccupations habituelles, en particulier l’évolution.
Billets similaires:
- Une victoire des sondages ? Hier sur France 3, le présentateur de la soirée électorale a félicité Roland Cayrol, de l’institut CSA, pour la pertinence de ses sondages. CSA qui anonçait il y a 4 jours que Le Pen passerait devant Bayrou… Difficile pourtant de ne pas constater que les sondages ont plutôt bien réussi à reproduire l’ordre des candidats. Etait-ce [...]...
- Sondages et marges d’erreur Avouons-le : si nous essayons de ne pas y croire, nombreux sont ceux qui suivent avec attention les sondages. Les uns sont grisés quand un candidat atteint des sommets, les autres vont nous sortir la fameuse marge d’erreur pour essayer de discuter les sondages. Tiens tiens, une marge d’erreur… Mais bien sûr, mon sang de [...]...
- Sondages 2007 : quel bilan ? Claire Durand, spécialiste des sondages d’opinion, a publié il y a quelques jours un bilan des sondages électoraux de l’élection présidentielle de 2007. Résumé où il apparaît que les leçons de 2002 n’ont pas toutes été retenues … Durand avait montré que la catastrophe française de 2002 était en partie imputable à l’utilisation de la [...]...
- Sondages : le grand n’importe quoi de la dernière ligne droite La frénésie sondagière est de plus en plus pathétique. Les commentaires journalistiques sont à l’avenant. En témoigne cette capture d’écran du figaro.fr (je sais, on m’a souvent déconseillé de lire le figaro, ce serait mauvais pour mon coeur), avec deux commentaires de sondages totalement contradictoires… IPSOS a attendu mon dernier billet sur les sondages pour publier [...]...
- Leçons canadiennes sur les sondages gaulois Plusieurs médias ont récemment tenté de discuter et de décrypter les méthodes derrière les sondages (notamment Arrêt sur Images, le 7/9.30 de France Inter…). Un aspect assez fascinant dans ces émissions est qu’en général, les animateurs invitent d’un côté des membres des instituts, des spécialistes de politiques et des médias, ceux ci étant “opposés” à [...]...

February 21st, 2007 at 01:11
ça peut être intéressant de jeter un coup d’oeil au document suivant:
http://www.apmep.asso.fr/IMG/pdf/ASm11.pdf
en bas de la p.3, un paragraphe décrit le cas du 1er tour de la présidentielle de 2002, avec les vrais chiffres issus du dernier sondage BVA, ainsi que les “fourchettes” de ce sondage. On voit bien que ces fourchettes “ne permettent pas de prévoir l’ordre des candidats”.
[Reply]
February 21st, 2007 at 11:03
Tu liras aussi avec profit l’article de quatre pages consacré aux sondages dans le numéro de mars de La Recherche (écrit par Gilles Dowek, prof à Polytechnique) !
[Reply]
February 21st, 2007 at 21:47
Merci de vos commentaires ! Je regarderai le pdf avec attention.
!
En revanche, je crains de ne pas avoir accès au numéro de la Recherche depuis les US
[Reply]
February 25th, 2007 at 09:17
Tom tom,
J’y connais pas grand chose en sondage et statistique, mais je pense que si tu utilises la méthode des quotas sur ton modèle (chaque individu au hasard ayant une probabilité p constante de choisir un candidat), tu auras effectivement des résultat pas plus précis que sans quota. L’idée même des quotas, c’est qu’il y a différentes sous populations qui chacune ont des préférences différentes, et que la taille de ces sous-populations est plutôt assez bien connue. Prend un cas extrême: deux sous-populations de taille connue, l’une votant unanimement pour le candidat R, l’autre pour le candidat S: dans ce cas, la méthode des quotas donne le résultat exacte, la méthode sans quota donne le résultat avec un écart type de sqrt(p(1-p)/N).
Un cas un peu plus générale: suppose qu’une proportion r1 de la population vote pour R avec une probabilité p1, et le reste (1-r1) de la population vote pour R avec une probabilité p2. Suppose que l’on sonde N personnes. Je defini f(p)=p*(1-p).
Une personne tirée au hasard aura une probabilité p_avg = p1*r1+ p2*(1-r1), et donc un sondage sans la méthode des quotas aura un écart type de sqrt(f(p_avg)/N).
Avec la méthode des quotas, on tire N*r1 personnes de la population 1, et N*(1-r1) personnes de la population 2; on obtient, je pense, une variance de N*r1*f(p_1) + N*(1-r1)*f(p_2) sur le nombre total de personnes sondées votant pour R, et donc un écart type de sqrt(r1*f(p_1)+(1-r1)*f(p_2))/sqrt(N) sur le résultat du sondage.
La fonction f étant concave, on retrouve que la méthode des quotas donne un résultat plus précis.
(Rem: si p1=p2=p, on retrouve exactement le même résultat: certes, pour chaque sous population, on a comme tu le dis une précision moins grande, puisque l’échantillon de la sous-population est plus petit, mais comme le tirage sur chaque sous population est indépendant, la précision globale ne change pas)
Maintenant, dans la vrai vie, il y a une imprécision sur la taille des différentes sous-populations, et sur comment reconnaitre un élément d’une sous-population.
On remarque que si l’on se trompe sur la taille exacte de chaque sous population, le résultat final sera faussé, mais l’écart type sur le résultat du sondage sera tout de même réduit . Je dirais donc que la méthode des quotas diminue la fluctuation des sondages (et en augmente la précision), mais introduit une erreur systématique que l’on ne contrôle pas (et qui ne disparait pas même en prenant une taille d’échantillon plus large). Cette erreur systématique étant plus ou moins la même dans une série de sondage par un même organisme, cela peut expliquer pourquoi les tendances sont nettement plus précises que les sondages eux même (et ont donc ont cette apparence “lissée” que tu dénonce).
[Reply]
February 25th, 2007 at 14:18
“On remarque que si l’on se trompe sur la taille exacte de chaque sous population, le résultat final sera faussé, mais l’écart type sur le résultat du sondage sera tout de même réduit . “
C’est effectivement qualitativement vrai, je suis d’accord avec ton raisonnement (mais encore faut-il effectivement avoir une très bonne information sur les proportions dans la population). En revanche, quantitativement, l’effet est très faible. Par exemple, si tu regardes le mélange à parts égales de deux populations à 75-25 et 25-75, sauf erreur de ma part, l’écart type diminue d’environ 13% ( soit une marge d’erreur d’environ 2.6 % au lieu de 3%). A 60-40 – situation plus réaliste- il me semble que l’écart type diminue de seulement 4% – soit 2.9% au lieu de 3% pour l’écart type . La différence de précision me semble donc assez minime (et certainement pas compatible avec les données lissées qui ont plutôt l’air d’avoir des erreurs de l’ordre de 1 ou 2 %). D’ailleurs les sondeurs admettent eux-mêmes une marge d’erreur de l’ordre de 3%.
[Reply]