Archives pour la catégorie ‘Sondages’

A voté !

Saturday, April 21st, 2007
  • Ce matin, j’ai voté au consulat de New York pour la première fois. Il y avait beaucoup de monde. Je vous livre mon sondage au doigt mouillé pour New York : un fort vote Sarkozy, mais pas autant qu’on s’y attendrait ;). J’ai trouvé dans l’isoloir plus de bulletins Sarkozy que de bulletins Royal ou Bayrou par exemple. Petit élément insolite : le dépouillement ne sera pas rendu public avant que les électeurs de France ne votent.
  • Pour finir sur les sondages avant le premier tour, quelque petits trucs. Claire Durand publie sur son site une étude/lissage des sondages électoraux avant le premier tour : cliquez ici. Evidemment, ce ne sont que des sondages… mais si j’étais, disons, Stéphane Rorol ou Roland Cayzes, je vous dirais qu’on voit très bien sur les évolutions qu’au début de la campagne, une partie des électeurs Royal ont basculé sur Bayrou, ce qui a entraîné une forte augmentation du score de Bayrou, qui a ensuite réussi à attirer quelques électeurs de droite. Au final, le vote Sarkozy et le vote Bayrou semblent complémentaires. Et si c’était un artefact des méthodes de redressement ?
  • Sur le blog “Geneviève Tabouis”, on peut lire que les variations de fermeté de vote Le Pen semblent assez absurdes. En particulier, d’un jour à l’autre sur les sondages IPSOS la fermeté “brute” peut varier de… 48 points ! Je pense que c’est le signe que le nombre d’électeurs déclarés de Le Pen est tout petit. Si on considère que la marge d’erreur est de l’ordre de 25 points pour cette fermeté (la moitié de cette variation extrême), cela serait compatible avec un échantillon d’électeurs de Le Pen d’environ 20 personnes, ce qui donne un vote Le Pen d’environ 7% sur 300 personnes. Cela semble être effectivement le score de Le Pen non redressé, comme le montre cet article que nombre d’entre vous m’ont signalé (merci yogi et blop). En tous cas, je me demande du coup si on peut “remonter” aux données brutes en regardant ce genre de questions “annexes” : cela n’a pas l’air de très bien marcher sur les autres candidats, mais on voit quand même que là aussi, Sarkozy et Royal sont au coude à coude…
  • Pour conclure sur les sondages, mon opinion est que ceux-ci ont de graves problèmes méthodologiques, qui ne permettent pas en tous cas de se fier trop aux résultats bruts, et donc dès que c’est un peu serré, on ne peut rien dire. Par contre, je pense que les sondages sont sans doute capables de “capturer” les tendances individuelles sur le long terme (i.e. je pense que Bayrou est vraiment monté, maintenant peut-être pas aussi haut, ou peut-être au contraire beaucoup plus haut). La méthode de redressement de Le Pen qui consiste à multiplier le score brut d’un facteur 2 est, disons-le clairement, une vaste fumisterie. Quoi qu’on en dise, si on utilise les résultats de l’élection précédente pour appliquer des facteurs multiplicatifs, on risque surtout de tout redimensionner pour retrouver finalement à peu près les scores des années précédentes. C’est vraiment du doigt mouillé pour donner des résultats crédibles, mais je pense que ces résultats sont donc biaisés par construction. Et j’attends toujours qu’on me démontre que les électeurs de Le Pen mentent, et que ce n’est pas un problème d’échantillonage : je suis effaré d’un point de vue scientifique qu’on préfère appliquer un espèce de patch immonde qui consiste à multiplier les scores Le Pen plutôt que d’essayer d’avoir des échantillons/réponses plus fiables. Par ailleurs, une question m’assaille à quelques jours du premier tour : les sondages “sortie des urnes” sont-ils aussi redressés ? Les électeurs qui viennent de voter Le Pen refusent-ils de répondre ? Mentent-ils ? C’est très facile à savoir car il suffit de comparer les réponses aux sondages sortie des urnes au dépouillement.

Voilà, dans tous les cas, le blog restera silencieux pendant quelques jours, le temps de me remettre de la campagne et en attendant de vrais billets scientifiques.

Sondages : le grand n’importe quoi de la dernière ligne droite

Monday, April 16th, 2007
  • La frénésie sondagière est de plus en plus pathétique. Les commentaires journalistiques sont à l’avenant. En témoigne cette capture d’écran du figaro.fr (je sais, on m’a souvent déconseillé de lire le figaro, ce serait mauvais pour mon coeur), avec deux commentaires de sondages totalement contradictoires…
  • IPSOS a attendu mon dernier billet sur les sondages pour publier des résultats… encore plus absurdes. Ainsi, pendant 7 sondages consécutifs la semaine dernière, Sarkozy a été donné à un score fixe de 54% ! Toutes mes félicitations à IPSOS qui semble donc être capable de réduire la marge d’erreur à quasiment zéro ! J’ai refait rapidement mon étude du billet précédent sur les sondages, on bat tous les records : ma statistique d’écart entre les maxima/minima me donne une plausibilité de la série de sondages de l’ordre de 0.05 %, i.e. 99.95% des séries de 38 sondages consécutifs montent plus haut ou descendent plus bas que la série IPSOS. La raison pour cette brusque décroissance dans la plausibilité est une série de sondages où Sarkozy est placé à un score très haut (54%) et très stable. Si Sarkozy est effectivement à 54%, les sondages devraient flirter par moments avec 56, 57 %, or ils restent “scotchés” à 54.5% au maximum, soit une marge d’erreur de l’ordre de 0.5% au plus. Cela sent plus que jamais la manip. Pour la beauté du geste, je redessine ma bosse gaussienne, je vous rappelle que la hauteur de la bosse est proportionnelle à la probabilité d’apercevoir un couple “maxima-minima” dans une série de sondages, la flêche rouge indique le score d’IPSOS. La série de sondages d’IPSOS tombe dans une zone à très fabile probabilité. Petit point technique en passant : je me suis aperçu que pour éviter tous les artefacts de discrétisation dans mes simulations, il fallait prendre un nombre d’électeurs multiples de 200 pour des sondages évalués au demi-point près. La raison est que dans le cas contraire, comme le nombre d’électeurs est fini, certains résultats de sondages deviennent plus improbables (par exemple avec 100 électeurs, on ne peut évidemment pas trouver un score de 53.5%). C’est ce qui expliquait que mes gaussiennes n’étaient pas totalement symétriques dans mon billet précédent (mais rassurez-vous, cela ne change absolument rien à l’étude).
  • Toujours sur les sondages IPSOS, je me suis amusé à comparer “à l’oeil” des simulations de protocoles IPSOS (un sondage de 400 personnes par jour, moyenne sur 3 jours) avec des simulations de sondages indépendants. Je voulais comprendre si les sondages moyennés sur 3 jours étaient vraiment plus “lissés”. Les sondages IPSOS réels sont en rouge, les sondages simulés moyennés sur 3 jours en bleu, les sondages indépendants en vert, la moyenne des sondages réels en bleu clair (53.5%). On voit toujours assez clairement qu’il y a quelque chose qui cloche dans la variabilité des sondages IPSOS. On voit aussi clairement que la courbe bleue n’est pas plus lisse que la courbe verte : elle fluctue autant et est simplement plus “corrélée” dans le temps (c’est rétrospectivement assez compréhensible). En revanche, on voit aussi que ce protocole de moyennage sur trois jours fausse pas mal la perception des choses : la marge d’erreur sur 400 personnes est assez grande, et quand on a une ou deux fluctuations assez grandes dans un sens, les fluctuations persistent assez longtemps dans le temps. Cela peut donc fausser complètement la perception tirée de ces sondages… Encore une fois, je ne sais pas comment IPSOS a concilié tous ses effets complètement délétères qui sont assez clairs dans les simulations numériques.
  • J’ai soumis un article récapitulatif de tous mes billets sur les sondages à Agoravox. On verra bien; avec la chance que j’ai dans mes soumissions d’articles en ce moment, j’ai toutes les chances d’être refusé ;)

Ajout 18 Avril : l’article a été publié sur Agoravox, suivez le lien .

Peut-on quantifier la pertinence d’un sondage ?

Friday, March 30th, 2007

Je continue mes interrogations sur les sondages. Après un regard venant de l’étranger, je reviens sur ce fameux “lissage” des courbes, et vous propose un petit exercice quantitatif. Toutes mes excuses à ceux qui en ont marre des sondages, je vous rassure : c’est probablement mon dernier billet sur le sujet ! (mais bon, comme j’ai fait joujou avec quelques simulations, autant les raconter ici).

On peut donc voir à l’oeil nu que les courbes des sondages réels semblent plus lisses que les courbes simulant un sondage fait sur un échantillon aléatoire. L’une des questions que je me suis posée ces derniers temps est de savoir si l’on peut déterminer la “plausibilité” d’une série de sondages. Si les sondages sont un peu truqués, un peu cuisinés, un peu arrangés, ils devraient normalement avoir des propriétés statistiques un peu biaisées. Comme l’a fait très bien remarquer FrédéricLN sur son blog, si tous les sondages se plantent de la même façon et dans la même direction, ce n’est pas qu’il y a erreur, mais un vrai biais. Ce qui a été anormal en 2002 n’est pas que quelques sondages se soient trompés, mais bien qu’aucun sondage n’ait jamais classé Le Pen devant Jospin (ce qui aurait dû arriver statistiquement … dans au moins un sondage sur deux, compte-tenu de la faible différence entre leurs scores).

L’une des caractéristiques des sondages est, on l’a dit, que la marge d’erreur effective semble beaucoup plus faible que la marge d’erreur statistique normale (les fameux 3 pour cents). Qualitativement, cela se traduit par le fait que les courbes des sondages n’explorent pas assez le domaine autour de leurs valeurs moyennes. Théoriquement, on devrait pouvoir regarder la distribution de résultat autour des valeurs moyennes, et montrer qu’on a une déviation de la distribution gaussienne. Le seul problème est que pour faire cela, il faudrait avoir beaucoup, beaucoup de données pour faire de tels sondages… sur les sondages ;) . J’ai fait le test : même avec une vingtaine de sondages, on est encore assez loin de pouvoir récupérer toute la distribution. En revanche, peut-être est-ce déjà suffisant pour avoir des informations sur des paramètres de la distribution…

Il y a un mois maintenant, IPSOS a mis en place une idée originale : un jour, un sondage. Depuis un mois, tous les jours, je note scrupuleusement le résultat du jour. La méthodologie est la suivante : tous les jours, 300 à 400 personnes sont interrogées, et leurs réponses sont mises en commun avec celles des sondés des deux jours précédents pour faire un échantillon représentatif d’un peu plus de mille personnes. Aujourd’hui, nous avons donc un ensemble de résultats très intéressants à étudier : plus de 23 sondages consécutifs, réalisés dans une période assez courte, avec strictement les mêmes méthodes. Un banc d’essai idéal pour essayer de débusquer les “ajustements” des sondeurs !

A défaut de pouvoir tracer une jolie gaussienne, j’ai essayé de trouver un moyen de comparer l’évolution sur ce mois à une évolution qui serait “typique” d’un sondage. J’ai donc simulé un million de séries de 23 sondages suivant la même méthodologie (3 x 333 personnes donnant une réponse, le résultat au temps t est moyenné avec le résultat au temps t-2 et t-1, et arrondi au demi-point, je garde les résultats à partir de t=2, donc fais en fait 25 sondages), et ai essayé de caractériser certaines propriétés statistiques sur ces sondages, afin de voir si la courbe réelle partageait les caractéristiques “typiques” de sondages simulées. Pour caractériser le lissage des courbes, je me suis plus particulièrement intéressé à la distribution des scores minimaux et maximaux sur la série de sondages. Mon hypothèse est que le score “réel” de Sarkozy est à 53 % (qui est le pic de la distribution, la moyenne étant à 53.15 - ce qui est cohérent). Sauf erreur de ma part (qu’on ne peut jamais exclure, j’en profite pour dire que ceci n’est pas un article scientifique, je n’ai pas les temps de tout vérifier 50 000 fois comme je le ferais pour un vrai article et croyez-moi, j’y ai déjà passé du temps ;) !), la courbe bleue montre la distribution de scores minimas sur une série de 23 sondages, la courbe verte montre la distribution de scores maximas sur la même série, la courbe rouge est la distribution de résultats du sondage IPSOS. Ce que nous dit la courbe bleue, c’est que statistiquement, sur une série de 23 sondages centrés autour de 53%, 20% ont un score minimum de 50.5, 20% ont un score minimum autour de 50%. C’est bien normal sachant que la marge d’erreur est d’environ 3%. De la même façon, la courbe verte nous dit que dans 20% des séries de 23 sondages, le score du candidat monte à 55.5 ou 56 % (1).
Examinons maintenant la courbe rouge. En réalité, le score minimum de Sarkozy sur la série de 23 sondages est 52%, le score maximum, 54.5 %. On voit très bien sur cette courbe que ces deux scores sont dans les queues de gaussiennes respectives des distributions des scores maxima et minima. Plus précisément, dans mes simulations, seulement 4% des sondages ont un score minimum supérieur ou égal à 52 %, et seulement 15 % des sondages ont un score maximum inférieur ou égal à 54.5%. Cela voudrait dire que le sondage réel est dans une zone statistiquement insignifiante : seulement 0.6% des sondages réels ont des distributions similaires. Si vous préférez, si on refaisait cette série de 23 sondages plusieurs fois, théoriquement, plus de 99% des sondages devraient monter plus haut ou descendre plus bas que ce qui est effectivement observé. Admettons maintenant que je baisse ma tolérance d’un demi-point : dans mes simulations, environ 12% des sondages ont un score minimum supérieur ou égal à 51.5%, 32% des sondages ont un score maximum inférieur ou égal à 55%, cela donne à peu près 4% des sondages avec des écarts maximum-minimum similaires. Cela ne devient pas complètement improbable, mais reste assez faible…

Vous l’aurez noté dans ce petit exercice, ce qui rend la distribution improbable n’est pas tant la distribution individuelle du minimum et du maximum (qui sont ici en fait assez indépendants), mais le fait que les deux scores minima et maxima soient simultanément respectivement grand et petit. Je me suis donc amusé à représenter dans le graphique ci-contre le nombre de séries de sondages aléatoires donnant à la fois un pourcentage maximum et un pourcentage minimum donné. Sans surprise, on obtient une bosse à peu près gaussienne. La cote d’un point est proportionnelle à la probabilité d’observer un sondage avec un couple maximum, minimum donné. La flèche magenta indique la série actuelle IPSOS. Ce qui est intéressant est qu’on a immédiatement un point de comparaison avec tous les autres sondages : une région à cote zéro est très improbable , tandis que les sondages en haut de la bosse, s’ils sont individuellement relativement improbables (seulement 5% des sondages sont pile au sommet de la bosse avec mon choix d’arrondi) sont collectivement assez probables (par exemple 30% des sondages sont au-dessus de la ligne bleue ciel). On voit très bien que les sondages réels sont … tout en bas de la bosse, dans une zone assez improbable.

En fait, on retrouve tout simplement l’effet décrit précédemment : l’exploration autour de la valeur moyenne est ridicule - avec un score “réel” d’environ 53%, le sondage descend au minimum à 52% et monte au maximum à 54.5%. Dans une série 23 sondages, 90% de mes simulations explorent l’intervalle 51%-55%, et une bonne fraction des sondages devraient même descendre à 50% et monter à 56%. On a donc en réalité dans le sondage IPSOS une marge d’erreur “effective” de 1 à 2% ici (à comparer avec les 3-4% annoncés sur le site); cela correspondrait à une population effective sondée d’au moins 2500 personnes. On parle beaucoup d’ajustements des scores au premier tour, mais à mon avis on voit très bien sur cet exemple que ces scores de deuxième tour semblent eux aussi très arrangés, malgré l’absence de vote Le Pen. Peut-être les sondeurs ont-ils des super méthodes statistiques qu’ils nous cachent (pourquoi alors annoncer une marge d’erreur de 3% ?): cette série de sondages est complètement conforme à un score de 53% de Sarkozy; ce qui est juste très étrange est cette marge d’erreur complètement rabotée. Peut-être les échantillons ne sont-ils pas assez variés (après tout, peut-être les sondeurs ne sondent-ils réellement que 2500 personnes, toujours les mêmes - cela pourrait expliquer bien des choses…). Peut-être les sondeurs ont-ils aussi un flair extraordinaire qui leur permet de jauger en permanence l’opinion publique réelle. Peu importe; dans tous les cas, pour répondre à la question du titre, pour moi, il est clair qu’on peut estimer la plausibilité de ce genre de séries de sondages et s’apercevoir qu’il manque quelque chose pour expliquer le résultat.

(1) Notez d’ailleurs que les deux distributions ne sont pas complètement symétriques par rapport à 53; j’ai fait pas mal de tests et pense que c’est un effet de la discrétisation.

Leçons canadiennes sur les sondages gaulois

Saturday, March 24th, 2007

Plusieurs médias ont récemment tenté de discuter et de décrypter les méthodes derrière les sondages (notamment Arrêt sur Images, le 7/9.30 de France Inter…). Un aspect assez fascinant dans ces émissions est qu’en général, les animateurs invitent d’un côté des membres des instituts, des spécialistes de politiques et des médias, ceux ci étant “opposés” à des journalistes. Ainsi les sondeurs délivrent-ils leur bonne parole sans contradiction sur le fond de leur travail. Par exemple, les journalistes cherchent à comprendre les méthodes de redressement : mais, au-delà du fait qu’ils n’obtiennent pas de réponses précises, ne faudrait-il pas en contester le principe ? Malheureusement, il semble impossible de remettre scientifiquement en question la parole des instituts de sondages ou de critiquer leurs méthodes : n’y a-t-il donc aucun sociologue ou statisticien en France capable de nous parler des sondages et de leur validité scientifique ?

Heureusement, dans d’autres pays, les spécialistes indépendants des sondages ont pignon sur rue, et peuvent informer le grand public sur la qualité ou la pertinence des sondages. Claire Durand est l’une de ceux-là. Et dans un article intitulé ‘The polls in the 2002 French election : an autopsy”, elle se penche sur les sondages français (qu’elle autopsie, donc), et sur leurs méthodes. Et on en apprend effectivement de belles.

Je me permets de reproduire (et de traduire) certains extraits de son article. Si vous avez suivi les différentes émissions parlant des sondages, les sondeurs se sont souvent abrités derrière le secret professionnel pour éviter de donner leurs méthodes dans le détail. Première surprise pour le citoyen français que je suis, au détour de cette phrase :

Although the law requires that all the methodological information be made available to citizens, the researcher in charge of obtaining the information encountered many difficulties.

Bien que la loi exige que toutes les informations sur la méthodologie soient disponibles pour le citoyen, la chercheuse chargée de recueillir ces informations a rencontré de nombreuses difficultés.

Ainsi donc, j’apprends qu’en France existe une loi qui oblige les instituts de sondage à donner leurs méthodes. Où donc est la limite du secret professionnel ? Voilà un aspect que j’aurais aimé voir aborder dans les différentes émissions sur les sondages. Rassurons-nous, ce secret est bien protégé, vues les difficultés rencontrées par la chercheuse, dont voici un aperçu :

She was required to ask for an appointment and to specify in advance the files she wanted to consult. The personnel would not let her photocopy any document, so she had to write down the relevant information. Finally, she was informed that part of the information—the results obtained before adjustment—though required by law, would not be available unless the pollsters give their permission. We asked the pollsters for that permission, and we received a positive answer from one.

La chercheuse a dû demander un rendez-vous et préciser par avance les documents qu’elle souhaitait consulter. Le personnel ne l’a pas laissé faire de photocopies, si bien qu’elle a dû écrire à la main toutes les informations. Enfin, on l’a informé qu’une partie de l’information - les résultats obtenus avant ajustements- bien que devant être disponibles d’après la loi, ne pouvaient l’être sans la permission des instituts de sondage. Nous avons demandé aux instituts cette permission, et (seul?) l’un d’entre eux nous a donné son accord.

Je regrette de ne pas être en France pour aller chercher quelques données brutes à mon tour ! Résumons donc ce paragraphe édifiant : les instituts de sondage sont tenus par la loi de rendre publics à la fois leurs méthodes et les chiffres bruts avant redressement. La commission des sondages a manifestement tout fait pour mettre des bâtons dans les roues à cette chercheuse, exigeant un accord des instituts avant de livrer les seules informations valables : les chiffres bruts des sondages.

Toutefois, elle a pu finalement avoir quelques informations sur les fameuses méthodes de redressement. Voici un extrait de l’article à ce propos :

One pollster, who requested anonymity, explained in this way the process by which he decides on published estimates: “The statistician provides me with estimates according to different adjustments (…). I look at the different columns and at the published estimates for the last week in order to figure out the most likely figure. Say a candidate had 2 percent the previous week and has 4 percent in most adjustments that week, I will put him at 3 percent. If he still has 4 percent in the next poll, then I will put him at 4 percent.”

Un sondeur, qui a demandé de conserver l’anonymat, explique ainsi la méthode employée pour traiter les données : “Le statisticien me livre des estimations après divers ajustements. Je regarde alors les différentes colonnes et les estimations publiées la semaine précédente afin de déterminer le chiffre le plus probable. Supposons qu’un candidat soit à 2 pour cent la semaine précédente, et 4 pour cents après estimations de cette semaine, je le mets alors à 3 pour cent. S’il a encore 4 pour cent au sondage suivant, je le mets alors à 4 pour cent.

Voilà en quelques phrases l’explication de nos fameuses courbes lissées et confirme mon hypothèse exprimée dans un billet précédent. Ces petites corrections n’ont l’air de rien à première vue, mais d’un point de vue scientifique, c’est clairement une hérésie. C’est en effet considérer toute variation a priori comme une fluctuation statistique. Or, on ne peut se débarrasser des fluctuations statistiques : comment alors les distinguer des évolutions ? Il faut donc potentiellement dans ce cas de figure au moins deux sondages pour avoir le bon résultat. Imaginons qu’une fluctuation statistique aille dans le mauvais sens après une évolution effective : il faudrait alors 3-4 sondages pour voir l’évolution réelle. Soit de 2 à 4 semaines de campagne. C’est donc à mon sens extrêmement grave de modifier ainsi les données brutes alors que les évolutions des sondages sont pile poil dans la marge d’erreur, car cela fausse complètement l’analyse des évolutions. Par ailleurs, ce genre de méthodes est-il neutre politiquement, traite-t-on tous les candidats de la même façon ? N’y a-t-il pas par construction un effet “prime au gagnant” … des semaines précédentes ?

Jules de diner’s room critiquait Schneidermann qui préconisait d’interdire purement et simplement les sondages, arguant notamment du fait qu’on a droit à l’information. Or, il apparaît que :

  • les données brutes, qui sont la véritable information, ne sont manifestement pas facilement accessibles alors qu’elles devraient l’être
  • par ailleurs, les sondeurs s’arrogent le droit (sous le contrôle de la commission des sondages) de décider ce qui constitue une information d’une fluctuation statistique, alors qu’ils n’ont aucun moyen de le faire.
Avec cela, rien d’étonnant à ce que 62 sondages parmi les 63 derniers aient donné Sarkozy gagnant. Mais est-ce une information ?

Je vois déjà les arguments de certains : et le vote Le Pen ? Car bien sûr, nous sommes tellement bien pensants, tellement intoxiqués (moi y compris) que nous y croyons à cette histoire : les gens mentent forcément au téléphone, tous confits de honte à voter Le Pen. Roland Cayrol nous expliquait donc sur le plateau de “Arrêt sur Images” il y a deux semaines, que, pour les confondre, il suffisait de leur poser des questions annexes. Comme exemple (que D. Schneidermann a dû se battre pour obtenir) il citait: “est-ce que vous êtes parfois en accord avec les thèses de M. Le Pen ?”. Ainsi, les sondeurs auraient une méthode infaillible pour confondre les électeurs honteux du FN, qui sont bien sûr des menteurs. Mais ceci prouve qu’il n’y a pas de remise en cause de leur méthode d’échantillonnage. Et s’ils n’arrivaient tout simplement pas à interroger suffisamment d’électeurs FN ? A quoi serviraient alors ces questions annexes ? Du coup, on utilise un artifice pour améliorer le rendement d’un machine bien rouillée. Vous croiriez, vous, à la compétence d’un informaticien qui vous explique qu’il a un bug, et que donc il est obligé d’ajouter un autre bug pour corriger le précédent ? Car si j’en crois cet article de Durand et al., le problème est essentiellement un problème de la méthode des quotas, qui semble bien connu … depuis au moins 15 ans ! Ainsi, lors des élections de 1992 au Royaume-Uni, les sondages, basés sur la méthode des quotas, se sont plantés lamentablement :

Though the British Election Panel Study arrived at a good reconstitution of the 1992 vote using a random sample, the reconstitutions by pollsters using quota samples differed substantially from the actual vote.

Bien que le “British Election Panel Study” permettait une bonne reconstitution des résultats de 1992 en utilisant un échantillonage aléatoire, les reconstitutions des instituts par la méthode des quotas différaient substantiellement des résultats observés.

Notez que la désormais fameuse méthode des quotas est dépassée sur cet exemple précis par une simple interrogation aléatoire. Dans la suite, on apprend même qu’on sait depuis 1995 qu’ajuster les résultats en fonction des élections précédentes (ce que CSA dit faire aujourd’hui pour redresser - Roland Cayrol ayant même déploré que ces têtes de linottes d’électeur oublient ce qu’ils ont voté à l’élection précédente - in “Arrêt sur Images” sur les sondages) peut même dégrader l’estimation. La difficulté est d’autant plus grande qu’on ne sait pas forcément en France quelle élection utiliser pour cette reconstitution.

Laissons la conclusion à Durand et al., ou plutôt à Jowell et al. :

One would be tempted to issue the same recommendation as Jowell et al.: “Our recommendation to pollsters and their clients, the mass media, is that they should invest in a program of methodological work as soon as possible. Sampling methods need to be improved, and the rather primitive methods of forecasting employed by the polls need to be supplemented by more sophisticated techniques that draw on the massive body of data about voting behavior and political attitudes that is freely available.”

Nous serions tentés de suggérer comme Jowell et al. : ” Notre recommandation pour les instituts et leurs clients, les mass-media, serait de rapidement se lancer dans un programme de travail méthodologique. Les méthodes d’échantillonage doivent être améliorées, et les méthodes de prédiction plutôt primitives utilisées par les sondeurs doivent être accompagnées de techniques plus sophistiquées se basant sur les masses de données à propos des habitudes de votes et des attitudes politiques librement disponibles”.

Référence :
Durand, Blais & Larochelle, Public Opinion Quarterly 2004 68(4):602-622

Add 28 Mars: Sebastiao Correia indique sur son blog un lien vers l’article en question en accès libre.

Précision sur les sondages

Tuesday, February 20th, 2007
Je suis un peu débordé (car hors de mes murs pour trois semaines) et je n’ai pas énormément de temps pour écrire des billets en ce moment. Le billet précédent a eu énormément de succès et a fait exploser la fréquentation du blog pendant deux-trois jours.
Je compte poursuivre ma petite enquête sur les sondages, en regardant plus particulièrement comment varient les réponses des différents sous-quotas d’un sondage à l’autre. Cela risque de me prendre un peu de temps, surtout pour recueillir les données. Mais je compte mener à bien cette étude qui devrait me permettre de me faire une idée plus définitive sur les sondages…
Je me permets néanmoins de reproduire dans le cadre de ce bref billet une de mes réponses à certains commentaires. Je ne considère pas que tous les sondages se trompent lourdement. Je dis simplement que la faible variabilité des résultats entre sondages ne me paraît pas compatible avec la marge d’erreur intrinsèque au procédé d’échantillonnage derrière les sondages, et donc avec la prétendue méthode scientifique employée. Ces fameux 3% de marge d’erreur sont d’ailleurs reconnus par les instituts de sondage eux-mêmes à partir précisément de l’approximation gaussienne qui sert manifestement de base à tous leurs calculs (en particulier celui pour la marge d’erreur des résultats plus éloignés du 50-50). Donc la plupart des résultats sont me semble-t-il un peu “arrangés”.

Plus exactement, je vais me livrer à des spéculations un peu gratuites (et peut-être totalement fausses), mais je suppute que les sondeurs ne font pas exactement ce qu’ils disent faire. Par exemple, il est possible qu’ils utilisent les données de leurs concurrents (qui sont de fait plus ou moins publiques - modulo la petite cuisine interne) pour diminuer cette fameuse marge d’erreur. La conséquence est que les sondages au temps t ne représentent pas l’opinion au temps t contrairement a ce qu’ils disent, mais l’opinion sur un temps caractéristique de l’ordre de la quinzaine ou du mois. A mon avis, c’est la raison pour laquelle les sondages ont une grosse inertie qui permet de réduire la marge d’erreur, mais dans ce cas certains phénomènes commentés par les sondeurs :
- deviendraient des artefacts de la méthode de sondage (par exemple les fameux retournements),
- n’auraient carrément aucun sens, par exemple toute évolution des cotes sur des courtes périodes ( moins d’1 mois)

En attendant la suite, je vais revenir à mes préoccupations habituelles, en particulier l’évolution.

Sondages et marges d’erreur

Friday, February 16th, 2007


Avouons-le : si nous essayons de ne pas y croire, nombreux sont ceux qui suivent avec attention les sondages. Les uns sont grisés quand un candidat atteint des sommets, les autres vont nous sortir la fameuse marge d’erreur pour essayer de discuter les sondages. Tiens tiens, une marge d’erreur… Mais bien sûr, mon sang de physicien ne fait qu’un tour : si tout sondage, tout échantillon statistique comporte bien une marge d’erreur, celle-ci est intrinsèque à la mesure. Il est impossible de faire des statistiques vraiment fiables sur des petits nombres : si on fait deux fois la même mesure sur le même ensemble (la même photographie comme disent les sondeurs), il est relativement peu probable de trouver deux fois le même résultat à cause de cette marge d’erreur intrinsèque.

Or que se passe-t-il lorsqu’on compare les différents sondages ? Les échantillons réduisent comme peau de chagrin : un sondage récent concernait 870 personnes, dont seulement 678 exprimaient un vote au second tour. La marge d’erreur est de l’ordre de 1 sur la racine carrée de l’échantillon : on frise donc dans la plupart des sondages au second tour les 4% d’erreur. D’un sondage à l’autre, on devrait donc voir une danse des courbes “explorant” ces 4% d’erreurs. De fait, je me suis amusé à faire quelques petites simulations par ordinateur, en considérant 678 électeurs, votant au hasard soit entre Ségo, soit entre Sarko (et arrondissant à l’entier le plus proche (1) pour Sarko, déduisant par différence le score de Ségo, par ailleurs je n’ai pris qu’une seule série de nombres aléatoires pour mes sondages). Les simulations sont dans la figure, avec les cotes associées (j’ai pris Sarko gagnant à tous les coups puisque lui-même pense qu’il a déjà gagné). J’ai sondé mes électeurs 20 fois de suite. On voit clairement que les intentions de votes fluctuent énormément et s’inversent plusieurs fois : même à 51-49, Ségo atteint 53 par moments, à 53-47, on arrive à 50-50, mais on a aussi une pointe à 56 pour Sarko ! La courbe indexée “Réel” représente l’évolution des enquêtes depuis le fameux discours de Sarko (j’ai trouvé 12 sondages consécutifs où il était gagnant, mais il paraît qu’on est pas loin de 20 maintenant, source : sondages 2007). Or on voit à l’oeil nu que les courbes varient extrêmement peu d’un sondage à l’autre : on a même 4 sondages consécutifs avec à peu près le même score, ce qui n’arrive jamais dans les simulations aléatoires (une fois 3 fois le même score pour 53-47). Les sondeurs me diraient qu’ils ont une façon de corriger, pour lisser les courbes. C’est tout bonnement impossible : encore une fois, l’erreur est intrinsèque au processus même de la mesure ! (sinon, j’engage les sondeurs à immédiatement soumettre leur technique à Nature, cela peut intéresser pas mal de monde). A dire vrai, j’ai l’impression que la fameuse méthode des quotas ne peut même qu’amplifier ces erreurs (puisqu’on échantillonne par tranche sur des populations encore plus petites, et donc je ne vois pas comment les erreurs sur une population peuvent compenser celles faites sur une autre population puisque celles-ci sont différentes).

Histoire de quantifier un peu plus tout cela, j’ai fait travailler ma cellule de sondage virtuelle d’arrache-pied pour lui faire faire 100000 sondages sur ma population à 52% sarkozyste. La courbe ci-contre donne le pourcentage de sondages donnant un résultat donné (on retrouve évidemment une gaussienne). On voit très clairement qu’à peine 20% des sondages donnent le “bon” résultat, qu’au contraire 40% des sondages se trompent de plus de deux points, et 20% donnent Sarko à 50% ou moins. Cela relativise considérablement les disours du genre “Ségo s’écroule” quand elle perd 1 point par rapport au sondage précédent. De plus, on voit que dans une période où l’ opinion est à 52-48, 1 sondage sur 5 donne carrément le mauvais résultat, tandis qu’un autre sondage sur 5 donne une victoire à plates-coutures du bon candidat. Le tout au même moment, sur le même échantillon, je vous le rappelle ! Evidemment, cela ferait désordre si les Instituts de sondages donnaient des résultats si contradictoires…
Pour conclure, il me semble que la multiplication des sondages actuellement est potentiellement très mauvaise pour les instituts, car comme ils donnent tous les mêmes résultats à un point (deux ?) près, cela révèle sans ambiguité à mon avis qu’ils sont complètement truqués !

(1) et pas la partie entière comme je l’avais fait pour la première version de ce billet