Archives pour la catégorie ‘Sondages’

Sondages, corrélation, causalité

Wednesday, February 20th, 2008

Dans le Monde aujourd’hui, une drôle d’étude :
(more…)

Popularity: 36% [?]

Appel aux blogueurs : statistique de blogs

Tuesday, September 4th, 2007

Bonjour à tous,

je lance un petit appel à la bonne volonté des blogueurs de passage sur ce blog. Je m’intéresse en ce moment aux statistiques des classements des blogs (genre celui de wikio.fr). J’aimerais essayer de voir comment ces classements sont faits et quelle est leur dynamique. Pour cela, j’aurais besoin de quelques données chiffrées sur la fréquentation de plusieurs blogs - wikio se refuse à me donner des informations sur la façon de calculer leur classement. Si ce petit exercice vous intéresse, pourriez-vous m’envoyer vos statistiques de visite (en particulier le nombre de visiteurs par jours), accompagnée le cas échéant de votre classement sur wikio.fr ? Je ne garantis rien quant au résultat, car cela dépendra notamment du nombre de réponses que je recevrai, mais dans tous les cas merci d’avance de votre aide !

Popularity: 41% [?]

Dernière ligne droite sondagière

Friday, May 4th, 2007
Avant, je soupçonnais juste les sondages de légèreté scientifique. Ce matin, je me pose sérieusement des questions. Tous les sondages donnent Sarkozy à plus de 54%. Un de ses scores les plus hauts. L’IFOP fait même un bon de 2.5 % (IFOP dont j’ai déjà expliqué que j’avais quelques réserves sur leurs résultats).

J’ai passé toute la campagne à expliquer comment il était évident que les sondages “lissaient” leurs courbes et rabotaient leurs marges d’erreur. Et tout d’un coup, à trois jours du vote, Sarkozy explose son score par le haut. Je suis sans aucun doute un peu partisan, mais je m’interroge.

Sur le fond, je suis très surpris que les sondages actuels soient capables de déterminer les reports de vote des électeurs de Bayrou, Le Pen, Laguiller. Prenons le cas de Le Pen. Il y a 10% d’électeurs de Le Pen, dans la réalité, comme je l’avais signalé il y a quelques jours, moins de 50 personnes par sondage votant Le Pen sont sondées. Si l’on en croit les scores actuels, environ 30 électeurs de Le Pen disent voter Sarkozy. Pas besoin de faire un dessin : la marge d’erreur sur ces reports est de quasiment 20 % ! Un basculement de 20% des voix d’un côté comme de l’autre des électeurs de Le Pen, l’extrême gauche ou de Bayrou ferait basculer le résultat du vote. Comment les sondeurs peuvent-ils faire des prédictions fiables ?

Nous verrons dimanche soir me direz-vous, mais le risque de prophétie auto-réalisatrice est grand. Un peu amer ce matin, je crois que je vais définitivement militer pour l’interdiction pure et simple des sondages.

Ajout 5 Mai : Et le dernier sondage IPSOS donne Sarkozy à 55%. C’est le plus haut score donné à Sarkozy depuis le début du baromètre quotidien. Ce n’est pas crédible de donner un tel chifffre juste à la fin de la campagne. D’autant plus que pour ce baromètre quotidien, IPSOS a changé sa méthodologie sur le dernier sondage en réalisant un sondage “classique” sur 922 personnes. Quelle rigueur scientifique !

Popularity: 9% [?]

Sondage inutile

Thursday, May 3rd, 2007
Une du Figaro en ligne à l’instant : Sondage Opinionway : Sarkozy remporte le débat (lien réparé)

“Plus d’un téléspectateur sur deux du débat (53%) de mercredi soir a jugé le candidat UMP «le plus convaincant», contre 31% pour Ségolène Royal.”

Ce qui est amusant est la corrélation de cette opinion avec la phrase suivante :
“Au final, les sondés sont 52% (+4) à souhaiter la victoire de Nicolas Sarkozy à l’issue de ce débat, et 37% (+1) de plus à vouloir celle de son adversaire socialiste.”

Avant le vote, la proportion était de 48%/36%. Quand l’échantillon de départ est pro-Sarkozy à la base, il estime Sarkozy le plus convaincant. Rien que de très normal. Autant dire que les lignes n’ont pas bougé, et que chacun a vu midi à sa porte. Pourtant, à n’en pas douter, ce sondage sera exploité politiquement…

[Notons aussi que ce sondage prétend être fait sur un échantillon représentatif. Mais cette enquête est faite sur internet. Les électeurs ayant une connection internet peuvent-ils être par nature représentatifs ? ]

Popularity: 8% [?]

Arithmétique électorale : traces de bidouillage dans les sondages ?

Thursday, April 26th, 2007
Un petit billet sur un truc étrange dans l’enquête IFOP du soir du premier tour, qu’on peut trouver ici. Je ne sais pas si quelqu’un l’a déjà remarqué, mais cette enquête sent un peu le bidouillage, en particulier lorsqu’on la compare aux autres enquêtes parues depuis, en particulier TNS-Sofres, CSA, voire même le baromètre IPSOS-Dell.

Livrons-nous donc à un petit jeu d’arithmétique électorale, tout d’abord sur les trois derniers instituts, qui vont permettre de comprendre le problème du sondage IFOP. A l’heure actuelle, et selon les différents instituts, sur Royal se reportent 13 à 19% des électeurs de Le Pen, 39 à 46% des électeurs de Bayrou. Cela lui donnerait un score de base entre 34.5% et 36.4% des suffrages du premier tour. A cela s’ajoutent les “réserves” à gauche, oscillant entre environ 7% selon IPSOS et environ 10% si les reports de voix se font bien. D’où un score de Royal entre 41.5% et 46.4% en fonction des sondages actuels.

Sur Sarkozy se reportent pour l’instant entre 60% et 65% des électeurs FN, et entre 25 et 39% des électeurs de Bayrou. Cela lui donne un score de base entre 42.1% et 45.2%. A cela s’ajoute 3.38% de voix s’étant portées sur Villiers et Nihous. Au final, on trouve un score pour Sarkozy entre 45.48% et 48.58%.

La majeure partie des différences entre sondages s’expliquent en fait par les différences entre les estimations du report des électeurs de Bayrou sur Sarkozy : de l’ordre de 2.5% des suffrages exprimés au premier tour pour l’instant. En fait, ce sont les électeurs Bayrou qui s’abstiennent de voter Sarkozy qui peuvent le plomber dans les sondages. Plus que le report imparfait des voix, c’est le non-report, l’abstention qui explique les variabilités d’un sondage à l’autre. Ces considérations sondagières me ramènent à l’enquête publiée le soir du 22 avril par IFOP. Enquête qui donnait Sarkozy à 54% et à mon avis a été soit mal faite, soit un peu bidouillée. Quand on regarde les reports sur Royal, rien d’anormal a priori en comparaison des enquêtes ultérieures : 46% des électeurs de Bayrou, 17% des électeurs de Le Pen. Non, le problème est que si vous regardez les résultats p 5, tous ceux qui ont voté au premier tour… votent aussi au second tour. Du coup, 54% des bayrouistes se reportent sur Sarkozy, ainsi que 83% des électeurs du FN. Tout se passe comme si les non-électeurs de Royal avaient été automatiquement considérés comme des électeurs de Sarkozy ! Cela explique le score quasi-plébiscitaire de Sarkozy (calculette en main, on retrouve effectivement un peu plus de 54%), un score qui livré en pleine soirée électorale ne pouvait qu’impressionner. Par ailleurs, si quelqu’un peut m’expliquer par quelle opération du saint esprit 59% des électeurs ne s’étant pas prononcé au premier tour se prononcent pour Sarkozy au deuxième (dernière ligne de la page 5), et comment les abstentionnistes réapparaissent tout aussi miraculeusement sur la première page…. Evidemment, tout cela m’inspire quelque suspicion.

Popularity: 8% [?]

Une victoire des sondages ?

Sunday, April 22nd, 2007
Hier sur France 3, le présentateur de la soirée électorale a félicité Roland Cayrol, de l’institut CSA, pour la pertinence de ses sondages. CSA qui anonçait il y a 4 jours que Le Pen passerait devant Bayrou

Difficile pourtant de ne pas constater que les sondages ont plutôt bien réussi à reproduire l’ordre des candidats. Etait-ce difficile néanmoins ? L’écart minimal entre les cinq premiers candidats est de 5% entre Sarkozy et Royal, soit quasiment deux fois la marge d’erreur des sondages. Rappelons qu’en 2002, l’écart entre les trois premiers était de moins de 4 points, et moins d’un point entre Jospin et Le Pen; par ailleurs, les deux premiers candidats ont eu quasiment deux fois plus de voix qu’en 2002 (détail amusant : Bayrou a même eu plus de voix… que Chirac !). Autrement dit, cette élection était du pain bénit par rapport à la précédente : l’ordre était très facile à prédire. Pas de grosse surprise donc sur ce point-là (et l’erreur de CSA il y a quelques jours est assez impardonnable).

Lorque l’on compare néanmoins sondages et resultats, ont voit tout de même des biais certains. Sur la figure ci-dessus, j’ai dessiné les sondages IPSOS de ce dernier mois, comparés aux résultats du vote donnés ce matin par Le Monde. Si Sarkozy et Bayrou ont eu des resultats à peu près conformes aux sondages, on ne peut que constater que Royal a été fort sous-estimée depuis un mois (n’ayant jamais atteint dans les sondages son score réel), tandis que Le Pen a été très fortement sur-estimé (idem). L’écart entre le dernier sondage de Royal et son score est de -2 points, celui entre le dernier sondage de Le Pen et son score est de +3 points. C’est l’illustration des biais dont je parlais dans quelques billets précédents. C’est anormal que des candidats soient chroniquement sous ou sur-évalués, et révèle probablement des artefacts dans les méthodes des sondages. Claire Durand constatait par exemple sur son site que les scores de Royal et Le Pen étaient à peu près complémentaires dans les sondages. Je pense que tout vient encore une fois des fameuses méthodes de redressement, se basant notamment sur les élections de 2002, d’où un score mécaniquement beaucoup plus bas de Royal et plus haut de Le Pen…

Popularity: 8% [?]

A voté !

Saturday, April 21st, 2007
  • Ce matin, j’ai voté au consulat de New York pour la première fois. Il y avait beaucoup de monde. Je vous livre mon sondage au doigt mouillé pour New York : un fort vote Sarkozy, mais pas autant qu’on s’y attendrait ;). J’ai trouvé dans l’isoloir plus de bulletins Sarkozy que de bulletins Royal ou Bayrou par exemple. Petit élément insolite : le dépouillement ne sera pas rendu public avant que les électeurs de France ne votent.
  • Pour finir sur les sondages avant le premier tour, quelque petits trucs. Claire Durand publie sur son site une étude/lissage des sondages électoraux avant le premier tour : cliquez ici. Evidemment, ce ne sont que des sondages… mais si j’étais, disons, Stéphane Rorol ou Roland Cayzes, je vous dirais qu’on voit très bien sur les évolutions qu’au début de la campagne, une partie des électeurs Royal ont basculé sur Bayrou, ce qui a entraîné une forte augmentation du score de Bayrou, qui a ensuite réussi à attirer quelques électeurs de droite. Au final, le vote Sarkozy et le vote Bayrou semblent complémentaires. Et si c’était un artefact des méthodes de redressement ?
  • Sur le blog “Geneviève Tabouis”, on peut lire que les variations de fermeté de vote Le Pen semblent assez absurdes. En particulier, d’un jour à l’autre sur les sondages IPSOS la fermeté “brute” peut varier de… 48 points ! Je pense que c’est le signe que le nombre d’électeurs déclarés de Le Pen est tout petit. Si on considère que la marge d’erreur est de l’ordre de 25 points pour cette fermeté (la moitié de cette variation extrême), cela serait compatible avec un échantillon d’électeurs de Le Pen d’environ 20 personnes, ce qui donne un vote Le Pen d’environ 7% sur 300 personnes. Cela semble être effectivement le score de Le Pen non redressé, comme le montre cet article que nombre d’entre vous m’ont signalé (merci yogi et blop). En tous cas, je me demande du coup si on peut “remonter” aux données brutes en regardant ce genre de questions “annexes” : cela n’a pas l’air de très bien marcher sur les autres candidats, mais on voit quand même que là aussi, Sarkozy et Royal sont au coude à coude…
  • Pour conclure sur les sondages, mon opinion est que ceux-ci ont de graves problèmes méthodologiques, qui ne permettent pas en tous cas de se fier trop aux résultats bruts, et donc dès que c’est un peu serré, on ne peut rien dire. Par contre, je pense que les sondages sont sans doute capables de “capturer” les tendances individuelles sur le long terme (i.e. je pense que Bayrou est vraiment monté, maintenant peut-être pas aussi haut, ou peut-être au contraire beaucoup plus haut). La méthode de redressement de Le Pen qui consiste à multiplier le score brut d’un facteur 2 est, disons-le clairement, une vaste fumisterie. Quoi qu’on en dise, si on utilise les résultats de l’élection précédente pour appliquer des facteurs multiplicatifs, on risque surtout de tout redimensionner pour retrouver finalement à peu près les scores des années précédentes. C’est vraiment du doigt mouillé pour donner des résultats crédibles, mais je pense que ces résultats sont donc biaisés par construction. Et j’attends toujours qu’on me démontre que les électeurs de Le Pen mentent, et que ce n’est pas un problème d’échantillonage : je suis effaré d’un point de vue scientifique qu’on préfère appliquer un espèce de patch immonde qui consiste à multiplier les scores Le Pen plutôt que d’essayer d’avoir des échantillons/réponses plus fiables. Par ailleurs, une question m’assaille à quelques jours du premier tour : les sondages “sortie des urnes” sont-ils aussi redressés ? Les électeurs qui viennent de voter Le Pen refusent-ils de répondre ? Mentent-ils ? C’est très facile à savoir car il suffit de comparer les réponses aux sondages sortie des urnes au dépouillement.

Voilà, dans tous les cas, le blog restera silencieux pendant quelques jours, le temps de me remettre de la campagne et en attendant de vrais billets scientifiques.

Popularity: 9% [?]

Sondages : le grand n’importe quoi de la dernière ligne droite

Monday, April 16th, 2007
  • La frénésie sondagière est de plus en plus pathétique. Les commentaires journalistiques sont à l’avenant. En témoigne cette capture d’écran du figaro.fr (je sais, on m’a souvent déconseillé de lire le figaro, ce serait mauvais pour mon coeur), avec deux commentaires de sondages totalement contradictoires…
  • IPSOS a attendu mon dernier billet sur les sondages pour publier des résultats… encore plus absurdes. Ainsi, pendant 7 sondages consécutifs la semaine dernière, Sarkozy a été donné à un score fixe de 54% ! Toutes mes félicitations à IPSOS qui semble donc être capable de réduire la marge d’erreur à quasiment zéro ! J’ai refait rapidement mon étude du billet précédent sur les sondages, on bat tous les records : ma statistique d’écart entre les maxima/minima me donne une plausibilité de la série de sondages de l’ordre de 0.05 %, i.e. 99.95% des séries de 38 sondages consécutifs montent plus haut ou descendent plus bas que la série IPSOS. La raison pour cette brusque décroissance dans la plausibilité est une série de sondages où Sarkozy est placé à un score très haut (54%) et très stable. Si Sarkozy est effectivement à 54%, les sondages devraient flirter par moments avec 56, 57 %, or ils restent “scotchés” à 54.5% au maximum, soit une marge d’erreur de l’ordre de 0.5% au plus. Cela sent plus que jamais la manip. Pour la beauté du geste, je redessine ma bosse gaussienne, je vous rappelle que la hauteur de la bosse est proportionnelle à la probabilité d’apercevoir un couple “maxima-minima” dans une série de sondages, la flêche rouge indique le score d’IPSOS. La série de sondages d’IPSOS tombe dans une zone à très fabile probabilité. Petit point technique en passant : je me suis aperçu que pour éviter tous les artefacts de discrétisation dans mes simulations, il fallait prendre un nombre d’électeurs multiples de 200 pour des sondages évalués au demi-point près. La raison est que dans le cas contraire, comme le nombre d’électeurs est fini, certains résultats de sondages deviennent plus improbables (par exemple avec 100 électeurs, on ne peut évidemment pas trouver un score de 53.5%). C’est ce qui expliquait que mes gaussiennes n’étaient pas totalement symétriques dans mon billet précédent (mais rassurez-vous, cela ne change absolument rien à l’étude).
  • Toujours sur les sondages IPSOS, je me suis amusé à comparer “à l’oeil” des simulations de protocoles IPSOS (un sondage de 400 personnes par jour, moyenne sur 3 jours) avec des simulations de sondages indépendants. Je voulais comprendre si les sondages moyennés sur 3 jours étaient vraiment plus “lissés”. Les sondages IPSOS réels sont en rouge, les sondages simulés moyennés sur 3 jours en bleu, les sondages indépendants en vert, la moyenne des sondages réels en bleu clair (53.5%). On voit toujours assez clairement qu’il y a quelque chose qui cloche dans la variabilité des sondages IPSOS. On voit aussi clairement que la courbe bleue n’est pas plus lisse que la courbe verte : elle fluctue autant et est simplement plus “corrélée” dans le temps (c’est rétrospectivement assez compréhensible). En revanche, on voit aussi que ce protocole de moyennage sur trois jours fausse pas mal la perception des choses : la marge d’erreur sur 400 personnes est assez grande, et quand on a une ou deux fluctuations assez grandes dans un sens, les fluctuations persistent assez longtemps dans le temps. Cela peut donc fausser complètement la perception tirée de ces sondages… Encore une fois, je ne sais pas comment IPSOS a concilié tous ses effets complètement délétères qui sont assez clairs dans les simulations numériques.
  • J’ai soumis un article récapitulatif de tous mes billets sur les sondages à Agoravox. On verra bien; avec la chance que j’ai dans mes soumissions d’articles en ce moment, j’ai toutes les chances d’être refusé ;)

Ajout 18 Avril : l’article a été publié sur Agoravox, suivez le lien .

Popularity: 9% [?]

Peut-on quantifier la pertinence d’un sondage ?

Friday, March 30th, 2007

Je continue mes interrogations sur les sondages. Après un regard venant de l’étranger, je reviens sur ce fameux “lissage” des courbes, et vous propose un petit exercice quantitatif. Toutes mes excuses à ceux qui en ont marre des sondages, je vous rassure : c’est probablement mon dernier billet sur le sujet ! (mais bon, comme j’ai fait joujou avec quelques simulations, autant les raconter ici).

On peut donc voir à l’oeil nu que les courbes des sondages réels semblent plus lisses que les courbes simulant un sondage fait sur un échantillon aléatoire. L’une des questions que je me suis posée ces derniers temps est de savoir si l’on peut déterminer la “plausibilité” d’une série de sondages. Si les sondages sont un peu truqués, un peu cuisinés, un peu arrangés, ils devraient normalement avoir des propriétés statistiques un peu biaisées. Comme l’a fait très bien remarquer FrédéricLN sur son blog, si tous les sondages se plantent de la même façon et dans la même direction, ce n’est pas qu’il y a erreur, mais un vrai biais. Ce qui a été anormal en 2002 n’est pas que quelques sondages se soient trompés, mais bien qu’aucun sondage n’ait jamais classé Le Pen devant Jospin (ce qui aurait dû arriver statistiquement … dans au moins un sondage sur deux, compte-tenu de la faible différence entre leurs scores).

L’une des caractéristiques des sondages est, on l’a dit, que la marge d’erreur effective semble beaucoup plus faible que la marge d’erreur statistique normale (les fameux 3 pour cents). Qualitativement, cela se traduit par le fait que les courbes des sondages n’explorent pas assez le domaine autour de leurs valeurs moyennes. Théoriquement, on devrait pouvoir regarder la distribution de résultat autour des valeurs moyennes, et montrer qu’on a une déviation de la distribution gaussienne. Le seul problème est que pour faire cela, il faudrait avoir beaucoup, beaucoup de données pour faire de tels sondages… sur les sondages ;) . J’ai fait le test : même avec une vingtaine de sondages, on est encore assez loin de pouvoir récupérer toute la distribution. En revanche, peut-être est-ce déjà suffisant pour avoir des informations sur des paramètres de la distribution…

Il y a un mois maintenant, IPSOS a mis en place une idée originale : un jour, un sondage. Depuis un mois, tous les jours, je note scrupuleusement le résultat du jour. La méthodologie est la suivante : tous les jours, 300 à 400 personnes sont interrogées, et leurs réponses sont mises en commun avec celles des sondés des deux jours précédents pour faire un échantillon représentatif d’un peu plus de mille personnes. Aujourd’hui, nous avons donc un ensemble de résultats très intéressants à étudier : plus de 23 sondages consécutifs, réalisés dans une période assez courte, avec strictement les mêmes méthodes. Un banc d’essai idéal pour essayer de débusquer les “ajustements” des sondeurs !

A défaut de pouvoir tracer une jolie gaussienne, j’ai essayé de trouver un moyen de comparer l’évolution sur ce mois à une évolution qui serait “typique” d’un sondage. J’ai donc simulé un million de séries de 23 sondages suivant la même méthodologie (3 x 333 personnes donnant une réponse, le résultat au temps t est moyenné avec le résultat au temps t-2 et t-1, et arrondi au demi-point, je garde les résultats à partir de t=2, donc fais en fait 25 sondages), et ai essayé de caractériser certaines propriétés statistiques sur ces sondages, afin de voir si la courbe réelle partageait les caractéristiques “typiques” de sondages simulées. Pour caractériser le lissage des courbes, je me suis plus particulièrement intéressé à la distribution des scores minimaux et maximaux sur la série de sondages. Mon hypothèse est que le score “réel” de Sarkozy est à 53 % (qui est le pic de la distribution, la moyenne étant à 53.15 - ce qui est cohérent). Sauf erreur de ma part (qu’on ne peut jamais exclure, j’en profite pour dire que ceci n’est pas un article scientifique, je n’ai pas les temps de tout vérifier 50 000 fois comme je le ferais pour un vrai article et croyez-moi, j’y ai déjà passé du temps ;) !), la courbe bleue montre la distribution de scores minimas sur une série de 23 sondages, la courbe verte montre la distribution de scores maximas sur la même série, la courbe rouge est la distribution de résultats du sondage IPSOS. Ce que nous dit la courbe bleue, c’est que statistiquement, sur une série de 23 sondages centrés autour de 53%, 20% ont un score minimum de 50.5, 20% ont un score minimum autour de 50%. C’est bien normal sachant que la marge d’erreur est d’environ 3%. De la même façon, la courbe verte nous dit que dans 20% des séries de 23 sondages, le score du candidat monte à 55.5 ou 56 % (1).
Examinons maintenant la courbe rouge. En réalité, le score minimum de Sarkozy sur la série de 23 sondages est 52%, le score maximum, 54.5 %. On voit très bien sur cette courbe que ces deux scores sont dans les queues de gaussiennes respectives des distributions des scores maxima et minima. Plus précisément, dans mes simulations, seulement 4% des sondages ont un score minimum supérieur ou égal à 52 %, et seulement 15 % des sondages ont un score maximum inférieur ou égal à 54.5%. Cela voudrait dire que le sondage réel est dans une zone statistiquement insignifiante : seulement 0.6% des sondages réels ont des distributions similaires. Si vous préférez, si on refaisait cette série de 23 sondages plusieurs fois, théoriquement, plus de 99% des sondages devraient monter plus haut ou descendre plus bas que ce qui est effectivement observé. Admettons maintenant que je baisse ma tolérance d’un demi-point : dans mes simulations, environ 12% des sondages ont un score minimum supérieur ou égal à 51.5%, 32% des sondages ont un score maximum inférieur ou égal à 55%, cela donne à peu près 4% des sondages avec des écarts maximum-minimum similaires. Cela ne devient pas complètement improbable, mais reste assez faible…

Vous l’aurez noté dans ce petit exercice, ce qui rend la distribution improbable n’est pas tant la distribution individuelle du minimum et du maximum (qui sont ici en fait assez indépendants), mais le fait que les deux scores minima et maxima soient simultanément respectivement grand et petit. Je me suis donc amusé à représenter dans le graphique ci-contre le nombre de séries de sondages aléatoires donnant à la fois un pourcentage maximum et un pourcentage minimum donné. Sans surprise, on obtient une bosse à peu près gaussienne. La cote d’un point est proportionnelle à la probabilité d’observer un sondage avec un couple maximum, minimum donné. La flèche magenta indique la série actuelle IPSOS. Ce qui est intéressant est qu’on a immédiatement un point de comparaison avec tous les autres sondages : une région à cote zéro est très improbable , tandis que les sondages en haut de la bosse, s’ils sont individuellement relativement improbables (seulement 5% des sondages sont pile au sommet de la bosse avec mon choix d’arrondi) sont collectivement assez probables (par exemple 30% des sondages sont au-dessus de la ligne bleue ciel). On voit très bien que les sondages réels sont … tout en bas de la bosse, dans une zone assez improbable.

En fait, on retrouve tout simplement l’effet décrit précédemment : l’exploration autour de la valeur moyenne est ridicule - avec un score “réel” d’environ 53%, le sondage descend au minimum à 52% et monte au maximum à 54.5%. Dans une série 23 sondages, 90% de mes simulations explorent l’intervalle 51%-55%, et une bonne fraction des sondages devraient même descendre à 50% et monter à 56%. On a donc en réalité dans le sondage IPSOS une marge d’erreur “effective” de 1 à 2% ici (à comparer avec les 3-4% annoncés sur le site); cela correspondrait à une population effective sondée d’au moins 2500 personnes. On parle beaucoup d’ajustements des scores au premier tour, mais à mon avis on voit très bien sur cet exemple que ces scores de deuxième tour semblent eux aussi très arrangés, malgré l’absence de vote Le Pen. Peut-être les sondeurs ont-ils des super méthodes statistiques qu’ils nous cachent (pourquoi alors annoncer une marge d’erreur de 3% ?): cette série de sondages est complètement conforme à un score de 53% de Sarkozy; ce qui est juste très étrange est cette marge d’erreur complètement rabotée. Peut-être les échantillons ne sont-ils pas assez variés (après tout, peut-être les sondeurs ne sondent-ils réellement que 2500 personnes, toujours les mêmes - cela pourrait expliquer bien des choses…). Peut-être les sondeurs ont-ils aussi un flair extraordinaire qui leur permet de jauger en permanence l’opinion publique réelle. Peu importe; dans tous les cas, pour répondre à la question du titre, pour moi, il est clair qu’on peut estimer la plausibilité de ce genre de séries de sondages et s’apercevoir qu’il manque quelque chose pour expliquer le résultat.

(1) Notez d’ailleurs que les deux distributions ne sont pas complètement symétriques par rapport à 53; j’ai fait pas mal de tests et pense que c’est un effet de la discrétisation.

Popularity: 7% [?]

Leçons canadiennes sur les sondages gaulois

Saturday, March 24th, 2007

Plusieurs médias ont récemment tenté de discuter et de décrypter les méthodes derrière les sondages (notamment Arrêt sur Images, le 7/9.30 de France Inter…). Un aspect assez fascinant dans ces émissions est qu’en général, les animateurs invitent d’un côté des membres des instituts, des spécialistes de politiques et des médias, ceux ci étant “opposés” à des journalistes. Ainsi les sondeurs délivrent-ils leur bonne parole sans contradiction sur le fond de leur travail. Par exemple, les journalistes cherchent à comprendre les méthodes de redressement : mais, au-delà du fait qu’ils n’obtiennent pas de réponses précises, ne faudrait-il pas en contester le principe ? Malheureusement, il semble impossible de remettre scientifiquement en question la parole des instituts de sondages ou de critiquer leurs méthodes : n’y a-t-il donc aucun sociologue ou statisticien en France capable de nous parler des sondages et de leur validité scientifique ?

Heureusement, dans d’autres pays, les spécialistes indépendants des sondages ont pignon sur rue, et peuvent informer le grand public sur la qualité ou la pertinence des sondages. Claire Durand est l’une de ceux-là. Et dans un article intitulé ‘The polls in the 2002 French election : an autopsy”, elle se penche sur les sondages français (qu’elle autopsie, donc), et sur leurs méthodes. Et on en apprend effectivement de belles.

Je me permets de reproduire (et de traduire) certains extraits de son article. Si vous avez suivi les différentes émissions parlant des sondages, les sondeurs se sont souvent abrités derrière le secret professionnel pour éviter de donner leurs méthodes dans le détail. Première surprise pour le citoyen français que je suis, au détour de cette phrase :

Although the law requires that all the methodological information be made available to citizens, the researcher in charge of obtaining the information encountered many difficulties.

Bien que la loi exige que toutes les informations sur la méthodologie soient disponibles pour le citoyen, la chercheuse chargée de recueillir ces informations a rencontré de nombreuses difficultés.

Ainsi donc, j’apprends qu’en France existe une loi qui oblige les instituts de sondage à donner leurs méthodes. Où donc est la limite du secret professionnel ? Voilà un aspect que j’aurais aimé voir aborder dans les différentes émissions sur les sondages. Rassurons-nous, ce secret est bien protégé, vues les difficultés rencontrées par la chercheuse, dont voici un aperçu :

She was required to ask for an appointment and to specify in advance the files she wanted to consult. The personnel would not let her photocopy any document, so she had to write down the relevant information. Finally, she was informed that part of the information—the results obtained before adjustment—though required by law, would not be available unless the pollsters give their permission. We asked the pollsters for that permission, and we received a positive answer from one.

La chercheuse a dû demander un rendez-vous et préciser par avance les documents qu’elle souhaitait consulter. Le personnel ne l’a pas laissé faire de photocopies, si bien qu’elle a dû écrire à la main toutes les informations. Enfin, on l’a informé qu’une partie de l’information - les résultats obtenus avant ajustements- bien que devant être disponibles d’après la loi, ne pouvaient l’être sans la permission des instituts de sondage. Nous avons demandé aux instituts cette permission, et (seul?) l’un d’entre eux nous a donné son accord.

Je regrette de ne pas être en France pour aller chercher quelques données brutes à mon tour ! Résumons donc ce paragraphe édifiant : les instituts de sondage sont tenus par la loi de rendre publics à la fois leurs méthodes et les chiffres bruts avant redressement. La commission des sondages a manifestement tout fait pour mettre des bâtons dans les roues à cette chercheuse, exigeant un accord des instituts avant de livrer les seules informations valables : les chiffres bruts des sondages.

Toutefois, elle a pu finalement avoir quelques informations sur les fameuses méthodes de redressement. Voici un extrait de l’article à ce propos :

One pollster, who requested anonymity, explained in this way the process by which he decides on published estimates: “The statistician provides me with estimates according to different adjustments (…). I look at the different columns and at the published estimates for the last week in order to figure out the most likely figure. Say a candidate had 2 percent the previous week and has 4 percent in most adjustments that week, I will put him at 3 percent. If he still has 4 percent in the next poll, then I will put him at 4 percent.”

Un sondeur, qui a demandé de conserver l’anonymat, explique ainsi la méthode employée pour traiter les données : “Le statisticien me livre des estimations après divers ajustements. Je regarde alors les différentes colonnes et les estimations publiées la semaine précédente afin de déterminer le chiffre le plus probable. Supposons qu’un candidat soit à 2 pour cent la semaine précédente, et 4 pour cents après estimations de cette semaine, je le mets alors à 3 pour cent. S’il a encore 4 pour cent au sondage suivant, je le mets alors à 4 pour cent.

Voilà en quelques phrases l’explication de nos fameuses courbes lissées et confirme mon hypothèse exprimée dans un billet précédent. Ces petites corrections n’ont l’air de rien à première vue, mais d’un point de vue scientifique, c’est clairement une hérésie. C’est en effet considérer toute variation a priori comme une fluctuation statistique. Or, on ne peut se débarrasser des fluctuations statistiques : comment alors les distinguer des évolutions ? Il faut donc potentiellement dans ce cas de figure au moins deux sondages pour avoir le bon résultat. Imaginons qu’une fluctuation statistique aille dans le mauvais sens après une évolution effective : il faudrait alors 3-4 sondages pour voir l’évolution réelle. Soit de 2 à 4 semaines de campagne. C’est donc à mon sens extrêmement grave de modifier ainsi les données brutes alors que les évolutions des sondages sont pile poil dans la marge d’erreur, car cela fausse complètement l’analyse des évolutions. Par ailleurs, ce genre de méthodes est-il neutre politiquement, traite-t-on tous les candidats de la même façon ? N’y a-t-il pas par construction un effet “prime au gagnant” … des semaines précédentes ?

Jules de diner’s room critiquait Schneidermann qui préconisait d’interdire purement et simplement les sondages, arguant notamment du fait qu’on a droit à l’information. Or, il apparaît que :

  • les données brutes, qui sont la véritable information, ne sont manifestement pas facilement accessibles alors qu’elles devraient l’être
  • par ailleurs, les sondeurs s’arrogent le droit (sous le contrôle de la commission des sondages) de décider ce qui constitue une information d’une fluctuation statistique, alors qu’ils n’ont aucun moyen de le faire.
Avec cela, rien d’étonnant à ce que 62 sondages parmi les 63 derniers aient donné Sarkozy gagnant. Mais est-ce une information ?

Je vois déjà les arguments de certains : et le vote Le Pen ? Car bien sûr, nous sommes tellement bien pensants, tellement intoxiqués (moi y compris) que nous y croyons à cette histoire : les gens mentent forcément au téléphone, tous confits de honte à voter Le Pen. Roland Cayrol nous expliquait donc sur le plateau de “Arrêt sur Images” il y a deux semaines, que, pour les confondre, il suffisait de leur poser des questions annexes. Comme exemple (que D. Schneidermann a dû se battre pour obtenir) il citait: “est-ce que vous êtes parfois en accord avec les thèses de M. Le Pen ?”. Ainsi, les sondeurs auraient une méthode infaillible pour confondre les électeurs honteux du FN, qui sont bien sûr des menteurs. Mais ceci prouve qu’il n’y a pas de remise en cause de leur méthode d’échantillonnage. Et s’ils n’arrivaient tout simplement pas à interroger suffisamment d’électeurs FN ? A quoi serviraient alors ces questions annexes ? Du coup, on utilise un artifice pour améliorer le rendement d’un machine bien rouillée. Vous croiriez, vous, à la compétence d’un informaticien qui vous explique qu’il a un bug, et que donc il est obligé d’ajouter un autre bug pour corriger le précédent ? Car si j’en crois cet article de Durand et al., le problème est essentiellement un problème de la méthode des quotas, qui semble bien connu … depuis au moins 15 ans ! Ainsi, lors des élections de 1992 au Royaume-Uni, les sondages, basés sur la méthode des quotas, se sont plantés lamentablement :

Though the British Election Panel Study arrived at a good reconstitution of the 1992 vote using a random sample, the reconstitutions by pollsters using quota samples differed substantially from the actual vote.

Bien que le “British Election Panel Study” permettait une bonne reconstitution des résultats de 1992 en utilisant un échantillonage aléatoire, les reconstitutions des instituts par la méthode des quotas différaient substantiellement des résultats observés.

Notez que la désormais fameuse méthode des quotas est dépassée sur cet exemple précis par une simple interrogation aléatoire. Dans la suite, on apprend même qu’on sait depuis 1995 qu’ajuster les résultats en fonction des élections précédentes (ce que CSA dit faire aujourd’hui pour redresser - Roland Cayrol ayant même déploré que ces têtes de linottes d’électeur oublient ce qu’ils ont voté à l’élection précédente - in “Arrêt sur Images” sur les sondages) peut même dégrader l’estimation. La difficulté est d’autant plus grande qu’on ne sait pas forcément en France quelle élection utiliser pour cette reconstitution.

Laissons la conclusion à Durand et al., ou plutôt à Jowell et al. :

One would be tempted to issue the same recommendation as Jowell et al.: “Our recommendation to pollsters and their clients, the mass media, is that they should invest in a program of methodological work as soon as possible. Sampling methods need to be improved, and the rather primitive methods of forecasting employed by the polls need to be supplemented by more sophisticated techniques that draw on the massive body of data about voting behavior and political attitudes that is freely available.”

Nous serions tentés de suggérer comme Jowell et al. : ” Notre recommandation pour les instituts et leurs clients, les mass-media, serait de rapidement se lancer dans un programme de travail méthodologique. Les méthodes d’échantillonage doivent être améliorées, et les méthodes de prédiction plutôt primitives utilisées par les sondeurs doivent être accompagnées de techniques plus sophistiquées se basant sur les masses de données à propos des habitudes de votes et des attitudes politiques librement disponibles”.

Référence :
Durand, Blais & Larochelle, Public Opinion Quarterly 2004 68(4):602-622

Add 28 Mars: Sebastiao Correia indique sur son blog un lien vers l’article en question en accès libre.

Popularity: 10% [?]