dimanche 11 mars 2007

Les sondages politiques, côté cuisine: la marge d'erreur n'existe pas

Faire un sondage disait Fédéric Bon (1), revient à goûter la soupe pour savoir si elle est trop, ou pas assez salée. Je voulais, à mon tour, mettre mon grain de sel, dans le débat sur les sondages et prolonger mon précédent billet. Mais je m’aperçois qu’on trouve ailleurs d’excellentes explications et ressources

-tout particulièrement cette page de questions-réponses sur les sondages sur le site d’IPSOS, remarquablement claire et synthétique.

- cet article de Loïc Blondiaux, paru dans Le Monde du 9 mars,

- l’émission Arrêt sur Images sur France 5 du 11 mars.

Néanmoins, puisque qu'on se demande si souvent si les sondages peuvent se tromper, je voudrais aborder le problème de la marge d'erreur dans les sondages politiques français et expliquer pourquoi

On ne connaît pas la marge d’erreur des sondages politiques

Lorsqu’on effectue un sondage sur les intentions de vote, ses résultats ne sont qu’une approximation des intentions de vote de l’ensemble des électeurs. Ainsi, avec un échantillon de 1000 individus, la théorie statistique nous dit que la marge d'erreur est à peu près de + ou - 3%, avec un intervalle de confiance de 95%. Ou, plus clairement dit, si le résultat donné par le sondage est de 47%, il y a 95 chances sur 100 pour que le "vrai" résultat soit situé entre 44 et 50%(2)

Sauf... qu’on ne peut calculer la marge d’erreur qu’à partir d’échantillons constitués aléatoirement. Or la plupart des sondages politiques français, sinon tous, sont construits selon la méthode des quotas (on construit un échantillon qui reproduit les structures socio-démographiques de l'ensemble de l'électorat), pour laquelle on ne sait pas calculer scientifiquement la marge d’erreur. Les responsables des instituts considèrent que la marge d’erreur des sondages par quotas est équivalente à celle des sondages aléatoires. Mais les statisticiens disent qu’on n’en sait rien.

Donc, dans un sens, les commentateurs n’ont pas tort d’oublier de rappeler qu’il y a une marge d’erreur, puisqu’on ne la connaît pas!

Reste à savoir pourquoi en France, à quelques exceptions près et à l’inverse de ce qui se passe dans d’autres pays européens et aux Etats-Unis, nous ne faisons pas de sondages politiques aléatoires, mais seulement des sondages selon la méthode de quotas.

Je n’ai pas trouvé de réponse précise à cette interrogation, même dans l’ouvrage de référence de Loïc Blondiaux. Mais, il me semble qu’il y a sans doute deux explications.
- La première est économique. Les sondages par quotas sont plus rapides et moins coûteux à réaliser. Comme l’explique très bien le site de l’IPSOS : « Avec l’aléatoire, les sondés ne sont pas ' interchangeables '. Cela signifie que la personne tirée au sort doit être recontactée autant de fois que nécessaire. Grâce aux quotas, il est possible de remplacer un sondé par un autre qui a les mêmes caractéristiques socio-démographiques ». Nénamoins, même avec cette contrainte, dans bien de nombreux pays, on continue à faire des sondages aléatoires.Alors pourquoi pas en France?
- Deuxième raison: pour pouvoir réaliser un sondage politique aléatoire, il faut disposer d’une base dans laquelle figurent tous les électeurs et dans laquelle on va tirer au sort des individus. Or cette base n’existe pas en France. Contrairement à d’autres pays où il y a un fichier national des électeurs, en France les listes électorales sont constitués localement par chaque commune.


(1) Bon F., Mayer N. et Brunier M.-A., Les sondages peuvent-il se tromper? Paris: Calman-Levy, 1974.
(2) On peut réduire la marge d’erreur en augmentant la taille de l’échantillon. Par exemple, si interroge 5600 personnes, la marge d'erreur ne sera plus que de + ou - 1,3%. Mais cela renchérit le coût des sondages et allonge la durée de leur réalisation.

17 commentaires:

Thibault M a dit…

Cher Monsieur, ça n'est parce qu'on ne connait pas la marge d'erreur qu'elle n'existe pas ou qu'elle est nulle.
Les commentateurs ont tort de ne jamais parler des marges d'erreurs.

En y réfléchissant bien, ne pas mentionner de marge d'erreur en communiquant un sondage, c'est de la manipulation.

En effet le grand public n'est pas familier de la notion de marge d'ereur, seules les personnes ayant une formation scientifique le sont (et encore).

Publier un sondage dans le grand public avec la caution scientifique des statisticiens et la publication du volume de l'échantillon, donne au grand public les apparences de la précision scientifique.

Le grand public ne va pas de lui même supposer qu'il y a une marge d'erreur de l'ampleur que vous donnez dans votre édifiant exemple.

Je ne suis pas statisticien et je comprends bien d'apres ce que vous dites qu'on ne peut pas calculer la marge d'erreur d'un sondage par quota.
Il me parait plus civiquement honete de dire qu'il y a une marge d'erreur, qu'on ne peut la calculer, mais qu'à titre d'ordre de grandeur, une sondage avec le même échantillon mais avec une autre méthode donne une marge d'erreur de l'ordre de + ou - 3%.

La formulation que je viens de faire est longue mais le principe étant acquis, on pourrait en trouver une plus concise.

Bertrand a dit…

Quelle étrange idée d'écrire: "Donc, dans un sens, les commentateurs n’ont pas tort d’oublier de rappeler qu’il y a une marge d’erreur, puisqu’on ne la connaît pas!" Il faudrait plutôt dire: la marge d'erreur existe, et ces résultats ne sont pas les bons, alors on vous berne!! Que les sondeurs et les commentateurs oublient la marge d'erreur, on peut "comprendre" leur intérêt de le faire. Qu'un professeur leur donne raison, c'est franchement inquiétant! Les résultats de sondages du genre : 49%-51% ou 48%-52% ne veulent strictement rien dire du tout avec une marge d'erreur de plus ou moins 3%. De plus, en redistribuant les réponses d'indécis, on trafique une première fois les résultats. L'oubli de la marge d'erreur est la seconde opération de manipulation des chiffres. Si on ne peut pas calculer la marge d'erreur d'un échantillon par quotas, il faudrait tout simplement prendre un échantillon aléatoire. Sinon on reste dans la tromperie...

Fr. a dit…

"l’ouvrage de référence de Loïc Blondiaux"

On peut même le citer : il s'agit de La fabrique de l'opinion, où l'on trouve en exergue entre deux parties cette citation apocryphe de Charles de Gaulle : Quand je me demande ce que la France pense, je m'interroge.

Fr./phnk

Anonyme a dit…

Un sondage aléatoire réalisé sur un échantillon plus important serait-il donc tout aussi fiable - si ce n'est plus - que les études réalisées par les instituts selon la méthode des quotas ???

Th. a dit…

A Thibaud: votre formulation est juste et excellente. Mais, en effet, il faudrait en trouver une plus concise et que tout le monde, ou à peu près, comprend.
A Bertrand: oui il faudrait préciser à chaque fois d'une part ceux qui ne se prononcent pas ou refusent de répondre ET d'autre part, l'intensité des intentions de vote. En ce moment, de 35 à 50% de ceux qui disent avoir l'intention de voter Bayrou ne sont pas sûrs de leur choix, tandis qu'au moins 60% (et jusqu'à 75% dans certaines enquêtes) de ceux qui disent vouloir voter pour Le Pen sont eux sûrs de leur choix.
A Fr: l'ouvrage de Loïc Blondiaux est cité, mais dans le précédent billet que j'ai consacré aux sondages et vers lequel il y a un lien au début.
A anonyme: un sondage aléatoire n'est pas nécessairement plus fiable. Mais au moins on peut connaître la marge d'erreur.

Fr. a dit…

th. : autant/au temps pour moi, je ne l'avais pas vu.

Vos lecteurs attendent impatiemment un résumé (ou mieux la version originale sur HAL-SHS) de "La révolution ne sera plus télévisée" (Pouvoirs) -- je crois avoir lu l'inverse sur le blog :)

FrédéricLN a dit…

"Les responsables des instituts considèrent que la marge d’erreur des sondages par quotas est équivalente à celle des sondages aléatoires. Mais les statisticiens disent qu’on n’en sait rien."

Erreur répandue (y compris dans la littérature), mais erreur tout de même.

Jean-Claude Deville a produit dans les années 90 une excellente théorie des sondages par quotas, et même deux. Le résultat est que les sondages par quotas sont plus précis que l'aléatoire standard, mais, dans le cas des intentions de vote, seulement un peu plus précis.

Cela vaut la peine d'expliquer pourquoi, car cela donne une piste pour comprendre l'erreur de sondage.

"Aléatoire" veut dire que les répondants sont pris au hasard sur une liste exhaustive, par exemple un annuaire parfait.

"Quotas" veut dire : on les prend aussi au hasard, mais on regarde pour chacun si ses caractéristiques sont déjà surreprésentées dans l'échantillon, et si oui on le refuse et on passe au suivant.

Les sondages français ne sont donc pas moins "aléatoires" que ceux d'autres pays comme l'Allemagne. Ils ne sont pas non plus moins coûteux - c'est au contraire un surcoût.

Le problème ne vient pas des quotas. Il vient

1) (vous l'écrivez) de l'absence de liste parfaite dans laquelle tirer au hasard,
(et même dans les pays où il y en a, elles ne sont pas forcément utilisables en pratique pour les sondages)

2) (et surtout) du fait que les gens qui acceptent de répondre sont différents de ceux qui refusent.

Une enquête exhaustive sur un quartier a ainsi démontré que les sympathisants de J.-M. Le Pen répondent moins à l'enquête que les autres.

Ce type de "biais" est indépendant de la taille d'échantillon ... et pratiquement indépendant des quotas. C'est cela qui légitime les "redressements" des instituts. Le problème est que ces redressements sont totalement opaques.

Thomas a dit…

Bonjour, je me permets modestement de participer au débat, en commençant par signaler que j'ai écrit un court texte sur ce sujet sur le Blog "Sondages 2007". Ma conclusion était, est, la même que T. Vedel. Je suis étonné (on en apprend tous les jours) d'apprendre (cf. dernier commentaire) que la méthode des quotas est plus précise que l'aléatoire standard, et, dans le cas des intentions de vote, "seulement un peu plus précise". Je crois que tout le monde pourra être d'accord pour dire qu'un échantillon parfaitement aléatoire n'existe pas: même aux Etats-Unis, où la plupart des instituts travaillent de cette façon, les échantillons sont à un moment ou à un autre redressés. Un tel sondage suppose en outre que la base à partir de laquelle on sélectionne les individus ne comporte pas d'erreur: or, pour prendre l'exemple des listes électorales françaises (parmi les plus fiables du monde), il semble qu'il y ait une marge d'erreur irréductible de 4 à 5% (par exemple un électeur ayant déménagé n'a pas été radié de son ancien bureau, il est donc inscrit deux fois, une erreur d'administration a conduit a radié un électeur régulièrement inscrit, etc...). Une éventuelle piste pour faire progresser la question pourrait consister en l'examen des performances des sondages sur le "temps long": cf. BUCHANAN William, "Election predictions: an empirical assessment", Public Opinion Quarterly, 50 (2), 1986. Je n'ai plus les conclusions exactes en tête, mais je me souviens que l'auteur montre que des années 50 aux années 80, dans des pays très différents, les sondages ne se sont pas montrés plus performants dans l'estimation/prévision des résultats; de l'autre côté, il montre que le calcul des performances des sondages est un problème complexe: il y a plusieurs méthodes de calcul, et les conclusions auxquelles on peut parvenir sont sensiblement différentes en fonction de la méthode de calcul choisie. Tout va bien donc, le problème va continuer à nous occuper pour un moment... Un dernier mot: je fais l'hypothèse que la raison primordiale pour laquelle les instituts français travaillent avec les quotas est économique: dans ce cas, l'infrastructure détermine la superstructure...

Th. a dit…

A Thomas: Je devrais vous lire plus souvent car je m'aperçois que j'ai écrit deux billets quasi-identiques aux votres sur Sondages 2007( et que je n'avais pas lus! )
( Sinon, je vais rechercher la référence de Buchanan).

Moi aussi, j'ai été un peu surpris par le commentaire de Frédéricln.
Dans un sondage par quotas, il me semble que le pb vient de ce que plus on remplit chaque quota, plus la chance de certains individus de faire partie de l'échantillon diminue par rapport à celle d'autres individus, (alors que dans un échantillon aléatoire, la chance de faire partie de l'échantillon est la même pour tous les individus restant).
D'autre part, le fait que les gens acceptent ou non de participer à l'enquête est indépendant de la qualité de l'échantillon. C'est un biais qui se surajoute à celle-ci, (comme il y a également un biais dans la compréhension des questions, ou la sincérité des réponses). Ce biais affecte particulièrement les sondages en ligne. Ceux qui acceptent de répondre en ligne ont un profil assez différent de l'ensemble des internautes, et encore plus de l'ensemble des électeurs. Et, à mon avis, on doit redoubler de prudence dans l'interprétation des sondages en ligne.

FrédéricLN a dit…

@Thomas : eh bien non, ce serait vraiment moins cher sans quotas ...

@ Th. : "le pb vient de ce que plus on remplit chaque quota, plus la chance de certains individus de faire partie de l'échantillon diminue par rapport à celle d'autres individus, (alors que dans un échantillon aléatoire, la chance de faire partie de l'échantillon est la même pour tous les individus restant)."

Non (désolé !), c'est l'inverse. Le rôle des quotas - bien ou mal rempli - est précisément de compenser ce phénomène, "d'égaliser" les chances d'être dans l'échantillon. C'est du moins l'un des deux "modèles" de la théorie des quotas proposée par Jean-Claude Deville.

"le fait que les gens acceptent ou non de participer à l'enquête est indépendant de la qualité de l'échantillon. C'est un biais qui se surajoute à celle-ci"

Pas d'accord non plus : le principal critère de qualité d'une procédure d'échantillonnage, une fois fixée la base de sondage (annuaire, liste électorale ...) est de maximiser la probabilité de réponse et de minimiser les biais de non-réponse. Exemples de procédures d'échantillonnage : rappeler un même n° de téléphone 4 fois à des jours et heures différentes ; faire le 1er appel (à un n° donné) à une heure de forte probabilité de présence à domicile ; proposer un RV téléphonique à toute personne non disponible au moment de l'enquête ; etc.

Je suis, en revanche, d'accord avec votre remarque qui suit sur les sondages en ligne : simplement, il ne s'agit pas tant d'un phénomène d'accord/refus pour répondre, il s'agit d'un sondage mené au sein d'un groupe social spécifique (ex. : internautes fréquentant un site politique), groupe très atypique par rapport à l'ensemble de la population.

Th. a dit…

Je pense qu'une partie de notre discussion, et de nos (éventuels) désaccords, est liée à des questions de vocabulaire.

D'autre part, il semble que tous les statisticiens ne soient pas d'accord entre eux. Voir, par exemple, parmi d'autres, ce site de l'organisme national de statistique du Canada (l'INSEE canadien)très clair et très complet:
http://www.statcan.ca/francais/edu/power/ch13/probability/probability_f.htm

Ce site indique que les sondages probabilistes (ou aléatoires) sont généralement plus coûteux et plus longs à réaliser et qu'on ne peut calculer la marge d'erreur des sondages non probabibilistes, comme ceux réalisés selon la méthode des quotas.

Mais je suis prêt à admettre qu'il n'y a pas consensus sur la question.
Bien amicalement.
Th.

FrédéricLN a dit…

C'est effectivement uniquement une question de vocabulaire, qu'il est aisé de préciser !

a) Un sondage probabiliste au sens strict, comme en pratiquent tous les instituts de statistique nationaux, consiste à tirer un échantillon dans une base de sondage en imposant aux personnes tirées de répondre : dans ce cas, oui, l'intervalle de confiance se calcule rigoureusement : les fameux trois points. Et oui, c'est cher, puisqu'on insiste jusqu'à avoir la réponse.

b) En pratique il reste un taux de non-réponse (et d'autres sources de biais dans la base de sondage) qui peuvent rendre la marge d'erreur bien malaisée à maîtriser : Cf. le cas, récent et non solutionné, de l'enquête Emploi de l'INSEE.

c) Concernant les instituts de sondages privés qui font des enquêtes en 24 ou 48 h pour mesurer des intentions de vote, il n'est dans aucun pays possible de pratiquer la méthode "a" ci-dessus.

d) Certains pays disposent de méthodes "plus probabilistes" qu'en France, au sens où la liste qui sert de base de sondage est moins biaisée que ne l'est l'annuaire du téléphone.

e) D'autres pays ont des listes aussi problématiques que chez nous, des non-réponses en pagaille, et ne s'en soucient pas : ex. Allemagne.

f) Chez nous, sachant qu'on a des listes problématiques et des biais de non-réponse, on tente de compenser ces problèmes par les quotas, qui obligent à des surcoûts par rapport au cas "e".

g) ... Mais à mon humble avis, s'agissant des sondages d'intentions de vote, ces quotas sont des emplâtres sur des jambes de bois. Ce que confirme d'ailleurs l'ampleur des "redressements" opérés par les instituts.

h) Mais alors, pourquoi dire qu'on a une "marge d'erreur de trois points" ? Bah, principalement histoire de rappeler qu'il y a une marge d'erreur. Et il y a une autre raison. C'est que, "mis à part les biais", la marge d'erreur est bien d'à peu près trois points (même réduite d'un petit poil par les quotas). Car "mis à part les biais", les répondants sont bien tirés au hasard, au sens où, avant de les interroger, on n'a aucune idée de leurs réponses (il n'y a pas de corrélation mécanique entre les réponses de personnes successivement interrogées).

Espérant que cette clarification du vocabulaire réconciliera les points de vue !

jphi a dit…

Y at-il un matheux dans la salle?
Intuitivement, je trouve très surprenant qu'une longue succession de sondages donne systématiquement le même candidat en tête, alors que leurs scores ne diffèrent que par quelques points! Comme T.Vedel l'explique, l'erreur est de l'ordre de 3% pour des scores de l'ordre de 50/50. Ne devrait on pas observer, par le seul fruit du hasard, à cause de cette marge d'erreur et de la grande proximité des scores, une inversion de l'ordre premier/deuxième de temps en temps... ?? Autrement dit, quelle est la probabilité pour que parmi les nombreux sondages réalisés, aucun ne donne S. Royal en tête? J'ai le sentiment (peut-être erroné) que le calcul de cette probabilité est trivial pour un mathématicien/statisticien. J'aimerais beaucoup connaitre cette valeur!

FrédéricLN a dit…

@ jphi : c'est bien sûr un lissage manuel par les sondeurs, de leurs résultats bruts. Voir le bon billet mathématisé de Tom Roud
http://tomroud.blogspot.com/2007/03/peut-on-quantifier-la-pertinence-dun.html

FrédéricLN a dit…

En complément, une source qui explique tout ça en Français assez accessible (tout de même un poil de maths) - PDF en lien

TUTU a dit…

結婚 相談
お見合いパーティー
新座市 不動産
川越市 不動産
柏市 不動産
春日部市 不動産
センチュリー21 埼玉
海水魚
吉田不動産
貸し事務所
エアコン 故障
エルメス バッグ
家電 レンタル
弁護士 銀座
株 初心者
J-Payment
お見合い
アヴァンス
霊園
ハワイ旅行
オフィス レイアウト
介護
IP電話
映像制作
債務整理 無料相談
DVDコピー
株式 情報
時計修理
USBドングル
折込広告
老人ホーム 横浜
恵比寿 賃貸
カイロプラクティック
厨房機器
バイク便
川西賃貸
債務整理 大阪
ECサイト 構築
ピアノレンタル
教員採用試験
債務整理
エアコン工事
名古屋 自己破産
越谷 不動産
小さな靴
カフェポッド
商品先物取引
南青山 エステ
福生市 不動産
募金
三軒茶屋 マンション
ピアノ教室
RMT
マンション 貸す
過払い
フランチャイズ 募集
婚活
コーヒーワゴンサービス
自由が丘 マンション
彫刻刀
レストラン 求人
オーガニックコットン
スキューバーダイビング
港区 不動産
子宮筋腫 漢方
グッチ バッグ
店舗デザイン
今井クリニック
育毛 東京
日商簿記
志木 一戸建て
冬虫夏草
乳がん
オフィス賃貸
ビジネス英会話
ビジネススクール 英語

泉悠 a dit…

http://vedel.blogspot.jp/2007/03/les-sondages-politiques-ct-cuisine-la.html
及び
https://www.blogger.com/comment.g?blogID=9836304&postID=3756453352261656621
より当社宛て
http://www.a-ori.com
へ貼られているリンクは
当社の意図しないリンクである為、早急に削除してください。
「折込広告」から発信されているリンクです。

宜しくお願い致します。