Les biais des enquêtes et la marge d’erreur
Dans mon billet vous décrivant 8 types de billets possibles à rédiger, je vous parlais de l’utilisation des études réalisées par diverses sources ou organismes.
Ce type de billet est relativement facile à rédiger, comporte l’un ou l’autre graphique ce qui est toujours un élément visuel intéressant… mais la démarche souvent oubliée est d’avoir un regard critique sur la méthodologie et l’interprétation des résultats. Voici quelques éléments (non exhaustifs) qui vous permettrons peut être, en tout cas, je l’espère d’être un peu attentif avant de tirer des conclusions hâtives.
Cela fait pas mal de temps que j’ai le sujet de ce billet en tête mais ce qui m’a décidé, c’est la publication des résultat de l’ « enquête » du journal Le Soir (résultats) pour laquelle, je vous avais sollicité. J’en profite pour vous remercier puisque j’ai pu atteindre l’honorable place de 5ème…. même si nous le verrons ci-dessous, cela ne représente en vérité pas grand chose.
1-. L’échantillonage
a. La constitution
La constitution de l’échantillon peut induire des erreurs, ne fut-ce que par le choix qui doit être posé. Les deux catégories de méthodes sont les probabilistes et non probabilistes.
Après le choix de la méthode, il faut encore quelle soit appliquée sans erreur.
b. La taille et la marge d’erreur
- Quand vous réalisez une enquête sur échantillon, la notion de marge d’erreur apparait. Les réponses de votre échantillon n’ont qu’une certaine probabilité de reproduire l’avis de l’univers étudié.
Prenons comme exemple illustratif cet article qui a été rédigé suite à un sondage sur l’approbation du traité de Lisbonne par les Irlandais.Le titre : « Les Irlandais approuveraient à 51 % le traité de Lisbonne »
Extraits : « Frappés de plein fouet par la crise économique internationale, les Irlandais approuveraient aujourd’hui à 51 % le traité européen de Lisbonne, rejeté par 53,4 % lors du référendum organisé en juin 2008 dans leur pays, selon un sondage de The Irish Times/TNS, à paraître lundi. »
« Ce sondage a été mené les 9 et 10 février sur un échantillon représentatif de mille électeurs. »
SourceLa marge d’erreur est calculée en fonction d’un intervalle de confiance. L’intervalle de confiance le plus utilisé est de 95%.
Pour calculer la marge d’erreur en utilisant cet intervalle, vous pouvez appliquer la formule :
Marge erreur = 1,96 * /¯ (p*(1-p)/n), avec p est le pourcentage de réponse et n la taille de l’échantillon.
La marge d’erreur est maximale lorsque p=50
La marge d’erreur avec un intervalle de confiance de 95% est donc de 3,1% pour un sondage réalisé auprès de 1000 personnes.
Cela signifie que le texte de l’article cité ci-dessus devrait dire que le OUI en Irlande au moment su sondage aurait obtenu entre 47,9 % et 54,1 % - Les marges d’erreurs s’appliquent d’un sondage à l’autre
Une autre erreur coutumière est de comparer deux résultats de sondages réalisés à deux moments différents et de constater une croissance ou une diminution.
Exemple :
un sondage réalisé auprès de 1000 personnes avec une marge d’erreur de plus de 3% donne un taux de « oui » égal à 51% en cas d’un référendum. Si le suivant donne le « Oui » vainqueur avec 52%, on ne peut pas parler de progression.
PS : Vous remarquez que dans la formule du calcul de la marge d’erreur la taille de la population étudiée n’apparait pas.
2-. Les erreurs de rédaction des questions (voici des erreurs courantes)
a. Le recoupement
Quel âge avez-vous ?
- 20 ans ou moins
- entre 20 et 40 ans
- 40 ans et plus
Il vaudrait mieux donner comme choix :
- moins de 20 ans
- 20-40 ans
- plus de 40 ans
- …
b. Alternatives manquantes
Qu’aimez-vous prendre au petit déjeuné ?
- Lait
- Thé
- Café
Que pourra choisir celui qui préfère le chocolat chaud ou le jus d’orange ? Si vous proposez des choix, soyez exhaustif ou prévoyez une case Autre avec l’éventuelle possibilité de préciser.
c. Les échelles différentes :
Allez-vous au cinéma :
- Jamais
- Moins d’une fois par mois
- Moins d’une fois par semaine
- Plusieurs fois par mois
- Plusieurs fois par semaine
Mélanger des mois et des semaines est un risque énorme de biais : jamais, c’est aussi moins d’une fois par mois et aussi moins d’une fois par semaine.
3-. L’administration du questionnaire
a. Face à face
La présence de l’interviewer introduit en elle-même un biais. Le fait d’être questionné et d’être exposé à un éventuel jugement peut instaurer une certaine méfiance dans le chef du répondant.
La personnalité de l’interviewer va aussi avoir une influence de par son apparence, son sexe, ses attitudes,…
La communication corporelle de l’interviewer a aussi une incidence : ses mimiques, regards, … En prêtant attention volontairement ou non, le répondant peut deviner ce qu el’interviewer veut entendre et se faire influencer.
b. Internet
Les enquêtes en ligne de plus en plus nombreuses génèrent très souvent une erreur de couverture. C’est à dire que l’échantillon des répondants ne correspond pas à la population à étudier.
Dans le cas du sondage du journal Le Soir, la seule question posée était le choix d’un Twittos dans une liste d’une soixantaine de username.
Voici une série d’erreurs engendrées :
- Les répondants pouvaient ne pas être membre de Twitter
- Ils pouvaient participer plusieurs fois au sondage
- Les contacts du compte pour qui voter n’ont pas forcément été informé du sondage et ont donc été incapable de se manifester.
- …
4-. Interprétation des résultats
a. Ne pas parler de la taille de l’échantillon ni de la marge d’erreur
b. Oublier de tenir compte de la marge d’erreur pour invoquer une progression
5-. L’enquête du soir
Les premiers ont réussi à mobiliser des personnes pour voter pour eux. Ces gens ne sont peut être même pas sur Twitter. Il est d’ailleurs amusant de constater que les résultats ont été plus partagés sur Facebook que sur Twitter :
Le nombre de followers ne semble pas avoir eu une influence prépondérante puisqu’un Twittos que j’apprécie beaucoup comme @ChrisLefevre n’est « que » 19ème alors qu’il a près de 3.500 followers. Je n’oserais pas en conclure (parce que je ne le crois pas) que cela confirme ce billet qui dit que Nombre de followers et influence sont deux choses pas forcément corrélées. voir mashable
Dans les 4 premiers, je connais uniquement @michelhenrion car j’ai eu des échanges sympas avec lui avec un autre compte Twitter à moi @tetedeliste
Pour conclure, même si l’enquête du soir comporte des biais, il est toujours sympa de remporter ce type d’enquête (mes félicitations à @frederiktibau) ou de bien y figurer.
Un autre aspect positif, depuis l’affichage des résultats, j’ai vu le nombre de mes followers belges augmenter sensiblement. Je leur souhaite bienvenue à bord.
— Posted on novembre 28, 2010 at 6:59 by Vansnick
— enquête