Manuel sur la collecte de données / Phase Quatre A: Méthode d’échantillonnages
Une fois terminées les phases deux et trois du manuel, les besoins en données pour le projet auront été identifiés ainsi que les lieux de collecte des données. Ce chapitre vous apprend comment collecter les données, comment formuler les questions et à qui les poser et combien de personnes seront interrogées.
Contents
Définition de l’échantillon
Comme indiqué dans la phase trois, un aperçu complet des données déjà disponibles et des données manquantes est nécessaire avant de commencer la collecte des données. Les données existantes provenant de sources externes sont appelées données secondaires, tandis que les données recueillies lors d’une enquête sont appelées données primaires. Ce chapitre décrit comment les données primaires sont collectées avec un exemple dans lequel une enquête sur les caractéristiques (impôt, niveau de scolarité, etc.) est réalisée auprès des habitants de cinq villes. Les villes sont de tailles différentes et comptent au total 3.200 ménages. Ces 3.200 ménages constituent la population cible de l’enquête.
Première étape : Définir l’échantillon et la population cible
Parfois, l’enquête peut exiger de couvrir la totalité de la population cible, comme dans le cas de la cartographie ou des études de populations. C’est ce qu’on appelle généralement un recensement. Cependant, les populations cibles sont généralement importantes et coûteuses à recenser. Dans cet exemple, il ne serait peut-être pas possible de visiter les 3.200 ménages des cinq villes. Au lieu de cela, il faudra choisir un échantillon plus petit, qui serait représentatif de la population et refléterait les caractéristiques de celle-ci. Une enquête réalisée sur un plus petit nombre de personnes cibles est appelée enquête par échantillon. Les résultats peuvent être déduits pour l’ensemble de la population à partir de cet échantillon représentatif. Les sections suivantes donnent les différentes terminologies associées aux enquêtes par échantillon, telles que la taille de l’échantillon et la conception de l’enquête. Ces concepts permettront de déterminer le nombre d’enquêtes nécessaires pour refléter avec précision les caractéristiques réelles d’une population et de choisir la meilleure méthode de sélection d’un échantillon de cette population.
Le comment de la collecte de données en trois parties : définition de l’échantillon, conception de l’enquête et sélection des collecteurs de données.
Définition de l’échantillon
Conception de l’enquête
Sélection du collecteur de données
Avant de commencer à concevoir l’enquête, il faut:
|
Deuxième étape : Définir la taille de l’échantillon
La première étape de l’échantillonnage consiste à déterminer la taille de l’échantillon approprié. Il n’y a pas de règles strictes pour sélectionner une taille d’échantillon. Une décision peut se prendre en fonction des objectifs du projet, du temps disponible, du budget et du degré de précision nécessaire.
Pour sélectionner la taille appropriée de l’échantillon, il faut déterminer le degré de précision à atteindre. Pour cela, il est nécessaire de définir l’intervalle et le niveau de confiance de l’échantillon.
L’intervalle de confiance, également appelé marge d’erreur, est plus ou moins un chiffre. C’est la plage dans laquelle se trouve la probabilité d’une réponse. L’intervalle de confiance le plus couramment utilisé est +/- 5. La marge d’erreur ou l’intervalle de confiance doit être réduit à +/- 2 pour augmenter le niveau de précision des données. Par exemple, si la question de l’enquête est « Le ménage paie-t-il des impôts? » et si 65% des ménages échantillonnés disent « oui », en utilisant un intervalle de confiance de +/- 5, on peut affirmer avec certitude que si vous aviez posé la question aux 3200 ménages, entre 60% (soit 65-5) et 70% (soit 65 + 5) auraient également répondu « oui ».
Le niveau de confiance indique le niveau de certitude à atteindre et est exprimé en pourcentage. Il représente à quel point les réponses de l’échantillon sélectionné reflètent les réponses de la population totale. Ainsi, un niveau de confiance de 95% signifie une certitude de 95%. Plus le niveau de confiance est bas, moindre est la certitude.
La plupart des enquêtes utilisent le niveau de confiance de 95% et un intervalle de confiance de +/- 5. Une fois rassemblés le niveau de confiance et l’intervalle de confiance, on peut être sûr à 95% que si tous les ménages (3200) avaient été interrogés, entre 60% et 70% des ménages de la population cible auraient répondu « oui » à la question « le ménage paie-t-il des impôts ? ».
La taille de l’échantillon peut être déterminée avec n’importe quel calculateur de taille standard tel que Survey Monkey ou Raosoft. En utilisant un calculateur standard de taille d’échantillon (comme on peut le voir dans le tableau 3) pour l’exemple des 3200 ménages dans cinq villes, on peut examiner la différence de taille des échantillons en fonction des différents niveaux et intervalles de confiance.
Option A
Si un intervalle de confiance de 5% est choisi et si l’on souhaite atteindre un niveau de confiance de 95%, la taille de l’échantillon sera de 345 ménages.
Option B
Si l’on souhaite avoir une plus grande précision et augmenter le niveau de confiance à 99%, la taille de l’échantillon recommandée serait de 551.
Option C
Pour une précision encore plus grande, on peut choisir un intervalle de confiance de 2% et un niveau de confiance de 99% et arriver à une taille d’échantillon de 1807.
Si le temps et les ressources le permettent, on peut opter pour des échantillons plus importants et choisir l’option C, et interroger 1807 ménages. Cependant, la qualité des résultats ne sera probablement que légèrement meilleure qu’avec l’option A ou B, car le taux d’amélioration de la précision diminue progressivement avec l’augmentation de la taille de l’échantillon. La taille de l’échantillon doit donc être déterminée par les objectifs de l’étude et les ressources disponibles.
Tableau 3: Calcul de la taille de l'échantillon
Facteurs | Description du facteur | Option A | Option B | Option C |
Population (no.) | La population totale que représente l’échantillon | 3,200 | 3,200 | 3,200 |
Niveau de confiance (%) | La probabilité que l’échantillon représente avec précision les caractéristiques de la population | 95% | 99% | 99% |
Intervalle de confiance (%) | La fourchette des réponses de la popula-tion peut s’écarter des échantillons | 5 | 5 | 2 |
Taille de l’échantillon calculée | 345 | 551 | 1807 |
Troisième étape : Définir la technique d’échantillonnage
Une fois la taille de l’échantillon choisie pour l’enquête, il faut définir la technique d’échantillonnage à utiliser pour sélectionner l’échantillon dans la population cible.
La technique d’échantillonnage qui convient dépend de la nature et des objectifs du projet. Les techniques d’échantillonnage peuvent être généralement divisées en deux types : l’échantillonnage aléatoire et l’échantillonnage non aléatoire.
Echantillonnage aléatoire :
- Echantillonnage aléatoire simple avec ou sans remplacement
- Echantillonnage aléatoire stratifié
- Echantillonnage aléatoire systématique
Echantillonnage non aléatoire :
- Echantillonnage intentionnel ou subjectif
- Echantillonnage de commodité
- Echantillonnage de jugement
- Echantillonnage par quotas
- Echantillonnage boule de neige
Tableau 4: Calcul d'un échantillon aléatoire stratifié
1 | 2 | 3 | 4 |
Lieu | Taille de la population | Pourcentage (%) de la population | Taille de l’échantillon stratifié |
Ville 1 | 1200 | 38% | 129 |
Ville 2 | 900 | 28% | 97 |
Ville 3 | 800 | 25% | 86 |
Ville 4 | 180 | 6% | 19 |
Ville 5 | 120 | 4% | 13 |
Total | 3200 | 345 |
Echantillonnage aléatoire
Comme son nom l’indique, l’échantillonnage aléatoire signifie littéralement choisir l’échantillon au hasard dans une population, sans aucune condition spécifique. Cela peut être fait en sélectionnant l’échantillon à partir d’une liste, telle qu’un annuaire, ou physiquement sur le lieu de l’enquête. Pour s’assurer qu’un ménage particulier n’est pas sélectionné plus d’une fois, celui-ci peut être supprimé de la liste. Ce type d’échantillonnage est appelé échantillonnage aléatoire simple sans remplacement. Si le choix est de ne pas supprimer les ménages en double de la liste, il s’agira d’un échantillonnage aléatoire simple avec remplacement.
L’échantillonnage systématique est la méthode d’échantillonnage aléatoire la plus couramment utilisée : la population totale est divisée par la taille de l’échantillon et le chiffre ainsi obtenu devient l’intervalle d’échantillonnage pour la sélection. Par exemple, si le choix est 20 échantillons sur une population totale de 100 personnes, l’intervalle d’échantillonnage sera cinq. L’échantillonnage systématique fonctionne mieux lorsque la population est homogène, c’est-à-dire quand la plupart des personnes partagent les mêmes caractéristiques. Dans notre exemple, l’intervalle d’échantillonnage serait neuf (3200/345 = 9 pour un niveau de confiance de 95% et un intervalle de confiance de 5%), ainsi chaque neuvième ménage serait sélectionné dans une ville.
Cependant, les populations sont généralement mixtes et hétérogènes. Il est nécessaire d’identifier les différentes strates ou caractéristiques et leur représentation réelle (à savoir le pourcentage) dans la population pour assurer une inclusion suffisante de toutes les catégories de cette population. Dans de tels cas, on peut utiliser la technique d’échantillonnage aléatoire stratifié, qui permet de calculer d’abord le pourcentage de chaque strate de la population, puis de sélectionner l’échantillon dans la même proportion, de manière aléatoire ou systématique, dans toutes les strates.
Si l’exemple précédent de cinq villes est choisi, il faudra, pour calculer un échantillon aléatoire stratifié, calculer le pourcentage de chaque ville dans la taille de l’échantillon de 345, comme indiqué dans le tableau 4. La troisième colonne indique, pour chaque ville, le pourcentage de la population totale (3200). Dans la quatrième colonne, la taille de l’échantillon (345) est répartie proportionnellement entre les cinq villes. Par exemple, la ville trois, soit 25% de la population totale, sélectionnera 86 ménages avec un intervalle d’échantillonnage de neuf (soit 800/86) comme pour l’échantillonnage systématique.
Echantillonnage non aléatoire
Dans l’échantillonnage non aléatoire, la sélection de l’échantillon se conforme à un ensemble de conditions particulières. Il est généralement utilisé dans des études où l’échantillon doit être collecté en fonction d’une caractéristique spécifique de la population. Par exemple, il faut peut-être sélectionner uniquement les ménages qui possèdent une voiture ou qui ont des enfants de moins de six ans. Pour cela, on ne choisirait consciemment que les 345 ou 551 ménages qui ont ces caractéristiques. Il également appelé échantillonnage intentionnel ou subjectif. Les méthodes d’échantillonnage non aléatoires comprennent l’échantillonnage de commodité, de jugement, par quotas et boule de neige.
Quatrième étape : Minimiser l’erreur d’échantillonnage
Il est normal de commettre des erreurs lors de la sélection des échantillons. Les efforts doivent donc toujours porter sur la réduction du nombre d’erreurs d’échantillonnage et rendre l’échantillon choisi aussi représentatif que possible de la population. La robustesse de l’échantillon dépend de la façon de minimiser l’erreur d’échantillonnage. L’étendue des erreurs commises lors de l’échantillonnage varie selon la technique ou la méthode choisie pour la sélection de l’échantillon.
Pour les échantillons choisis au hasard dans une population cible, les résultats sont généralement précédés de l’erreur d’échantillonnage +/-, qui correspond au degré de différence entre l’échantillon et la population. Une technique d’échantillonnage aléatoire peut être choisie si l’étude demande de connaître la grandeur de l’erreur d’échantillonnage acceptable pour l’enquête. L’échantillonnage aléatoire permet de réglementer la conception de l’enquête pour arriver à un niveau d’erreur acceptable. Dans un échantillon non aléatoire, l’erreur d’échantillonnage reste inconnue. Ainsi, une méthode d’échantillonnage aléatoire peut être choisie lorsque l’enquête par échantillonnage doit déduire la proportion d’une certaine caractéristique de la population cible. Mais si l’on veut connaître les perceptions des habitants concernant les lois fiscales ou les programmes scolaires, il faut recueillir autant de perceptions que possible et donc choisir une méthode non aléatoire dans les situations où les erreurs d’échantillonnage ou l’échantillonnage proportionnel ne sont pas une préoccupation. Les techniques d’échantillonnage non aléatoires peuvent être très utiles dans les situations où un échantillon ciblé doit être obtenu très rapidement avec des caractéristiques spécifiques.
Remerciements
Auteurs: Rajashi Mukherjee (Akvo.org)
Contributeurs: Camille Clerx (Akvo.org), Hans van der Kwast (IHE Delft Institute for Water Education), Nikki Sloan (Akvo.org), Stefan Kraus (Akvo.org)
AfriAlliance
L’Alliance de l’innovation sur l’eau et le climat entre l’Afrique et l’Europe (AfriAlliance) est un projet d’une durée de 5 ans, financé par le Programme européen pour la recherche et l’innovation H2020. Le projet vise à mieux préparer l’Afrique pour faire face aux défis futurs liés au changement climatique en stimulant le partage des connaissances et la collaboration entre les parties prenantes africaines et européennes. Dans ce projet, plutôt que de créer de nouveaux réseaux, les 16 partenaires d’Afrique et de l’Union Européenne consolideront les réseaux existants. Ces réseaux, constitués de chercheurs, de décideurs, de professionnels de terrain, de citoyens et d’autres intervenants clés, seront consolidés pour développer un mécanisme de partage des connaissances efficace et dédié à la résolution des problèmes. Ce processus sera coordonné par une plateforme d’innovation : l’Alliance Afrique-UE d’innovation pour l’Eau et le Climat. |
AfriAlliance est dirigée par l’IHE Delft Institute for Water Education (Directeur de projet : Dr. Uta Wehn) et sa mise en oeuvre court de 2016 à 2021. Le projet a reçu un financement du programme de recherche et d’innovation Horizon 2020 de l’Union Européenne dans le cadre de l’accord de subvention n ° 689162. |