In onderzoek wordt vaak met een steekproef gewerkt omdat het onderzoeken van de gehele populatie te veel tijd kost, niet mogelijk is of te kostbaar is. De keuze voor en de opzet van de steekproef maakt deel uit van het onderzoeksontwerp.
Representatieve steekproef
De steekproef moet representatief zijn: een goede afspiegeling van de gehele populatie. Dat is een voorwaarde om – met behulp van statistiek – uitspraken te doen over de gehele populatie. Daar zit overigens meteen het probleem: we weten pas zeker of een steekproef representatief is, wanneer we de gehele populatie kennen; maar als we die gehele populatie zouden kennen, was de steekproef niet meer nodig…
Steekproef trekken
Er zijn verschillende manieren om een steekproef te trekken. We noemen er hier twee:
- Aselecte steekproef: de steekproef wordt volstrekt willekeurig gekozen uit de totale populatie. U kiest bijvoorbeeld uit het telefoonboek de eerste persoon op elke rechter bladzijde.
- Gestratificeerde steekproef: hier wordt de totale populatie eerst in groepen verdeeld en daarna vindt er per groep een aselecte steekproef plaats. U kiest bijvoorbeeld eerst een aantal woonplaatsen en neemt dan uit elke woonplaats steekproeven met gelijke omvang. Op die manier kunt u ook voor kleine woonplaatsen een uitkomst met dezelfde betrouwbaarheid krijgen.
Bij steekproeven is de zogenaamde non-response altijd onderwerp van discussie: verschilt de groep die niet heeft gereageerd van de groep die wel heeft gereageerd (op de kenmerken die we onderzoeken). Zo is het niet uitgesloten dat bij een klanttevredenheidsonderzoek juist de zeer ontevreden klanten zullen reageren. Bovendien verkleint de non-response de uiteindelijke steekproefomvang en daarmee de betrouwbaarheid van de resultaten (zie hierna).
Steekproefomvang: keuzes
De vraag van menig steekproeftrekker: hoe groot moet mijn representatieve steekproef zijn om betrouwbare uitspraken te kunnen doen over de populatie die ik onderzoek? Opmerkelijk is dat de juiste steekproefomvang niet in de eerste plaats afhangt van de populatieomvang. Het is dus niet altijd zo dat u bij een grotere groep ook een evenredig grotere steekproef nodig hebt. Het heeft dus geen zin de gewenste steekproefomvang in een percentage uit te drukken. De te kiezen steekproefomvang hangt van de volgende factoren af:
- De betrouwbaarheid (‘confidence level’) waarmee u wilt werken. Onderzoekers werken vaak met een betrouwbaarheid van 95%. Bij een bepaalde betrouwbaarheid kan statistisch een betrouwbaarheidsinterval worden berekend. De betrouwbaarheid geeft dan aan hoe groot de kans is dat bij (denkbeeldige) nieuwe steekproeven de werkelijke waarde opnieuw binnen dit betrouwbaarheidsinterval ligt.
- De nauwkeurigheid (‘margin of error’) van de uitkomst in termen van een maximale fout onder en boven de gevonden waarde. Bijvoorbeeld: ± 0,5 bij waarden van 1 tot 5. Voor een betere nauwkeurigheid is een grotere steekproef nodig.
- De spreiding (standaarddeviatie, ‘standard deviation’) van de waarden (scores) die in de populatie voorkomen. Des te kleiner de spreiding, des te kleiner kan de steekproef zijn. Ga maar na: wanneer in een bepaalde populatie iedereen dezelfde lengte heeft (spreiding = 0), heeft u maar één steekproef nodig om die lengte te vinden. Wanneer u onderzoek doet naar fracties (percentages), is de spreiding maximaal wanneer 50% van de groep het onderzochte kenmerk heeft en de andere 50% niet. De spreiding in de populatie is meestal niet bekend en moet dan worden geschat.
- Wanneer de steekproefomvang groter is dan ongeveer 10% van de totale populatie, kan er nog een reductie worden toegepast.
Steekproefomvang: berekenen
Voor het berekenen van de steekproefomvang zijn op internet verschillende ‘calculators’ te vinden. Bijvoorbeeld op de (Engelstalige) website van Polaris (klik op de website op de plaatjes, ook al lijken het geen links):
Op de site kunt u kiezen voor een calculator voor steekproeven bij het onderzoeken van proporties (‘proportions’, ook fracties of percentages) of bij gemiddelden (‘means’). Bedenk dat de betrouwbaarheid en nauwkeurigheid alleen geldig zijn bij een representatieve steekproef die aselect is uitgevoerd. Bovendien dient er bij de eigenschap (variabele) die u onderzoekt sprake te zijn van een normale verdeling (zie voor de betekenis hiervan, de referenties in de kolom rechts op deze pagina). De nauwkeurigheid van de schatting die u maakt voor de standaarddeviatie (bij gemiddelden) is uiteraard ook een bepalende factor.
- Steekproefomvang (verschil bij gemiddelden en fracties).
- Hoe bereken je steekproefgrootte (vooraf) en de (on)nauwkeurigheid (achteraf)?.
- Normale verdeling.
- Sample Size Calculator (Engels). N.B. Klik op de website op de plaatjes, ook al lijken het geen links.
- Steekproefcalculator (Nederlands).
- Zie ook de overige onderwerpen in de Rubriek Onderzoek.