Hoofdstuk 5 KANSVERDELINGEN ALS LINK TUSSEN DE STEEKPROEF EN POPULATIE: DE BINOMIAAL VERDELING ALS EERSTE VOORBEELD

Zoals al eerder aangehaald is het primaire doel van statistische analyses om op basis van een steekproef uitspraken te doen over de populatie. Een eerste belangrijke concept is dat wanneer je een steekproef neemt er zgn. sampling variatie optreedt. Met andere woorden, een steekproef geeft geen exact beeld van de populatie, maar zal er in de meeste gevallen (een beetje) van afwijken. Ook zal, wanneer je een tweede steekproef zou nemen of een experiment zou herhalen, de nieuwe steekproef meestal een verschillend resultaat opleveren. De ‘kunst’ is nu om die sampling variatie in te schatten en te gebruiken om een gefundeerde uitspraak te doen over de populatie en dit in probabilistische termen. Dit vereist een tweede concept, namelijk dat om dit te kunnen verwezenlijken wordt het proces dat aan de basis ligt van het nemen van de steekproef uit een populatie beschreven wordt aan de hand van een realistische kansverdeling. Deze mathematische weerspiegeling van de populatie vormt de link tussen wat we kunnen zien (de steekproef), en de populatie die in zijn globaliteit onbereikbaar is (omdat niet alle objecten in een populatie gemeten/bestudeerd kunnen worden). Het is daarom cruciaal dat de steekproef aan de eisen van een lukrake steekproef voldoet, om zo een onvertekend beeld van de populatie te bekomen (zie hoger). Pas dan kan, gebruik makend van eigenschappen van de kansverdeling, een correcte uitspraak over de populatie geformuleerd worden. Om dit nog abstracte concept concreet te maken gaan we gebruik maken van een hypothetisch experiment met behulp van de binomiale kansverdeling.

Stel, er wordt je gevraagd om na te gaan wat het effect is van een insecticide op de overleving van de Indische meelmot (een pestsoort). In een eenvoudig experiment stel je 50 rupsen bloot aan de normale dosering van het insecticide en je wilt nagaan welke proportie van de rupsen zal sterven. Na je experiment stel je vast dat 34 rupsen de behandeling niet overleefd hebben. Het onderliggende proces is binair, ofwel sterft de rups (wat we hier als een ‘succes’ beschouwen) ofwel niet (wat geen succes is). De meest gebruikte kansverdeling voor dit type van data is de binomiaal verdeling. Voor een experiment van steekproefgrootte n (in ons hypothetisch experiment is n=50) met x successen (in ons experiment is x=34), kan de binomiale kansverdeling als volgt geschreven worden:

\[p(x|n,\pi) = \frac{n!}{x!(n-x)!}\pi^x(1-\pi)^{n-x}\]

Het linker lid van deze formule moet je lezen als ‘de kans om x successen te bekomen bij een experiment met steekproefgrootte n en kans op succes (van de populatie) gelijk aan \(\pi\) is gelijk aan’ het rechter lid van de formule. We noemen dit een conditionele kans, waarbij de steekproefgrootte n en de parameter \(\pi\) de vorm van de kansverdeling gaan bepalen, en dus ook de kans om bepaalde uitkomsten te bekomen. De parameter \(\pi\) weerspiegelt de werkelijke kans op succes in de populatie, en deze moeten we nu proberen te schatten aan de hand van onze steekproef, namelijk 34 successen op een totaal van 50. We kunnen dat doen door voor elke mogelijke waarde van \(\pi\) de conditionele waarschijnlijkheid of kans te berekenen om 34 successen op een totaal van 50 te bekomen. Hieronder volgt een stukje R code om dit te berekenen:

Wanneer we deze conditionele kansen plotten stellen we vast dat het maximum bereikt wordt voor \(\pi\)=0.68. We noemen dit de maximale kans schatter omdat deze waarde van \(\pi\) de hoogste kans heeft om aanleiding te geven tot 34 op 50 successen. We bekomen hierbij een schatter voor \(\pi\), namelijk \(\hat\pi=\frac{x}{n}\). Merk op dat dit een manier van schatten is dat je intuïtief ook zou uitgevoerd hebben, maar we hebben het nu ook geïllustreerd dat dit een logische en gefundeerde keuze is. Wanneer we met een schatter werken, zetten we een ‘hoedje’ op het symbool, om het onderscheid te maken met de parameter van de populatie.

We hebben nu een eerste stap gezet richting uitspraak over de populatie. We kunnen al stellen dat de meest waarschijnlijke kans op succes – de proportie rupsen dat sterft door de behandeling met insecticide – gelijk is aan 68%.

Dit is slechts een klein deel van het antwoord. Belangrijker is dat we nu ook gaan inschatten hoe nauwkeurig de schatting is gebeurd. Met andere woorden, we hebben een spreidingsmaat nodig voor de schatter \(\hat\pi\). Zonder in detail te treden kan aangetoond worden dat de variantie van de schatter als volgt berekend kan worden:

\[\hat\sigma_\hat\pi^2 = \frac{\hat\pi(1-\hat\pi)}{n}\]

## [1] 0.004352

De geschatte variantie van de schatter is gelijk aan 0.004352.

Als we ook even alle details en theorie laten voor wat het is en aannemen dat de onder- en bovengrens van een 95% betrouwbaarheidsinterval berekend kunnen worden door 2 maal de vierkantswortel van de variantie van de schatter (dit noemen we dan weer de standaardfout of standard error) van de schatter af te trekken en erbij op te tellen krijgen we volgende code:

## [1] 0.5480606
## [1] 0.8119394

We kunnen dus besluiten dat we voor 95% zeker zijn dat de werkelijke kans op succes tussen 55 en 81% ligt.

Opmerking: Wanneer deze benadering niet gebruikt kan worden, bv. wanneer de steekproefgrootte klein is en/of de geschatte kans op succes dicht bij 0 of 1 ligt, kan met behulp van de functie binom.test, een exact betrouwbaarheidsinterval bekomen worden:

## 
##  Exact binomial test
## 
## data:  x and n
## number of successes = 34, number of trials = 50, p-value = 0.01535
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.5330062 0.8047958
## sample estimates:
## probability of success 
##                   0.68

5.1 OEFENINGEN

  1. Wat is de kans op uitkomen van eieren van de nijlkrokodil? Een bioloog heeft van 10 nesten de eieren (375 in totaal) in een broedstoof bij een constante temperatuur van 35 graden Celsius gehouden. In totaal komen 239 eieren uit. Bereken de kans op uitkomen alsook het 95% betrouwbaarheidsinterval gebruik makend van de methodes uit dit hoofdstuk.

  2. Wat is de kans op het voorkomen van de grote leverbot bij Vlamingen? Een arts vraagt aan 16 vrijwilligers (8 mannen en 8 vrouwen) een bloedtest te laten uitvoeren. Tien personen (4 mannen en 6 vrouwen) stemden hiermee in. Uit de labo analyses bleek dat 1 persoon besmet was. Bereken de kans op voorkomen van de leverbot bij Vlamingen en het bijhorende 95% betrouwbaarheidsinterval.