Hoofdstuk 1 INLEIDING

1.1 WAAROM STATISTIEK

Statistiek komt vaak in een eerder negatief daglicht te staan. Het is ’ingewikkeld’, ’te theoretisch’, ’te abstract’ en met statistiek ’kan je alles bewijzen’. Hopelijk kan deze cursus je van het tegendeel bewijzen. Statistiek is zeker niet eenvoudig, maar zowat alle technieken berusten op een gezamenlijke achterliggende ‘filosofische’ benadering. Wat zeker niet het geval is, is dat je met statistiek alles kan bewijzen. Eigenlijk kan je er niets mee bewijzen. Statistiek is een set van technieken die je toelaten om iets te zeggen over een onzekere uitkomst. En de besluiten die je formuleert geschieden in termen van onzekerheden of kansen. Statistiek is sinds jaar en dag een vak, niet zelden een gevreesd vak, in een groot aantal studierichtingen aan universiteiten en hogescholen. De reden hiervoor is dat heel wat mensen tijdens hun beroepswerkzaamheden vroeg of laat met problemen van gegevensanalyse geconfronteerd worden. Een degelijke statistische achtergrond laat hen niet enkel toe om de gegevens te analyseren, en op basis van de analyse concrete beslissingen te nemen, maar het geeft hen ook een voorsprong bij het verzamelen van gegevens. Dat statistiek desondanks door de meeste studenten niet onmiddellijk als nuttig wordt ervaren is veelal te wijten aan het feit dat zij bij het volgen van de cursus nog niet in aanraking gekomen zijn met allerhande praktische beslissingsproblemen waarmee biologen en onderzoekers dagelijks geconfronteerd worden. Typisch gaan studenten pas bij het uitvoeren van hun thesiswerkzaamheden inzien dat statistiek ook voor hen nuttig is. De vele voorbeelden in deze basiscursus zijn bedoeld om deze bewustwording een aantal jaar te vervroegen.

1.2 WAT IS STATISTIEK

Het woord statistiek klinkt iedereen wellicht vertrouwd in de oren. Een statistiek verwijst doorgaans naar numerieke informatie, bijvoorbeeld informatie over:

  • de bevolking van een land: geboorte- en sterftecijfers, immigraties en emigraties, . . . (bevolkingsstatistieken),
  • de landbouw: verkoop van biologische producten, aantal bedrijven en oppervlakte besteed aan landbouw, varkensstapel, zuivelproductie, . . . (landbouwstatistieken),
  • de economie: tewerkstellings- en werkloosheidscijfers, investeringen, prijzen, bruto nationaal product (BNP), . . . (economische statistieken),
  • een bedrijf of sector: verkoopcijfers, resultatenrekening, groei, aanwervingen, afvloeiingen, . . . (bedrijfsstatistieken).

Meer formeel kan statistiek gedefiniëerd worden als het geheel van methodologieën voor het verzamelen, voorstellen, analyseren en interpreteren van data of gegevens. Hieruit blijkt dat de statistiek een heel algemene hulpwetenschap is, voor wie in nagenoeg elke werkomgeving een belangrijke rol is weggelegd. Toepassingen van de statistiek in de geneeskunde, de economie, de scheikunde, de fysica, de biologie zijn legio, maar ook in de literatuurwetenschap, de geschiedenis, de politieke wetenschappen, de criminologie en zelfs de musicologie wordt statistiek gebruikt.

1.3 ONDERWERP VAN STATISTIEK

In de voorbeelden uit de vorige sectie worden telkens één of meerdere vragen onderzocht over een populatie van objecten of elementen of over een proces dat objecten of elementen genereert. De gegevens over de populatie of het proces worden bekomen door één of meerdere eigenschappen of karakteristieken van hun elementen te registreren. Deze eigenschappen of karakteristieken worden variabelen genoemd. Deze naam geeft aan dat de waarde van de eigenschap varieert van element tot element. Daarom wordt de statistiek soms de studie van de variabiliteit genoemd. Het is meestal onpraktisch om alle elementen uit een populatie of gegenereerd door een proces in een studie op te nemen. In die gevallen werkt men slechts met een deel van de elementen: de lukrake steekproef. Het is niet altijd eenvoudig om steekproefgegevens op een correcte manier te verzamelen. Aan het verzamelen van gegevens moet bij elk statistisch onderzoek dan ook de nodige aandacht besteed worden. In deze context wordt soms de afkorting GIGO gebruikt. Dit staat voor garbage in, garbage out en slaat op het feit dat de meest geavanceerde statistische methoden weinig tot geen betrouwbare informatie kunnen halen uit gegevens van slechte kwaliteit. De in een steekproef verzamelde gegevens kunnen op allerlei manieren overzichtelijk voorgesteld worden met behulp van tabellen en grafieken. Daarnaast laat ook het berekenen van een aantal kenmerkende waarden of statistieken, zoals een gemiddelde, het toe om een overzichtelijk beeld van een verzameling gegevens samen te stellen. Het voorstellen van steekproefgegevens valt onder de noemer beschrijvende of descriptieve statistiek. Het beschrijven van de steekproefgegevens is in veel gevallen slechts een eerste stap in een onderzoek. Een tweede onderdeel omvat het analyseren en interpreteren van de steekproefgegevens. Deze analyse en interpretatie zijn vereist om een antwoord te vinden op een aantal vooraf gestelde vragen over de populatie of het proces, om gestelde hypothesen te testen, of om de waarde of kwaliteit van een voorgesteld statistisch model te toetsen. De antwoorden en conclusies die hierbij bekomen worden, worden veralgemeend naar de populatie of het proces. Deze veralgemening wordt inferentie genoemd, wat meteen de benaming inferentiële statistiek verklaart. Andere vaak gebruikte benamingen zijn wiskundige statistiek, verklarende statistiek en steekproeftheorie. De veralgemening van conclusies betreffende een reeks steekproefgegevens naar een gehele populatie of naar een proces is de zwakke plek van de statistiek: op basis van steekproefgegevens kunnen nooit met zekerheid uitspraken gedaan worden over de populatie of het proces in kwestie. Aan de gedane uitspraken kan wel een betrouwbaarheid meegegeven worden indien bij het verzamelen van de steekproefgegevens statistisch verantwoorde methoden gebruikt werden. Deze graad van betrouwbaarheid wordt uitgedrukt met behulp van een kans, zodat een basiskennis van de kansrekening vereist is om statistische methoden te kunnen begrijpen en toe te passen.

1.4 HET ALGEMENE PRINCIPE VAN STATISTIEK

Statistische methodes gaan uit van een populatie die beschreven wordt aan de hand van een random variabele X. De populatie stelt de grote groep voor die we bestuderen, zoals bv. de koolmezen van West-Europa, de veldkrekels op de Kalmthoutse hei, de bacteriën in de bodem van Spitsbergen, … . Het hoeft weinig overtuigingskracht om in te zien dat in de meeste praktische toepassingen, het onmogelijk is om de hele populatie te bestuderen. Omdat we maar een deel van de populatie kunnen bestuderen gaan we een lukrake steekproef nemen en de populatie trachten te beschrijven aan de hand van deze steekproef. Om dit mogelijk te maken, wordt er een onderliggende random variabele

verondersteld die op zijn beurt beschreven kan worden door een probability density function, of kortweg pdf. Deze kansverdeling wordt bepaald door een aantal parameters, die op hun beurt geschat zullen worden aan de hand van een steekproef. Gebruik makend van bepaalde kenmerken van de pdf kunnen dan hypotheses getest worden en besluiten geformuleerd over de populatie die bestudeerd werd. Deze aanpak wordt schematisch weergegeven in bovenstaande figuur. Op dit moment klinkt dit allemaal nog erg abstract. We gaan dit schema stap voor stap opbouwen aan de hand van een voorbeeld.