Biostatistiek: uitgeschreven

advertisement
Biostatistiek: uitgeschreven
2015-2016
Ik heb dit samengesteld
door het probleem van
veel te veel tijd tussen
twee herexamens. Er zijn
in deze periode wel een
aantal
zonnige
dagen
geweest dus ik kan niet
garanderen dat er altijd
met evenveel toewijding
aan gewerkt is.
Deze syllabus is een
combinatie van slides en
wat er tijdens de les is
gezegd geweest (ja ik heb
al die lessen nog eens
bekeken). Dat er dus een
aantal
herhalingen
in
voorkomen zal dus zeker
geen uitzondering zijn.
Hopelijk zijn jullie er iets
mee en anders.. tja spijtig
Inhoud
Deel 1: introductie, motivatie en voorbeeld ............................................................... 1
Hoofdstuk 2: Homeopathie: de test ....................................................................... 1
Deel 2: Basis principes van statistische methoden ..................................................... 2
Hoofdstuk 3: wat is statistiek? .............................................................................. 2
Hoofdstuk 4: populatie VS. Steekproef (sample) ..................................................... 6
Hoofdstuk 5: causaliteit en randomisatie ..............................................................13
Deel 3: omschrijven en opsommen van data ............................................................16
Hoofdstuk 6: types van resultaten .......................................................................16
Hoofdstuk 7: grafische presentatie van gegevens ..................................................17
Hoofdstuk 8: kengetallen (summary statistics) ......................................................21
Deel 4: basis concepten van statistische besluitvorming ............................................24
Hoofdstuk 9: beschrijven van de populatie ............................................................24
Hoofdstuk 10: van populatie toto steekproef en terug tot populatie ..........................28
hoofdstuk 11: schatting, steekproef variabiliteit, bias en precisie .............................32
Hoofdstuk 12: betrouwbaarheidsinterval ...............................................................37
Hoofdstuk 13: hypothesetesten ...........................................................................40
Deel 5: enkele frequent gebruikte testen .................................................................45
Hoofdstuk 14: vergelijken van 2 gemiddelden: ongepaarde data .............................46
Hoofdstuk 15: vergelijken van 2 proporties bij ongepaarde data ..............................50
Hoofdstuk 16: de vergelijking van 2 gemiddelden: gepaarde data ............................55
Hoofdstuk 17: vergelijken van 2 proporties: gepaarde data ....................................59
Deel 6: verdere onderwerpen over statistische conclusie ...........................................63
Hoofdstuk 18: fouten in statistiek: basis concepten ................................................63
Hoofdstuk 19: fouten in de statistiek: praktische implicaties ...................................70
Hoofstuk 20: eenzijdig vs tweezijdig testen ...........................................................78
Hoofdstuk 21: beschrijven van associaties ............................................................80
Hoofdstuk 22: non parametrische testen ..............................................................86
Beginselen van biostatistiek
3e Bachelor BMW
1e semester
Deel 1: introductie, motivatie en voorbeeld
Hoofdstuk 2: Homeopathie: de test
 Blinding:
Omdat een onderzoeker onbewust een invloed kan uitoefenen bij de interpretatie van de
resultaten, worden testen blind gemaakt.
Door random codes te geven aan stalen (of behandeling). Zodat de onderzoeker niet kan
afleiden over welke stalen het gaat wordt hij zo min mogelijk beïnvloed door zijn eigen
standpunten. Pas wanneer alle data geanalyseerd is zal bekend gemaakt worden welke
codes aan welke stalen of behandelingen gekoppeld is.

Hoe subjectiever de metingen zijn , hoe belangrijker het is dat blinding word
toegepast.
 Overleving van patiënt = objectief
 Tumor reductie = semi-objectief
Wanneer je bij een onderzoek 40 stalen moet onderzoeken, waarvan 20 placebo en 20
geneesmiddel (GM), dan gaat elk staal een andere random nummer krijgen. Bij de analyses
weet men niet of ze de placebo staal of een GM staal aan het bekijken zijn.

Dubbel blinding:
In sommige gevallen is het van belang dat patiënt noch onderzoeker weet welke
behandeling er gegeven werd. Dit gebeurt wanneer onderzoeker en patiënt al dan niet
onbewust de resultaten zou kunnen beïnvloeden.



Pijn metingen
Levenskwaliteit metingen
Blinding is niet altijd mogelijk!!
Dit is voornamelijk te zien waarbij er een visueel aspect aanwezig is



Als je verschillende soorten verband wilt testen
Als je verschillende technieken wilt bestuderen
Placebo:
Dit zijn pillen zonder de actieve bestanddelen van een geneesmiddel. Deze worden gebruikt
wanneer je wilt testen of een GM ook effectief herstel bevorderd.
Er is namelijk een factor van natuurlijk herstel die kan plaatsvinden waardoor het moeilijk
is te bepalen of het gemeten effect door het GM komt of dat het een natuurlijk fenomeen
is. Om hier onderscheid in te kunnen maken ga je 2 groepen maken, 1 groep krijgt het GM
en de andere groep een placebo. De groep met GM zou een beter of sneller herstel moeten
ondervinden dan de placebo groep.
1
B.P.
Er moet echter wel aandacht besteed worden aan ethiek !!

Het geven van placebo aan ernstig zieke patiënten is niet ethisch verantwoord!
In zo een gevallen zal er een vergelijking gemaakt worden tussen het nieuwe
GM en het “oude” GM.
 Er zal dan onderzocht worden of de nieuwe behandeling beter of
minstens even goed is al de standaard behandeling.
Deel 2: Basis principes van statistische methoden
Hoofdstuk 3: wat is statistiek?

Voorbeeld 1: ziekteverzuim
 Is er een verband tussen
geslacht en ziekteverzuim?
Vrouw:
Man:
184
429
58
156
= 42,9%
= 37,2%
Dit resultaat suggereert dat er meer
ziekte verzuim is bij vrouwen dan bij
mannen
Echter, zelfs als ziekteverzuim gelijk is tussen mannen en vrouwen is er een mogelijkheid
dat deze waarde door puur toeval bekomen zijn.
Deze kans (p-waarde) zal berekend worden en getoetst aan een voorop gestelde waarde
(α). Op basis hiervan kan er meer duidelijkheid gebracht worden in de geobserveerde
waarden.

Stelling (H0): ziekteverzuim bij mannen is gelijk aan ziekte verzuim bij vrouwen


P-waarde < 0,05  stelling (H0) verwerpen
P-waarde > 0,05  stelling (H0) aanvaarden
 Als de stelling onwaarschijnlijk lijkt, dat geeft dit evidentie dat er een relatie
is tussen ziekteverzuim en het geslacht.
 Als de stelling waarschijnlijk lijkt, dan bied dit evidentie dat er geen relatie
is.
2
B.P.

Voorbeeld 2: baarmoederhalskanker (BMHK)
Er wordt hier getracht te analyseren of er een verband is tussen het voorkomen van BMHK
en de leeftijd waarop ze voor de eerste keer zwanger waren. Hiervoor worden 2 groepen
gemaakt


Cancer cases (BMHK)  49
Non cancer cases (controle)  317
Aan alle vrouwen werd gevraagd wat hun leeftijd was bij de eerste zwangerschap.
 is er een verband tussen het
krijgen van BMHK en de
leeftijd waarop de eerste
zwangerschap heeft plaats
gevonden?
> 25 jaar met kanker:
Dit suggereert dat het hebben
van BMHK meer waarschijnlijk is
wanneer je voor de eerste keer
zwanger bent geweest voor de
leeftijd van 25.
7
49
>25 jaar zonder kanker:
= 14,3%
114
317
= 35,96%
Hoe waarschijnlijk is het dat dit verschil te observeren is door puur toeval zelfs al is er
geen relatie is tussen kanker en de leeftijd van de eerste zwangerschap?



Als de kans klein is, dan is er een verband.
Als de kans groot is, dan is er geen relatie.
Voorbeeld 3: gewichtstoename bij ratten
Voor dit experiment werden 2 groepen gemaakt.


Ratten die een dieet kregen hoog in proteïnen
Ratten die een dieet kregen laag in proteïnen
 Is gewichtstoename
afhankelijk van het dieet?
De gemiddelden suggereren dat
er een verschil is.
 Hier bestaat ook weer de kans dat dit door puur toeval is gemeten.
 Als zo een verschil een hoge probabiliteit (waarschijnlijkheid) heeft dat het
voorkomt door puur toeval; wilt dit zeggen dat er geen verschil is tussen de diëten
en het verschil in gewichtstoename.
3
B.P.

Voorbeeld 4: overlevingstijden van kankerpatiënten
In dit onderzoek werden kankerpatiënten, met verschillende aangetaste organen,
behandeld met ascorbaat in additie van de standaard behandeling. Er werd dan gekeken
wat de overlevingstijd was (in dagen).
 Verschillen de overlevingstijden
bij de verschillende geaffecteerde
organen?
Als je deze waarden bekijkt, lijkt
het dat er een verschil is in
overlevingstijd tussen de kankers
in verschillende organen.
 Dit kan echter door puur toeval waargenomen zijn. De kans dat dit voorkomt door
puur toeval wordt berekend.
 Als het onwaarschijnlijk lijkt dat de verschillen waargenomen zijn door puur toeval
(een kleine p-waarde), heb je evidentie dat er een verschil is in overlevingstijd (H 0
verwerpen).
 Als er een grote probabiliteit is dat deze waarden door puur toeval zijn gemeten,
wilt het zeggen dat er geen verschil is tussen overlevingstijden. (H 0 aanvaarden)
H0 is bij het testen van hypotheses die later terug komen.

Voorbeeld 5: captopril data
Er zijn 15 patiënten het hypertensie. Bij iedereen word de bloeddruk gemeten voor en na
de behandeling met captopril.
 Hoe zal de behandeling
Bloeddruk beïnvloeden?
de
Hier zal het interessant
zijn om te weten hoe
waarschijnlijk de
geobserveerde
veranderingen in
bloeddruk door puur
toeval gebeuren.
 Een hoge waarschijnlijkheid dat het puur toeval is, wijst er op dat captopril geen
verschil veroorzaakt.
 Een lage probabiliteit wijst er op dat captopril wel voor een verschil zorgt.
4
B.P.

Voorbeeld 6: prevalentie van zware verkoudheid bij kinderen
Bij 1319 kinderen werd er op verschillende leeftijd (12 en 14 jaar) een meting gedaan
over de prevalentie van een zware verkoudheid.
 Er werd gecontroleerd of het kind een zware verkoudheid heeft gehad in
de laatste 12 maanden.
 is er een verschil in
prevalentie bij de 2
leeftijden?
12 jaar:
14 jaar:
A
B
C
D
356
1319
468
1319
= 27%
= 35%
A: zowel op 12 als op 14 jaar een zware verkoudheid gehad
B: op 12 jaar een verkoudheid gehad, op 14 jaar niet
C: op 12 jaar geen verkoudheid gehad , op 14 jaar wel
D: zowel op 12 als op 14 jaar geen verkoudheid gehad
Deze data suggereert dat er bij
ouder worden de prevalentie op een
zware verkoudheid groter wordt.
Ook hier ga je weer proberen te achterhalen wat de kans is dat dit door puur toeval is
gemeten.
 Als het heel onwaarschijnlijk is dat dit gemeten is door puur toeval (kleine Pwaarde) wijst dat erop dat er wel degelijk een verschil is tussen de prevalentie en
de leeftijd.
 Wanneer het waarschijnlijk lijkt (grote P-waarde), dan is er evidentie dat er geen
verschil is.

Voorbeeld 7: operatie data
Tijdens een operatie moet de bloeddruk soms verlaagd worden, hiervoor wordt een
hypotensief middel toegediend. Na de operatie dient deze bloeddruk zo snel mogelijk terug
op normale waarden komen.
In dit onderzoek werd de hersteltijd van 53 patiënten, met 3 verschillende operaties,
geanalyseerd. Er werden 3 metingen gedaan.
A) Tijd nodig dat de systolische bloeddruk van de patiënt terug op 100
mmHG komt.
B) 10-base log(dose) van het GM in log(mg)
C) De gemiddelde systolische bloeddruk terwijl het GM toegediend werd
 Hoe varieert de hersteltijd (A) ten opzichte van de andere parameters (B en C)
Om dit te beantwoorden wordt er gezocht naar trend in de data. Het is moeilijk om een
potentiële relatie te vinden tussen BD en een log. van iets (log(dose)).
5
B.P.

Conclusie:
De bedoeling van statistiek is tweezijdig:


Beschrijvende statistiek
 Weergeven wat er gemeten is
- Gemiddelde
- Percentage
- grafieken
- …
Interferentiële statistiek (wiskundige / beslissende statistiek)
 Kijken tot welke graad de bestudeerde waardes terug getrokken
(veralgemeend) kunnen worden op de populatie (∞).
 Interferentieel onderzoek toetst of de werkelijkheid al dan niet in
overeenstemming is met de wetenschappelijke hypotheses en
theorieën.
Hoofdstuk 4: populatie VS. Steekproef (sample)
Bij het uitvoeren van een onderzoek wordt er getracht een uitspraak te kunnen maken
over de volledige populatie.
Het is onmogelijk om de volledige populatie te analyseren want deze is ∞ en veranderd
constant (sterfte,…). Er zal een deel van de populatie geanalyseerd worden die de populatie
representeert (de steekproef).

De steekproef moet goed gekozen zijn om een veralgemening, naar de
totale populatie, toe te staan op het einde van het onderzoek.
Voordat je de steekproef gaat samenstellen moet eerst de populatie goed gedefinieerd
zijn. Er zal op het einde getracht worden om een uitspraak te maken over de populatie op
basis van gegevens verzameld uit een steekproef. Pas als je de populatie goed gedefinieerd
hebt, kan je beginnen met het samenstellen van een steekproef die representatief is voor
de populatie. daarnaast ga je kijken op welke wijze de steekproef genomen zal worden van
de populatie (random of niet, …).

De populatie:
In de praktijk wordt een populatie gedefinieerd aan de hand van in- en exclusiecriteria.

Inclusiecriteria:
 Zijn parameters die aanwezig moeten zijn om bij de populatie te horen.
 Zeer belangrijk!!!!
Vb.: hebben van een bepaalde ziekte;
leeftijd; geslacht; …

Exclusiecriteria:
 Zijn parameters die niet mogen aanwezig zijn om tot te populatie te
mogen horen.
Vb.: zwanger zijn;
eerder een behandeling gehad voor de zelfde aandoening (om
te vermijden dat het gemeten effect te wijten is aan de andere
behandeling)
Objectieve criteria gebruiken!!!
 Om enige discussies naderhand te vermijden
 Hoe objectiever de criteria, hoe beter.
B.P.
6

De (random) steekproef
De steekproef is het deel van de populatie dat je gebruikt om je onderzoek op te doen om
daarna een antwoord te kunnen formuleren over die populatie.
Het spreekt voor zich dat de populatie goed gekozen moet worden, liefst random.
Vb.: als je een onderzoek doet over rugklachten bij het verplegend personeel in
Belgische ziekenhuizen en de steekproef bestaat enkel uit:



 Geeft geen
Vrouwen
Verpleegkundigen van universitair ziekenhuis
<40 jaar oud
goede representatie van de volledige populatie!!!
Optimaal ga je de steekroef proberen samen te stellen met de zelfde karakteristieken als
de populatie:




Zelfde proportie
als
Zelfde leeftijdsverdeling als in populatie
Zelfde soorten ziekenhuizen als in populatie
…
Zoals eerder vermeld gaat een goede steekproef de populatie representeren en hiervoor
moet de populatie goed gedefinieerd zijn!!!
Vb.: bij onderzoek naar depressie worden enkel gehospitaliseerde patiënten met
een depressie opgenomen in de steekproef.
 Geeft geen goede representatie van alle depressieve, personen
met depressie die niet zijn opgenomen worden uitgesloten!
 Als er op voorhand duidelijk gemaakt word dat de populatie
gehospitaliseerde depressieve zijn, is deze steekproef wel goed.
(zo maak je er een van de inclusiecriteria van)
-
Random steekproef
-
Het willekeurig samenstellen van je steekproef
Door het willekeurig samenstellen van je steekproef, die je populatie representeert,
krijg je de beste vertegenwoordiging van je populatie.
 Hoe groter je de random steekproef maakt, hoe beter de populatie gaat
vertegenwoordigd zijn
Het is moeilijk om een volledig random steekproef samen te stellen. Denk maar aan alle
ziekenhuizen en verpleegkundigen. Het is praktisch niet haalbaar om uit elk ziekenhuis
verplegend personeel te halen voor uw onderzoek.
 Een oplossing kan zijn dat je eerst random ziekenhuizen gaat selecteren en dan
in die ziekenhuizen random verplegers kiezen.
 Er moet ook rekening gehouden worden met de grootte van het ziekenhuis. Als
je in elk ziekenhuis 10 verplegers gaat halen, gaat dit niet representatief zijn als
je hele grote en kleine ziekenhuizen gaat moeten vergelijken.
 Op helemaal correct te werken zal je de grootte van het ziekenhuis
proportioneel, representatief moeten vertegenwoordigen in de
steekproef. In andere woorden gaan er bij grote ziekenhuizen meer
verplegers opgenomen worden dan bij kleine ziekenhuizen.
7
B.P.
 Er kan ook nog het probleem opduiken dat er personen niet willen deelnemen aan
het onderzoek, je kan ze niet verplichten
 Uitvallers zijn ook frequent voorkomend
Altijd eerlijk weergeven waarom er personen niet deelnemen
of uitgevallen zijn. (alles in kaart proberen te brengen)
Het is dus duidelijk niet eenvoudig om een random steekproef samen te stellen. Er zijn
veel problemen die zich kunnen voordoen en hier moet je ook rekening mee houden bij
het opstellen ervan.

Statistiek VS kanstheorie
Kanstheorie:
Hier weet je de verhouding in de populatie en je gaat berekenen wat de kans is dat er
minstens die verhouding in je steekproef een effect gaat ondervinden.
Vb.: als je weet dat 75% van de populatie een effect heeft bij een bepaald GM, dan
ga je berekenen wat de kans is dat 75% van je steekproef een effect zal
ondervinden.
Statistiek:
Hier ga je andersom te werk, je hebt een steekproef en van hieruit ga je een uitspraak
proberen te maken over de populatie.
omdat je niet de volledige populatie
hebt, is het moeilijk om een exacte
uitspraak te maken. Als we een
marge kunnen aantonen is dat al
veel (tussen zoveel en zoveel).
Finaal ga je bij statistiek dus
een uitspraak maken over de
populatie!!
Bij kansrekening doe je het
omgekeerde
8
B.P.

Types van studies
Er zin verschillende manieren om data te verzamen. De sterkte van de evidentie (van het
bewijs) is afhankelijk van de methoden die gebruikt werden.
Prospecties VS retrospectief


Prospectief:
Je gaat een groep patiënten volgen over tijd en gaat kijken of er veranderingen
voordoen in die groep.
Vb.: een maand volgen en dan zien of een bepaalde parameter (bloeddruk)
gestegen of gedaald is.
 zie data set ratten, captopril,
BMHK
Retrospectief:
Kijken naar patiënt die nu een bepaalde aandoening heeft en vragen / nagaan wat
er in het verleden heeft plaats gevonden om zo risicofactoren te achterhalen.
Vb.: mensen met longkanker bevragen of ze in het verleden gerookt hebben.
 zie data BMHK, ziekteverzuim
een prospectieve test geeft meer kracht aan je resultaat dan een retrospectieve test.
 Bij prospectieve test heb je alles beter onder controle
 Bij retrospectief heb je minder onder controle omdat je berust op het
geheugen van de patiënt  betrouwbaarheid???
Experimenteel VS observationele studie

Experimenteel:
Gegevens die voortkomen uit een experiment dat je nieuw hebt opgesteld en
waarvan je de gegevens van verzameld.
 Je hebt echt een experiment uitgevoerd om aan je gegevens te komen

Observationeel:
Er is geen experiment gebeurt. Berust op gegevens die stelselmatig worden
bijgehouden.
Vb.: elke keer als je opgenomen word in het ziekenhuis worden een aantal
parameters gecontroleerd en bijgehouden (bloeddruk, glycemie,…) uit
routine. Een onderzoeker kan dan naar die instelling gaan en bepaalde data
die hij wilt onderzoeken opvragen. Het analyseren van die gegevens is
observationeel onderzoek.
 zie data ziekteverzuim
Observationeel onderzoek is een steekproef die je neemt, echter is de vraag in welke mate
deze random is?
Je hebt wel een steekproef, maar op welke populatie gebeurt de uitspraak?
Vb.: IDEWE data.
Er wordt een onderzoek gedaan op basis van de gegevens die verzameld
werden via IDEWE.
9
B.P.
-
Er wordt geprobeerd een link te maken tussen ziekteverzuim en
een bepaald beroep.
 Het resultaat dat hier bekomen word, zal geen uitspraak
leveren voor de Vlaamse populatie. De reden hiertoe is
dat IDEWE zich gespecialiseerd in geneeskundige
beroepscategorieën.
 Dan een uitspraak doen over de volledige populatie is
niet representatief.
Rekening houden met de populatie en steekproef
 Over welke populatie wil je een uitspraak maken?
 Op basis van die populatie ga je de steekproef samenstellen!!!
Het experimenteel onderzoek geeft een sterker resultaat dan observationeel onderzoek.
 Bij experimenteel onderzoek heb je een betere controle over wat je meet en
onder welke condities.
 Observationeel onderzoek levert ook vaker missings (patiënten waarbij ze de
parameters zijn vergeten te meten).  missings proberen te beperken!!
Cross-sectionele VS longitudinale studies


Cross-sectionele studie
Proefpersonen worden op 1 bepaald moment gemeten
Vb.: groeicurves zijn samengesteld door crossectionele gegevens
o Afwijkingen op deze curves zegt niet perse iets over het
kind!!
o Als je vandaag BMI berekend van verschillende personen
van verschillende leeftijden kan je een crossectionelecurve
maken.
 Zie data ziekteverzuim, BMHK
Longitudinale studie
Proefpersoon meerdere keren meten over een langere periode
(opvolgingsonderzoeken).
-
Gebruikt om evolutie in kaart te brengen
Gaat het effect van behandeling direct zijn of komt het effect na een langere
tijd?
Heeft effect maar een beperkte duur?
Bij longitudinaal kan je uitspraken maken over de evolutie die iemand ondergaat, dit gaat
niet bij crossectionele studies.
10
B.P.
Klinische studies
Meest strenge / belangrijkste methode.
 Levert het sterkste resultaat
 Zijn random
 Blind/dubbel blind
 Altijd prospectief
 Experimeenteel
 kan longitudinaal of cross sectioneel zijn
Je begint met een aantal patiënten en volgt ze in de tijd, ondertussen doe je enkele
metingen die van belang zijn voor je onderzoek.
(Longitudinaal onderzoek is niet persé een prospectieve studie!!)
Cohort studie
Een goed gedefinieerde groep mensen met analoge karakteristieken (met dezelfde
kenmerken) wordt gevolgd over tijd. Meestal tot een bepaalde gebeurtenis.
 Mensen met een zelfde; gelijk startpunt
Vb.: -
afgestudeerde 2012  10 jaar later onderzoeken, moeten
niet persé even oud zijn.
Mensen van het zelfde geboortejaar
Mensen die een zelfde behandeling hebben gekregen over
een periode van tijd
Cohort studies komen niet zo vaak voor.
Case-control studie
Studie waarbij je twee groepen neemt respectievelijk cases en controls, en deze worden
dan retrospectief bestudeerd.


Een groep met proefpersonen die een bepaalde aandoening hebben
Een groep met personen zonder de aandoening.
Vb.: bij onderzoek naar longkaker
 Cases: patiënten die longkanker hebben
 Controls: random mensen zonder longkanker.
Bij beide groepen ga je dan navragen of ze roken of hebben gerookt
en hoeveel,….
Je kan ook een prospectieve studie hebben waar je gebruik maakt van een
controle groep, dit is geen case-control studie!!!
Een case-control studie bied enkel de mogelijkheid om uitspraken
te maken tussen risicofactoren en de prevalentie van een ziekte.
11
B.P.
Matched case-control studie
Sluit aan bij de case-control studie. het verschil hier is dat je ervoor gaat zorgen dat de
case en control groepen lijken op elkaar.
 Voor elke case ga je een control zoeken die voor bepaalde kenmerken lijkt op de
case.
 Leeftijd (case 20 jaar  control 20 jaar)
 Geslacht
 Huidskleur
 …
Dit ga je doen om te voorkomen dat je op het einde van je onderzoek merkt dat de groep
cases veel ouders is dan de control groep. Of op andere vlakken te fel verschilt van de
andere.
Het zou namelijk kunnen dat eerder vermelde parameters een invloed uitoefenen op de
ziekte waardoor je een verkeerd beeld gaat krijgen als de groepen van elkaar verschillen.
Ideaal ga je voor zoveel mogelijk factoren gelijkenissen zoeken maar dat is praktisch niet
haalbaar.
 Je gaat keuzes maken welke factoren je zeker wilt matchen (meestal leeftijd en
geslacht)

Random steekproef – variabiliteit – onzekerheid
Wat voor studie je ook opzet, je zal altijd met een steekproef zitten (die door willekeur tot
stand is gekomen  random)
Echter gaat dit meestal wel gepaard met complicaties.
 Een steekproef representeert een gedeelte van de populatie. Als je een andere
random steekproef neemt, ga je een ander deel van de populatie gaan meten.
Hierdoor ga je ook lichtjes andere gegevens te zien krijgen en de conclusie kan
ook lichtjes veranderen.
 Absolute zekerheid van de conclusies over de populaties kan niet verwacht worden
als je van een steekproef kom!
-
Random variabiliteit
-
Zorgt ervoor dat je een verschil gaat waarnemen als je een experiment een 2 e keer gaat
doen met een andere steekproef.


Als je een goed GM hebt, met een goede respons, ga je altijd wel een effect
waarnemen. Soms zal dat effect wat groter zijn en soms wat kleiner. Dat
is het gevolg van random variabiliteit.
Alles wat je meet is voor een stuk random variabiliteit en voor een stuk
echt effect. Het is de bedoeling van statistiek die 2 uit elkaar te halen. Op
deze manier ga je proberen te achterhalen dat wat je gezien hebt niet enkel
random variabiliteit is maar dat het ook effectief een effect levert.
Ja gaat altijd rekening moeten houden met de kans dat je fouten maakt in de conclusie door
onder andere random variabiliteit.
Met statistiek ga je bepalen :
- Hoe zeker je mag zijn
- Hoe ga je vermijden nog zo een fouten te maken
B.P.  Het risico uitsluiten gaat niet!!
12
Hoofdstuk 5: causaliteit en randomisatie

Causaal effect
Stel het onderzoek over homeopathie
 Als er een verschil wordt waargenomen tussen homeopathie (H) en placebo (P), in
voorkeur voor H, wilt dit niet noodzakelijk zeggen dat H ‘meer’ effectief is. Zelfs niet
onder dubbel blinding.
o
o
o
Wat als één groep meer
dan
bevat?
Of als één groep gemiddeld ouders is dan de andere
…
Het geobserveerde verschil is niet noodzakelijk een causaal effect. Het waargenomen effect
kan te wijten zijn aan een verschil in reactie.
Voordat je uitspraken kan maken over causaliteit, ga je moeten zorgen dat beide groepen
gelijkaardig zijn!!! (zowel voor gekende als ongekende factoren)
 Dit kan maar op 1 manier! 
randomisatie!!!!
Randomisatie is het op volledig willekeurige manier je steekproef opdelen in groepen.
 Voor iedereen een munt opgooien. Kop = groep 1 (behandeling A); munt = groep
2 (behandeling B).
Je kan niet uitsluiten dat er kleine fouten komen in de groepen maar je kan er wel voor
zorgen dat er geen systemische fouten gemaakt worden.
Als je dit correct doet ga je 2 groepen krijgen die gelijkaardig aan elkaar zijn wat maakt
dat je een uitspraak kan maken over causaliteit na onderzoek.
Bij niet gerandomiseerde groepen kan je wel verbanden aantonen maar geen
causaal verband!

Verschillende manieren tot randomisatie
Simpele randomisatie



Munt opgooien …
Het nadeel is dat de groepen meestal niet gelijk verdeeld zijn.
Moeilijk om in de praktijk te vertalen.
└> dokter moet patiënt indelen
Voorkeursbehandeling van dokter zorgt voor bias!
Dit kan wel opgelost worden door de indeling via computer te laten verlopen.
Blok randomisatie



Randomiseren in blokken (vast aantal personen per blok)
Vb.: blokken van 6 personen
└> 3 krijgen behandeling A en 3 krijgen behandeling B
Op het einde zijn er evenveel patiënten in groep A als B.
Nadeel: als de arts weet wat de blok grootte is kunnen ze het voorspellen.
13
B.P.
 Dit heeft implicaties als de arts een voorkeur geeft aan één van de
behandelingen.
 Als er bijvoorbeeld een heel zieke patiënt komt en de arts heeft voorkeur voor
behandeling A maar hij heeft kunnen achterhalen dat hij bij deze patiënt
behandeling B zou moeten toekennen, kan hij die patiënt niet opnemen in het
onderzoek en daar buiten gaan behandelen met A.
 Hierdoor gaat de random steekproef verloren omdat je zelf gaat beslissen wie
er opgenomen wordt en wie niet.
 Oplossing door de blok grootte constant te veranderen.
Eerst een blok van 4, dan 6, dan 4, dan 10,...
Gestratificeerd randomiseren
Sterk gerelateerd aan mached case-control studie.
 Zelfs als je randomiseert kan het zijn dat er toch verschillen zijn waar te nemen (1
groep ouders of in 1 groep meer vrouwen dan in de andere). Deze verschillen
kunnen toevallig zijn maar kunnen wel voorkomen.
In sommige situaties wil je zelfs deze toevallige variatie uitsluiten. Bijvoorbeeld als je weet
dat de leeftijd een bepalende factor is in de aandoening ga je variatie in deze factor willen
vermijden. In deze gevallen ga je gestratificeerd randomiseren.

Stratificeren op leeftijd:
- Eerst wachten tot je 2 patiënten hebt met de zelfde leeftijd (of
een andere parameter) en pas dan ga je ze randomiseren.
1 iemand krijgt A; de andere krijgt B. toegekend op random
wijze.
- Terug eerst 2 patiënten zoeken met zelfde karakteristieken
- …
Het is moeilijker om dit te doen omdat je altijd moet wachten tot je 2 patiënten hebt met
de zelfde karakteristieken voor je kan randomiseren. Dit kan in combinatie gebeuren met
block randomisatie.
 Extreme gevallen:
 Tweeling studies
 Tweeling 1  behandeling A
 Tweeling 2  behandeling B

Cross over studies
Elke groep patiënten krijgt zowel behandeling A als B. (eerst A en dan B)
 Niet iedereen gaat eerst A en dan B toegediend krijgen omdat je anders
het effect door tijd kunt observeren.
 Op random wijze wordt bepaald wie eerst A en wie eerst B krijgt

Testen op 1 persoon
Bijvoorbeeld bij testen naar irritatie van zalf A en B op de huid.
 Omdat de huid op 1 persoon de zelfde karakteristieken heeft en er dus
geen verschil kan plaats vinden door ‘een ander type huid’ te hebben.
 Enige verschil dat je kan zien is linker en rechter hand of oog,…
 Welke hand of oog behandeling A of B krijgt gebeurt random!!

Pre- post test
 Voor en na de behandeling meten.
14
B.P.

Randomisatie is niet altijd mogelijk
Voorbeeld 1:
Een studie naar chemo en het effect op de ongeboren baby
 Ideaal gaat zijn dat je 2 groepen hebt van zwangere vrouwen
 Groep 1  krijgt chemo
 Groep 2  krijgt geen chemo
Deze opstelling is niet ethisch verantwoord dus kan niet uitgevoerd worden. De oplossing
is door gebruik te maken van historische controles.
└> voor elke zwangere vrouw die chemo krijgt ga je een zwangere vrouw zoeken
die geen chemo krijgt. Meestal in eerder verzamelde data!
 Er kan hier geen causaal verband aangetoond worden omdat er geen randomisatie
is gebeurt.
 Je kan hoogstens melden dat er al dan niet een verschil gevonden is.
Voorbeeld 2:
Relatie tussen kanker en roken
 Ideaal zou zijn dat er 2 groepen gemaakt werden
 Groep 1  mag niet roken
 Groep 2  moet roken
Ook hier is het niet ethisch verantwoord. De oplossing is om te zoeken naar patiënten met
longkanker en een groep zoeken zonder kanker en vragen naar hun rookgedrag in het
verleden.
 Er gaat ook her wel een verband kunnen aangetoond worden maar gaan causaal
verband.
 Er is nu wel aangetoond dat er bij rokers meer longkanker voorkomt. Er kan echter
nog steeds gezegd worden dat rokers genetisch anders zijn dan niet rokers.
Implicaties:
Ongelijkheden, met respect voor belangrijke prognostische factoren, kunnen niet
uitgesloten worden.
 De ene groep was toch iets ouder dan de andere,…
 Wat zou ik gezien hebben als de twee groepen gelijk zouden zijn?
Correcties kunnen uitgevoerd worden aan de hand van statistische methoden. Dit kan
echter enkel op gekende factoren, niet op de ongekende.
15
B.P.
Deel 3: omschrijven en opsommen van data
Wordt gebruikt om gegevens overzichtelijk te maken voor analyse





Grafieken
Tabellen
Kengetallen (gemiddelde,…)
…
Hoofdstuk 6: types van resultaten
Het type van gegevens zal een invloed hebben op hoe je de gegevens gaat kunnen
presenteren in grafieken en dergelijk.

Kwalitatieve data
Data zonder numerieke waarde (of die niet van belang is)

Dichotome waarde
de waarde die je meet kan maar 2 mogelijkheden hebben
 Dood – levend
 Man – vrouw
 …
Deze data wordt in een data set meestal wel omschreven als 1 en 2 maar deze nummering
heeft geen belang.

Nominale waarde
In de mogelijke antwoorden is geen natuurlijke volgorde



Haarkleur
Oorzaak van overlijden
…
Je hebt hier meerdere mogelijkheden en je kan ze ook nummeren maar de nummering
heeft geen belang (het is enkel om te bepalen welke kleur of dergelijk het is).
Als je bijvoorbeeld oorzaken van overlijden hebt, ga je die in een dataset
terugvinden onder een nummer.
1 = vermoord met hamer
2 = kanker
3 = de pest
Dit is gewoon een nummering om de oorzaken te classificeren. Het zegt
niets over de ernst van de oorzaak of dergelijk.

Ordinaal
Waarde die in een vaste, zinvolle volgorde kunnen geplaatst worden.
 Pijn score (schaal 1 -10)
 Hier kan je onderscheid maken in de graad van pijn. Deze
nummering kan geordend worden maar de nummer op zich is
bepaald door de onderzoeker zelf.
16
B.P.

Kwantitatieve data
Gegevens die wel een numerieke waarde bevat

Discrete waarde
De waarde kan maar een wel bepaalde waarde hebben
 Zijn gegevens waar de numerieke waarde van belang is maar
waarvan de waarde vast liggen.
Vb.: radioactieve deeltjes in een ruimte.
 Het aantal deeltjes kan alle waarde in nemen maar er is maar
1 effectief getal dat gemeten word. Deze gegevens zijn ook
van belang ( ze zeggen iets over de ernst van de toestand).

Continue gegevens
Gegevens zitten in het continuüm
Vb.: gewicht en lengte
 Je kan alle waarde waarnemen maar we beperken onszelf
meestal. Gewicht wordt in kg weergegeven en tot 2 cijfers
na de komma. Dat kan echter verder tot na de komma gaan
maar dat word niet gedaan.
Het onderscheid tussen continu en discrete waarde is niet altijd even gemakkelijk te
maken.
Hoofdstuk 7: grafische presentatie van gegevens

Gegevens met 1 variabele
Kwalitatieve variabelen
 Staafdiagram
 Taartdiagram
Kwantitatieve variabelen
 Histogram
 De keuze van het interval is belangrijk!!!
De intervalgrootte is afhankelijk van de grootte van de steekproef.
17
B.P.


Te klein interval: Als je steekproef klein is kan het zijn dat je 1
persoon per staaf krijgt en dat is niet de bedoeling.
Te groot interval: hier ga je verlies van informatie hebben
 Box (whiskers) plot
Het voordeel hier is dat je geen intervallen hoeft te kiezen.
Bevat:
 Mediaan (blauw)
 75 en 25 percentiel
(50% van de observaties
zitten in het rode vlak)
 De whiskers geven de
spreiding weer
 Uitschieters worden
weergegeven met een
sterretje boven of onder de
whiskers

Gegevens met meerdere variabelen
Kwalitatieve data
 Gecategoriseerde staafdiagram
Op deze wijze krijg je in 1 blik een duidelijke
representatie van de gegevens.
18
B.P.
Kwantitatieve data
 Scatterplot
Elke patiënt wordt voorgesteld als 1 symbool.
Door deze samen te brengen kan er een
eventuele trend gezien worden.


Punten dicht bij elkaar = verband
Punten ver uit elkaar = geen verband
 Scatterplot + boxplot (of histogram) combo
Door deze 2 te combineren, krijg je
ook een beeld over de verdeling van
de gegevens (normaal, scheef,…)



Scatterplot van tijd/log(dosis)
Boxplot van de tijd
Boxplot van de log(dosis)
 Scatterplot matrix
Meerdere veranderlijke kunnen samen
gebracht worden in een scatterplot
matrix.
19
B.P.

Gemende: kwalitatief en kwantitatief
 Gecategoriseerde box plot
Als je bijvoorbeeld 3 verschillende behandelingen hebt onderzocht en je wilt de tijd van
herstel bekijken ten opzichte van die 3 behandelingen.
Als je wilt aantonen dat de hersteltijden
per behandeling verschillend zijn, geeft
dit al een visualisatie dat er een verschil
in data is.
 Verder in het onderzoek ga je
proberen te achterhalen of het
verschil dat je gezien hebt al dan
niet toeval is.
 Gecategoriseerd histogram
Geeft de zelfde informatie als de gecategoriseerde box plot maar nu met histogrammen.
 Bubble blot
Hier ga je 3 veranderlijke tegelijk visualiseren.


Symbool grootte
Groot symbool = hoge waarde
Klein symbool = lagere waarde
Scatter plot (X en Y as)
20
B.P.
Hoofdstuk 8: kengetallen (summary statistics)
Locatie: waar liggen de gegevens ongeveer?
Zijn het groso modo grote of kleine geobserveerde waarden?
Spreiding: hoe dicht liggen de gegevens bij elkaar?

Meten van de locatie
 Waar liggen da observaties ongeveer?



Steekproef gemiddelde
Steekproef mediaan
(Middelste waarde)
Steekproef modus
Meest geobserveerde waarde (niet altijd informatief)
Veel testen in de statistiek zijn gemaakt op het gemiddelde. Hierdoor gaan we zoveel
mogelijk met gemiddelde proberen te werken.
Het gemiddelde is echter onderhevig aan extreme waarden, de mediaan heeft dit probleem
niet
 Als we met scheve data zitten : gebruik maken van de mediaan
 Bij symmetrische data : gebruik maken van het gemiddelde
21
B.P.

Meten van de spreiding
 Hoe gelijkwaardig zijn de observaties?
Spreiding zegt niets over de locatie!!

Gemiddelde afstand tot het gemiddelde
 (afstand – gemiddelde) en daar neem je het gemiddelde van
 Komt altijd uit op 0 dus zegt niets over de spreiding

Kwadratische afstand, van alle observaties, tot het gemiddelde
 Bied een oplossing voor het eerste
 (afstand – gemiddelde)² en daar neem je het gemiddelde van
0 = geen spreiding in de observaties
Hoe groter de waarde, hoe meer spreiding er is.

Gemiddelde variantie
 Kwadratische afstand van alle observaties tot het gemiddelde
 Bij het nemen van het gemiddelde ga je delen door n-1
De reden waarom, zien we later
Kleine waarde : weinig spreiding
Grote waarde : veel spreiding
Bij het kwadrateren van de gegevens heb je wel het nadeel dat het resultaat niet meer de
zelfde eenheid heeft als de gemeten waarden (cm  cm²,…)
Om dit probleem op te lossen, neem je de √ van s² (steekproef variantie). Zo krijg je
een waarde die terug in de zelfde eenheid staat als de geobserveerde waarde.
= standaard deviatie (s)

Bereik (R)
 Is de afstand tussen de hoogste en de laagste waarde
 Hoe groter je steekproef, hoe groter de kans is dat je extreme waarde
hebt waardoor R beïnvloed word.
 Om de invloed van uitschieters te voorkomen, kan je gebruik
maken van de Interkwartiel afstand (IQR)
De IQR is de afstand die je overhoud als je de 25% hoogste en laagste waarde weg doet.
 Als we met scheve data zitten : gebruik maken van IQR
 Bij symmetrische data : gebruik maken van standaard deviatie
Zowel variantie, kwadratische variantie als standaard deviatie zijn onderhevig aan
uitschieters
IQR is niet onderhevig aan uitschieters, de grootte van de steekproef maakt hier ook niet
uit.
22
B.P.

Percentages
het gemiddelde bij dichotome variabele = het percentage
-

Hier is het niet nuttig om een standaard deviatie te meten omdat je met het
percentage alles kan afleiden.
Geometrisch gemiddelde en standaarddeviatie
Als de gegevens niet symmetrisch zijn, ga je denken om de mediaan te gebruiken. Echter
zoals eerder gezegd zijn er veel testen in de statistiek gemaakt op het gemiddelde. We
gaan dus zoveel mogelijk met een gemiddelde proberen te werken. Als je met scheve data
zit kun je de gegevens transformeren om zo eventueel een iets symmetrischer resultaat
te bekomen. Als de gegevens symmetrisch genoeg zijn kan je dat gemiddelde gebruiken.
Omdat je een logaritmische aanpassing hebt gedaan, zegt dit gemiddelde niet veel omdat
dit op een log schaal is. Daarom ga je dit gemiddelde terug transformeren (exponentieel)

Wat je nu bekomt is niet het gewone gemiddelde!!
 Geometrisch gemiddelde
Het geometrisch gemiddelde zal een kleinere waarde bevatten dan het gewone gemiddelde
wat aantoont dat ze minder beïnvloed is door extreme waardes.
Als er in een onderzoek vermeld staat dat er met een geometrisch
gemiddelde is gewerkt, weet je dat ze log getransformeerd
hebben.
In andere woorden kun je ook achterhalen dat de oorspronkelijke
waardes scheef verdeeld waren en dat ze na transformatie ±
normaal verdeeld waren
 Kun je het geometrisch gemiddelde wel gebruiken??
 Enkel als je ongeveer symmetrische waarde bekomt na transformatie!!
 Je gaat hier enkel een uitspraak kunnen maken over de log gegevens

Missing data
komt zelden voor, als het voorkomt moet het wel eerlijk vermeld worden en niet gewoon
weglaten. Enkel zo ga je een eerlijk antwoord kunnen formuleren (laat onzekerheid zien)
het hebben van missing data kan ervoor zorgen dat de steekproef niet meer random is.
23
B.P.
Vb.: als je in een bedrijf vraagt hoeveel iemand verdiend en alle personen die veel
verdienen vullen het niet in  je steekproef gaat niet meer representatief zijn voor
de populatie.
je kan geen gegevens creëren maar eerlijk zijn moet
het vermelden van missings kan dienen als een kwaliteitslabel (geen missings = goed)

grafische representatie van beschrijvende statistiek.
Kengetallen meedelen via figuren. Hier moet je wel opletten welke figuren je gebruikt.
Rechter figuur is niet goed omdat je hier een beeld geeft van het gemiddelde met de
standaard deviatie, dit kan enkel gebruikt worden bij gegevens die symmetrisch verdeeld
zijn of getransformeerd.
Bij de linker figuur kan je duidelijk zien of er al dan niet scheefheid is. Deze figuur is ook
beter om te gebruiken.
Deel 4: basis concepten van statistische besluitvorming
Hoofdstuk 9: beschrijven van de populatie

Stochastische variabele (X)
Daar waar je in een steekproef spreekt over observaties (x) ga je in de populatie spreken
over stochastische variabele (X)
Stel we willen een onderzoek doen naar BMI en we hebben een steekproef van n=321.


BMI zal genoteerd worden als X (onderdeel van de populatie)
De 321 observaties in onze steekproef worden respectievelijk genoteerd als
x1,x2,x3,…,x321
BMI is een stochastische variabele omdat deze afhankelijk is van puur toeval. Als je 1
iemand random uit de populatie neemt, dan kan je onmogelijk op voorhand weten welke
BMI deze persoon zal hebben. Dat zal je eerst de persoon moeten wegen en meten.
24
B.P.
Het is dus niet mogelijk om te zeggen dat iemand die je random uit de populatie neemt
een BMI zal hebben van 20. Je kan hoogstens zeggen dat de kans groter is dat ze een BMI
zal hebben tussen een bepaalde marge (vb tussen 20 en 25).
Stochastische variabele zijn dus ook afhankelijk van random variabiliteit. Bij het herhalen
van een experiment ga je dus een verschil observeren in je observaties.
 Hoe waarschijnlijk het is om een bepaalde waarde te bekomen kan wel
beschreven worden aan de hand van een verdelingsfunctie, de
kansverdelingsfunctie.
└> vb.: normaal verdeling,…
Deze verdeling zegt wat de mogelijke, realistische waardes zijn die je kan bekomen en wat
de kans is die daarbij hoort.
Net zoals bij de classificaties in de observaties, zijn stochastische variabelen ook in te delen
in de zelfde klassen.

Discrete probabiliteitsverdeling (kansverdeling)
Deze verdeling beschrijft wat de kans is om een specifieke waarde te observeren van een
discrete random variabele.
Vb.: stel als X de random variabele is voor ziekteverzuim, dan kan X enkel de
waarde 1 of 0 aannemen.
𝑋=
𝑧𝑖𝑒𝑘𝑡𝑒𝑣𝑒𝑟𝑧𝑢𝑖𝑚
⧼ 10 →
→ 𝑔𝑒𝑒𝑛 𝑧𝑖𝑒𝑘𝑡𝑒𝑣𝑒𝑟𝑧𝑢𝑖𝑚
De discrete kansverdeling, beschrijft wat de kans is op het observeren van een 1 of een 0.
Deze kansen zijn percentages van nullen en eentjes die je zou observeren als het
experiment opnieuw en opnieuw zou gedaan worden of die je zou observeren als de n van
je steekproef = ∞.
We zitten hier met discrete waardes dus we kunnen deze visualiseren met behulp van een
bar plot.
25
B.P.
Omdat we hier uitspraken maken over de populatie, gebruiken we Griekse letters.
𝜋0 = probabiliteit om een 0 te observeren P(X=0)
└> proportie nullen die je zou observeren in
een ∞ grote steekproef
𝜋1 = probabiliteit om een 1 te observeren P(X=1)
└> proportie eentjes die je zou observeren
in een ∞ grote steekproef
Dit is een voorbeeld van de bernoulli verdeling. Er zijn nog meer soorten verdelingen:
multinomiaal, binominaal,…

Continue probabiliteitsverdeling
Beschrijft hoe waarschijnlijk het is dat je een continue random variabele meet die plaats
vind in een bepaalde marge.
Bij discrete waardes, konden we een uitspraak maken over de populatie door de bar plot
(staafdiagram) te veralgemenen tot een ∞ grote steekproef. Voor continue variabelen
kunnen we op dit zelfde idee verder werken.
We kunnen het histogram van de populatie benaderen door de n van de steekproef te
vergroten. Hoe groter de steekproef, hoe beter de populatie zal benaderd worden. Als je
deze blijft vergroten ga je uiteindelijk komen op een “glad” histogram.
└> dit stelt dan de densiteitsfunctie voor
(beschrijft het histogram van een ∞ grote steekproef
Van dit histogram kunnen we dan de probabiliteit afleiden om een waarde te observeren
tussen een bepaald bereik (tussen a en b).
 De probabiliteit is gelijk aan de oppervlakte onder de densiteitsfunctie tussen punt
a en b.
 De totale oppervlakte van de densiteitsfunctie moet gelijk zijn aan 1
 Er bestaan verschillende densiteitsfuncties
o Normaal
o T verdeling
o …
26
B.P.

Samenvatting van de karakteristieken voor de kansverdeling
De probabiliteitsverdeling kan bekeken worden als een uitbreiding van het staafdiagram of
histogram tot de totale populatie of een ∞ grote steekproef. Het beschtrijft de
waarschijnlijkheid om een bepaalde waarde te observeren wanneer je random iemand uit
de populatie neemt. Gelijkaardig als bij de steekproef kan je nu ook maten van locatie en
spreiding definiëren voor de totale populatie.
 Dit zijn dus de spreiding en de locatie die je zal meten in een ∞ grote
steekproef
Zoals eerder gezegd, gaan we als we over de populatie spreken gebruik maken van griekse
letters
µ en σ² zijn waardes zijn theoretische
concepten omdat niemand ze ooit zou
kunnen meten.
𝑥̅ en en s² zijn de waardes die we wel
kunnen meten.

De normaal verdeling
De normaal (of gaus) verdeling is de meest frequent gebruikte verdeling in de statistiek.
De densiteitsfunctie die daarbij hoort kan als volgt omschreven worden.
𝑓(𝑥) =
1
√2𝜋 𝜎²
𝑒𝑥𝑝 {−
1
2𝜎 2
(𝑥 − µ)²}
De densiteitsfunctie is afhankelijk van µ en σ². Als deze twee waarden gekend zijn, kan de
normaal verdeling voor die populatie bepaald worden.
Als een random variabele (X) normaal verdeeld is met een gemiddelde µ en een variantie
σ², dan kan dit genoteerd worden als 𝑋~𝑁(µ, 𝜎 2 ). X volgt de normale verdeling met als
parameters µ en σ².
 Er zijn oneindig veel verschillende normaal verdelingen (want deze is
afhankelijk van µ en σ²).
 De standaard normaal verdeling
De belangrijkste eigenschap van de standaard normaal verdeling is dan alle andere
normaal verdelingen kunnen getransformeerd worden tot een standaard normaal verdeling
en andersom.
De parameters µ en σ² zullen respectievelijk de locatie en de spreiding bepalen van je
normale verdeling.
27
B.P.
Van de moment dat je de parameters µ en σ² hebt, kan
je berekenen wat de kans zal zijn dat je een waarde gaat
observeren bij een µ ± σ .
Veel statistische processen volgen de benadering van de normaal verdeling. We gaan altijd
proberen een normale verdeling te vinden die onze dataset omschrijft. Als we dat bepaald
hebben kunnen we verdere berekeningen maken die gebaseerd zijn op de normale
verdeling.
en s² in de steekproef geven een schatting weer wat µ en σ² zouden kunnen zijn in de
populatie. met de gegevens die we uit onze steekproef halen kunnen we dus een normale
verdeling maken van wat wij verwachten te zien in de populatie.
Hoofdstuk 10: van populatie tot steekproef en terug tot populatie

van populatie tot steekproef
we hebben besproken hoe dat de probabiliteitsverdeling (densiteitsfunctie) beschrijft hoe
waarschijnlijk het is om een waarde te observeren als je random iemand uit die populatie
neemt.
 Wanneer we een steekproef hebben die groot genoeg is, kan men verwachten dat
het geobserveerde histogram de probabiliteitsverdeling zal benaderen
= probabiliteits theorie
We kunnen dus vanuit de
probabiliteitsverdeling een
beeld creëren van wat we
verwachten te zien in een
steekproef.
28
B.P.

Van steekproef tot populatie
Omdat we nooit helemaal zeker kunnen zijn van de probabiliteits verdeling
(densiteitsfunctie), gaan we vanuit de steekproef een schatting proberen te maken van de
reële populatieverdeling.
Dit is wat we met statistiek gaan proberen te doen. (statistische schatting / inferentie).
Om dit te kunnen verwezenlijken, moeten we er wel proberen voor te zorgen dat onze
steekproef de populatie zal benaderen. Dit doen we door ervoor te zorgen dat we de
steekproef random gaan samenstellen en dat ze groot genoeg is.

Voorbeeld: BMI
Om een uitspraak te kunnen maken over de BMI in de populatie, gaan we om te beginnen
een grote, random steekproef nemen en deze beschrijven. Dit hebben we gedaan en we
bekomen dit histogram.
Zoals je ziet is het histogram niet symmetrisch verdeeld
dus zullen we niet instaat zijn om het gemiddelde en
standaard deviatie te gebruiken. Hierdoor zullen we de
normaal verdeling ook niet gebruiken.
We willen natuurlijk liefst een normaal verdeling
gebruiken omdat deze gemakkelijk te interpreteren is.
Wat we kunnen proberen is de gegevens te
transformeren zodat de gegevens meer normaal
verdeeld zullen zijn. Als we zien dat na transformatie de
gegevens normaal verdeeld zijn, dan kunnen we hier wel
een normaalverdeling gebruiken.
Er zijn een aantal mogelijke transformaties die we kunnen toepassen. De keuze van welke
transformatie hangt af hoe het histogram en uitzien.
In onderstaande figuur word duidelijk gemaakt welke transformatie je gaat toepassen in
welke situatie.
29
B.P.
Log
√
Exp
X²
Zoals je ziet kan je de
zelfde
scheefheid
op
verschillende
manieren
modificeren. Welke manier
je gebruikt ga je enkel
kunnen bepalen door het te
proberen.
Als je na transformatie een verdeling bekomt die symmetrisch is, dan kan je gaan bepalen
wat je als µ en σ² gaat gebruiken.
 Als je gegevens normaal verdeeld zijn, dan ken je de log(𝑥̅ ) en de log(s²) als
een schatting van µ en σ². Om je normaal verdeling mee op te stellen.
 Nu kan je deze verdeling gaan gebruiken om te bepalen wat de kans is dat je
een persoon neemt uit de populatie met een BMI >25 of >30,….
 Deze berekening zal via bepaalde programma’s gebeuren.
Na berekening kom je op een percentage van 47%.

Dit wilt dus zeggen dat je 47% kans hebt om random een persoon uit de populatie
te nemen die een BMI heeft > 25
Wat je wel moet onthouden is dat dit hier een schatting is want we weten niet exact wat µ
en σ² is in de populatie. We hebben deze geschat op basis van onze steekproef. We hopen
uiteraard dat onze steekproef een goede representatie is van de populatie.
Later zullen we zien dat we wel rekening gaan houden met het feit dat we maar een
schatting maken.

Voorbeeld: normale waarden.
Normale waardes of referentie waarden worden vaak gebruikt bij het rapporteren van
klinische test resultaten. Deze waarden zijn ook gebaseerd op een populatieverdeling die
ze ooit bepaald hebben.
Deze waardes worden gepresenteerd aan de hand van 2 waarden waar een bepaald
percentage van de normale, gezonde, populatie tussen zit.
Vb.: bij 95% gaan we een interval krijgen van [c1 , c2]. Dus 95% van de normale
populatie heeft een waarde die in dit interval zit.
30
B.P.
Deze waarden worden dus gebruikt om te controleren
of de gemeten waarde bij de patiënt (Bloeddruk,…)
extreem hoog of extreem laag is.
Alles buiten het interval dat je hebt opgesteld is dus
extreem hoog of laag.
Hoe gaan we die normale waarden nu vastleggen?
Om te beginnen gaan we een grote steekproef nemen
die een goede representatie geeft van onze
populatie.
Van het moment dat we een verdeling hebben
kunnen opstellen van die populatie kunnen we alle
kanten uit.
OPGELET!: er is 5% kans dat je een gezond persoon meet met een te hoge waarde.
Wanneer je meerdere parameters gaat willen testen (bijvoorbeeld 2), gaat de kans stijgen
dat je een gezond persoon meet waarvan 1 of 2 parameters te hoog of te laag zijn.
Als de probabiliteit van een normale waarde = 95% (0,95). Dan is de
waarschijnlijkheid op het hebben van 2 normale waarden, voor 2 onafhankelijke
parameters, = 0,95².
Dus bij het testen van twee parameters, dus bij het combineren van twee 95%
normaal waardes. Zorgt ervoor dat je een interval krijgt dat enkel 90,25% van de
totale populatie bevat.
Algemeen kan je het volgende stellen. Met “k” het aantal gemeten parameters.
Dit fenomeen noemt multiple testing.
 Multiple testing zegt dat als je maar lang genoeg test, dan zal je altijd
wel iets vinden met een extreme waarde ook al is er niets mis met die
patiënt. Je bekomt dat resultaat enkel door puur toeval.
31
B.P.
hoofdstuk 11: schatting, steekproef variabiliteit, bias en precisie

Schatting
In het voorgaande deel hebben we karakteristieken (µ, σ²,…) van de populatie bepaald.
Door de densiteitsfunctie van de populatie te achterhalen op basis van het histogram
gezien in de steekproef.
 Dit is echter niet altijd mogelijk. Bijvoorbeeld wanneer je in je steekproef een
histogram bekomt met 2 pieken. Hier is het niet mogelijk om een normale verdeling
op te vinden, zelfs niet na transformatie.
 Een aders aspect is dan we niet altijd geïnteresseerd zijn in de volledige verdeling,
zoals in het voorbeeld van BMI. Hier wouden we enkel weten wat de kans is om
iemand, random, uit de populatie te nemen met een BMI >25.
We zijn enkel geïnteresseerd in het % mannen met een BMI >25.
 Dit is uiteraard mogelijk via de weg die wij gedaan hebben maar dit
neemt wel veel tijd in beslag. Daarnaast zit je nog met het feit dat je
niet altijd een correcte, matchende, densiteitsfunctie kunt vinden.
Er is een manier om heel die tussenstap van het bepalen van de densiteitsfunctie over te
slaan. En dit door een schatting te gaan maken van de karakteristieken waar we in
geïnteresseerd zijn.
Het is namelijk zo dat we ook al bij het bepalen van de densiteitsfunctie een schatting
hebben gemaakt van µ en σ². Dus waarom zouden we die schatting dan niet direct
doortrekken.
Als je steekproef groot en random is, dan ga je er eigenlijk ook vanuit dat deze het beeld
van de populatie benaderd. We gaan ons dus niets meer aantrekken van de verdeling en
stellen onze schatting voor zoals hier boven staat aangegeven.

Je gebruikt deze waarden niet om te geloven dat dit de exacte waarde is maar
om te geloven dat het een goede schatting is.
Je weet dus dat je een fout gaan maken maar dat was bij het bepalen van de
densiteitsfunctie ook al.
Bij een schatting zal dus altijd een onzekerheid zijn.
32
B.P.

Voorbeeld: BMI
Als we nu het zelfde gaan onderzoeken als voordien zonder eerst de verdeling in kaart te
brengen. Deze hebben we toch niet nodig om een uitspraak te kunnen maken over het %
mannen met een BMI >25.


Je gaat nu gewoon in je steekproef kijken hoeveel mannen er zijn met een BMI
>25.
Dit ga je dan delen door het totaal aantal mannen om zo het percentage te
bekomen.
̂
θ


=
# 𝑚𝑎𝑛𝑛𝑒𝑛 𝑚𝑒𝑡 𝐵𝑀𝐼 > 25
= 46,99%
2605
46,99% is onze schatting van het totaal aantal mannen met een BMI>25.
 In onze eerste berekening (met omweg) kwamen we op een percentage
van 47,34%.
 Er is dus wel een verschil te zien maar ze zijn toch alle twee fout. (we
weten dat het allebei schattingen zijn)
 Later zullen we proberen in kaart te brengen hoeveel onzekerheid op
deze schattingen zit.
Schatting variabiliteit
De schattingen die we maken zijn gebaseerd op de waarden bekomen uit de steekproef
We hebben ook al eerder bepaald dat een
steekproef
vatbaar
is
aan
random
variabiliteit. Nu, als onze steekproef hier
onderhevig aan is dan zal onze schatting dit
ook doen.
̂ kan hierdoor geïnterpreteerd worden als 1 gerealiseerde waarde van een
De schatting θ
random variabele
̂.
Ө
└> de verdeling van
o
̂ word de sampling distributie van Ө
̂ genoemd.
Ө
̂ je verwacht als je een experiment
Deze omschrijft welke waarde θ
veel keer zou herhalen.
33
B.P.
De sampling distributie
-
̂ is afhankelijk van:
Ө
̂ : (mediaan, variantie,…)
De betekenis van Ө
De verdeling van de originele data
Steekproef grootte
Het bepalen van deze verdeling is zeer moeilijk want in de praktijk ga je maar 1 waarde
zien en dat is je schatting. Je zou een experiment meerder keren moeten doen gewoon om
te zien welke variabiliteit je uitkomt op een schatting. Dit gaat niemand doen. maar toch
zouden we willen weten uit welke verdeling die ene waarde komt.
En hier zitten we dan vast.
 Om dit in kaart te brengen hoeveel variabiliteit er zit in je schatting zou je die
verdeling moeten weten (maar dat is onmogelijk met 1 waarde).
o Ofwel ga je het experiment toch meerdere kerenmoeten uitvoeren
o Of we gaan gebruik maken van een simulatie via PC.

Bias en precisie
̂ te karakteriseren. Er zijn
We gaan dus programma’s gebruiken om de verdeling van Ө
enkele mogelijke verdelingen die we dan kunnen waarnemen.
Asymmetrisch
-
Waarschijnlijk op het maken van een overschatting
Onderschatting is onwaarschijnlijk
Gemiddeld gezien gaat de schatting wel correct zijn
dit zien we dus liever niet want als je hier een overschatting
maakt, kan je er heel ver naast zitten
symmetrisch
-
Over- en onderschatting zijn even waarschijnlijk
Gemiddeld gezien gaat de schatting correct zijn
Bij de symmetrische verdeling zijn er wel nog enkele verschillen te zien onderling. En meer
specifiek op gebied van variabiliteit. Daar waar je weinig variabiliteit hebt gaat de
schatting heel precies zijn. Wanneer er veel variabiliteit is, dan gaat de schatting minder
precies zijn.
34
B.P.
Daarnaast heb je nog de situatie waar je een symetrische
verdeling bekomt maar niet rond 𝜃 (reële waarde).
-

Hier zal je systemisch een fout gaan maken
Gemiddeld gezien zal je schatting dus niet correct
zijn.
Sampling distributie van het steekproef gemiddelde
Veronderstel dat we geïtereseerd zijn in µ van een random variabele X.
Gebaseerd op een random steekproef zal µ geschat worden door 𝑥̅ .
𝑥̅ is een realisatie van de stochastische variabele 𝑋̅. De sampling distributie van 𝑋̅
is afhankelijk van de verdeling van X en de n (van de steekproef). We kunnen de
sampling distributie 𝑋̅ simuleren onder verschillende settings.
Als we het experiment ∞ keer herhalen en we kijken dan naar het histogram van 𝑥̅ , dan
gaan we de verdeling van 𝑋̅ zien.
In het algemeen kunnen we besluiten dat wanneer je een steekproef groot genoeg maakt:
-
Zal de verdeiling symetrisch ronde de reële waarde µ liggen
Meer geconcentreerd de verdeling zal zijn rond µ
(de variabiliteit zal dalen)
De verdeling zal normaal verdeeld zijn
CLT: als je geïntereseerd bent in het gemiddelde, en je gebruikt 𝑥̅ als een schatting. Wat
zal de verdeling van 𝑥̅ dan zijn met als gemiddelde de echte waarde die je wenst te schatten
(µ,𝜃) en een variantie
𝜎²
𝑛
. En dit op voorwaarde dat je steekproef voldoende groot is.
 Wat je hier zal bekomen is altijd een normale verdeling. (dit word duidelijk
gemaakt bij de simulaties via de applet (zie cursus)).
µ: gemiddelde (geschtat op basis van 𝑥̅ )
σ²: variantie (geschat op basis van s²)
Het is logisch wanneer je veel variabiliteit hebt in de populatie dat je dit ook
gaan terug zien in je schatting (s²)
 hier kunnen we dus niets aan veranderen.
n: steekproef grootte (deze kunnen we aanpassen)
35
B.P.
naar mate de steekproef groter word, gaat de onzekerheid van de schatting kleiner en
kleiner worden. Dis is ook te zien in de simulaties.
De CLT zegt wat je moogt verwachten te zien wanneer je een experiment gaat doen, er
van uitgaande dat je steekproef groot genoeg is.
CLT: de sampling distributie van 𝑥̅ , 𝑋̅ zal altijd normaal verdeeld zijn met een
bepaalde µ en
𝜎²
𝑛
. Dus met dat n groter word zal de onnaukeurigheid dalen.
De steekproef moet dus voldoende groot zijn. Maar wat is nu voldoenede groot?
-
Er is geen algemene regel.
o Hangt af van hoe de oorspronkelijke data verdeeld is (hoe de
populatie verdeling er uit ziet)
o Als de gegevens van in het begin al van een normale verdeling
komen zal je minder observaties nodig hebben dan wanneer je start
van gegevens die niet normaal verdeeld zijn.
Het is dus aan te raden om in het onderzoek toch eens te gaan kijken naar de verdeling.
Niet de volledige populatie verdeling in kaart brengen maar gewoon kijken of je gegevens
van je steekproef al dan niet normaal verdeeld zijn.
Als ze symetrisch verdeeld zijn weet je dat je bij minder observaties nog steeds de CLT
gaat kunnen toepassen. Wanneer je heel scheve data hebt en een kleine steekproef dan
kan de CLT niet toegepast worden. Hoe schever de data, hoe moeilijker het wordt om de
CLT toe te passen.
 Meer observaties lost dit probleem dan op
De CLT is de reden dat veel natuurlijke fenomenen vaak normaal verdeeld zijn. Een
gemiddelde is normaal verdeeld en is een goede representatie van de populatie.
̂ gebruiken dan 𝑥̅ . We kunnen wel aantonen dat
We kunnen met de CLT niet voor andere Ө
̂ de 𝜃 zal benaderen.
wanneer we de n vergroten, de Ө
Enkel zal je bij 𝑥̅ een normale verdeling vinden, daarom gaan we altijd proberen het
gemiddelde te gebruiken boven de mediaan. Zelfs liever het geometrisch gemiddelde dan
mediaan.

Standaard error of the mean.
De CLT kunnen we dus toepassen om de nauwkeurigheid te bepalen van onze schatting µ
(op basis van 𝑥̅ ). Van de moment dat we de CLT hebben kunnen we zien dat het gemiddelde
= µ en dat de standaard deviatie =
𝜎²
𝑛
(= √
𝜎²
𝑛
=
𝜎
√𝑛
).
Deze standaard deviatie wordt ‘standaard error of the mean’ genoemd (de standaard
deviatie van het gemiddelde).De s.e.m. reflecteert de precisie in de schatting van µ door
𝑥̅ .
Het gebruik van de s.e.m. is om aan te tonen hoe nauwkeurig het gemiddelde werd
geschat.
36
B.P.
Vb.: BMI
Deze data set laat zien wat de BMI is in verschillende beroepsklassen.
 Hoe we de gegevens zouden beschrijven zoals we in
het verleden gezien hebben.
o Dan zou je dus zeggen: ik heb een
gemiddelde ± standaard deviatie.
└> dit beschrijft de locatie van de gegevens
in de groep met de spreiding.
o Bij normaal verdeelde gegevens is dit zinvol.
o Wordt gebruikt om je gegevens te
beschrijven (locatie en spreiding)
 Hier wordt het gemiddelde weergegeven met de
s.e.m.
o Dit ga je gebruiken om aan te tonen wat je
schatting is en hoe nauwkeurig deze is.
o Je kan dit altijd toepassen omdat de
gegevens toch symmetrisch verdeeld zijn (er
vanuit gaande dat de n groot genoeg is.
Opletten dat je de juiste grafieken laat zien!!!
 Gemiddelde ±standaard deviatie: aantonen wat de locatie en spreiding is
 Gemiddelde ± s.e.m.: aantonen of je schatting al dan niet nauwkeurig is
Hoofdstuk 12: betrouwbaarheidsinterval
Het betrouwbaarheidsinterval (C.I.) beschrijft hoe het steekproef gemiddelde (𝑥̅ ) zich gaat
gedragen als je herhaaldelijk steekproeven gaat nemen.
Vb.: captopril
In dit onderzoek gaan we 15 patiënten onderzoeken waar we de bloeddruk van hebben
gemeten voor en na het toedienen van captopril.
Je bent geïnteresseerd in de verandering in BD voor en na behandeling (X= BDvoor -BDna).
Dit berekenen we op basis van de gegevens gevonden in de steekproef.
37
B.P.
We willen de CLT toepassen maar we weten niet of n groot genoeg zal zijn. We kijken dan
eerst naar het histogram (van de BD verschillen) om na te kijken of deze al dan niet
symmetrisch verdeeld zijn.
We zien dat er geen echte scheefheid is dus dat de gegevens
‘symmetrisch’ zijn.
 We kunnen de CLT toepassen
Voor onze vraagstelling gaan we kijken wat het gemiddelde verschil is in BD waargenomen
in onze steekproef. Als we het gemiddelde verschil bekijken zien we dat er een negatieve
daling is. We komen op een 𝑥̅ = 9,27 (gemiddelde daling van 9,27).



Dit blijft maar een schatting voor de µ dus we willen ook wel weten hoever dat onze
schatting van de reële waarde µ ligt. (wat de kans is)
We gaan een interval bepalen rond de schatting die heel waarschijnlijk is de reële
µ te bevatten.
Betrouwbaarheidsinterval (C.I.)
We willen dus een uitspraak maken over hoe ver we van de reële µ zitten. We weten
sowieso dat we er langs zitten want we hebben een schatting gemaakt en deze is
onderhevig aan toeval.
We spreken hier over een kans. Van het moment dat we over een kans spreken hebben
we een verdeling nodig.

We zijn geïnteresseerd om een uitspraak te maken over de kans van het
steekproefgemiddelde (𝑥̅ ). Hier komt de CLT naar boven, deze zegt de verdeling te
kennen. Los van wat de verdeling zal zijn van de oorspronkelijke gegevens, zal 𝑥̅
altijd een normale verdeling volgen met dit gemiddelde en variantie. Er ook weer
vanuit gaande dat de n groot genoeg is.
Dankzij de CLT kunnen we berekenen hoe waarschijnlijk het is dat onze schatting ver of
dicht van de correcte waarde ligt.

We kunnen bijvoorbeeld bepalen wat de kans is dat een random steekproef een 𝑥̅
zal bevatten die minder dan 1 unit verschilt van µ.
38
B.P.

We weten dat wanneer we een normale verdeling hebben, we deze kunnen
standaardiseren (standaard normaal verdeling). Deze is gemakkelijk te
interpreteren dus gaan we hier naar toe proberen te werken.
𝑋 ~ 𝑁(µ, 𝜎 2 ) 

𝑋̅−µ
√𝜎²
~ 𝑁(0,1)
In ons voorbeeld hebben we de verdeling 𝑋̅. Hiervan weten we ondertussen dat deze
normaal verdeeld is (CLT) wat wilt zeggen dat we deze kunnen standaardiseren.
2
𝜎
𝑋̅ ~ 𝑁(µ, ) 
𝑛
𝑋̅ −µ
√𝜎²
~ 𝑁(0,1)
𝑛

Nu, omdat we dit gestandaardiseerd hebben gaan we de units ook moeten
“transformeren”
−1
1
√𝜎²
𝑛
√𝜎²
Zoals altijd, word σ² geschat met s².
𝑛
n=15
Met deze gegevens kunnen we bepalen dat we bij een random steekproef in 35% van de
gevallen een schatting van µ hebben die minder dan 1 unit van de reële µ zal verwijderd
zijn.


Deze berekening kan voor verschillende afstanden berekend worden
Het is echter ook mogelijk om het omgekeerde te doen.
Als we nu willen weten wat het interval zal zijn bij een bepaalde probabiliteit.
Bijvoorbeeld als we 95% zekerheid willen hebben dat de units de reële µ
bevatten.
De intervallen die we bekomen is het C.I.
(De 2 units ± 𝑥̅ )
Het bekomen percentage is het betrouwbaarheidslevel
De grootte van het interval duid de precisie aan van de schatting. Deze is afhankelijk van
de σ² in de populatie. (dus kunnen we niet aanpassen)
Een 100% betrouwbaarheidslevel is nutteloos want dat zou een C.I. opleveren van [-∞,∞].

Voorbeeld: BMI
We hebben nu enkel over een gemiddelde gesproken, een C.I. kan echter voor elke
karakteristiek 𝜃, van random variabele X opgesteld worden.



Zoals bij de BMI waar we geïnteresseerd waren in het percentage mannen met een
BMI >25.
Geobserveerde proportie= 𝜃̂ = 46,99%
Om te kijken hoe precies die schatting is, kunnen we een C.I. bepalen met een
betrouwbaarheidslevel van 95%.
 95% C.I. voor 𝜃 = [0,45;0,49]
Het interval [0,45;0,49] bevat de ongekende proportie 𝜃 met een waarschijnlijkheid
van 95%.
39
B.P.
Hoofdstuk 13: hypothesetesten
Daar waar we bij een betrouwbaarheidsinterval gaan proberen weer te geven hoe
nauwkeurig de schatting is en hoe groot de kans is dat je echt heel ver van de reële waarde
af ligt.
Bij het toetsen van hypothesen gaan we echter een uitspraak (hypothese) over een
bepaalde parameter (gem,…) toetsen. Op basis van de gegevens die je verzameld hebt.
 Ondersteunen de gegevens die we verzameld hebben uit onze steekproef de
hypothese die we gesteld hebben.
o Hebben we voldoende evidentie om te geloven dat de uitspraak juist
is
o Of zeggen de gegevens dat we evidentie hebben om te geloven dat
die hypothese niet correct is.

Voorbeeld: captopril
We gebruiken het zelfde voorbeeld als bij C.I. we willen dus achterhalen of de behandeling
al dan niet een effect heeft op de diastolische bloeddruk.



X= BDvoor - BDna
We berekenen het gemiddelde 𝑥̅ (=9,27)
We kijken naar het histogram om te zien hoe de gegevens verdeeld zijn , we willen
hier later ook de CLT toepassen.
Het verschil is dat we gaan werken met een hypothese. We gaan ons concentreren op het
vinden van evidentie of de behandeling een effect heeft op de BD.
 In het geval dat de behandeling geef effect zou hebben, gaat het gemiddelde
µ van X = 0
(want als uw 2 gemiddelden niet veranderd, dan ga je 2 dezelfde
waarden van elkaar aftrekken)
 Dus als we kunnen aantonen dat er evidentie is dat µ ≠ 0 kunnen we
concluderen dat er wel een effect gaat zijn.
Wat we ons nu afragen is in andere woorden of µ al dan niet gelijk is aan 0.
In onze steekproef hebben we een schatting gemaakt van µ
µ̂ = 𝑥̅ = 9,27
└> Het gemeten verschil suggereert dat er een effect is.
Omdat we µ nooit exact kunnen weten, kunnen we ook niet gaan zeggen dat alles wat niet
0 is direct betekend dat er geen effect is.
We weten wel dat onze schatting µ̂ een goede benadering is voor µ. Dus als µ=0
zou zijn dan gaat µ̂ dicht in de buurt liggen van 0.
We gaan hier eerst veronderstellen dat er geen effect is (µ=0). Daarna gaan we in de
steekproef kijken wat µ̂ (𝑥̅ )is.


Als je hier een groot effect waarneemt ga je besluiten dat onze eerste hypothese
(µ=0) niet juist is en zullen we die hypothese dan ook verwerpen.
We kunnen dan wel besluiten dan µ≠0 (er is geen effect).
40
B.P.

Nul en alternatieve hypothese
Wat we juist hebben besproken omschrijft een hypothese, meer bepaald de nul hypothese.
De nul hypothese stelt dat µ=0
└> de 2 gemiddelden zijn gelijk aan elkaar  geen effect
De alternatieve hypothese stelt dat µ≠0
└> de 2 gemiddelden zijn niet gelijk aan elkaar  wel een effect
We vertrekken vanuit het geloof dan H0 correct is tot het tegendeel bewezen is (dat we
voldoende evidentie hebben dat H0 fout is.
We zijn nog altijd geïnteresseerd
om een uitspraak te maken over µ.
Niet zo zeer het schatten van µ
maar we gaan proberen een
uitspraak te testen.
Deze uitspraak is: µ=0 (H0) of
µ≠0 (HA).
Het bepalen of we H0 of HA gaan
aanvaarden doen we op basis van
de steekproef.

P-waarde en significantie niveau
We trachten dus te achterhalen of we H0 al dan niet gaan verwerpen. Het verwerpen van
H0 als µ te veel verschilt van 0.
De vraag hier is dus wanneer kan je zeggen dat µ te veel verschilt van 0?
Antwoord:

Als het resultaat onwaarschijnlijk is te gebeuren door puur toeval als we er
van uit gaan dat µ=0.
Dus wat we zien kan geen toeval zijn.

Als het resultaat niet is wat we verwachten te zien als µ=0.
 Dan kunnen we H0 verwerpen
Wat verwachten we dan te zien als µ=0? Hiervoor kunnen we beroep doen op CLT.
└> want deze omschrijft welke waardes voor 𝑥̅ we kunnen verwachten te zien als
s we een experiment opnieuw en opnieuw zouden doen.
Als we een steekproef nemen met een n die groot genoeg is bekomen we
41
B.P.
In deze setting van de H0 stellen we echter dat µ=0. Dat geeft dan dus het volgende weer:
𝜎 2 = 𝑠 2 = 74,21
𝑛 = 15
Als onze uitspraak juist is (dat H0 correct is) gaan we deze verdeling zien in onze 𝑋̅.
└> deze verdeling is wat we verwachten te zien als H0 juist is.
In het geval dat wanneer we in een random steekproef een 𝑥̅ bekomen die te extreem is
volgens deze verdeling. Dan gaan we moeten overwegen dat H0 (µ=0) niet juist zal zijn.
Dan zullen we HA (µ≠0) aanvaarden.

Hoever moet 𝑥̅ van 0 verwijderd zijn om die waarde als extreem te bezien? Dat
kunnen we bepalen door de kans (probabiliteit), op het observeren van onze 𝑥̅ in
de verdeling 𝑋̅, te berekenen.
Het berekenen van een probabiliteit is het zelfde als voordien.
 Als µ=0, wat is dan de kans op het observeren van 𝑥̅ die minder dan 1 unit
van 0 verwijderd is?
Dit wilt dus zeggen dat als µ=0 er 35% kans is dat we een 𝑥̅ gaan vinden
binnen 1 unit van 0. In andere woorden is er dus 65% kans dat we een 𝑥̅
gaan vinden die meer afwijkt dan 1 unit van 0.
Het observeren van een 𝑥̅ =1 kan dus niet echt bezien worden als veel evidentie tegen H 0
(µ=0).
Dit kunnen we dus ook weer berekenen voor verschillende units. In ons voorbeeld zagen
we een 𝑥̅ = 9,27. Als we dit uitrekenen komen we op een probabiliteit van 0,1% (0,001).
Deze probabiliteit wordt ook p-waarde genoemd.
 Dit suggereert dus dat wat we zien zeer onwaarschijnlijk lijkt voor te komen
als µ=0 (zou maa 1 keer op de 1000 keer voorkomen).
Kleine p-waarde: geeft aan dat de geobserveerde waarde heel
extreem is. Dus dat H0 onwaarschijnlijk lijkt.
Grote p-waarde: impliceert dat de geobserveerde waarde
perfect in lijn staat met wat we kunnen verwachten als H0 juist is.
Wanneer gaan we nu beslissen om H0 te verwerpen? Als het in onze ogen te
onwaarschijnlijk lijkt dat H0 correct is.
42
B.P.
Omdat dit vrij abstract is wordt er een standaard waarde vastgelegd die we gebruiken in
de literatuur.

Deze waarden noemen we het significantie niveau en word genoteerd als α.
└> de waarde van α bepaal je zelf, meest frequent is een α=0,05.
Dus van het moment dat wat we waarnemen minder waarschijnlijk is dan α, pas dan ga je
H0 verwerpen.
p-waarde < α  H0 verwerpen
p-waarde ≥ α  H0 aanvaarden
Een α van 1% (0,01) wilt dus zeggen dat je H0 pas gaat verwerpen als wat je gezien hebt
in je experiment minder dan 1% kans heeft om te gebeuren door puur toeval.
Als je een p-waarde < α bekomt, dan spreek je van een significant effect. Het effect
dat we hebben geobserveerd is voldoende groot om een ook effect te hebben in de
populatie.
Omdat je de α zelf mag bepalen, moet je dus van in het begin duidelijk specifiëren welke
α je gaat gebruiken om significantie aan te duiden. Als je gewoon zou zeggen dat er een
significant effect is, zegt dit nog niets. Want als je een α van 0,05 gebruikt ga je pas later
een significant resultaat bekomen dan wanneer je een α va 0,1 gebuikt.
Borderline significantie
Je gaat je strikt houden aan de α die je
voorop gesteld hebt. Als je in een
experiment een p-waarde bekomt van
0,06 bij een α=0,05 is dit niet
significant!!
Een α= 0,05 impliceert dat er 1/20 kans
bestaat dat we een extreme waarde voor 𝑥̅
observeren die zelfs bij H0 correct zou zijn.

Dus dat we 1/20 een fout gaan maken
in het verwerpen van H0
Alles groter dan α is niet significant!

Mogelijke fouten in het maken van een beslissing
In statistiek gaan we nooit een uitspraak maken met 100% zekerheid. Er is altijd ruimte
voor fouten. Zelfs als we gebruik maken van een significantie niveau α=0,01. Er is hier
dan nog steeds mogelijk dat wat jij gemeten hebt juist die 1% is. In dit geval ga je H 0
verwerpen terwijl die wel correct is.
Het omgekeerde kan uiteraard ook als je een grote p-waarde bekomt ga je besluiten H0 te
aanvaarden (µ=0). Het kan echter zijn dat µ heel dicht bij 0 ligt maar toch niet 0 is en dat
je het nooit gemerkt hebt. En dan ga je ook verkeerde conclusies maken.
 Wat je ook besluit, er is altijd de mogelijkheid dat je een foute beslissing maakt
 Later zullen we gaan kijken hoe groot de kans is dat je een foute beslissing
maakt.
Statistiek kan nooit iets bewijzen!!!
43
B.P.
Het enige wat je kan zeggen is dat er grote evidentie is dat er een effect is.
De reden hiertoe is omdat we uitspraken maken over een ∞ grote populatie op basis van
een eindig grote steekproef.

Hypothese testen VS betrouwbaarheidsinterval
Als we het voorbeeld van de captopril data er nog eens bij nemen. Hier hebben we zowel
een C.I. als een p-waarde op berekend.
95% C.I. : [4,91;13,63]
P-waarde: 0,001 (0,1%)
Uit de C.I. kunnen we halen dat de reële waarde (gemiddeld effect van de behandeling)
zeer waarschijnlijk te vinden is tussen 4,91 en 13,61. Hier ga je ook kunnen besluiten dat
de reële waarde niet 0 zal zijn (H0 verwerpen).
Bij de p-waarde met α=0,05 hebben we besloten dat H0 niet correct is dus dat µ≠0. (want
enkel in 0,1% van de gevallen zullen we waarnemen dat µ=0)
Beide technieken geven elkaar dus gelijk. Bij het C.I. krijgen we wel meer informatie.


Alle waardes die tussen het C.I. liggen zijn waardes van H0 die we zouden
accepteren moesten we ze meten in een experiment.
Met C.I. kan je dus ook een hypothese gaan toetsen.
Als we H0 zouden verwerpen wilt dit ook zeggen dat, in het geval dat µ=0, de 0 niet in het
C.I. gaat liggen.
De twee technieken zijn altijd complementair aan elkaar, zolang je de juiste intervallen
samen bekijkt!
44
B.P.
95% C.I. is de verzameling van alle H 0’s die we zouden accepteren in een
statistische test met een α=0,05.

Voorbeeld: BMI
Net zoals bij de C.I. kunnen we een hypothese opstellen over alle Ө van de verdeling X.

Veronderstel dat we 10 jaar geleden een experiment gedaan hebben over de BMI
bij mannen met als resultaat dat 40% van de mannen een BMI had >25.
We kunnen nu gaan testen of er momenteel (10 jaar later) al dan niet meer mannen zijn
met een BMI>25. De H0 die we dan zouden opstellen is de volgende.
H0 𝜃 ≤ 40%
VS
HA 𝜃>40%
H0 : het percentage mannen met een BMI≤40
HA: het percentage mannen met ene BMI >40
We berekenen een p-waarde;
p-waarde= <0,001
 We verwerpen de H0 en weten nu dat het percentage mannen groter is
dan 40% (α=0,05).
Dit is een eenzijdige test omdat we zeggen dat het ofwel < of > is dan de setpoint waarde.
Het voorbeeld van de captoprildata is een tweezijdige test.
H0: µ=0
VS HA: µ≠0
Je bepaald hier enkel dat µ al dan niet 0 is (het ken groter of kleiner zijn)
Bij een eenzijdige test
H0 𝜃 ≤ set point
VS
HA 𝜃>set point
Hier ga je bepalen of 𝜃 al dan niet groter of kleiner is dan de set point waarde.
Deel 5: enkele frequent gebruikte testen


In de vorige hoofdstukken hebben we altijd het voorbeeld van captopril data
gebruikt, waar we 1 groep mensen 2 keer hebben gemeten (voor en na
behandeling).
De zelfde principes kunnen we toepassen in andere contexten (andere soort
studies).
Deze contexten zullen we, de meest voorkomende, hier gaan bekijken.
45
B.P.
Hoofdstuk 14: vergelijken van 2 gemiddelden: ongepaarde data

Hier gaan we 2 groepen met elkaar gaan vergelijken en we gaan zien of er een
verschil is tussen die twee groepen / een verschil tussen de gemiddelden.
In dit hoofdstuk kijken we specifiek naar ongepaarde data.
 De 2 groepen die we onderzoeken hebben niets met elkaar te maken

Voorbeeld: gewichtstoename bij ratten.
Hier zijn dus 2 groepen gemaakt, 1 groep kreeg een
dieet hoog in proteïnen en groep 2 kreeg een dieet
laag in proteïnen. (de 2 groepen staan los van
elkaar dus we hebben ongepaarde data).
We gaan kijken of we een verschil kunnen
detecteren in gewichtstoename tussen de twee
verschillende groepen.
Hiervoor gebruiken we de zelfde methodologie als
voordien, wat wilt zeggen dat we ook hier straks
gebruik willen maken van de CLT. Onze steekproef is niet heel groot en we gaan dan ook
voor de zekerheid eerst eens naar de histogrammen kijken. We zien dat de gegevens niet
heel scheef verdeeld zijn en in zekere zin symmetrisch. We kunnen dus de CLT gaan
toepassen.
 De gegevens zijn wel niet perfect symmetrisch maar zeker niet heel
scheef. Dit is goed genoeg om te CLT te laten toepassen.
Uit de beschrijvende statistiek kunnen we zien dat er wel een gemiddeld gewichtsverschil
is van 19 gram.
We zijn nu geïnteresseerd om te weten hoe waarschijnlijk het is dat we zo een verschil
(19g) kunnen waarnemen als de gewichtstoename helemaal niets zou te maken hebben
met het proteïnegehalte in het dieet.
Voor ons onderzoek gaan we er vanuit dat we 2 ∞ grote populaties hebben waarvan 1
populatie een dieet heeft hoog in proteïnegehalte en een andere populatie een dieet heeft
laag in proteïne gehalte.
└> uit deze hypothetische populaties hebben we uit elk 1 steekproef genomen.
Steekproef 1: n1 = 12
𝑥̅ 1 = 120
Steekproef 2: n2 = 7
𝑥̅ 2 = 101
46
B.P.
Zoals eerder gezegd zitten we hier met ongepaarde data want de 2 groepen hebben niets
met elkaar te maken.


Er is geen relatie tussen de observaties uit de 1e populatie en de observaties uit de
2e populatie.
Betrouwbaarheidsinterval voor het verschil tussen 2 gemiddelden.
Ook hier kunnen we een C.I. gaan berekenen. We zijn niet geïnteresseerd in µ 1 of µ2 maar
in het verschil tussen die twee. µ1-µ2
Hierop gaan we onze C.I. dan ook op samen stellen.
µ1 en µ2 kunnen we niet kennen maar we kunnen wel een
schatting maken met behulp van 𝑥̅ 1 en 𝑥̅ 2
We schatten µ1-µ2 door 𝑥̅ 1 - 𝑥̅ 2 = 19
Als we een C.I. gaan samen stellen met deze data voor een 95% betrouwbaarheidslevel
dan bekomen we een interval van: [-2,19;40,19].
 We kunnen met grote zekerheid zeggen dat het reële verschil tussen dit interval
ligt.
De 95% slaat op het geen wat we zullen zien als we
het experiment meerdere keren zouden herhalen met
andere steekproeven. In 95% van de gevallen zullen
we een C.I. bekomen die de reële waarde bevat.
Dit C.I. laat zien dat onze schatting niet heel precies is, dit kan verklaard worden doordat
de steekproef veel te klein is.
Ook kunnen we niet uitsluiten dat het verschil niet 0 gaat zijn (wat erop zou wijzen dat er
geen verschil is tussen de twee gemiddelden.
└> dit laat ook al zien dat, wanneer we de p-waarde gaan berekenen, deze een niet
significant niveau gaat aantonen.

De ongepaarde t-test
We gaan willen testen of de twee populaties al dan niet een zelfde gemiddelde hebben.
Hiervoor gaan we ook 2 hypotheses voor samenstellen.
H0 : µ1=µ2
VS
HA : µ1≠µ2
Vanaf het moment dat we te veel verschil waarnemen tussen de twee gemiddelden, gaan
we H0 verwerpen.
└> als 𝑥̅ 1 te veel verschilt van 𝑥̅ 2 .
Dit brengt ons dan terug bij de vraag: wanneer gaat dat verschil te groot zijn?
 Wanneer het geobserveerde verschil (𝑥̅ 1 - 𝑥̅ 2 ) te onwaarschijnlijk lijkt
om te gebeuren door puur toeval.
(dat wat we zien geen geluk kan zijn)
47
B.P.
Om dat te bepalen gaan we de probabiliteit bepalen van het observeren van een
gemiddelde tussen de 2 groepen van minstens 19g, als µ1=µ2.
De kans (p-waarde) die we voor deze gegevens berekend hebben is p-waarde = 0,0757.
 Dit wilt dus zeggen dat, zelfs al zou er geen verschil zijn tussen de twee
groepen, dan nog zouden we in 7,57% van de gevallen een verschil
kunnen waarnemen van minstens 19g in een gelijkaardig experiment door
puur toeval.
Om te bepalen of deze kans (p-waarde) klein genoeg is om te kunnen zeggen dat de
gemiddelden toch van elkaar verschillen (en H0 fout is). Of dat de p-waarde groot genoeg
is om te besluiten dat er geen verschil is. Dit doen we door de p-waarde te staven aan een
α van 0,05.
De geobserveerde p-waarde is 0,0757 en is dus > α 0,05. We gaan dus besluiten dat voor
dit onderzoek er te weinig evidentie is om ervan uit te gaan dat de 2 gemiddelden van
elkaar verschillen.
We gaan H0 verwerpen een HA aanvaarden.
Er is geen significant verschil in de gewichtstoename
tussen ratten met een dieet hoog in proteïnegehalte
en een dieet laag in proteïnegehalte.
Het is belangrijk dat je duidelijk spreekt over een significantie. Zekerheid over onze
uitspraak kunnen we nooit hebben.
└> we kunnen niet gewoon zeggen dat het over een verschil gaat omdat we over
statistiek bezig zijn.
We hebben hier gesproken over een ongepaarde t-test, de p-waarden werden berekend
op de t-verdeling (niet op de normaal verdeling).

Assumpties
Er zijn enkele voorwaarden waaraan je moet voldoen om een t-test te mogen uitvoeren.
Om een resultaat te hebben dat representatief is.
 Om te beginnen zijn zowel C.I. als de p–waarde berekening gebaseerd op
de sampling distributie 𝑋̅ − 𝑋̅ . Welke de verdeling geven voor respectievelijk
𝑥̅ 1 en 𝑥̅ 2 . deze sampling distributie is gebaseerd op die van 𝑋̅ 𝑒𝑛 𝑋̅.
o In het geval dat je een grote steekproef neemt, zullen deze
verdelingen altijd normaal verdeeld zijn. (CLT)
o Als ze klein zijn, zoals in het voorbeeld, kunnen we daar niet zomaar
vanuit gaan. Hier gaan we eerst nog eens kijken daar de
histogrammen om te besluiten of de gegevens al dan niet
symmetrisch verdeeld zijn. In beide populaties. Als ze voldoende
symmetrie bevatten kunnen we CLT ook nog toepassen.
 Een 2e assumptie bij de ongepaarde t-test is dat er impliciet vanuit wordt
gegaan dat de varianties, uit beide populaties, gelijk zijn.
48
B.P.
o
o
Ook hier is het zo als de steekproef voldoende groot is dat deze
sowieso gelijk zullen zijn.
Bij kleine steekproeven zullen we dit moeten gaan bepalen.
We kunnen de varianties gaan controleren met behulp van een hypothese test.
H0: σ²1 = σ²2
VS
HA: σ²1 ≠ σ²2
De meeste software pakketten zullen deze hypothese automatisch testen
p-waarde < α  H0 verwerpen
p-waarde ≥ α  H0 aanvaarden
wanneer de p-waarde < α dan ga je de t-test niet mogen gebruiken.
 Ook hier geeft de statistiek een oplossing voor. Het berekend namelijk ook een
p-waarde ‘by seperated variances’.
In dit voorbeeld maakt dit nu niet veel uit want we hebben ook bepaald dat de varianties
gelijk zijn. De gecorrigeerde test gaat hier dus ook ongeveer gelijk zijn aan de normale.

Voorbeeld: overlevingstijden bij kankerpatiënten
Wat we hier gaan proberen te achterhalen is of de gemiddelde overlevingstijden tussen
maag- en dramkanker al dan niet dezelfde zijn.
H0 : µ1=µ2
VS
HA : µ1≠µ2
H0 : de gemiddelde overlevingstijd bij maagkanker is het zelfde als de gemiddelde
overlevingstijd bij colon kanker.
HA : de gemiddelden zijn niet gelijk.
 Voor dat we nu verder gaan moeten we eerst nog eens denken aan de assumpties!
o Varianties: deze moeten gelijk zijn in beide populaties. Na berekening
bekomen we een p-waarde > 0,05. Ze zijn dus gelijk.
o Normaal verdeling: we weten ondertussen al dat wanneer je steekproef
voldoende groot is dat deze assumpties sowieso voldaan zijn (CLT).
Hier hebben we echter een kleine steekproef. Dus we gaan de verdelingen
eerst moeten controleren.
49
B.P.
zoals we zien zijn deze gegevens
niet normaal verdeeld.
Dit zou dus een probleem
kunnen stellen als we de CLT
willen toepassen. Wat we nu wel
nog kunnen proberen is de
gegevens te transformeren om ze symmetrisch te maken. Er zijn verschillende soorten
transformaties. Voor deze gegevens gaan we een log transformatie toepassen.
De gegevens zijn na transformatie beter verdeeld, ze zijn niet
perfect symmetrisch verdeeld maar dat is niet nodig (wel zo
symetrisch mogelijk).
Met deze gegevens kunnen we dan wel een ongepaarde t-test
gaan doen.
Je gaat hier dus kijken naar de
overlevingstijden tussen 2 groepen.
logaritmes
van
Nu moeten we ook wel nog opnieuw de varianties controleren op
deze, getransformeerde, gegevens.
Deze zijn nog steeds gelijk.
 Alles ziet er nu goed uit dus we kunnen de p-waarde van deze t-test gaan
gebruiken.
We bekomen een p-waarde van 0,067.
Deze p-waarde is groter dan onze α (0,05). We gaan de H0 vaanvaarden, de gemiddelden
zijn gelijk.
In principe zou je nu je conclusie moeten schrijven als:
Er is geen signifiant verschil in de log overlevingstijden
Dit word echter nooit gedaan, er zal gewoon geformuleerd worden dat er geen significant
verschil is in overlevingstijden.
De log is enkel belangrijk bij de berekeningen, voor de interpretatie geeft dit geen
probleem.
Let wel!! Bij deze gegevens (log getransformeerd) ga je in de beschrijvende statistiek beter
werken met geometrisch gemiddelde en standaard deviatie.
Hoofdstuk 15: vergelijken van 2 proporties bij ongepaarde data
Ook hier gaan we 2 groepen met willen vergelijken en we gaan zien of er al dan niet een
verschil is in proporties tussen de 2 groepen. Meer bepaald geen we kijken naar 2 groepen
die niets met elkaar te maken hebben (ongepaarde data)
50
B.P.

Voorbeeld: ziekteverzuim
Wat
we
hier
gaan
willen
onderzoeken is of dat ziekteverzuim
gerelateerd is aan het geslacht.
Hiervoor hebben we de percentages
berekend van ziekteverzuim bij
zowel mannen als vrouwen.
Mannen: 37,2%
Vrouwen: 42,9%
Deze waardes suggereren dat er meer
ziekteverzuim is bij vrouwen dan bij vrouwen.
De geobserveerde waardes kunnen echter ook door puur toeval zijn gemeten. We hebben
hier ook maar een steekproef en we willen een uitspraak proberen te maken over de
populatie.
Daarom is het hier interessant om eens te gaan kijken (berekenen) hoe waarschijnlijk het
is dat deze waarden kunnen geobserveerd worden door puur toeval. (een kans berekenen).
We gaan dus weer 2 hypothetische populaties hebben (populatie mannen en populatie
vrouwen in een bedrijf). Uit elke populatie hebben we een steekproef
Mannen: n = 156
genomen.
Vrouwen: n = 429
 𝜋1 en 𝜋2 representeren de proporties in de populaties met
ziekteverzuim
 Omdat we 𝜋1 en 𝜋2 nooit kunnen weten gaan we deze schatten op basis van de
gegevens die we in de steekproef halen. Dan bekomen we een 𝜋̂1 = 37,2% en voor
𝜋̂2 = 42,9%.
Er is geen relatie tussen de twee groepen dus we zitten met ongepaarde data.

De chi-kwadraat test
Dit is de test die we gaan gebruiken om onze hypotheses te staven.
Er worden dus weer twee hypotheses geformuleerd H 0 en HA
H0: 𝜋1 = 𝜋2
VS
HA: 𝜋1 ≠ 𝜋2
H0: de proportie mannen met ziekteverzuim is gelijk aan de proportie vrouwen met
ziekteverzuim
HA: er is wel een verschil in proportie, er is een relatie tussen geslacht en ziekteverzuim.
Als er veel verschil is tussen de twee proporties, zullen we H 0 verwerpen, dus als 𝜋̂1 - 𝜋̂2
te groot is.
Om te bepalen wanneer deze waarde te groot is gaan we een p-waarde berekenen.
└> als het onwaarschijnlijk lijkt dat de geobserveerde waarde voorkomt door puur
toeval gaan we H0 verwerpen.
51
B.P.
De p-waarde laat ons zien wat de kan is op het observeren van een verschil dan minstens
gelijk is aan 0,057 (0,429-0,372) in een gelijkaardig experiment als 𝜋1 = 𝜋2
p-waarde= 0,215
dus zelfs al zouden de 2 proporties gelijk zijn aan elkaar, dan zouden we nog in 21,5% van
de toekomstige gelijkaardige experimenten een verschil observeren van minstens 0,057.
Ook hier gaan we gebruik maken van een significantie niveau om een uitspraak te kunnen
maken over de gegevens. We gebruiken een significantie niveau van α =0,05.
De p-waarde die we geobserveerd hebben is groter dan α, we zullen H0 aanvaarden.
Er is geen significant verschil in ziekteverzuim tussen mannen en vrouwen.
Deze test noemt de chi-kwadraat test omdat de p-waarde berekend word op de chikwadraat verdeling.

Assumpties
Zoals bij elke test die we gaan zien, zijn er ook enkele assumpties waaraan de steekproef
moet voldoen om de chi² test te mogen doen.
We willen terug gebruik maken van de CLT. Dat brengt ons terug op de normaal verdeling
̂1 − ∏
̂ 2. Deze
van de gegevens. Het berekenen berust op een sampling distributie van ∏
omschrijft welke waardes 𝜋̂1 - 𝜋̂2 je kan verwachten als je een experiment meerdere keren
herhaalt.

Merk op dat ∏1 en ∏2 de sampling distributies zijn van respectievelijk 𝑋̅1 𝑒𝑛 𝑋̅2 van
de binaire variabele ziekteverzuim.
De CLT zegt ons dat in grote steekproeven de gegevens normaal verdeeld zullen zijn en
dat er dus geen probleem is om chi² te gebruiken. Echter bij kleine steekproeven zitten we
met een probleem.
Bij het vergelijken van gemiddelden (t-test) gingen we dan kijken of de gegevens
symmetrisch verdeeld zijn. Dit is hier niet mogelijk omdat we zitten met binaire gegevens.
Bij kleine steekproeven gaan we chi² nooit mogen toepassen.
Statistiek geeft ons voor dit probleem ook terug een oplossing. Er is een andere techniek
die je kan toepassen in het geval dat je steekproef te klein zou zijn.
 Fisher exact test.
Zoals de naam al laat blijken is dit een exacte test
en gaat geen benadering maken zoals de CLT doet.
Beide steekproeven moeten
voldoende groot zijn!! Als er
1 niet groot genoeg is moet je
ook fisher toepassen.
In het voorbeeld hier zitten we met een
zeer kleine steekproef. De CLT stelt dat
we chi² niet kunnen toepassen
 We moeten Fisher toepassen
52
B.P.
na het berekenen van de p-waarde bekomen
we het volgende resultaat. Hier hebben we
nu zowel chi² als Fisher laten berekenen om
een voorbeeld te geven van hoe belangrijk
het is dat je de juiste test kiest.
Chi² : p-waarde: p=0,288
Fisher: p-waarde: p=0,396
Beide waarden zijn in dit geval niet significant maar je ziet wel dat er een duidelijk verschil
is tussen de twee. In bepaalde situaties gaat dit dus wel een verschil kunnen geven tussen
significant of niet.
De p-waarde van fisher is de correcte waarden dus als je kan kiezen zou je altijd deze
nemen. Echter kan niet elk software pakket de berekening van Fisher aan op grote
steekproeven. daarom wordt er algemeen gesteld dat:
Grote steekproef: chi² test
Kleine steekproef: Fisher exact test

Rijen VS kolommen
Bij het vergelijken van 2 proporties kunnen we
de gegevens weergeven in een 2X2 tabel.


In de rijen krijgen we de 2 groepen te zien
De kolommen geven de antwoorden
weer.
A= aantal vrouwen zonder ziekteverzuim
B= aantal vrouwen met ziekteverzuim
C= aantal mannen zonder ziekteverzuim
D= aantal mannen met ziekteverzuim
De hypothese die we hadden gesteld was om te vergelijken wat de prevalentie is van
ziekteverzuim tussen mannen en vrouwen.
Wat wij dan gedaan hebben is het % vrouwen met ziekteverzuim vergeleken met het %
mannen met ziekteverzuim (de rijen met elkaar vergeleken).
𝐵
𝐷
=
𝐴+𝐵
𝐷+𝐶
Als we bij een 2X2 tabel de kolommen gaan vergelijken komen we echter op een zelfde
conclusie.
𝐶
𝐷
=
𝐶+𝐴
𝐷+𝐵
Wat je hier dan gaat analyseren is het % mannen met ziekteverzuim met het % mannen
zonder ziekteverzuim.
Mathematisch maakt het niet uit wat we gebruiken, rijen of kolommen.
53
B.P.
rijen en kolommen kunnen dus omgewisseld worden. Het belang hiervan kan interessant
zijn bij het analyseren van een case-control studie.

Case-control studie
In dit onderzoek hebben we een aantal cases (patiënten met BMHK) en een aantal controls
(mensen zonder BMHK). Aan elke vrouw werd gevraagd wat de leeftijd was van de eerste
zwangerschap.
De vraag waar wij in geïnteresseerd zijn is of er
een relatie is tussen kanker en de leeftijd van de
eerste zwangerschap.
 Ideaal zouden we nu ook de proportie
vrouwen met BMHK met zwangerschap
voor 25 willen vergelijken met de
proportie vrouwen met BMHK met zwangerschap na 25
 Hier zitten we echter met een probleem!! We hebben namelijk zelf gekozen wat
het aantal cases en het aantal controls is. Dit kan nooit een goede representatie
zijn van de populatie (de steekproef is niet meer random!). Als we hier
percentages gaan berekenen zou dat eigenlijk een percentage zijn dat we zelf
hebben samengesteld.
We hebben juist wel gezien dat we rijen en kolommen kunnen omdraaien.
Wat we dus wel kunnen bepalen is het % vrouwen met BMHK met een eerste zwangerschap
voor de leeftijd van 25 en het % vrouwen zonder BMHK met 1 e zwangerschap voor de
leeftijd van 25.
 Dit zal geen antwoord formuleren op de vraag die wij ons stellen
 Maar!! Zoals we eerder hebben gezien kunnen we rijen en kolommen omwisselen
voor een zelfde resultaat.
Als we kunnen aantonen dat deze proporties niet gelijk zijn dan kunnen we ook afleiden
dat de omgekeerde proporties niet gelijk zijn.


Dus als we kunnen aantonen dat het % vrouwen met BMHK met een eerste
zwangerschap voor de leeftijd van 25 gelijk (of niet gelijk) is aan het % vrouwen
zonder BMHK met een eerste zwangerschap voor de leeftijd van 25.
Dan kunnen we ook aannemen dat het omgekeerde ook juist is.
 Dus dat het % vrouwen met BMHK gelijk is bij de vrouwen met een eerste
zwangerschap voor en na 25 jaar.
54
B.P.
Voor te testen: ga je rijen en kolommen mogen omwisselen
Voor te beschrijven: hier ga je moeten oppassen welke
percentages je gaat rapporteren want niet alle percentages zijn
zinvol of kan je zomaar rapporteren.
 Hang af van het design van je studie
Hoofdstuk 16: de vergelijking van 2 gemiddelden: gepaarde data

Voorbeeld: captopril
In dit onderzoek werden 15 patiënten behandeld tegen hoge bloeddruk (BD). We gaan de
diastolische BD meten bij deze patiënten voor en na de behandeling met captopril.
We gaan dus 1 groep volgen over tijd en 2 metingen doen per patiënt (voor en na
de behandeling).
Net zoals bij de ongepaarde t-test gaan we 2 populaties met elkaar gaan vergelijken. Bij
gepaarde gegevens gaan de 2 populaties beschreven worden op 1 steekproef.
Populatie 1: patiënten zonder behandeling (voor)
Populatie 2: patiënten met behandeling (na)
Voor onze vraagstelling zijn we geïnteresseerd in het verschil in gemiddelde BD: µ1-µ2.
Het grote verschil met ongepaarde data is dat hier elke observatie van de eerste steekproef
gekoppeld is aan een observatie in de tweede groep (1 persoon word 2 keer gemeten).
 De gegevens zijn dus gepaard
55
B.P.
Aan de numerieke waarden kan je niet afleiden of de gegevens gepaard of ongepaard zijn.
Je moet weten hoe de gegevens verzameld zijn.
Het zou hier bijvoorbeeld ook even goed kunnen dat we begonnen zijn met 30
proefpersonen en die dan opgesplitst hebben in 2 groepen (2 keer 15 personen).
Waarvan 15 personen een behandeling kregen en de andere 15 geen behandeling
kregen.
 Dit is wel belangrijk om te weten voor de berekeningen!
Omdat we met gepaarde gegevens zitten kunnen we netto het effect berekenen van de
behandeling op patiënt niveau.
We kunnen dus een variabele bepalen die het verschil weergeeft (dit kan omdat de
gegevens toch gekoppeld zijn).
𝑋 = 𝐵𝐷𝑣𝑜𝑜𝑟 − 𝐵𝐷𝑛𝑎
De geobserveerde waarden x1 voor X kunnen we berekenen uit de BD waardes
geobserveerd uit de steekproef. Deze gegevens kunnen we dan ook terug visualiseren aan
de hand van een histogram. Net zoals voorheen
kunnen we zien dat de gegevens iets of wat
symmetrisch zijn. Ook al zitten we met een
kleine steekproef, we kunnen CLT later
toepassen.
µ is het populatie gemiddelden voor de variabele
X. de waarden µ kunnen we niet meten maar wel
schatten. Deze schatting kunnen bij gepaarde
gegevens gemaakt worden op het verschil tussen
de patiënt obseervaties voor en na behandeling
in plaats van de originele BD waardes te
gebruiken.

Betrouwbaarheidsinterval
In hoofdstuk 12 hebben we dit al behandeld voor deze
gegevens.
We bekomen een 99%C.I. = [3,02;15,52]

Gepaarde t-test
De hypothese die we dillen testen is:
H0: µ1 = µ2
VS
HA: µ1 ≠ µ2
Dit hebben we reeds berekend in hoofdstuk 13. We
kwamen hier op een p-waarde van 0,001. Wat een
significant
resultaat
oplevert
op
het
1%
significantieniveau.
Er is een significant verschil waargenomen tussen de BD voor en de BD na
behandeling.
56
B.P.
Hier hebben we een p-waarde berekend met een gepaarde t-test omdat de observaties
gelinkt zijn aan elkaar.
Wat als we deze observaties nu berekend hadden met een ongepaarde t-test? (wat je dus
niet doet!!!)

Gepaarde VS ongepaarde t-test
De gegevens die we verzameld hebben zijn niet
gelinkt aan elkaar.
We hebben 2 groepen gemaakt waarvan 1 een
behandeling krijgt en de andere niet.
De gegevens die we verzameld hebben zijn wel gelinkt.
We hebben 1 groep 2 keer gemeten. 1 keer voor de
behandeling. Dan hebben we alle personen een behandeling
gegeven en daarna hebben we iedereen nog eens gemeten.
als we nu de resultaten zouden gaan vergelijken wanneer we op gepaarde gegevens
(captoprildata) zowel een gepaarde als een ongepaarde t-test zouden doen.
gepaarde t-test: p-waarde= 0,0009
ongepaarde t-test: p-waarde= 0,0369
beide gegevens hebben in dit geval een significant resultaat geproduceerd maar je ziet wel
dat er een heel groot verschil tussen de twee zit. Het kiezen van de verkeerde test kan dus
in sommige gevallen wel een verkeerd resultaat opleveren.
15 x 2 metingen ≠ 30 x 1 meting
(ongepaard)

(gepaard)
Voorbeeld
Het is nu wel duidelijk dat het belangrijk is om te weten of de gegevens gepaard of
ongepaard zijn.

In de praktijk kan je dit enkel achterhalen door de opstelling van het onderzoek te
weten en hoe de gegevens verzameld zijn.
Vb.:
Als we geïnteresseerd zijn in het testen van een verschil in BMI tussen mannen en vrouwen.
We hebben 100 mannen en 100 vrouwen gemeten, gewogen en de BMI berekend.
 Voor deze gegevens zou je een ongepaarde t-test toepassen. (2 groepen die
niets met elkaar te maken hebben)
Nu, stel dat deze 100 mannen en 100 vrouwen genomen zijn uit 100 getrouwde koppels.
 Dit veranderd heel de kijk op het soort gegevens dat we hebben want elk
koppel is uniek gelinkt.
57
B.P.
Je kan je hier wel afvragen in welke maten dit belangrijk is.
o
Wel, als ze samen wonen en leven, dan hebben ze allerlei
gemeenschappelijke eigenschappen (levensstijl, eetgedrag,…). En dit kan
wel belangrijk zijn bij het bestuderen van de BMI.
Je mag dus niet negeren als er een link is tussen de gegevens!!! Dit moet in rekening
gebracht worden bij de statistiek.

Assumpties
De berekening van C.I. en p-waarde is afhankelijk van de normaliteit van de verdeling 𝑋̅ .
-
Grote steekproef  geen probleem (CLT) we mogende test doen
Kleine steekproef  probleem (CLT) hier moeten we eerst terug
gaan controleren of onze gegevens symmetrisch verdeeld zijn.
Omdat we hier geïnteresseerd zijn in het verschil in BD voor en na de behandeling, gaan
we niet kijken naar de verdeling van de originele waardes. We gaan naar de gegevens
kijken uit de verdeling 𝑋 = 𝐵𝐷𝑣𝑜𝑜𝑟 − 𝐵𝐷𝑛𝑎.
 Scheefheid in de originele data maakt niet uit, zolang de gegevens van de
verdeling X maar symmetrisch zijn (dat is ook de verdeling waar we een
uitspraak over willen maken.
 De n van onze steekproef is niet het totaal aantal metingen
maar het aantal gekoppelde gegevens (n=15)
In het geval dat we in X een scheefheid waarnemen, is het
niet zinvol om de gegevens van xi te gaan transformeren. Wat
we dan wel kunnen doen is het transformeren van de originele
data op zo een manier dat de gegevens van X symmetrisch
verdeeld zullen zijn.
Voor de gegevens xi kunnen we geen log berekenen omdat dit een verschil is tussen 2
waardes. Deze waarden kunnen positief of negatief zijn. Een log van negatieve gegevens
gaat niet).
Om hier te zeggen om een log +… dan krijg je geen overzichtelijk resultaat meer.
Je weet niet meer juist wat je dan meet.
58
B.P.
Hoofdstuk 17: vergelijken van 2 proporties: gepaarde data

Voorbeeld: kinderen met verkoudheid
In dit onderzoek zijn 1319 kinderen onderzocht geweest. Er werd gekeken naar de
prevalentie van een zware verkoudheid op de leeftijd van 12 en 14 jaar. Dus de 1319
kinderen werden op 12 jaar onderzocht en dan 2 jaar later werden de zelfde kinderen nog
eens onderzocht. Er werd aan hun gevraagd of ze in de laatste 12 maanden een ernstige
verkoudheid gehad hadden. Dit leverde de volgende data op.
Wat we nu juist willen weten is of het voorkomen
van een zware verkoudheid even frequent is op de
2 leeftijden?
 In andere woorden willen we weten of
een zware verkoudheid al dan niet meer
(of minder) voorkomt op 14 jarige leeftijd.
Uit deze date kunnen we al enkele percentages berekenen.

Het voorkomen van verkoudheid op 12 jaar:

Het voorkomen van verkoudheid op 14 jaar:
356
1319
468
1319
= 27%
= 35%
Deze percentages suggereren dat op 14 jarige leeftijd er meer verkoudheden voorkomen
dan op 12 jaar. Er is dus een verschil in proportie.
Ook hier zou het interessant zijn om te achterhalen wat de kans is da we dit observeren
door puur toeval.
Als het onwaarschijnlijk lijkt dat het toeval is  dan geeft dit evidentie dat er een
verschil is in het voorkomen en de leeftijd.
De 1319 kinderen zijn op 2 leeftijden gemeten. De data die we hier hebben verzameld is
dus gepaard.
Het berekenen van deze kans doen we met behulp van de Mc Nemar test.

Mc Nemar test
We gaan een uitspraak proberen te maken over de totale populatie. We gaan dus willen te
weten komen of 𝜋1 al dan niet gelijk is aan 𝜋2.
𝜋1 en 𝜋2 representeren respectievelijk de percentages van kinderen met een zware
verkoudheid op de leeftijd van 12 en 14 jaar.
De hypotheses die we gaan stellen zijn de volgende:
H0: 𝜋1 = 𝜋2
VS
HA: 𝜋1 ≠ 𝜋2
H0 : het percentage 12 jarige kinderen met een zware verkoudheid verschilt niet met het
percentage 14 jarige kinderen met een zware verkoudheid.
 De percentages (proporties) zijn gelijk
HA : er is wel een verschil tussen de leeftijden.
59
B.P.
Een belangrijk in zicht hier is dat een verandering over leeftijd in het percentage kinderen
met een zware verkoudheid enkel kan voorkomen als er kinderen veranderen van status.
Dus als ze gaan van:


Van zware verkoudheid op 12 jaar naar geen zware verkoudheid op 14 jaar.
Van geen zware verkoudheid op 12 jaar naar zware verkoudheid op 14 jaar.
A
B
C
D
A= zowel op 12 als op14 jaar zware verkoudheid
D= zowel op 12 als op 14 jaar geen zware verkoudheid.
 Als deze twee groepen met elkaar vergelijken zou nutteloos zijn
B= op 12 jaar verkoudheid en op 14 jaar geen verkoudheid
C= op 12 geen verkoudheid en op 14 jaar wel een zware verkoudheid.
 Hier gaan we eventueel veranderingen in kunnen waarnemen
We gaan dus controleren of er meer kinderen veranderen van ja naar nee of van nee naar
ja. Als er voldoende kinderen in 1 richting veranderen, hebben we evidentie dat er een
verschil is in het voorkomen van een zware verkoudheid tussen de leeftijd 12 en 14.
We gaan dus kijken of er al dan niet meer kinderen veranderen van de ene naar de andere
groep (om H0 te kunnen verwerpen).
 Als er evenveel kinderen van ja naar nee zouden gaan als dat er kinderen
ven nee naar ja zouden gaan dan gaan we er van uit dat H0 correct is.
We gaan H0 verwerpen wanneer [256 – 144] (=C-B) te groot is.
Vanaf wanneer kunnen we stellen dat het geobserveerde verschil te groot is? Als het
geobserveerde verschil [256 – 144] heel onwaarschijnlijk lijkt te gebeuren door puur
toeval.
Daarvoor gaan we de kans berekenen (p-waarde) om in een gelijkaardig experiment een
verschil waar te nemen van minstens [256 – 144] = 112. Zelfs al zou er geen verschil zijn
in de totale populatie.
In ons voorbeeld bekomen we een p-waarde van 0,0001
Wanneer we de gegevens berekend hebben door een programma krijgen we 2 p-waarden?
-
Een p-waarde voor A/D
Een p-waarde voor C/D
We zijn enkel geïnteresseerd in de p-waarde van C/D. Enkel deze kan een verschil
aantonen, dit hebben we ook bestudeerd.
Deze p-waard gaan we terug toetsen aan een significantieniveau α (0,05). We zien duidelijk
dat de p-waarde kleiner is dan 0,05  H0 verwerpen
60
B.P.
We kunnen dus concluderen dat de kans op het krijgen van een zware verkoudheid op de
leeftijd van 12 jaar niet het zelfde is als de kans op het krijgen van een verkoudheid op 14
jaar.
Er is een significant verschil tussen het voorkomen van een zware
verkoudheid tussen de leeftijden 12 en 14 jaar.

Assumpties
Ook hier gaan we de CLT willen toepassen. Bij grote steekproeven is er dan weer geen
probleem. Bij kleine steekproeven is er wel een probleem. Er is namelijk geen alternatieve
test die we kunnen toepassen zoals bij de chi² (Fisher). Hier moet je er maar voor zorgen
dat je steekproef groot genoeg is.

Opmerkingen
We hebben het al eerder aangehaald. Het enige waar we in geïnteresseerd zijn is of er
meer veranderingen zijn in 1 richting dan in de andere.
Dus meer van nee  ja of van ja  nee
In onze 2X2 tabel zijn dit gegevens uit B en C. naar A en B gaan we niet kijken en hebben
ook geen invloed op de resultaten. Als deze waardes ineens veel groter zouden worden,
dan gaan we nog altijd een zelfde p-waarde bekomen (zie figuur).
Dit brengt dus een nieuwe
kijk op het begrip ‘grote van
de steekproef’. De steekproef
is eigenlijk enkel die waardes
die een invloed kunnen
uitoefenen op het resultaat
(personen in B en C).

Mc Nemar VS Chi²
Bij de t-test hadden we maar 1 keuze van test om te doen.
Gepaarde data = gepaarde t-test
Ongepaarde data = ongepaarde t-test
Bij chi² (Fisher exact) en Mc nemar is het niet zo rechtlijnig. We kunnen bij gepaarde data
al deze 3 testen toepassen. Het is wel zo dat wanneer we chi² of fisher exact doen, we een
andere hypothese gaan testen dan wanneer we Mc Nemar gebruiken.
Om dit te verduidelijken nemen we het volgende voorbeeld:

Stemgedrag voor en na een tv debat.
Het is duidelijk dat de data gepaard is want
we gaan het stemgedrag van de zelfde groep
analyseren voor en na het debat. Toch kunnen
we hier zowel een chi² als een Mc nemar test
op toepassen.
61
B.P.
 Chi²: testen wat de relatie is tussen het stemgedrag voor en het stemgedrag
na het debat.
 Mcnemar: testen of de proportie reagan stemmers al dan niet veranderd
voor en na het debat.

Mc Nemar
Is de proportie stemmers voor en na het debat het zelfde als na het debat?
A
B
C
D
B= van reagan naar carter
C= van carter naar reagan
Het geobserveerde verschil in proportie is de volgende:
34
75
= 45,3%
𝑒𝑛
40
75
= 53,3%
Deze gegevens suggereren dat er een verschil is in proportie stemmers voor reagan
tussen: voor en na het debat.
We gaan ook terug testen wat de kans is dat dit voorkomt door puur toeval en bekomen
een p-waarde van 0,2635. Het geobserveerde verschil zou in 26% van de gevallen kunnen
voorkomen door puur toeval. Als we dit staven aan het significantieniveau α (0,05) kunnen
we stellen om H0 te aanvaarden.
Het debat heeft geen significante verandering gebracht in het stemgedrag.

Chi²
Is de proportie Reagan stemmers het zelfde voor als na het debat?
 We gaan dus willen aantonen of er al dan niet een verschil is in stemgedrag
voor en na het debat.
Om dat te gaan controleren gaan we de proportie reagan stemmers na het debat
vergelijken in 2 aparte groepen
-
Groep 1: mensen die voor het debat ook al op Reagan stemden
Groep 2: mensen die voor het debat nog op Carter stemden.
We observeren de volgende proporties:
27
34
= 79,4%
𝑒𝑛
13
41
= 31,7%
We observeren 2 verschillende, onafhankelijke groepen met
elkaar. We zitten dus wel degelijk met ongepaarde data
Het geobserveerde verschil kan door toeval bekomen zijn dus we gaan de kans berekenen.
We bekomen een p-waarde van 0,00004. Wat we gezien hebben is dus zeer
onwaarschijnlijk te gebeuren door puur toeval, als er geen relatie zou zijn tussen het
stemgedrag voor en na het debat.
Er is een significante relatie tussen het stemgedrag voor en na het debat.
62
B.P.

Algemeen besluit
Mc Nemar: gaan we proberen aan te tonen dat het % Reagan stemmers veranderd na
het debat.
 Kijken of het debat er voor zal zorgen dat er een verschil gaat zijn in
uitkomst.
Chi²: we willen gaan aantonen of er al dan niet een verschil zal zijn in stemgedrag voor
en na het debat.
 Gaan mensen anders stemmen?
Er is geen relatie tussen significantie van de chi² en de significantie van Mc Nemar.
Het is dus niet zo dat wanneer chi² significant resultaat geeft, dat Mc nemar ook
een significant resultaat geeft (je meet ook iets totaal anders).
Chi²: vergelijken van 2 kolommen (of 2 rijen)
Mc nemar: vergelijken van 1e kolom met 1e rij
Deel 6: verdere onderwerpen over statistische conclusie
Hoofdstuk 18: fouten in statistiek: basis concepten

Introductie
We nemen het voorbeeld van de ratten waarvan 1 groep een dieet had laag in proteïnen
en de andere groep een dieet had hoog in proteïnen. We waren hier geïnteresseerd of er
een verschil is tussen de 2 groepen in gewichtstoename.
63
B.P.
We hebben een gemiddeld gewichtsverschil geobserveerd van 19 gram tussen de twee
groepen. Na het uitvoeren van een ongepaarde t-test bekwamen we een p-waarde =
0,0757. Wat wilt zeggen dat wij gaan besluiten dat er geen significant verschil is tussen
de twee groepen (op het 5% significantieniveau).
We hebben altijd al gezegd dat het niet wilt zeggen dat wanneer wij een niet significant
resultaat bekomen, dat er dan ook helemaal geen effect is. Het kan namelijk zijn dat het
effect zo klein is dat we het niet gezien hebben. Misschien klopt de H0 toch niet en is er
wel een verschil tussen de twee groepen maar is zo danig klein dat we het niet gezien
hebben.
 Het enige wat wij besloten hebben met ons experiment is dat, als er in de populatie
geen verschil zou zijn in gewicht, dan is het perfect mogelijk dat je zo iets
observeert als wij gezien hebben in ons experiment.
Het omgekeerde kan ook. Stel dat we een effect hebben waargenomen, p-waarde 0,001.
Dan zouden we stellen dat er wel een significant verschil is tussen de twee groepen. Dit
resultaat, hoe klein de p-waarde ook mag zijn, geeft nog steeds geen absolute zekerheid
dat wat we gezien hebben ook effectief zo zal zijn in de populatie.
Een p-waarde geeft enkel weer dat wanneer er geen effect zou zijn in de populatie, wat de
kans dan zou zijn dat we dit observeren door puur toeval. Dus bij een p-waarden van 0,001
is er maar 1 kans op 1000 dat wat we geobserveerd hebben door puur toeval kan gebeuren,
als de 2 groepen gelijk zijn.
Er is dus wel nog steeds die 1 kans op duizend dat juist ons experiment die observaties
geeft. Dus dat door toevalligheid van ons experiment een heel extreem resultaat hebben
gemeten waardoor we de indruk krijgen dat er een effect is terwijl er helemaal geen effect
is.
We kunnen dus in 2 richtingen fouten maken.
Ofwel zeggen we dat het significant is, en zeggen we dat er een effect is terwijl er
in realiteit er geen effect is.
Ofwel zeggen we dat het niet significant is, en we besluiten dat er geen effect is
terwijl er in de realiteit wel een effect is.
We kunnen fouten niet uitsluiten. De uitspraken die we maken zijn nooit met 100%
zekerheid, dat is ook niet mogelijk. In dit hoofdstuk gaan we zien hoe vaak we zo een
fouten maken.

2 types van fouten
We hebben het al aangehaald, er zijn 2 soorten fouten die we kunnen maken op onze
hypothese.
64
B.P.



type 1 fout = we verwerpen H0 in ons
experiment terwijl in realiteit H0
correct is.
Type 2 fout = we aanvaarden in ons
experiment H0 terwijl in realiteit H0 fout
is.
Type 1 fout
 Het onterecht verwerpen van H0.
Wat is nu de kans dat we een type 1 fout maken?
In andere woorden stelt dit hoe vaak zal het gebeuren dat we onterecht gaan zeggen dat
H0 fout is.
De beslissing of we H0 verwerpen of aanvaarden wordt genomen door het toetsen van de
p-waarde aan het significantie niveau α.
Dus als H0 correct, dan zullen we toch een significant resultaat zien in 5% (α = 0,05) van
de gevallen. Dus in 5% van de gevallen zullen we H0 onterecht verwerpen.
Het maken van type 1 fouten is dus gelijk aan de α die we gebruiken.

Type 2 fout
 Het onterecht aanvaarden van H0
Hoe vaak het voorkomt dat we een type 2 fout maken is iets moeilijker te bepalen dat bij
een type 1 fout. Er zijn namelijk verschillende aspecten die hier een invloed op uitoefenen.
We noteren een type 2 fout als β.
de power van een statistische test is 1-β, dit is de
kans op het correct verwerpen van H0.
We willen er dus voorzorgen dat β zo klein
mogelijk is en 1-β zo groot mogelijk is.

Power
Waarvan hangt de power van een test af?
Om een uitspraak over een experiment te maken, gaan we proberen er voor te zorgen dat:
-
De kans op het maken van een type 1 fout zo klein mogelijk is
Dit kunnen we zelf bepalen door de α te verkleinen.
-
De power van ons experiment, om afwijkingen van H0 te
detecteren, voldoende groot is.
Om dit te doen is het iets gecompliceerder. We gaan dit
illustreren in de context van het vergelijken van 2 groepen.
65
B.P.
Laat ons veronderstellen dat µ1 en µ2 het gewicht illustreert van 2 populaties ratten, waar
we het verschil van willen in kaart brengen. De hypothese die we stellen is :
H0: µ1 = µ2
VS
HA: µ1 ≠ µ2
De power is de kans op correct de H0 te verwerpen
We kunnen het verschil tussen µ1 en µ2 noteren als ∆. (µ1-µ2 = ∆)
Onze ongepaarde t-test verondersteld dat de gegevens
normaal verdeeld zijn in beide populaties en dat varianties
gelijk zijn.
De power is afhankelijk van enkele parameters.
1) α
 hoe kleiner α, hoe lager de power zal zijn.
Bij het verkleinen van α, gaan we strenger zijn we zullen H0 minder vaak gaan verwerpen.
Dat wil dus ook zeggen dat we H0 vaker zullen aanvaarden. Dus ook vaker wanneer we ze
eigenlijk niet mogen aanvaarden.
2) ∆
 Hoe kleiner ∆, hoe kleiner de power.
Hoe kleiner het effectieve verschil in de populaties, hoe moeilijker het zal worden om dat
verschil te gaan meten.
3) σ²
 hoe kleiner σ², hoe groter de power.
Als de σ² kleiner is, dan ga je gemakkelijker onderscheid kunnen maken tussen de twee
groepen.
66
B.P.
4) steekproef grootte
 hoe groter de steekproef, hoe sterker de power
als je een grotere steekproef neemt, heb je automatisch meer observaties. Dus ook meer
informatie waardoor je met meer precisie een conclusie gaat kunnen maken.

Samenvatting
Power is afhankelijk van:
-
Significantie niveau : α
Het echte effect in de populatie : ∆
De variantie in de populatie : σ²
De steekproef grootte: n
Het enige wat we van deze lijst kunnen aanpassen is de steekproef grootte. We kunnen
ook bepalen hoe groot je steekproef zal moeten zijn voor voldoende power aan je
experiment te geven.= sample size calculations.

Sample size calculations
We hebben juist besproken dat wanneer we de power willen opkrikken, we dit enkel kunnen
doen door de steekproef te vergroten. We willen zeker zijn dat we voldoende power
hebben!
Hoe groot de steekproef gaat moeten zijn kunnen we berekenen op voorhand.
In het vorige deel hebben we besproken dat de power afhankelijk is van 4 verschillende
parameters. als we willen weten wat de steekproef grootte gaat moeten zijn voor een
bepaalde power te halen , moeten we de 3 andere parameters ook kennen.
1) α
deze kunnen we zelf kiezen. Als we ze groter maken gaat de power ook omhoog maar dan
stijgt wel de kans op het maken van een type 1 fout.
 Algemeen behouden we de α = 0,05
2) σ²
dit is een waarde die we niet kunnen weten want is eigen aan de populatie die we willen
onderzoeken. We kunnen deze ook nog niet schatten aan de hand van een steekproef
omdat we die nog niet genomen hebben. We hebben 2 mogelijkheden:
-
we gaan in de literatuur kijken wat de σ² is in gelijkaardige
experimenten in relevante literatuur!
We doen een pilot studie
Het is ook beter om een overschatting te maken dan een onderschatting.
3) ∆
Ook dit is een waarde die we niet kennen, het is ook een waarde die we observeren in de
populatie. wat we hier kunnen doen is het bepalen wat de kleinste, klinisch relevante ∆ is.


Als we dan in onze steekproef een waarde uitkomen die kleiner is dan de gekozen
∆ maakt dat niet uit want dat is toch niet meer klinisch relevant.
Elk verschil dat we zullen waarnemen in ons experiment dat groter is zal ons meer
power opleveren.
67
B.P.
De klinisch relevantie hangt af van wat we onderzoeken.
Als we dit allemaal bepaald hebben, dan kunnen we de steekproef grootte bepalen.

Voorbeeld: ratten
We hebben hier een verschil waargenomen van 19g met een p-waarde =0,0757  niet
significant.
Nu we kunnen ook nadat het experiment is gedaan de power berekenen.
Post- hoc power berekening
Waarom we dit nog zouden doen is omdat we ons ook kunnen afvragen waarom is een
verschil van 19g hier niet significant? Misschien was de power niet groot genoeg en hebben
we te maken met een type 2 fout.
We gaan dus de nodige parameters uit de steekproef halen
α= 0,05
σ= 21
∆= 19
# observaties 12 en 7
De power die we detecteren voor een ∆ = 19  43,45%
Dus voor deze grootte van steekproef , is enkel 43,45% kans dat we een ∆ zouden meten
van 19 gram. Dit is niet veel, we willen proberen om een power te halen van 95%.
 Dus als we er over eens zijn dat een ∆ van 19 een klinisch relevant verschil
is, dan kunnen we besluiten dat onze steekproef te klein was.
Want een power van 43% wilt ook zeggen dat je in 57% van de gevallen zo een verschil
niet gaat detecteren.
Nu kunnen we ook berekenen wat de power zal zijn
bij andere ∆’s.
Dan zien we dat bij een ∆ van 40 gram we een power
zouden hebben van 96%
 Dit zou willen zeggen dat voor deze opstelling
van experiment we een verschil zouden
moeten observeren van minstens 40g om voldoende power te hebben in ons
resultaat.
 Er zou hier dan maar 4% kans zijn dat we het niet zouden meten. De kans op type
2 fout is dus zeer klein (4%).
Bij een ∆ van 0g komen we op een power van 5% uit. Dit moet altijd zo zijn omdat we
berekenen hier wat de kans gaat zijn dat we H0 gaan verwerpen als H0 correct is.
 We bespreken dus eigenlijk wat de kans is op het maken van een type 1 fout
(α = 0,05)
68
B.P.
Nu, dit waren post-hoc onderzoeken maar in de praktijk gaan we op voorhand bepalen hoe
groot onze steekproef gaat moeten zijn om een bepaalde power te halen.
Stel dat we dit deden voor dit onderzoek en we
hebben de volgende parameters bepaald:
α= 0,05
σ= 21
∆= 19
Power 95%
We geven dit allemaal in het programma en we krijgen dan een grafiek waarop we kunnen
afleiden hoe groot de steekproef zou moeten zijn voor een bepaalde power.
We zien hier dat voor een power van 95% zouden we een steekproef grootte moeten
hebben van 30. Dit zijn dus 30 ratten in elke groep (60 ratten in totaal).

Voorbeeld: ziekteverzuim
We nemen terug het onderzoek van ziekteverzuim, de data werd verzameld op 585
werknemers.
Er werd een verschil geobserveerd van 5,7% met een p-waarde = 0,215. Het verschil is
dus niet significant.
Niet significant wilt niet automatisch zeggen dat de studie te klein is of dat de power te
klein was.
We kunnen we gaan kijken of de power al dan niet te klein was.
Als het ∆ effectief 5% zou zijn bekomen we een power van 19% voor dit experiment. We
kunnen dus concluderen dat de power te klein is.
Als we ervanuit gaan dan de ∆
5% klinisch relevant is, dan
kunnen we wel berekenen hoe
groot
de
steekproef
zou
moeten zijn geweest om
voldoende power te hebben.
voor ene power van 95%
zouden we 2 groepen moeten
hebben van elk 2500 personen
(5000 in totaal).
Dit is gigantisch veel en zeker
als
we
dat
dan
gaan
vergelijken met het vorig
voorbeeld. Daar hadden we
meer een n nodig van 30 (60
in totaal).
69
B.P.
Dit verschil is te verklaren omdat we hier proporties aan het vergelijken zijn en in het vorig
voorbeeld hadden we continue data. Continue data is veel nauwkeuriger dan percentages
(want dit zijn dichotome data).

Opmerking
Deze berekeningen kunnen we bij alle testen doen, gepaard of ongepaard en alle
onderzoeken die we nog gaan zien.
Hoofdstuk 19: fouten in de statistiek: praktische implicaties

Multiple testing
Bij het uitvoeren van een experiment bestaat er altijd dat kans (α) op het maken van een
type 1 fout. Dus bij een α= 0,05 gaan we in 5% van de gevallen H0 onterecht verwerpen.
Dit impliceert dat wanneer je in je steekproef meerdere testen gaat doen, je in 5% van de
gevallen een significant verschil zal observeren door puur toeval.
Multiple testing slaat dus op het feit dat als je maar genoeg blijft testen zal je uiteindelijk
wel iets vinden met een significant resultaat. Dit resultaat is dan waarschijnlijk een type 1
fout.
Hoe meer je test, hoe hoger de kans dat
iets gedetecteerd word door puur toeval
Vb.1: een klasslokaal experiment
Als je in de aula een onderverdeling gaat maken tussen links en rechts, er vanuit gaande
dat iedereen random is gaan zitten bij het binnen komen.
In beide groepen zullen we een aantal zaken gaan testen en vergelijken tussen de twee.
-
Gewicht
Lengte
Links of rechtshandig
Geslacht
Favoriete leesboek
…
Bij minstens 5 van deze uitkomsten zal je een significant resultaat bekomen op het 5%
significantie niveau enkel en alleen door puur toeval.
Als je dit gaat rapporteren, ben je fout bezig want je weet dat je waarschijnlijk met een
type 1 fout zit.
70
B.P.
Vb.2: testen van vele relaties
Als je het aantal p-waardes gaat tellen, zie je dat
ze 18 testen hebben gedaan op hun steekproef.
Enkel 2 resultaten waren significant. Hier is het
duidelijk dat het om multiple testing gaat.
Vb.3: subgroep analyses
We hebben hier een onderzoek waar we een
nieuwe behandeling willen vergelijken met de
huidige behandeling.
Bij het vergelijken van de twee groepen vonden
we geen significant resultaat.
We hadden uiteraard gehoopt op een significant
resultaat.
We gaan nu proberen enkele subgroepen te
maken en die dan met elkaar te vergelijken.
-
Enkel mannen
Enkel vrouwen
Enkel oudere mannen
Enkel piraten met houten been en
ooglapje
…
We blijven subgroepen maken tot we een significant resultaat vinden. Uiteindelijk werden
er 63 testten uitgevoerd en enkel 5 significante resultaten werden gevonden. Dit is duidelijk
multiple testing. De 5 significante resultaten zijn hoogst waarschijnlijk type 1 fouten.
Het is nu niet altijd zo dat, wanneer je meerder zaken test dat je multiple testing gaat
hebben.
Stel dat we hier nu 59 significante resultaten hadden gevonden. Het kan niet zijn
dat dit allemaal type1 fouten zijn. Er zullen er wel tussen zitten want we zitten nog
steeds met een α 0,05.
Het probleem is hier echter wel dat we niet weten welke resultaten een type 1 fout
zijn en welke niet.
71
B.P.
Multiple testing wordt pas echt een probleem als we veel zaken gaan testen en er maar
een paar significant zijn. En dat we ons dan zouden focussen op die enkele resultaten.
Want dit zijn waarschijnlijk type 1 fouten.
Vb.3: zoeken naar het meest significante resultaat
We hebben hier een krantenartikel waarin gesteld word dat het wetenschappelijk is
bewezen dat mensen die vroeger dan 7.21 am opstaan een statistisch hoger stress level
hebben gedurende de dag dan mensen die later dan 7.21 am opstaan.
Het probleem hier is dat het zeer onwaarschijnlijk lijkt dat ze bij het opstellen van dit
experiment gezegd hebben dat ze opzoek gaan naar mensen die al dan niet meer stress
hebben als ze vroeger opstaan dan 7.21 am. Dit uur is gewoon te specifiek!
Wat ze hier waarschijnlijk gedaan hebben is een steekproef genomen en van iedereen het
stressniveau gemeten en dan bevraagd hebben hoe laat ze ‘s morgens opstaan. En dan
zijn ze beginnen analyseren
Is er een verschil als ze opstaan voor:
Uur van opstaan (am)
6.01
6.02
6.03
6.04
…
7.09
7.20
7.21
Significant resultaat?
Nee
Nee
Nee
Nee
Nee
Nee
Nee
ja
Ze zijn dus blijven zoeken tot er een bepaald uur was dat een significant resultaat
opleverde. Dit is uiteraard fout. Het gaat hier over multiple testing en het zal hier
waarschijnlijk gaan om een type 1 fout.

Conclusie
Significante resultaten bij multiple testing zijn vaak over geïnterpreteerd
Als het totaal uitgevoerde testen is meegedeeld weet de lezer dat de resultaten
aandachtig moeten geïnterpreteerd worden.
 het probleem is echter dat wanneer ze het aantal testen niet meedelen en
enkel de significante resultaten. Dan weten we niet dat er multiple testing is
gebeurt.
- De resultaten bij multiple testing zijn niet reproduceerbaar. want het zijn type 1
fouten.
-

Bonferroni correctie
Er is nu wel een mogelijkheid om te corrigeren voor multiple testing. Een van deze
methodes die we daarvoor kunnen gebruiken is de bonferroni correctie.
Veronderstel dat we 2 testen hebben uitgevoerd op het 5% significantieniveau.
Als je 1 test doet heb je 5% kans om een type 1 fout te maken.
72
B.P.
Als je 2 testen doen, wat is de kans dan op het maken van minstens één type 1 fout?
(Dus dat je ofwel in de eerste test of in de tweede test of in beide testen)
Mathematisch kan je bewijzen dat deze kans nooit groter zal zijn dan
2*0,05= 0,10 (10%)
De kans kan iets kleiner zijn maar zeker niet groter.
o
o
In het algemeen kan je het volgende stellen:
Als ik ‘k’ testen uitvoer, allemaal op α 5%, dan zal de kans op het maken van
minstens 1 type 1 fout nooit groter zijn dan
K*0,05
Dus als je wilt zorgen dat je bij al uw testen onder het 5% niveau blijft, dan ga je α moeten
verlagen zodat je in totaal onder de 5% blijft.

Dus: als je 2 testen doet, ga je 10% kans hebben op een type 1 fout.
𝛼
Als je er nu voor wilt zorgen dat je onder de 5% blijft ga je
o
Voor de 2 testen samen blijf je onder de 5%. Voor de testen afzonderlijk ga
je strenger worden.
2
=
0,05
o
2
= 0,025.
Algemeen zal je α gaan delen door het aantal testen ‘k’ om onder het significantieniveau
te blijven.
α/k
dit werkt het zelfde wanneer je C.I. gebruikt
Strikt genomen is de bonferroni correctie een over correctie. Je gaat namelijk zeggen dat
het maken van een fout zeker niet groter zal zijn dan α(0,05). Maar het kan ook iets kleiner
zijn.
Het probleem is ook dat je wel de ‘k’ moet weten om een bonferroni correctie te kunnen
doen als lezer. Als auteurs dit niet vermelden kan je dit niet doen.
Als je in een artikel wel kunt zien dat er multiple testing heeft plaats gevonden maar zonder
bonferroni correctie toe te passen. Maar als je dan in de resultaten gaat kijken en je ziet
dat ze enkel vermeld hebben dan er een p-waarde werd gevonden <0,002. Dan kan je nog
steeds niet achterhalen of de gegevens nog significant zijn na bonferroni correctie.
73
B.P.
Je moet ook redelijk zijn in het toepassen van de bonferroni correctie. (voorbeeld dat je
de correctie zou moeten doorvoeren op alle testen in uw leven).
Als je nu 2 of 3 uitkomstmaten hebt waarin je echt geïnteresseerd bent. Dus een paar
resultaten die echt belangrijk zijn. En je wilt vermijden dat op die 2 (of 3,4,…) testen een
type 1 fout gaat maken, dan ga je een bonferroni correctie toepassen.
Denk er ook aan dat wanneer je α gaat verlagen dat de kans op het maken van een type
2 fout zal toenemen. Je wilt dus niet te ver gaan in het maken van de correctie.

Testen van baseline verschillen
We hebben gezien dat wanneer we causale verbanden willen aantonen met ons
experiment. Dan moeten we randomiseren in 2 of meer groepen. Toch zou het nog kunnen
dat door puur toeval er toch kleine verschillen gaan opduiken (een groep iets ouder dan
de andere,…) we gaan dan dikwijls zien in de literatuur dat men die 2 groepen gaat
vergelijken voor enkele baseline karakteristieken. Karakteristieken waarvan men weet dat
ze toch wel belangrijk zijn voor het resultaat (voorbeeld de leeftijd).
 Kijken of de gemiddelde leeftijd in beide groepen gelijk zijn
 Dat het % mannen gelijk is aan het % vrouwen
 …
Dat zijn baseline verschillen, gaan testen na gerandomiseerd te hebben.
Vb.: we hebben een steekproef die we random gaan indelen in 2 groepen om zo 2
behandelingen te kunnen testen tegen hypertensie.
-
We zijn geïnteresseerd in veranderingen in veranderingen in diastolische BD
We weten dat de leeftijd een belangrijke factor is die sterk gerelateerd is aan de BD. Het
is dus belangrijk dat beide groepen de zelfde leeftijdsverdeling hebben.
Om hiervoor een uitspraak te doen worden hypotheses gesteld
H0: µ𝐴 = µ𝐵
VS
HA: µ𝐴 ≠ µ𝐵
H0: de gemiddelde uit de 1e gerandomiseerde steekproef is gelijk aan de gemiddelde
leeftijd uit de 2e gerandomiseerde steekproef.
Als je deze stelling bekijkt zie je eigenlijk dat dit helemaal geen zin heeft om te berekenen.
We zitten namelijk met een gerandomiseerde steeproef (uit de populatie van interesse) en
hebben 2 random groepen gemaakt.
74
B.P.
Met een hypothese test is onze bedoeling om een uitspraak te kunnen maken over de
populatie, niet over de steekproef. En als we toch een random steekproef hebben dan
weten we op voorhand dat de leeftijden gelijk gaan zijn aan elkaar. Het kan zijn dat er
verschillen optreden maar dat is dan door puur toeval.
Het is absoluut niet nuttig om na randomisatie de groepen te gaan
vergelijken voor enkele baseline karakteristieken.
Zelfs niet als je een significantie bekomt van 0,0001. Je weet dat dit
toeval is
Wat wel een alternatief zou zijn is dat je een C.I. berekend. Niet om de hypothese te testen
maar gewoon om aan te geven dat er een verschil tussen de groepen kan zitten maar dat
dit verschil zo klein is dat je op het einde niet kan verklaren waarom de groepen zouden
verschillen op het einde.
Stel bijvoorbeeld een 95% C.I. van de leeftijd [0,1;0,15]. Je zegt hier mee dat het niet
significant is (want de 0 zit er niet in) maar je weet dat het toeval is omdat je met een
steekproef zit. Maar dat verschil is zo klein dat je niet kunt gaan verklaren waarom er een
verschil zou zijn op het einde van je onderzoek.
Voorbeelden zie slides

Equivalentie test
Als je wilt aantonen dat 2 groepen niet van elkaar verschillen ga je een equivalentietest
uitvoeren.
Stel dat je 2 groepen met elkaar wilt vergelijken (A en B) en je gaat hiervoor een t-test
doen. met de volgende hypotheses:
H0: µ𝐴 = µ𝐵
VS
HA: µ𝐴 ≠ µ𝐵
In het geval dat je een niet significant resultaat krijgt (p-waarde >α) ga je H0 aanvaarden.
We zeggen dan dat er onvoldoende evidentie is om aan te tonen dat de twee groepen
verschillend zijn.
Wat je vaak ziet is dat ze hier gaan zeggen dat de 2 groepen gelijk zijn aan elkaar. Dit is
echter niet correct. De klassieke t-test is gemaakt om verschillen te detecteren.
Wat we met een klassieke t-test gaan doen is een H0 opstellenen en dan in onze
data gaan kijken of er voldoende evidentie is tegen die H0. En we gaan die H0 pas
verwerpen als er zoveel bewijs is tegen die H0.
Dus als je gaat zeggen dat je een klassieke t-test gaat gebruiken om aan te tonen dat 2
groepen gelijk zijn, dan hoop ge eigenlijk om geen evidentie te vinden tegen die H0.
Als je wilt kan je elke test zo gaan bewijzen, zolang je er maar voor zorgt dat je steekproef
klein genoeg is zodat het maken ven een type 2 fout groot wordt. Dit kan uiteraard niet
de correcte werkwijze zijn.
Niet significantie op een 2- steekproef test zou nooit mogen geïnterpreteerd worden
als gelijkheid (equivalentie)
75
B.P.
Er zijn echter wel situaties waarin je wilt aantonen dat er wel degelijk geen verschil is
tussen uw 2 groepen.
Vb.: als je een nieuwe behandeling hebt en je wilt aantonen dat deze minder
nevenwerkingen heeft dan de huidige behandeling maar dat het wel nog een
gelijkaardig effect geeft
In dit geval kan je een equivalentie test uitvoeren.
Wat je hier gaat doen is de H0 en HA omwisselen. Zo moet je in de H0 gaan stellen dat er
wel een effect is en in HA dat er geen effect is.
Dus als je nu deze H0 gaat kunnen verwerpen, dan betekend het dat je in uw dataset
voldoende evidentie hebt om H0 te verwerpen en HA te aanvaarden. En aangezien HA hier
stelt dat de groepen gelijk zouden zijn heb je dus voldoende bewijs tegen de stelling dat
ze gelijk zouden zijn.
Praktisch ziet dit er als volgt uit:
H0 : [µA - µB] > ∆
VS
HA : [µA - µB] ≤ ∆
Je gaat op voorhand een ∆ moeten specifiëren (dit is niet de zelfde ∆ als in het vorig
hoofdstuk). Deze ∆ is wat jij gebruikt om gelijkheid te definiëren.
HA : elk verschil tussen de twee groepen dan kleiner is dan ∆ is voor u voldoende evidentie
dat ze gelijk zijn. Als ze niet meer dat ∆ verschillen zijn ze klinisch relevant.
Als je bijvoorbeeld zegt dat van het moment dat het verschil niet groter zal zijn dan
1 eenheid, dan zijn ze gelijk.
 Alles kleiner dan 1 eenheid = 0
Dit is eigenlijk niet zo moeilijk om te testen. We gaan dit doen op basis van een C.I. van
µA - µB. dan ga je controleren of dat interval al dan niet tussen -∆ en ∆ valt. Als het er
volledig in ligt, heb je bewijs om H0 te verwerpen en HA te aanvaarden.
76
B.P.
Het is hier ook duidelijk dat de keuze van ∆ zeer belangrijk gaat zijn.
Als je ∆ te groot kiest, ga je resultaten krijgen die sneller gelijk zijn maar die dat
eigenlijk niet zijn
Als je ∆ te klein kiest, dan ga je misschien te streng zijn
De ∆ moet voorafgaand van het onderzoek bepaald worden, de ∆ definieer je zelf.
└> niet nadien je ∆ bepalen, anders pleeg je fraude.

Voorbeeld 1
In dit voorbeeld willen ze aantonen dat een nieuwe behandeling van ziekte van crohn
gelijkaardig is aan die van de huidige behandeling.
In het artikel schrijven ze dat de nieuwe techniek “as safe and effective” is dan de oude
methode.
Als we de gegevens er bij nemen dan zien we
dat ze een ziekte vrije periode weergeven van
beide technieken:


Oud = 80%
Nieuw = 62%
Ze hebben hier een t-test gedaan en gezien
dat er geen significant verschil is waar te
nemen.
Dat hebben ze dat in hun artikel opgenomen
als dat de 2 technieken gelijk zijn aan elkaar.
Dit resultaat is om te beginnen al een
verkeerde interpretatie van de t-test en we
zien ook dat de grootte van de steekproef veel
te klein is en dus ook te weinig power bevat
om een correcte t-test uit te voeren.
Er is geen equivalentie tussen de 2 groepen.

Voorbeeld 2
Dit is wel een correct voorbeeld
Ze gaan hier dus ook 2 behandelingen met elkaar willen vergelijken om te kijken of ze
equivalent zijn.
Ze hebben een cross-overstudie gedaan (alle patiënten krijgen zowel behandeling A als B).
de randomisatie gebeurt op vlak van wie welke behandeling eerst krijgt.


Na analyse van de gegevens bekwamen ze niet symmetrische gegevens dus hebben
ze een transformatie gedaan.
Equivalentie werd gedefinieerd als ∆= 0,22
 [-∆ ; ∆] = [-0,22 ; 0,22]
op log schaal
 Als je de gegevens terug transformeert kom je op een interval
[0,80 ; 1,25]
77
B.P.
alle onderzoeken
binnen het interval.
vallen
We kunnen H0 verwerpen
en
besluiten
dat
we
voldoende
evidentie
hebben om er van uit te
gaan dat de groepen gelijk zijn aan elkaar.

Significantie VS relevantie
Het is belangrijk om te begrijpen dat statistisch significant niets te maken heeft met de
relevantie van het resultaat. Dit wordt duidelijk als we 2 voorbeelden bespreken.
A
B
Bij beide situaties bekomen we een zeer significant resultaat, p-waarde= 0,001.
Echter als we naar de C.I. gaan kijken zien we dat het effect bij A veel groter is dan het
effect bij B.
 Wat we hier moeten onthouden is dat de C.I. veel meer info geeft dan de pwaarde
o C.I. vertelt ook iets over de significantie (al dan niet bevatten van 0)
o C.I. laat zien hoe groot het effect is
Hoofstuk 20: eenzijdig vs tweezijdig testen

Tweezijdige test
Als we bijvoorbeeld de data bekijken van captopril. We hebben hier een verschil
geobserveerd van µ̂ = 9,27.
We hebben dan een hypothese opgesteld
H0: µ = 0
VS
HA: µ ≠ 0
H0 : er is geen verschil tussen de twee groepen.
HA : er is wel een verschil tussen de 2 groepen.
We bekwamen een significant resultaat, p-waarde < 0,05.
Het enige wat we hier nu kunnen besluiten is dan µ ≠ 0. Het kan dus zijn dat er een verschil
groter of kleiner is dan 0 maar dat kunnen we dus niet zeggen.
Dit reflecteerd zich ook in de berekening van de p-waarde want:
78
B.P.
 De p-waarde is de kans dat we een gemiddelde waarnemen minstens even ver van
0 verwijdend dan 9,27, als µ=0.
 De p-waarde is dus de kans op het observeren van een gemiddeld verschil
dat groter is dan 9,27 of kleiner is dan -9,27, als µ=0.
de CLT zegt ons dat de verdeling normaal
(symmetrisch) verdeeld is dus de kans dat je een
waarde kleiner dan -9,27 of groter dan 9,27
bekomt is even groot. De kans die je aan één kant
zou bekomen is p/2.

Eenzijdige test
Stel als we een hypothese hebben
H0: µ ≤ 0
VS
HA: µ > 0
We gaan hier dus aan één kant testen, als het geobserveerde verschil kleiner is dan 0, bied
dit geen evidentie tegen H0.
Als de waarde groter is dan 0, dan hebben we evidentie µ groter is dan 0. Dit heeft ook
zijn effect op de berekening van de p-waarde.
 Bij een eenzijdige test zegt de p-waarde wat de kans is op het observeren van een
gemiddelde dat minstens even groot is als 9,27, als µ=0.
 Als je dan de verdeling terug gaat bekijken,
dan zien we dat de p-waarde anders zal
berekend worden. Je gaat hier kijken wat de
kans is dat je een waarde bekomt boven de
9,27.
 Het is dus duidelijk dat de p-waarde bij een
enkel zijige test slechts de helft is als bij de
tweezijdige test. Je gaat bij een eenzijdige dus
rapper een significant resultaat bekomen dan
bij een tweezijdige test.
Het kan dus zijn dat wanneer je bij een enkelzijdige test een significant resultaat bekomt,
dat deze niet meer significant is bij een tweezijdige test.
o
o
2-zijdig: je bekomt een p-waarde van 0,06  niet significant
1-zijdig: hier is de p-waarde van 0,03 wel significant
Significantie zal dus sneller bekomen worden bij een 1-zijdige test dan bij een 2-zijdige
test. Er zijn dus onderzoekers die er alles aan proberen te doen om 1-zijdig te testen.
 Ze gaan dus op zoek naar argumenten om het gebruik van een enkelzijdige
test goed te praten.
Het gebruik van een enkelzijdige test is echter zelden gegrond.
-
Wanneer je weet dat een effect enkel in 1 richting kan plaatsvinden.
Als enkel een effect in 1 richting wetenschappelijk interessant is.
79
B.P.
-
De beslissing voor het maken van een 1-zijdige test moet gemaakt worden bij het
opstellen van het experiment . niet wanneer je alle gegevens hebt fraude!!
 In de meeste gevallen ga je niet weten wanneer ze bepaald hebben welke
test ze gaan doen
Er zijn instellingen (tijdschriften) die niet meer toestaan dat er enkelzijdig getest word. Of
als ze enkelzijdig willen testen dat ze een α moeten gebruiken van 0,025 in plaats van
0,05.

Voorbeeld: captopril
In het verleden hebben we met deze gegevens getest of het effect al dan niet significant
verschillend is van 0.
Stel dat we enkel geïnteresseerd zijn als we kunnen aantonen dat het gemiddeld effect
groter is dan 5.
Hypotheses:
H0: µ ≤ 5
VS
HA: µ > 5
In HA schrijf je altijd wat je wilt te
weten komen.
Enkel verschillen die groter zijn dan 5 geven voldoende evidentie om H0 te verwerpen.
p-waarde geeft hier de kans op het observeren van een gemiddeld verschil dat
minstens 9,25 is als µ=5.
Als H0 correct blijkt te zijn, kunnen we enkel concluderen dat µ≤5 maar niet meer. Dit
betekend dat we de CLT niet kunnen toepassen want daarvoor moeten we weten wat µ nu
eigenlijk is. In dit geval pakken we de grens waarde.
Grenswaarde:
Omdat, als we een significant resultaat bekomen, wilt dit zeggen dat we evidentie hebben
dat het verschil > dan 5. Dus ook alles < 5. Daarom is het hier voldoende om µ te zetten
op de grenswaarde (in ons voorbeeld: 5).
We vinden een p-waarde van 0,038. Dit is < α (0,05)  significant resultaat.
We kunnen dus concluderen dat het gemiddelde effect van captopril significant groter is
dan 5 mmHg.
We krijgen een verschillende waarde omdat we nu enkelzijdig testen en omdat we
testen voor een verschil van 5 i.p.v. 0
Hoofdstuk 21: beschrijven van associaties
Tot nu toe hebben we enkel getracht om te kijken in welke mate een geobserveerde relatie
tussen 2 variabelen kan voorkomen door puur toeval.
80
B.P.
-
Je hebt dus met je hypothese testen aangetoond dat er een verband is, want er is
een significant resultaat. Dus er is een significant verschil maar je weet nu nog niet
hoeveel verschil er nu eigenlijk is.
Met de volgende methodes gaan we dat proberen te kwantificeren.

Ongepaarde t-test:
Je gaat een relatie proberen aan te tonen tussen een continue respons (vb.
gewichtsverlies) en een dichotome variabele (vb. hoog of laag proteïnegehalte).

Chi² test:
Je gaat de relatie proberen aan te tonen tussen een dichotome respons (vb. ziekteverzuim
ja of nee) en een dichotome variabele (geslacht man of vrouw).
De p-waarde geeft een indicatie van de grootte van de relatie. Een hoge significantie (lage
p-waarde) betekend niet noodzakelijk dat er een klinisch effect is (zie eerder). In andere
woorden de associatie tussen variabelen is niet noodzakelijk heel sterk.

Pearson correlatie.
Om dit te verklaren nemen we het voorbeeld van de operatiedata erbij. Hier gingen we op
zoek naar een relatie tussen:
-
de tijd nodig om na operatie naar een normale BD waarde te geraken
de log dosis van GM dat toegediend werd tijdens de operatie
gemiddelde BD tijdens de operatie (als het GM wordt toegediend)
bij 53 patiënten met 3 types van operatie.
Als we de associatie van de gegevens tussen hersteltijd en toegediende log (dosis) GM
willen analyseren krijgen we volgende scatter plot.
Voor elke patiënt hebben we 2 metingen
o
o
log (dose) xi
hersteltijd yi
door deze samen te brengen in een scatterplot
kunnen we dit visualiseren.
Als we naar een correlatie willen kijken, doen we dit op de gemiddelde relatie. Niet op
patiënt niveau.
Een eerste zicht op de scatter plot zegt ons dat er geen sterke correlatie zal zijn. Je kan
met deze gegevens niet zeggen dat wanneer je de dosis kent, je ook weet wat de herstel
tijd gaat zijn.
81
B.P.
Toch gaan we een relatie kwantificeren met behulp van een pearson correlatie test.
= een kwantitatieve meting voor de sterkte van een associatie tussen variabele X en Y
Waar 𝑥̅ en 𝑦̅ de steekproef gemiddelden zijn van de geobserveerde x-waarden en ywaarden.



o
de figuur links geeft een inzicht in de formule
Je scatter plot wordt ingedeeld in 4 delen op basis van
𝑥̅ en 𝑦̅
Dan wordt er gekeken hoe elk punt zich bevindt ten
opzichte van deze gemiddelden.
o Dus als je een punt pakt rechtsboven, deze zijn
groter dan het 𝑥̅ en 𝑦̅. Dit levert dus 2 keer een
positieve waarde (+,+)
o Linksonder geeft dan 2 negatieve waarden
(-,-)
Vermenigvuldiging van deze
gegevens zal leiden tot positieve
waardes in de teller
De waardes linksboven of rechtsonder geven zowel een + als een -.
Vermenigvuldiging
van
deze
gegevens zal leiden tot negatieve
waardes in de teller
Als er meer waarden in de ++ en -- delen zitten, zal er dus een positieve trend zijn.
Als er meer waarden in de +- en -+ delen zitten dan zal er een negatieve trend zijn.
Als overal evenveel waarden zijn, dan levert dit geen lineaire
trend op
De noemer is er enkel om ervoor te zorgen dat er uiteindelijk
een waarde wordt bekomen tussen -1 en 1.
rechts zie je de mogelijke uitkomsten:
-1 ≤ r ≤ 1
r > 0  positieve trend
r < 0  negatieve trend
r = 1  allemaal op 1 lijn (positieve trend)
r = -1  allemaal op 1 lijn (negatieve trend)
r = 0  geen lineaire trend
82
B.P.
wanneer r = 0 betekend dit enkel dat er evenveel waardes zijn te vinden in de 4 delen.
Het kan wel nog zijn dat je en kwadratische functie bekomt. Daarom is het belangrijk om
ook naar je scatterplot te kijken. In dit geval is er dus geen lineaire trend maar er is wel
degelijk en correlatie tussen de gegevens.
De associatie / correlatie die we gaan meten representeert enkel wat we zien in onze
steekproef.


Ook hier telt dat onze steekproef als schatting dient voor onze populatie.
In onze hypotheses gaan we onderzoeken of ρ (correlatie in de populatie) al dan
niet gelijk is aan 0.
𝜌 = 0 → 𝑔𝑒𝑒𝑛 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑒
H0: 𝜌 = 0
VS
𝜌 ≠ 0 → 𝑙𝑖𝑛𝑒𝑎𝑖𝑟𝑒 𝑡𝑟𝑒𝑛𝑑
HA: 𝜌 ≠ 0
De test gaat hier ook vanuit dat X en Y normaal verdeeld zijn. We willen de CLT toepassen.

Als de gegevens niet symmetrisch zijn  transformatie!!
Nu kunnen we de C.I. en p-waardes bepalen voor ρ.
Correlatie matrix
Geeft een overzicht van alle correlaties die er zijn tussen de parameters die je ingeeft.
Een sterke correlatie bevinden we pas bij een correlatie van 70% - 80%.
83
B.P.

Relatief risico
We nemen hier de data set over ziekteverzuim er nog eens bij.
We observeerden het volgende:
Mannen: 34,71% met ziekteverzuim
Vrouwen: 43,49% met ziekteverzuim
Met de chi² test vonden we een significant verschil
tussen de 2 groepen met een p-waarde = 0,007.
Met behulp van het relatief risico (RR) kunnen we berekenen hoeveel meer ziekteverzuim
er bij de vrouwen is in vergelijking met de mannen.
𝑅𝑅 =
% 𝑧𝑖𝑒𝑘𝑡𝑒𝑣𝑒𝑟𝑧𝑢𝑖𝑚 𝑏𝑖𝑗 𝑣𝑟𝑜𝑢𝑤𝑒𝑛
% 𝑧𝑖𝑒𝑘𝑡𝑒𝑣𝑒𝑟𝑧𝑢𝑖𝑚 𝑏𝑖𝑗 𝑑𝑒 𝑚𝑎𝑛𝑛𝑒𝑛
=
117⁄
269 = 1,26
378⁄
1089
Wat zegt dit nu juist?
Ziekteverzuim komt bij de vrouwen 1,26 keer meer voor dan bij de mannen.
Anders verwoord kunnen we zeggen dat ziekteverzuim 26% meer voorkomt bij
vrouwen dan bij mannen.
Aangezien het RR van 1 verondersteld
dat er geen verschil is tussen de 2.
0,5
=1
0,5
Dit RR geeft het RR weer in de steekproef. We kunnen dit ook gaan gebruiken als een
schatting voor de populatie.


Een RR = 1 verondersteld dat er geen relatie is tussen ziekteverzuim en het geslacht
Een chi² of Fisher exact test juist het zelfde.
𝜋1
𝜋2
= 1 is het zelfde als zeggen dat 𝜋1 = 𝜋2
Deze p-waarde laat ons dus de significantie zien van deze stelling. We kunnen ook een C.I.
opstellen, als 1 niet in het interval zit, hebben we een significant resultaat.

ODD’s ratio
We nemen terug de data over BMHK en de leeftijd van eerste zwangerschap.
We vonden hier een significante relatie tussen de leeftijd
van eerste zwangerschap en het voorkomen van BMHK.
P-waarde = 0,002.
84
B.P.
Als we hier het RR op zouden berekenen dan zouden we het volgen demoeten doen:
% 𝑣𝑟𝑜𝑢𝑤𝑒𝑛 𝑚𝑒𝑡 𝐵𝑀𝐻𝐾 𝑚𝑒𝑡 𝑒𝑒𝑟𝑠𝑡𝑒 𝑧𝑤𝑎𝑛𝑔𝑒𝑟𝑠𝑐ℎ𝑎𝑝 ≤ 25
%𝑣𝑟𝑜𝑢𝑤𝑒𝑛 𝑚𝑒𝑡 𝐵𝑀𝐻𝐾 𝑚𝑒𝑡 𝑒𝑒𝑛 𝑒𝑒𝑟𝑠𝑡𝑒 𝑧𝑤𝑎𝑛𝑔𝑒𝑟𝑠𝑐ℎ𝑎𝑝 > 25
!! echter!! Zoals we eerder hebben aangetoond zitten we hier met een case-control studie.
wat dus wilt zeggen dat we zelf hebben gekozen hoeveel cases en hoeveel controls we
gingen gebruiken.


We hebben hier dus geen goede representatie van de populatie
De uitkomst hier (bij RR) zou dan afhankelijk zijn van het aantal controls dat we
gebruiken.
We kunnen dus geen RR berekenen
als we met een case-control studie
zitten.
Het alternatief dat we kunnen
gebruiken is het ODD’s ratio.
Het ODD’s ratio beschrijft de ratio
odds van kanker in de groep met eerste zwangerschap voor de leeftijd van 25 over de odds
van kanker in de groep met eerste zwangerschap na de leeftijd van 25
𝑂𝐷𝐷′ 𝑠 𝑘𝑎𝑛𝑘𝑒𝑟 𝑖𝑛 𝑔𝑟𝑜𝑒𝑝 ≤ 25
𝑂𝐷𝐷′ 𝑠 𝑘𝑎𝑛𝑘𝑒𝑟 𝑖𝑛 𝑔𝑟𝑜𝑒𝑝 > 25
Om het ODD’s ratio te kunnen berekenen moeten we dus eerst de ODD’s bepalen
Odd’s ≤25 meet het risico op kanker in de groep ≤ 25. Als er veel kanker gevallen zijn zal
je hier een grote uitkomst krijgen en visa versa.
Odd’s >25 meet het risico ok kanker in de >25 groep. Veel kanker gevallen zorgt voor een
grote uitkomst en visa versa.
Nu we de ODD’s hebben, kunnen we het ODD’s ratio (OR) bepalen.
85
B.P.
Er is dus 3,37 meer odd’s op het krijgen van kanker als je eerste zwangerschap is geweest
voor de leeftijd van 25.
Een belangrijk aspect is dat bij het berekenen van de ODD’s het niet meer uit maakt
hoeveel cases of controls je hebt gekozen.
De ODD’s die we berekend hebben kunnen we ook terug gebruiken als een schatting voor
de totale populatie. Hier geld de zelfde als bij het RR.
Een OR van1 zou betekenen dat er geen verschil gaat zijn tussen de groepen.
Dat is het zelfde als Chi² en Fisher berekenen dus deze p-waardes reflecteert
zich ook hier op.
Nu kan ook een C.I. bepaald worden, als 1 niet in het interval zit, hebben we een significant
resultaat. H0 kan verworpen worden.
Deze testen worden gedaan voor dat je chi² of fisher gedaan hebt.
Hoofdstuk 22: non parametrische testen
De meeste testen in de statistiek berusten op een normaalverdeling van je populatie.
hiervoor moesten altijd enkele assumpties voldaan zijn.
-
Normaliteit
Gelijke varianties
Dit zijn dus enkele parameters die moeten voldaan zijn. Als de gegevens niet normaal
verdeeld zijn dan ga je ze proberen te transformeren zodat je een symmetrische verdeling
krijgt.
Getransformeerde gegevens zijn moeilijker te interpreteren en
het is niet altijd mogelijk om gegevens te transformeren
(multimodaal)
In deze gevallen gaan we gebruik maken van non-parametrische
testen.
86
B.P.

Het principe van rangorde
We nemen de dataset van kanker en overlevingstijden. Meer bepaald de gegevens van
maagkanker en colonkanker. Deze gaan we eens bestuderen in een histogram. Hier zijn 2
histogrammen over elkaar gevisualiseerd.
We willen dus weten of die overlevingstijden al dan
niet ongeveer het zelfde zijn.
Als we naar de histogrammen kijken, zien we in het
blauwe histogram (maag) dat de meeste gegevens
laag zitten en dat het dan heel snel omlaag gaat.
In de rode curve (colon) zien we dat het iets langer
hoog blijft en dan heb je een paar uitschieters.
Omdat we hier met een scheve verdeling zitten
hebben we de gegevens getransformeerd vooraleer
we de test hebben kunnen uitvoeren.
Als we nu stellen dat de gegevens niet gelijk zijn, wilt dit eigenlijk zeggen dat de rode
gegevens meer aan de rechterkant liggen dan de blauwe curve. Dat is anders verwoord
om te zeggen dat we zitten met 2 verschillende groepen. De ene groep is verschoven ten
opzichte van de andere curve.
En dat is eigenlijk wat we gaan proberen te meten.(dat de ene groep meer naar
rechts ligt dan de andere.
We kunnen dat doen door eens te kijken naar de rangorde van de gegevens.
 Als je observaties gaat ordenen van klein naar groot. Dan zou je moeten
zien dat de rode gegevens meer aan de rechterkant liggen dan de blauwe.
En op dat principe gaan ze zich baseren bij non-parametrische statistiek.

Wilcoxon test (Mann-Whitney U test)
Dit is de niet parametrische versie van de ongepaarde t-test.
We gebruiken deze test als we 2 populaties gaan willen vergelijken. Zonder rekening te
moeten houden met de verdeling van de gegevens. Ze mogen normaal verdeeld zijn maar
het maakt hier niet uit.
H0: beide verdelingen vallen samen
-> 1 verdeling
HA: de verdelingen liggen van elkaar
weg.
HA verondersteld dat 1 verdeling verplaatst is ten opzichte van de andere.
In principe is dit de zelfde redenering als bij de ongepaarde t-test.
Als µ1=µ2, dan gaan de verdelingen ook overlappen
We gaan dus kijken of 1 verdeling meer verplaatst is (naar links of rechts)  2-zijdig testen
87
B.P.
Om te beginnen gaan we alle observaties, van onze 2 groepen verzamelen.
Deze gegevens gaan we allemaal rangschikken van klein naar groot (de 2 groepen door
elkaar)
Nu gaan we de geobserveerde waardes vervangen door hun rangorde. Met behoud van de
oorspronkelijke populatie.
Nu gaan we 1 van de groepen kiezen (A of B) en alle waardes (rangordes) die daar bij
horen optellen.
Als WA extreem groot gaat zijn, betekend dit dat er meer waardes aan de rechter kant
zaten in vergelijking met groep B.
We gaan H0 dus verwerpen wanneer WA te groot of te klein is.
Om te bepalen wat te groot is en wat te klein is gaan we berekenen wat de kans is dat de
geobserveerde waarde van WA zeer onwaarschijnlijk is te gebeuren door puur toeval.
We berekenen de probabiliteit op het observeren van een gelijkaardig experiment met
gelijkaardige waardes voor WA (als de 2 groepen gelijk zouden zijn).
We bekomen een p-waarde = 0,2857.
Er is dus 28,6% kans dat we dergelijk resultaat, dat de 2 groepen zo fel van elkaar zijn
verschoven, hebben gemeten door puur toeval. Staven aan de α (0,05)
 We aanvaarde H0  de groepen zijn gelijk.
Als we nu gekozen hadden om de waardes van groep B te berekenen, dan kwamen we op
een zelfde conclusie uit.
88
B.P.

Spearman correlatie
Ook hier ga je in geval dat transformatie niet mogelijk of gewenst is een non parametrische
test gebruiken. Meer bepaald de Spearman correlatie.
Net zoals de Wlicoxon test ga je hier de gegevens vervangen door de rangorde.

Elke waarde xi ga je vervangen door zijn rangorde en het zelfde voor y i. grafisch geeft dat
het volgende weer.

Op deze gegevens ga je een Pearson correlatie calculatie doen als een meting tussen de
rangwaarden.
In bovenstaand voorbeeld zien we dat bij spearman een perfecte lineaire relatie is van 1.
Echter is dat bij de pearson niet het geval.
 Dit impliceert dat je met Spearman niet het zelfde zult gaan meten als met
Pearson.
 Daar waar we bij Pearson gaan zoeken achter een lineair verband,
zal er bij spearman gezocht worden naar monotone relaties.
 Monotone relatie: als xi stijgt, stijgt de waarde yi het zelfde.
Pearson : lineaire verbanden
Spearman: monotone verbanden
89
B.P.

Opmerkingen
 Voor de meest ‘simpele’ statistische testen bestaan er non parametrische varianten.
 Non parametrische testen zijn niet gebaseerd op assumpties voor de verdeling van
data
 Transformeren dan de data heeft geen invloed op de non parametrische analyse
 Ze zijn niet beïnvloedbaar door outliers (door de rangordes)
Als je kan kiezen tussen een parametrische en een non parametrische (als alle assumpties
voldaan zijn). Ga je toch kiezen voor een parametrische test
 Parametrische testen hebben een grotere power dan non parametrische
testen
Gemiddelde + standaarddeviatie  parametrische test
Mediaan + IQR  non parametrische test
90
B.P.
Related documents
Download