Biostatistiek: uitgeschreven 2015-2016 Ik heb dit samengesteld door het probleem van veel te veel tijd tussen twee herexamens. Er zijn in deze periode wel een aantal zonnige dagen geweest dus ik kan niet garanderen dat er altijd met evenveel toewijding aan gewerkt is. Deze syllabus is een combinatie van slides en wat er tijdens de les is gezegd geweest (ja ik heb al die lessen nog eens bekeken). Dat er dus een aantal herhalingen in voorkomen zal dus zeker geen uitzondering zijn. Hopelijk zijn jullie er iets mee en anders.. tja spijtig Inhoud Deel 1: introductie, motivatie en voorbeeld ............................................................... 1 Hoofdstuk 2: Homeopathie: de test ....................................................................... 1 Deel 2: Basis principes van statistische methoden ..................................................... 2 Hoofdstuk 3: wat is statistiek? .............................................................................. 2 Hoofdstuk 4: populatie VS. Steekproef (sample) ..................................................... 6 Hoofdstuk 5: causaliteit en randomisatie ..............................................................13 Deel 3: omschrijven en opsommen van data ............................................................16 Hoofdstuk 6: types van resultaten .......................................................................16 Hoofdstuk 7: grafische presentatie van gegevens ..................................................17 Hoofdstuk 8: kengetallen (summary statistics) ......................................................21 Deel 4: basis concepten van statistische besluitvorming ............................................24 Hoofdstuk 9: beschrijven van de populatie ............................................................24 Hoofdstuk 10: van populatie toto steekproef en terug tot populatie ..........................28 hoofdstuk 11: schatting, steekproef variabiliteit, bias en precisie .............................32 Hoofdstuk 12: betrouwbaarheidsinterval ...............................................................37 Hoofdstuk 13: hypothesetesten ...........................................................................40 Deel 5: enkele frequent gebruikte testen .................................................................45 Hoofdstuk 14: vergelijken van 2 gemiddelden: ongepaarde data .............................46 Hoofdstuk 15: vergelijken van 2 proporties bij ongepaarde data ..............................50 Hoofdstuk 16: de vergelijking van 2 gemiddelden: gepaarde data ............................55 Hoofdstuk 17: vergelijken van 2 proporties: gepaarde data ....................................59 Deel 6: verdere onderwerpen over statistische conclusie ...........................................63 Hoofdstuk 18: fouten in statistiek: basis concepten ................................................63 Hoofdstuk 19: fouten in de statistiek: praktische implicaties ...................................70 Hoofstuk 20: eenzijdig vs tweezijdig testen ...........................................................78 Hoofdstuk 21: beschrijven van associaties ............................................................80 Hoofdstuk 22: non parametrische testen ..............................................................86 Beginselen van biostatistiek 3e Bachelor BMW 1e semester Deel 1: introductie, motivatie en voorbeeld Hoofdstuk 2: Homeopathie: de test Blinding: Omdat een onderzoeker onbewust een invloed kan uitoefenen bij de interpretatie van de resultaten, worden testen blind gemaakt. Door random codes te geven aan stalen (of behandeling). Zodat de onderzoeker niet kan afleiden over welke stalen het gaat wordt hij zo min mogelijk beïnvloed door zijn eigen standpunten. Pas wanneer alle data geanalyseerd is zal bekend gemaakt worden welke codes aan welke stalen of behandelingen gekoppeld is. Hoe subjectiever de metingen zijn , hoe belangrijker het is dat blinding word toegepast. Overleving van patiënt = objectief Tumor reductie = semi-objectief Wanneer je bij een onderzoek 40 stalen moet onderzoeken, waarvan 20 placebo en 20 geneesmiddel (GM), dan gaat elk staal een andere random nummer krijgen. Bij de analyses weet men niet of ze de placebo staal of een GM staal aan het bekijken zijn. Dubbel blinding: In sommige gevallen is het van belang dat patiënt noch onderzoeker weet welke behandeling er gegeven werd. Dit gebeurt wanneer onderzoeker en patiënt al dan niet onbewust de resultaten zou kunnen beïnvloeden. Pijn metingen Levenskwaliteit metingen Blinding is niet altijd mogelijk!! Dit is voornamelijk te zien waarbij er een visueel aspect aanwezig is Als je verschillende soorten verband wilt testen Als je verschillende technieken wilt bestuderen Placebo: Dit zijn pillen zonder de actieve bestanddelen van een geneesmiddel. Deze worden gebruikt wanneer je wilt testen of een GM ook effectief herstel bevorderd. Er is namelijk een factor van natuurlijk herstel die kan plaatsvinden waardoor het moeilijk is te bepalen of het gemeten effect door het GM komt of dat het een natuurlijk fenomeen is. Om hier onderscheid in te kunnen maken ga je 2 groepen maken, 1 groep krijgt het GM en de andere groep een placebo. De groep met GM zou een beter of sneller herstel moeten ondervinden dan de placebo groep. 1 B.P. Er moet echter wel aandacht besteed worden aan ethiek !! Het geven van placebo aan ernstig zieke patiënten is niet ethisch verantwoord! In zo een gevallen zal er een vergelijking gemaakt worden tussen het nieuwe GM en het “oude” GM. Er zal dan onderzocht worden of de nieuwe behandeling beter of minstens even goed is al de standaard behandeling. Deel 2: Basis principes van statistische methoden Hoofdstuk 3: wat is statistiek? Voorbeeld 1: ziekteverzuim Is er een verband tussen geslacht en ziekteverzuim? Vrouw: Man: 184 429 58 156 = 42,9% = 37,2% Dit resultaat suggereert dat er meer ziekte verzuim is bij vrouwen dan bij mannen Echter, zelfs als ziekteverzuim gelijk is tussen mannen en vrouwen is er een mogelijkheid dat deze waarde door puur toeval bekomen zijn. Deze kans (p-waarde) zal berekend worden en getoetst aan een voorop gestelde waarde (α). Op basis hiervan kan er meer duidelijkheid gebracht worden in de geobserveerde waarden. Stelling (H0): ziekteverzuim bij mannen is gelijk aan ziekte verzuim bij vrouwen P-waarde < 0,05 stelling (H0) verwerpen P-waarde > 0,05 stelling (H0) aanvaarden Als de stelling onwaarschijnlijk lijkt, dat geeft dit evidentie dat er een relatie is tussen ziekteverzuim en het geslacht. Als de stelling waarschijnlijk lijkt, dan bied dit evidentie dat er geen relatie is. 2 B.P. Voorbeeld 2: baarmoederhalskanker (BMHK) Er wordt hier getracht te analyseren of er een verband is tussen het voorkomen van BMHK en de leeftijd waarop ze voor de eerste keer zwanger waren. Hiervoor worden 2 groepen gemaakt Cancer cases (BMHK) 49 Non cancer cases (controle) 317 Aan alle vrouwen werd gevraagd wat hun leeftijd was bij de eerste zwangerschap. is er een verband tussen het krijgen van BMHK en de leeftijd waarop de eerste zwangerschap heeft plaats gevonden? > 25 jaar met kanker: Dit suggereert dat het hebben van BMHK meer waarschijnlijk is wanneer je voor de eerste keer zwanger bent geweest voor de leeftijd van 25. 7 49 >25 jaar zonder kanker: = 14,3% 114 317 = 35,96% Hoe waarschijnlijk is het dat dit verschil te observeren is door puur toeval zelfs al is er geen relatie is tussen kanker en de leeftijd van de eerste zwangerschap? Als de kans klein is, dan is er een verband. Als de kans groot is, dan is er geen relatie. Voorbeeld 3: gewichtstoename bij ratten Voor dit experiment werden 2 groepen gemaakt. Ratten die een dieet kregen hoog in proteïnen Ratten die een dieet kregen laag in proteïnen Is gewichtstoename afhankelijk van het dieet? De gemiddelden suggereren dat er een verschil is. Hier bestaat ook weer de kans dat dit door puur toeval is gemeten. Als zo een verschil een hoge probabiliteit (waarschijnlijkheid) heeft dat het voorkomt door puur toeval; wilt dit zeggen dat er geen verschil is tussen de diëten en het verschil in gewichtstoename. 3 B.P. Voorbeeld 4: overlevingstijden van kankerpatiënten In dit onderzoek werden kankerpatiënten, met verschillende aangetaste organen, behandeld met ascorbaat in additie van de standaard behandeling. Er werd dan gekeken wat de overlevingstijd was (in dagen). Verschillen de overlevingstijden bij de verschillende geaffecteerde organen? Als je deze waarden bekijkt, lijkt het dat er een verschil is in overlevingstijd tussen de kankers in verschillende organen. Dit kan echter door puur toeval waargenomen zijn. De kans dat dit voorkomt door puur toeval wordt berekend. Als het onwaarschijnlijk lijkt dat de verschillen waargenomen zijn door puur toeval (een kleine p-waarde), heb je evidentie dat er een verschil is in overlevingstijd (H 0 verwerpen). Als er een grote probabiliteit is dat deze waarden door puur toeval zijn gemeten, wilt het zeggen dat er geen verschil is tussen overlevingstijden. (H 0 aanvaarden) H0 is bij het testen van hypotheses die later terug komen. Voorbeeld 5: captopril data Er zijn 15 patiënten het hypertensie. Bij iedereen word de bloeddruk gemeten voor en na de behandeling met captopril. Hoe zal de behandeling Bloeddruk beïnvloeden? de Hier zal het interessant zijn om te weten hoe waarschijnlijk de geobserveerde veranderingen in bloeddruk door puur toeval gebeuren. Een hoge waarschijnlijkheid dat het puur toeval is, wijst er op dat captopril geen verschil veroorzaakt. Een lage probabiliteit wijst er op dat captopril wel voor een verschil zorgt. 4 B.P. Voorbeeld 6: prevalentie van zware verkoudheid bij kinderen Bij 1319 kinderen werd er op verschillende leeftijd (12 en 14 jaar) een meting gedaan over de prevalentie van een zware verkoudheid. Er werd gecontroleerd of het kind een zware verkoudheid heeft gehad in de laatste 12 maanden. is er een verschil in prevalentie bij de 2 leeftijden? 12 jaar: 14 jaar: A B C D 356 1319 468 1319 = 27% = 35% A: zowel op 12 als op 14 jaar een zware verkoudheid gehad B: op 12 jaar een verkoudheid gehad, op 14 jaar niet C: op 12 jaar geen verkoudheid gehad , op 14 jaar wel D: zowel op 12 als op 14 jaar geen verkoudheid gehad Deze data suggereert dat er bij ouder worden de prevalentie op een zware verkoudheid groter wordt. Ook hier ga je weer proberen te achterhalen wat de kans is dat dit door puur toeval is gemeten. Als het heel onwaarschijnlijk is dat dit gemeten is door puur toeval (kleine Pwaarde) wijst dat erop dat er wel degelijk een verschil is tussen de prevalentie en de leeftijd. Wanneer het waarschijnlijk lijkt (grote P-waarde), dan is er evidentie dat er geen verschil is. Voorbeeld 7: operatie data Tijdens een operatie moet de bloeddruk soms verlaagd worden, hiervoor wordt een hypotensief middel toegediend. Na de operatie dient deze bloeddruk zo snel mogelijk terug op normale waarden komen. In dit onderzoek werd de hersteltijd van 53 patiënten, met 3 verschillende operaties, geanalyseerd. Er werden 3 metingen gedaan. A) Tijd nodig dat de systolische bloeddruk van de patiënt terug op 100 mmHG komt. B) 10-base log(dose) van het GM in log(mg) C) De gemiddelde systolische bloeddruk terwijl het GM toegediend werd Hoe varieert de hersteltijd (A) ten opzichte van de andere parameters (B en C) Om dit te beantwoorden wordt er gezocht naar trend in de data. Het is moeilijk om een potentiële relatie te vinden tussen BD en een log. van iets (log(dose)). 5 B.P. Conclusie: De bedoeling van statistiek is tweezijdig: Beschrijvende statistiek Weergeven wat er gemeten is - Gemiddelde - Percentage - grafieken - … Interferentiële statistiek (wiskundige / beslissende statistiek) Kijken tot welke graad de bestudeerde waardes terug getrokken (veralgemeend) kunnen worden op de populatie (∞). Interferentieel onderzoek toetst of de werkelijkheid al dan niet in overeenstemming is met de wetenschappelijke hypotheses en theorieën. Hoofdstuk 4: populatie VS. Steekproef (sample) Bij het uitvoeren van een onderzoek wordt er getracht een uitspraak te kunnen maken over de volledige populatie. Het is onmogelijk om de volledige populatie te analyseren want deze is ∞ en veranderd constant (sterfte,…). Er zal een deel van de populatie geanalyseerd worden die de populatie representeert (de steekproef). De steekproef moet goed gekozen zijn om een veralgemening, naar de totale populatie, toe te staan op het einde van het onderzoek. Voordat je de steekproef gaat samenstellen moet eerst de populatie goed gedefinieerd zijn. Er zal op het einde getracht worden om een uitspraak te maken over de populatie op basis van gegevens verzameld uit een steekproef. Pas als je de populatie goed gedefinieerd hebt, kan je beginnen met het samenstellen van een steekproef die representatief is voor de populatie. daarnaast ga je kijken op welke wijze de steekproef genomen zal worden van de populatie (random of niet, …). De populatie: In de praktijk wordt een populatie gedefinieerd aan de hand van in- en exclusiecriteria. Inclusiecriteria: Zijn parameters die aanwezig moeten zijn om bij de populatie te horen. Zeer belangrijk!!!! Vb.: hebben van een bepaalde ziekte; leeftijd; geslacht; … Exclusiecriteria: Zijn parameters die niet mogen aanwezig zijn om tot te populatie te mogen horen. Vb.: zwanger zijn; eerder een behandeling gehad voor de zelfde aandoening (om te vermijden dat het gemeten effect te wijten is aan de andere behandeling) Objectieve criteria gebruiken!!! Om enige discussies naderhand te vermijden Hoe objectiever de criteria, hoe beter. B.P. 6 De (random) steekproef De steekproef is het deel van de populatie dat je gebruikt om je onderzoek op te doen om daarna een antwoord te kunnen formuleren over die populatie. Het spreekt voor zich dat de populatie goed gekozen moet worden, liefst random. Vb.: als je een onderzoek doet over rugklachten bij het verplegend personeel in Belgische ziekenhuizen en de steekproef bestaat enkel uit: Geeft geen Vrouwen Verpleegkundigen van universitair ziekenhuis <40 jaar oud goede representatie van de volledige populatie!!! Optimaal ga je de steekroef proberen samen te stellen met de zelfde karakteristieken als de populatie: Zelfde proportie als Zelfde leeftijdsverdeling als in populatie Zelfde soorten ziekenhuizen als in populatie … Zoals eerder vermeld gaat een goede steekproef de populatie representeren en hiervoor moet de populatie goed gedefinieerd zijn!!! Vb.: bij onderzoek naar depressie worden enkel gehospitaliseerde patiënten met een depressie opgenomen in de steekproef. Geeft geen goede representatie van alle depressieve, personen met depressie die niet zijn opgenomen worden uitgesloten! Als er op voorhand duidelijk gemaakt word dat de populatie gehospitaliseerde depressieve zijn, is deze steekproef wel goed. (zo maak je er een van de inclusiecriteria van) - Random steekproef - Het willekeurig samenstellen van je steekproef Door het willekeurig samenstellen van je steekproef, die je populatie representeert, krijg je de beste vertegenwoordiging van je populatie. Hoe groter je de random steekproef maakt, hoe beter de populatie gaat vertegenwoordigd zijn Het is moeilijk om een volledig random steekproef samen te stellen. Denk maar aan alle ziekenhuizen en verpleegkundigen. Het is praktisch niet haalbaar om uit elk ziekenhuis verplegend personeel te halen voor uw onderzoek. Een oplossing kan zijn dat je eerst random ziekenhuizen gaat selecteren en dan in die ziekenhuizen random verplegers kiezen. Er moet ook rekening gehouden worden met de grootte van het ziekenhuis. Als je in elk ziekenhuis 10 verplegers gaat halen, gaat dit niet representatief zijn als je hele grote en kleine ziekenhuizen gaat moeten vergelijken. Op helemaal correct te werken zal je de grootte van het ziekenhuis proportioneel, representatief moeten vertegenwoordigen in de steekproef. In andere woorden gaan er bij grote ziekenhuizen meer verplegers opgenomen worden dan bij kleine ziekenhuizen. 7 B.P. Er kan ook nog het probleem opduiken dat er personen niet willen deelnemen aan het onderzoek, je kan ze niet verplichten Uitvallers zijn ook frequent voorkomend Altijd eerlijk weergeven waarom er personen niet deelnemen of uitgevallen zijn. (alles in kaart proberen te brengen) Het is dus duidelijk niet eenvoudig om een random steekproef samen te stellen. Er zijn veel problemen die zich kunnen voordoen en hier moet je ook rekening mee houden bij het opstellen ervan. Statistiek VS kanstheorie Kanstheorie: Hier weet je de verhouding in de populatie en je gaat berekenen wat de kans is dat er minstens die verhouding in je steekproef een effect gaat ondervinden. Vb.: als je weet dat 75% van de populatie een effect heeft bij een bepaald GM, dan ga je berekenen wat de kans is dat 75% van je steekproef een effect zal ondervinden. Statistiek: Hier ga je andersom te werk, je hebt een steekproef en van hieruit ga je een uitspraak proberen te maken over de populatie. omdat je niet de volledige populatie hebt, is het moeilijk om een exacte uitspraak te maken. Als we een marge kunnen aantonen is dat al veel (tussen zoveel en zoveel). Finaal ga je bij statistiek dus een uitspraak maken over de populatie!! Bij kansrekening doe je het omgekeerde 8 B.P. Types van studies Er zin verschillende manieren om data te verzamen. De sterkte van de evidentie (van het bewijs) is afhankelijk van de methoden die gebruikt werden. Prospecties VS retrospectief Prospectief: Je gaat een groep patiënten volgen over tijd en gaat kijken of er veranderingen voordoen in die groep. Vb.: een maand volgen en dan zien of een bepaalde parameter (bloeddruk) gestegen of gedaald is. zie data set ratten, captopril, BMHK Retrospectief: Kijken naar patiënt die nu een bepaalde aandoening heeft en vragen / nagaan wat er in het verleden heeft plaats gevonden om zo risicofactoren te achterhalen. Vb.: mensen met longkanker bevragen of ze in het verleden gerookt hebben. zie data BMHK, ziekteverzuim een prospectieve test geeft meer kracht aan je resultaat dan een retrospectieve test. Bij prospectieve test heb je alles beter onder controle Bij retrospectief heb je minder onder controle omdat je berust op het geheugen van de patiënt betrouwbaarheid??? Experimenteel VS observationele studie Experimenteel: Gegevens die voortkomen uit een experiment dat je nieuw hebt opgesteld en waarvan je de gegevens van verzameld. Je hebt echt een experiment uitgevoerd om aan je gegevens te komen Observationeel: Er is geen experiment gebeurt. Berust op gegevens die stelselmatig worden bijgehouden. Vb.: elke keer als je opgenomen word in het ziekenhuis worden een aantal parameters gecontroleerd en bijgehouden (bloeddruk, glycemie,…) uit routine. Een onderzoeker kan dan naar die instelling gaan en bepaalde data die hij wilt onderzoeken opvragen. Het analyseren van die gegevens is observationeel onderzoek. zie data ziekteverzuim Observationeel onderzoek is een steekproef die je neemt, echter is de vraag in welke mate deze random is? Je hebt wel een steekproef, maar op welke populatie gebeurt de uitspraak? Vb.: IDEWE data. Er wordt een onderzoek gedaan op basis van de gegevens die verzameld werden via IDEWE. 9 B.P. - Er wordt geprobeerd een link te maken tussen ziekteverzuim en een bepaald beroep. Het resultaat dat hier bekomen word, zal geen uitspraak leveren voor de Vlaamse populatie. De reden hiertoe is dat IDEWE zich gespecialiseerd in geneeskundige beroepscategorieën. Dan een uitspraak doen over de volledige populatie is niet representatief. Rekening houden met de populatie en steekproef Over welke populatie wil je een uitspraak maken? Op basis van die populatie ga je de steekproef samenstellen!!! Het experimenteel onderzoek geeft een sterker resultaat dan observationeel onderzoek. Bij experimenteel onderzoek heb je een betere controle over wat je meet en onder welke condities. Observationeel onderzoek levert ook vaker missings (patiënten waarbij ze de parameters zijn vergeten te meten). missings proberen te beperken!! Cross-sectionele VS longitudinale studies Cross-sectionele studie Proefpersonen worden op 1 bepaald moment gemeten Vb.: groeicurves zijn samengesteld door crossectionele gegevens o Afwijkingen op deze curves zegt niet perse iets over het kind!! o Als je vandaag BMI berekend van verschillende personen van verschillende leeftijden kan je een crossectionelecurve maken. Zie data ziekteverzuim, BMHK Longitudinale studie Proefpersoon meerdere keren meten over een langere periode (opvolgingsonderzoeken). - Gebruikt om evolutie in kaart te brengen Gaat het effect van behandeling direct zijn of komt het effect na een langere tijd? Heeft effect maar een beperkte duur? Bij longitudinaal kan je uitspraken maken over de evolutie die iemand ondergaat, dit gaat niet bij crossectionele studies. 10 B.P. Klinische studies Meest strenge / belangrijkste methode. Levert het sterkste resultaat Zijn random Blind/dubbel blind Altijd prospectief Experimeenteel kan longitudinaal of cross sectioneel zijn Je begint met een aantal patiënten en volgt ze in de tijd, ondertussen doe je enkele metingen die van belang zijn voor je onderzoek. (Longitudinaal onderzoek is niet persé een prospectieve studie!!) Cohort studie Een goed gedefinieerde groep mensen met analoge karakteristieken (met dezelfde kenmerken) wordt gevolgd over tijd. Meestal tot een bepaalde gebeurtenis. Mensen met een zelfde; gelijk startpunt Vb.: - afgestudeerde 2012 10 jaar later onderzoeken, moeten niet persé even oud zijn. Mensen van het zelfde geboortejaar Mensen die een zelfde behandeling hebben gekregen over een periode van tijd Cohort studies komen niet zo vaak voor. Case-control studie Studie waarbij je twee groepen neemt respectievelijk cases en controls, en deze worden dan retrospectief bestudeerd. Een groep met proefpersonen die een bepaalde aandoening hebben Een groep met personen zonder de aandoening. Vb.: bij onderzoek naar longkaker Cases: patiënten die longkanker hebben Controls: random mensen zonder longkanker. Bij beide groepen ga je dan navragen of ze roken of hebben gerookt en hoeveel,…. Je kan ook een prospectieve studie hebben waar je gebruik maakt van een controle groep, dit is geen case-control studie!!! Een case-control studie bied enkel de mogelijkheid om uitspraken te maken tussen risicofactoren en de prevalentie van een ziekte. 11 B.P. Matched case-control studie Sluit aan bij de case-control studie. het verschil hier is dat je ervoor gaat zorgen dat de case en control groepen lijken op elkaar. Voor elke case ga je een control zoeken die voor bepaalde kenmerken lijkt op de case. Leeftijd (case 20 jaar control 20 jaar) Geslacht Huidskleur … Dit ga je doen om te voorkomen dat je op het einde van je onderzoek merkt dat de groep cases veel ouders is dan de control groep. Of op andere vlakken te fel verschilt van de andere. Het zou namelijk kunnen dat eerder vermelde parameters een invloed uitoefenen op de ziekte waardoor je een verkeerd beeld gaat krijgen als de groepen van elkaar verschillen. Ideaal ga je voor zoveel mogelijk factoren gelijkenissen zoeken maar dat is praktisch niet haalbaar. Je gaat keuzes maken welke factoren je zeker wilt matchen (meestal leeftijd en geslacht) Random steekproef – variabiliteit – onzekerheid Wat voor studie je ook opzet, je zal altijd met een steekproef zitten (die door willekeur tot stand is gekomen random) Echter gaat dit meestal wel gepaard met complicaties. Een steekproef representeert een gedeelte van de populatie. Als je een andere random steekproef neemt, ga je een ander deel van de populatie gaan meten. Hierdoor ga je ook lichtjes andere gegevens te zien krijgen en de conclusie kan ook lichtjes veranderen. Absolute zekerheid van de conclusies over de populaties kan niet verwacht worden als je van een steekproef kom! - Random variabiliteit - Zorgt ervoor dat je een verschil gaat waarnemen als je een experiment een 2 e keer gaat doen met een andere steekproef. Als je een goed GM hebt, met een goede respons, ga je altijd wel een effect waarnemen. Soms zal dat effect wat groter zijn en soms wat kleiner. Dat is het gevolg van random variabiliteit. Alles wat je meet is voor een stuk random variabiliteit en voor een stuk echt effect. Het is de bedoeling van statistiek die 2 uit elkaar te halen. Op deze manier ga je proberen te achterhalen dat wat je gezien hebt niet enkel random variabiliteit is maar dat het ook effectief een effect levert. Ja gaat altijd rekening moeten houden met de kans dat je fouten maakt in de conclusie door onder andere random variabiliteit. Met statistiek ga je bepalen : - Hoe zeker je mag zijn - Hoe ga je vermijden nog zo een fouten te maken B.P. Het risico uitsluiten gaat niet!! 12 Hoofdstuk 5: causaliteit en randomisatie Causaal effect Stel het onderzoek over homeopathie Als er een verschil wordt waargenomen tussen homeopathie (H) en placebo (P), in voorkeur voor H, wilt dit niet noodzakelijk zeggen dat H ‘meer’ effectief is. Zelfs niet onder dubbel blinding. o o o Wat als één groep meer dan bevat? Of als één groep gemiddeld ouders is dan de andere … Het geobserveerde verschil is niet noodzakelijk een causaal effect. Het waargenomen effect kan te wijten zijn aan een verschil in reactie. Voordat je uitspraken kan maken over causaliteit, ga je moeten zorgen dat beide groepen gelijkaardig zijn!!! (zowel voor gekende als ongekende factoren) Dit kan maar op 1 manier! randomisatie!!!! Randomisatie is het op volledig willekeurige manier je steekproef opdelen in groepen. Voor iedereen een munt opgooien. Kop = groep 1 (behandeling A); munt = groep 2 (behandeling B). Je kan niet uitsluiten dat er kleine fouten komen in de groepen maar je kan er wel voor zorgen dat er geen systemische fouten gemaakt worden. Als je dit correct doet ga je 2 groepen krijgen die gelijkaardig aan elkaar zijn wat maakt dat je een uitspraak kan maken over causaliteit na onderzoek. Bij niet gerandomiseerde groepen kan je wel verbanden aantonen maar geen causaal verband! Verschillende manieren tot randomisatie Simpele randomisatie Munt opgooien … Het nadeel is dat de groepen meestal niet gelijk verdeeld zijn. Moeilijk om in de praktijk te vertalen. └> dokter moet patiënt indelen Voorkeursbehandeling van dokter zorgt voor bias! Dit kan wel opgelost worden door de indeling via computer te laten verlopen. Blok randomisatie Randomiseren in blokken (vast aantal personen per blok) Vb.: blokken van 6 personen └> 3 krijgen behandeling A en 3 krijgen behandeling B Op het einde zijn er evenveel patiënten in groep A als B. Nadeel: als de arts weet wat de blok grootte is kunnen ze het voorspellen. 13 B.P. Dit heeft implicaties als de arts een voorkeur geeft aan één van de behandelingen. Als er bijvoorbeeld een heel zieke patiënt komt en de arts heeft voorkeur voor behandeling A maar hij heeft kunnen achterhalen dat hij bij deze patiënt behandeling B zou moeten toekennen, kan hij die patiënt niet opnemen in het onderzoek en daar buiten gaan behandelen met A. Hierdoor gaat de random steekproef verloren omdat je zelf gaat beslissen wie er opgenomen wordt en wie niet. Oplossing door de blok grootte constant te veranderen. Eerst een blok van 4, dan 6, dan 4, dan 10,... Gestratificeerd randomiseren Sterk gerelateerd aan mached case-control studie. Zelfs als je randomiseert kan het zijn dat er toch verschillen zijn waar te nemen (1 groep ouders of in 1 groep meer vrouwen dan in de andere). Deze verschillen kunnen toevallig zijn maar kunnen wel voorkomen. In sommige situaties wil je zelfs deze toevallige variatie uitsluiten. Bijvoorbeeld als je weet dat de leeftijd een bepalende factor is in de aandoening ga je variatie in deze factor willen vermijden. In deze gevallen ga je gestratificeerd randomiseren. Stratificeren op leeftijd: - Eerst wachten tot je 2 patiënten hebt met de zelfde leeftijd (of een andere parameter) en pas dan ga je ze randomiseren. 1 iemand krijgt A; de andere krijgt B. toegekend op random wijze. - Terug eerst 2 patiënten zoeken met zelfde karakteristieken - … Het is moeilijker om dit te doen omdat je altijd moet wachten tot je 2 patiënten hebt met de zelfde karakteristieken voor je kan randomiseren. Dit kan in combinatie gebeuren met block randomisatie. Extreme gevallen: Tweeling studies Tweeling 1 behandeling A Tweeling 2 behandeling B Cross over studies Elke groep patiënten krijgt zowel behandeling A als B. (eerst A en dan B) Niet iedereen gaat eerst A en dan B toegediend krijgen omdat je anders het effect door tijd kunt observeren. Op random wijze wordt bepaald wie eerst A en wie eerst B krijgt Testen op 1 persoon Bijvoorbeeld bij testen naar irritatie van zalf A en B op de huid. Omdat de huid op 1 persoon de zelfde karakteristieken heeft en er dus geen verschil kan plaats vinden door ‘een ander type huid’ te hebben. Enige verschil dat je kan zien is linker en rechter hand of oog,… Welke hand of oog behandeling A of B krijgt gebeurt random!! Pre- post test Voor en na de behandeling meten. 14 B.P. Randomisatie is niet altijd mogelijk Voorbeeld 1: Een studie naar chemo en het effect op de ongeboren baby Ideaal gaat zijn dat je 2 groepen hebt van zwangere vrouwen Groep 1 krijgt chemo Groep 2 krijgt geen chemo Deze opstelling is niet ethisch verantwoord dus kan niet uitgevoerd worden. De oplossing is door gebruik te maken van historische controles. └> voor elke zwangere vrouw die chemo krijgt ga je een zwangere vrouw zoeken die geen chemo krijgt. Meestal in eerder verzamelde data! Er kan hier geen causaal verband aangetoond worden omdat er geen randomisatie is gebeurt. Je kan hoogstens melden dat er al dan niet een verschil gevonden is. Voorbeeld 2: Relatie tussen kanker en roken Ideaal zou zijn dat er 2 groepen gemaakt werden Groep 1 mag niet roken Groep 2 moet roken Ook hier is het niet ethisch verantwoord. De oplossing is om te zoeken naar patiënten met longkanker en een groep zoeken zonder kanker en vragen naar hun rookgedrag in het verleden. Er gaat ook her wel een verband kunnen aangetoond worden maar gaan causaal verband. Er is nu wel aangetoond dat er bij rokers meer longkanker voorkomt. Er kan echter nog steeds gezegd worden dat rokers genetisch anders zijn dan niet rokers. Implicaties: Ongelijkheden, met respect voor belangrijke prognostische factoren, kunnen niet uitgesloten worden. De ene groep was toch iets ouder dan de andere,… Wat zou ik gezien hebben als de twee groepen gelijk zouden zijn? Correcties kunnen uitgevoerd worden aan de hand van statistische methoden. Dit kan echter enkel op gekende factoren, niet op de ongekende. 15 B.P. Deel 3: omschrijven en opsommen van data Wordt gebruikt om gegevens overzichtelijk te maken voor analyse Grafieken Tabellen Kengetallen (gemiddelde,…) … Hoofdstuk 6: types van resultaten Het type van gegevens zal een invloed hebben op hoe je de gegevens gaat kunnen presenteren in grafieken en dergelijk. Kwalitatieve data Data zonder numerieke waarde (of die niet van belang is) Dichotome waarde de waarde die je meet kan maar 2 mogelijkheden hebben Dood – levend Man – vrouw … Deze data wordt in een data set meestal wel omschreven als 1 en 2 maar deze nummering heeft geen belang. Nominale waarde In de mogelijke antwoorden is geen natuurlijke volgorde Haarkleur Oorzaak van overlijden … Je hebt hier meerdere mogelijkheden en je kan ze ook nummeren maar de nummering heeft geen belang (het is enkel om te bepalen welke kleur of dergelijk het is). Als je bijvoorbeeld oorzaken van overlijden hebt, ga je die in een dataset terugvinden onder een nummer. 1 = vermoord met hamer 2 = kanker 3 = de pest Dit is gewoon een nummering om de oorzaken te classificeren. Het zegt niets over de ernst van de oorzaak of dergelijk. Ordinaal Waarde die in een vaste, zinvolle volgorde kunnen geplaatst worden. Pijn score (schaal 1 -10) Hier kan je onderscheid maken in de graad van pijn. Deze nummering kan geordend worden maar de nummer op zich is bepaald door de onderzoeker zelf. 16 B.P. Kwantitatieve data Gegevens die wel een numerieke waarde bevat Discrete waarde De waarde kan maar een wel bepaalde waarde hebben Zijn gegevens waar de numerieke waarde van belang is maar waarvan de waarde vast liggen. Vb.: radioactieve deeltjes in een ruimte. Het aantal deeltjes kan alle waarde in nemen maar er is maar 1 effectief getal dat gemeten word. Deze gegevens zijn ook van belang ( ze zeggen iets over de ernst van de toestand). Continue gegevens Gegevens zitten in het continuüm Vb.: gewicht en lengte Je kan alle waarde waarnemen maar we beperken onszelf meestal. Gewicht wordt in kg weergegeven en tot 2 cijfers na de komma. Dat kan echter verder tot na de komma gaan maar dat word niet gedaan. Het onderscheid tussen continu en discrete waarde is niet altijd even gemakkelijk te maken. Hoofdstuk 7: grafische presentatie van gegevens Gegevens met 1 variabele Kwalitatieve variabelen Staafdiagram Taartdiagram Kwantitatieve variabelen Histogram De keuze van het interval is belangrijk!!! De intervalgrootte is afhankelijk van de grootte van de steekproef. 17 B.P. Te klein interval: Als je steekproef klein is kan het zijn dat je 1 persoon per staaf krijgt en dat is niet de bedoeling. Te groot interval: hier ga je verlies van informatie hebben Box (whiskers) plot Het voordeel hier is dat je geen intervallen hoeft te kiezen. Bevat: Mediaan (blauw) 75 en 25 percentiel (50% van de observaties zitten in het rode vlak) De whiskers geven de spreiding weer Uitschieters worden weergegeven met een sterretje boven of onder de whiskers Gegevens met meerdere variabelen Kwalitatieve data Gecategoriseerde staafdiagram Op deze wijze krijg je in 1 blik een duidelijke representatie van de gegevens. 18 B.P. Kwantitatieve data Scatterplot Elke patiënt wordt voorgesteld als 1 symbool. Door deze samen te brengen kan er een eventuele trend gezien worden. Punten dicht bij elkaar = verband Punten ver uit elkaar = geen verband Scatterplot + boxplot (of histogram) combo Door deze 2 te combineren, krijg je ook een beeld over de verdeling van de gegevens (normaal, scheef,…) Scatterplot van tijd/log(dosis) Boxplot van de tijd Boxplot van de log(dosis) Scatterplot matrix Meerdere veranderlijke kunnen samen gebracht worden in een scatterplot matrix. 19 B.P. Gemende: kwalitatief en kwantitatief Gecategoriseerde box plot Als je bijvoorbeeld 3 verschillende behandelingen hebt onderzocht en je wilt de tijd van herstel bekijken ten opzichte van die 3 behandelingen. Als je wilt aantonen dat de hersteltijden per behandeling verschillend zijn, geeft dit al een visualisatie dat er een verschil in data is. Verder in het onderzoek ga je proberen te achterhalen of het verschil dat je gezien hebt al dan niet toeval is. Gecategoriseerd histogram Geeft de zelfde informatie als de gecategoriseerde box plot maar nu met histogrammen. Bubble blot Hier ga je 3 veranderlijke tegelijk visualiseren. Symbool grootte Groot symbool = hoge waarde Klein symbool = lagere waarde Scatter plot (X en Y as) 20 B.P. Hoofdstuk 8: kengetallen (summary statistics) Locatie: waar liggen de gegevens ongeveer? Zijn het groso modo grote of kleine geobserveerde waarden? Spreiding: hoe dicht liggen de gegevens bij elkaar? Meten van de locatie Waar liggen da observaties ongeveer? Steekproef gemiddelde Steekproef mediaan (Middelste waarde) Steekproef modus Meest geobserveerde waarde (niet altijd informatief) Veel testen in de statistiek zijn gemaakt op het gemiddelde. Hierdoor gaan we zoveel mogelijk met gemiddelde proberen te werken. Het gemiddelde is echter onderhevig aan extreme waarden, de mediaan heeft dit probleem niet Als we met scheve data zitten : gebruik maken van de mediaan Bij symmetrische data : gebruik maken van het gemiddelde 21 B.P. Meten van de spreiding Hoe gelijkwaardig zijn de observaties? Spreiding zegt niets over de locatie!! Gemiddelde afstand tot het gemiddelde (afstand – gemiddelde) en daar neem je het gemiddelde van Komt altijd uit op 0 dus zegt niets over de spreiding Kwadratische afstand, van alle observaties, tot het gemiddelde Bied een oplossing voor het eerste (afstand – gemiddelde)² en daar neem je het gemiddelde van 0 = geen spreiding in de observaties Hoe groter de waarde, hoe meer spreiding er is. Gemiddelde variantie Kwadratische afstand van alle observaties tot het gemiddelde Bij het nemen van het gemiddelde ga je delen door n-1 De reden waarom, zien we later Kleine waarde : weinig spreiding Grote waarde : veel spreiding Bij het kwadrateren van de gegevens heb je wel het nadeel dat het resultaat niet meer de zelfde eenheid heeft als de gemeten waarden (cm cm²,…) Om dit probleem op te lossen, neem je de √ van s² (steekproef variantie). Zo krijg je een waarde die terug in de zelfde eenheid staat als de geobserveerde waarde. = standaard deviatie (s) Bereik (R) Is de afstand tussen de hoogste en de laagste waarde Hoe groter je steekproef, hoe groter de kans is dat je extreme waarde hebt waardoor R beïnvloed word. Om de invloed van uitschieters te voorkomen, kan je gebruik maken van de Interkwartiel afstand (IQR) De IQR is de afstand die je overhoud als je de 25% hoogste en laagste waarde weg doet. Als we met scheve data zitten : gebruik maken van IQR Bij symmetrische data : gebruik maken van standaard deviatie Zowel variantie, kwadratische variantie als standaard deviatie zijn onderhevig aan uitschieters IQR is niet onderhevig aan uitschieters, de grootte van de steekproef maakt hier ook niet uit. 22 B.P. Percentages het gemiddelde bij dichotome variabele = het percentage - Hier is het niet nuttig om een standaard deviatie te meten omdat je met het percentage alles kan afleiden. Geometrisch gemiddelde en standaarddeviatie Als de gegevens niet symmetrisch zijn, ga je denken om de mediaan te gebruiken. Echter zoals eerder gezegd zijn er veel testen in de statistiek gemaakt op het gemiddelde. We gaan dus zoveel mogelijk met een gemiddelde proberen te werken. Als je met scheve data zit kun je de gegevens transformeren om zo eventueel een iets symmetrischer resultaat te bekomen. Als de gegevens symmetrisch genoeg zijn kan je dat gemiddelde gebruiken. Omdat je een logaritmische aanpassing hebt gedaan, zegt dit gemiddelde niet veel omdat dit op een log schaal is. Daarom ga je dit gemiddelde terug transformeren (exponentieel) Wat je nu bekomt is niet het gewone gemiddelde!! Geometrisch gemiddelde Het geometrisch gemiddelde zal een kleinere waarde bevatten dan het gewone gemiddelde wat aantoont dat ze minder beïnvloed is door extreme waardes. Als er in een onderzoek vermeld staat dat er met een geometrisch gemiddelde is gewerkt, weet je dat ze log getransformeerd hebben. In andere woorden kun je ook achterhalen dat de oorspronkelijke waardes scheef verdeeld waren en dat ze na transformatie ± normaal verdeeld waren Kun je het geometrisch gemiddelde wel gebruiken?? Enkel als je ongeveer symmetrische waarde bekomt na transformatie!! Je gaat hier enkel een uitspraak kunnen maken over de log gegevens Missing data komt zelden voor, als het voorkomt moet het wel eerlijk vermeld worden en niet gewoon weglaten. Enkel zo ga je een eerlijk antwoord kunnen formuleren (laat onzekerheid zien) het hebben van missing data kan ervoor zorgen dat de steekproef niet meer random is. 23 B.P. Vb.: als je in een bedrijf vraagt hoeveel iemand verdiend en alle personen die veel verdienen vullen het niet in je steekproef gaat niet meer representatief zijn voor de populatie. je kan geen gegevens creëren maar eerlijk zijn moet het vermelden van missings kan dienen als een kwaliteitslabel (geen missings = goed) grafische representatie van beschrijvende statistiek. Kengetallen meedelen via figuren. Hier moet je wel opletten welke figuren je gebruikt. Rechter figuur is niet goed omdat je hier een beeld geeft van het gemiddelde met de standaard deviatie, dit kan enkel gebruikt worden bij gegevens die symmetrisch verdeeld zijn of getransformeerd. Bij de linker figuur kan je duidelijk zien of er al dan niet scheefheid is. Deze figuur is ook beter om te gebruiken. Deel 4: basis concepten van statistische besluitvorming Hoofdstuk 9: beschrijven van de populatie Stochastische variabele (X) Daar waar je in een steekproef spreekt over observaties (x) ga je in de populatie spreken over stochastische variabele (X) Stel we willen een onderzoek doen naar BMI en we hebben een steekproef van n=321. BMI zal genoteerd worden als X (onderdeel van de populatie) De 321 observaties in onze steekproef worden respectievelijk genoteerd als x1,x2,x3,…,x321 BMI is een stochastische variabele omdat deze afhankelijk is van puur toeval. Als je 1 iemand random uit de populatie neemt, dan kan je onmogelijk op voorhand weten welke BMI deze persoon zal hebben. Dat zal je eerst de persoon moeten wegen en meten. 24 B.P. Het is dus niet mogelijk om te zeggen dat iemand die je random uit de populatie neemt een BMI zal hebben van 20. Je kan hoogstens zeggen dat de kans groter is dat ze een BMI zal hebben tussen een bepaalde marge (vb tussen 20 en 25). Stochastische variabele zijn dus ook afhankelijk van random variabiliteit. Bij het herhalen van een experiment ga je dus een verschil observeren in je observaties. Hoe waarschijnlijk het is om een bepaalde waarde te bekomen kan wel beschreven worden aan de hand van een verdelingsfunctie, de kansverdelingsfunctie. └> vb.: normaal verdeling,… Deze verdeling zegt wat de mogelijke, realistische waardes zijn die je kan bekomen en wat de kans is die daarbij hoort. Net zoals bij de classificaties in de observaties, zijn stochastische variabelen ook in te delen in de zelfde klassen. Discrete probabiliteitsverdeling (kansverdeling) Deze verdeling beschrijft wat de kans is om een specifieke waarde te observeren van een discrete random variabele. Vb.: stel als X de random variabele is voor ziekteverzuim, dan kan X enkel de waarde 1 of 0 aannemen. 𝑋= 𝑧𝑖𝑒𝑘𝑡𝑒𝑣𝑒𝑟𝑧𝑢𝑖𝑚 ⧼ 10 → → 𝑔𝑒𝑒𝑛 𝑧𝑖𝑒𝑘𝑡𝑒𝑣𝑒𝑟𝑧𝑢𝑖𝑚 De discrete kansverdeling, beschrijft wat de kans is op het observeren van een 1 of een 0. Deze kansen zijn percentages van nullen en eentjes die je zou observeren als het experiment opnieuw en opnieuw zou gedaan worden of die je zou observeren als de n van je steekproef = ∞. We zitten hier met discrete waardes dus we kunnen deze visualiseren met behulp van een bar plot. 25 B.P. Omdat we hier uitspraken maken over de populatie, gebruiken we Griekse letters. 𝜋0 = probabiliteit om een 0 te observeren P(X=0) └> proportie nullen die je zou observeren in een ∞ grote steekproef 𝜋1 = probabiliteit om een 1 te observeren P(X=1) └> proportie eentjes die je zou observeren in een ∞ grote steekproef Dit is een voorbeeld van de bernoulli verdeling. Er zijn nog meer soorten verdelingen: multinomiaal, binominaal,… Continue probabiliteitsverdeling Beschrijft hoe waarschijnlijk het is dat je een continue random variabele meet die plaats vind in een bepaalde marge. Bij discrete waardes, konden we een uitspraak maken over de populatie door de bar plot (staafdiagram) te veralgemenen tot een ∞ grote steekproef. Voor continue variabelen kunnen we op dit zelfde idee verder werken. We kunnen het histogram van de populatie benaderen door de n van de steekproef te vergroten. Hoe groter de steekproef, hoe beter de populatie zal benaderd worden. Als je deze blijft vergroten ga je uiteindelijk komen op een “glad” histogram. └> dit stelt dan de densiteitsfunctie voor (beschrijft het histogram van een ∞ grote steekproef Van dit histogram kunnen we dan de probabiliteit afleiden om een waarde te observeren tussen een bepaald bereik (tussen a en b). De probabiliteit is gelijk aan de oppervlakte onder de densiteitsfunctie tussen punt a en b. De totale oppervlakte van de densiteitsfunctie moet gelijk zijn aan 1 Er bestaan verschillende densiteitsfuncties o Normaal o T verdeling o … 26 B.P. Samenvatting van de karakteristieken voor de kansverdeling De probabiliteitsverdeling kan bekeken worden als een uitbreiding van het staafdiagram of histogram tot de totale populatie of een ∞ grote steekproef. Het beschtrijft de waarschijnlijkheid om een bepaalde waarde te observeren wanneer je random iemand uit de populatie neemt. Gelijkaardig als bij de steekproef kan je nu ook maten van locatie en spreiding definiëren voor de totale populatie. Dit zijn dus de spreiding en de locatie die je zal meten in een ∞ grote steekproef Zoals eerder gezegd, gaan we als we over de populatie spreken gebruik maken van griekse letters µ en σ² zijn waardes zijn theoretische concepten omdat niemand ze ooit zou kunnen meten. 𝑥̅ en en s² zijn de waardes die we wel kunnen meten. De normaal verdeling De normaal (of gaus) verdeling is de meest frequent gebruikte verdeling in de statistiek. De densiteitsfunctie die daarbij hoort kan als volgt omschreven worden. 𝑓(𝑥) = 1 √2𝜋 𝜎² 𝑒𝑥𝑝 {− 1 2𝜎 2 (𝑥 − µ)²} De densiteitsfunctie is afhankelijk van µ en σ². Als deze twee waarden gekend zijn, kan de normaal verdeling voor die populatie bepaald worden. Als een random variabele (X) normaal verdeeld is met een gemiddelde µ en een variantie σ², dan kan dit genoteerd worden als 𝑋~𝑁(µ, 𝜎 2 ). X volgt de normale verdeling met als parameters µ en σ². Er zijn oneindig veel verschillende normaal verdelingen (want deze is afhankelijk van µ en σ²). De standaard normaal verdeling De belangrijkste eigenschap van de standaard normaal verdeling is dan alle andere normaal verdelingen kunnen getransformeerd worden tot een standaard normaal verdeling en andersom. De parameters µ en σ² zullen respectievelijk de locatie en de spreiding bepalen van je normale verdeling. 27 B.P. Van de moment dat je de parameters µ en σ² hebt, kan je berekenen wat de kans zal zijn dat je een waarde gaat observeren bij een µ ± σ . Veel statistische processen volgen de benadering van de normaal verdeling. We gaan altijd proberen een normale verdeling te vinden die onze dataset omschrijft. Als we dat bepaald hebben kunnen we verdere berekeningen maken die gebaseerd zijn op de normale verdeling. en s² in de steekproef geven een schatting weer wat µ en σ² zouden kunnen zijn in de populatie. met de gegevens die we uit onze steekproef halen kunnen we dus een normale verdeling maken van wat wij verwachten te zien in de populatie. Hoofdstuk 10: van populatie tot steekproef en terug tot populatie van populatie tot steekproef we hebben besproken hoe dat de probabiliteitsverdeling (densiteitsfunctie) beschrijft hoe waarschijnlijk het is om een waarde te observeren als je random iemand uit die populatie neemt. Wanneer we een steekproef hebben die groot genoeg is, kan men verwachten dat het geobserveerde histogram de probabiliteitsverdeling zal benaderen = probabiliteits theorie We kunnen dus vanuit de probabiliteitsverdeling een beeld creëren van wat we verwachten te zien in een steekproef. 28 B.P. Van steekproef tot populatie Omdat we nooit helemaal zeker kunnen zijn van de probabiliteits verdeling (densiteitsfunctie), gaan we vanuit de steekproef een schatting proberen te maken van de reële populatieverdeling. Dit is wat we met statistiek gaan proberen te doen. (statistische schatting / inferentie). Om dit te kunnen verwezenlijken, moeten we er wel proberen voor te zorgen dat onze steekproef de populatie zal benaderen. Dit doen we door ervoor te zorgen dat we de steekproef random gaan samenstellen en dat ze groot genoeg is. Voorbeeld: BMI Om een uitspraak te kunnen maken over de BMI in de populatie, gaan we om te beginnen een grote, random steekproef nemen en deze beschrijven. Dit hebben we gedaan en we bekomen dit histogram. Zoals je ziet is het histogram niet symmetrisch verdeeld dus zullen we niet instaat zijn om het gemiddelde en standaard deviatie te gebruiken. Hierdoor zullen we de normaal verdeling ook niet gebruiken. We willen natuurlijk liefst een normaal verdeling gebruiken omdat deze gemakkelijk te interpreteren is. Wat we kunnen proberen is de gegevens te transformeren zodat de gegevens meer normaal verdeeld zullen zijn. Als we zien dat na transformatie de gegevens normaal verdeeld zijn, dan kunnen we hier wel een normaalverdeling gebruiken. Er zijn een aantal mogelijke transformaties die we kunnen toepassen. De keuze van welke transformatie hangt af hoe het histogram en uitzien. In onderstaande figuur word duidelijk gemaakt welke transformatie je gaat toepassen in welke situatie. 29 B.P. Log √ Exp X² Zoals je ziet kan je de zelfde scheefheid op verschillende manieren modificeren. Welke manier je gebruikt ga je enkel kunnen bepalen door het te proberen. Als je na transformatie een verdeling bekomt die symmetrisch is, dan kan je gaan bepalen wat je als µ en σ² gaat gebruiken. Als je gegevens normaal verdeeld zijn, dan ken je de log(𝑥̅ ) en de log(s²) als een schatting van µ en σ². Om je normaal verdeling mee op te stellen. Nu kan je deze verdeling gaan gebruiken om te bepalen wat de kans is dat je een persoon neemt uit de populatie met een BMI >25 of >30,…. Deze berekening zal via bepaalde programma’s gebeuren. Na berekening kom je op een percentage van 47%. Dit wilt dus zeggen dat je 47% kans hebt om random een persoon uit de populatie te nemen die een BMI heeft > 25 Wat je wel moet onthouden is dat dit hier een schatting is want we weten niet exact wat µ en σ² is in de populatie. We hebben deze geschat op basis van onze steekproef. We hopen uiteraard dat onze steekproef een goede representatie is van de populatie. Later zullen we zien dat we wel rekening gaan houden met het feit dat we maar een schatting maken. Voorbeeld: normale waarden. Normale waardes of referentie waarden worden vaak gebruikt bij het rapporteren van klinische test resultaten. Deze waarden zijn ook gebaseerd op een populatieverdeling die ze ooit bepaald hebben. Deze waardes worden gepresenteerd aan de hand van 2 waarden waar een bepaald percentage van de normale, gezonde, populatie tussen zit. Vb.: bij 95% gaan we een interval krijgen van [c1 , c2]. Dus 95% van de normale populatie heeft een waarde die in dit interval zit. 30 B.P. Deze waarden worden dus gebruikt om te controleren of de gemeten waarde bij de patiënt (Bloeddruk,…) extreem hoog of extreem laag is. Alles buiten het interval dat je hebt opgesteld is dus extreem hoog of laag. Hoe gaan we die normale waarden nu vastleggen? Om te beginnen gaan we een grote steekproef nemen die een goede representatie geeft van onze populatie. Van het moment dat we een verdeling hebben kunnen opstellen van die populatie kunnen we alle kanten uit. OPGELET!: er is 5% kans dat je een gezond persoon meet met een te hoge waarde. Wanneer je meerdere parameters gaat willen testen (bijvoorbeeld 2), gaat de kans stijgen dat je een gezond persoon meet waarvan 1 of 2 parameters te hoog of te laag zijn. Als de probabiliteit van een normale waarde = 95% (0,95). Dan is de waarschijnlijkheid op het hebben van 2 normale waarden, voor 2 onafhankelijke parameters, = 0,95². Dus bij het testen van twee parameters, dus bij het combineren van twee 95% normaal waardes. Zorgt ervoor dat je een interval krijgt dat enkel 90,25% van de totale populatie bevat. Algemeen kan je het volgende stellen. Met “k” het aantal gemeten parameters. Dit fenomeen noemt multiple testing. Multiple testing zegt dat als je maar lang genoeg test, dan zal je altijd wel iets vinden met een extreme waarde ook al is er niets mis met die patiënt. Je bekomt dat resultaat enkel door puur toeval. 31 B.P. hoofdstuk 11: schatting, steekproef variabiliteit, bias en precisie Schatting In het voorgaande deel hebben we karakteristieken (µ, σ²,…) van de populatie bepaald. Door de densiteitsfunctie van de populatie te achterhalen op basis van het histogram gezien in de steekproef. Dit is echter niet altijd mogelijk. Bijvoorbeeld wanneer je in je steekproef een histogram bekomt met 2 pieken. Hier is het niet mogelijk om een normale verdeling op te vinden, zelfs niet na transformatie. Een aders aspect is dan we niet altijd geïnteresseerd zijn in de volledige verdeling, zoals in het voorbeeld van BMI. Hier wouden we enkel weten wat de kans is om iemand, random, uit de populatie te nemen met een BMI >25. We zijn enkel geïnteresseerd in het % mannen met een BMI >25. Dit is uiteraard mogelijk via de weg die wij gedaan hebben maar dit neemt wel veel tijd in beslag. Daarnaast zit je nog met het feit dat je niet altijd een correcte, matchende, densiteitsfunctie kunt vinden. Er is een manier om heel die tussenstap van het bepalen van de densiteitsfunctie over te slaan. En dit door een schatting te gaan maken van de karakteristieken waar we in geïnteresseerd zijn. Het is namelijk zo dat we ook al bij het bepalen van de densiteitsfunctie een schatting hebben gemaakt van µ en σ². Dus waarom zouden we die schatting dan niet direct doortrekken. Als je steekproef groot en random is, dan ga je er eigenlijk ook vanuit dat deze het beeld van de populatie benaderd. We gaan ons dus niets meer aantrekken van de verdeling en stellen onze schatting voor zoals hier boven staat aangegeven. Je gebruikt deze waarden niet om te geloven dat dit de exacte waarde is maar om te geloven dat het een goede schatting is. Je weet dus dat je een fout gaan maken maar dat was bij het bepalen van de densiteitsfunctie ook al. Bij een schatting zal dus altijd een onzekerheid zijn. 32 B.P. Voorbeeld: BMI Als we nu het zelfde gaan onderzoeken als voordien zonder eerst de verdeling in kaart te brengen. Deze hebben we toch niet nodig om een uitspraak te kunnen maken over het % mannen met een BMI >25. Je gaat nu gewoon in je steekproef kijken hoeveel mannen er zijn met een BMI >25. Dit ga je dan delen door het totaal aantal mannen om zo het percentage te bekomen. ̂ θ = # 𝑚𝑎𝑛𝑛𝑒𝑛 𝑚𝑒𝑡 𝐵𝑀𝐼 > 25 = 46,99% 2605 46,99% is onze schatting van het totaal aantal mannen met een BMI>25. In onze eerste berekening (met omweg) kwamen we op een percentage van 47,34%. Er is dus wel een verschil te zien maar ze zijn toch alle twee fout. (we weten dat het allebei schattingen zijn) Later zullen we proberen in kaart te brengen hoeveel onzekerheid op deze schattingen zit. Schatting variabiliteit De schattingen die we maken zijn gebaseerd op de waarden bekomen uit de steekproef We hebben ook al eerder bepaald dat een steekproef vatbaar is aan random variabiliteit. Nu, als onze steekproef hier onderhevig aan is dan zal onze schatting dit ook doen. ̂ kan hierdoor geïnterpreteerd worden als 1 gerealiseerde waarde van een De schatting θ random variabele ̂. Ө └> de verdeling van o ̂ word de sampling distributie van Ө ̂ genoemd. Ө ̂ je verwacht als je een experiment Deze omschrijft welke waarde θ veel keer zou herhalen. 33 B.P. De sampling distributie - ̂ is afhankelijk van: Ө ̂ : (mediaan, variantie,…) De betekenis van Ө De verdeling van de originele data Steekproef grootte Het bepalen van deze verdeling is zeer moeilijk want in de praktijk ga je maar 1 waarde zien en dat is je schatting. Je zou een experiment meerder keren moeten doen gewoon om te zien welke variabiliteit je uitkomt op een schatting. Dit gaat niemand doen. maar toch zouden we willen weten uit welke verdeling die ene waarde komt. En hier zitten we dan vast. Om dit in kaart te brengen hoeveel variabiliteit er zit in je schatting zou je die verdeling moeten weten (maar dat is onmogelijk met 1 waarde). o Ofwel ga je het experiment toch meerdere kerenmoeten uitvoeren o Of we gaan gebruik maken van een simulatie via PC. Bias en precisie ̂ te karakteriseren. Er zijn We gaan dus programma’s gebruiken om de verdeling van Ө enkele mogelijke verdelingen die we dan kunnen waarnemen. Asymmetrisch - Waarschijnlijk op het maken van een overschatting Onderschatting is onwaarschijnlijk Gemiddeld gezien gaat de schatting wel correct zijn dit zien we dus liever niet want als je hier een overschatting maakt, kan je er heel ver naast zitten symmetrisch - Over- en onderschatting zijn even waarschijnlijk Gemiddeld gezien gaat de schatting correct zijn Bij de symmetrische verdeling zijn er wel nog enkele verschillen te zien onderling. En meer specifiek op gebied van variabiliteit. Daar waar je weinig variabiliteit hebt gaat de schatting heel precies zijn. Wanneer er veel variabiliteit is, dan gaat de schatting minder precies zijn. 34 B.P. Daarnaast heb je nog de situatie waar je een symetrische verdeling bekomt maar niet rond 𝜃 (reële waarde). - Hier zal je systemisch een fout gaan maken Gemiddeld gezien zal je schatting dus niet correct zijn. Sampling distributie van het steekproef gemiddelde Veronderstel dat we geïtereseerd zijn in µ van een random variabele X. Gebaseerd op een random steekproef zal µ geschat worden door 𝑥̅ . 𝑥̅ is een realisatie van de stochastische variabele 𝑋̅. De sampling distributie van 𝑋̅ is afhankelijk van de verdeling van X en de n (van de steekproef). We kunnen de sampling distributie 𝑋̅ simuleren onder verschillende settings. Als we het experiment ∞ keer herhalen en we kijken dan naar het histogram van 𝑥̅ , dan gaan we de verdeling van 𝑋̅ zien. In het algemeen kunnen we besluiten dat wanneer je een steekproef groot genoeg maakt: - Zal de verdeiling symetrisch ronde de reële waarde µ liggen Meer geconcentreerd de verdeling zal zijn rond µ (de variabiliteit zal dalen) De verdeling zal normaal verdeeld zijn CLT: als je geïntereseerd bent in het gemiddelde, en je gebruikt 𝑥̅ als een schatting. Wat zal de verdeling van 𝑥̅ dan zijn met als gemiddelde de echte waarde die je wenst te schatten (µ,𝜃) en een variantie 𝜎² 𝑛 . En dit op voorwaarde dat je steekproef voldoende groot is. Wat je hier zal bekomen is altijd een normale verdeling. (dit word duidelijk gemaakt bij de simulaties via de applet (zie cursus)). µ: gemiddelde (geschtat op basis van 𝑥̅ ) σ²: variantie (geschat op basis van s²) Het is logisch wanneer je veel variabiliteit hebt in de populatie dat je dit ook gaan terug zien in je schatting (s²) hier kunnen we dus niets aan veranderen. n: steekproef grootte (deze kunnen we aanpassen) 35 B.P. naar mate de steekproef groter word, gaat de onzekerheid van de schatting kleiner en kleiner worden. Dis is ook te zien in de simulaties. De CLT zegt wat je moogt verwachten te zien wanneer je een experiment gaat doen, er van uitgaande dat je steekproef groot genoeg is. CLT: de sampling distributie van 𝑥̅ , 𝑋̅ zal altijd normaal verdeeld zijn met een bepaalde µ en 𝜎² 𝑛 . Dus met dat n groter word zal de onnaukeurigheid dalen. De steekproef moet dus voldoende groot zijn. Maar wat is nu voldoenede groot? - Er is geen algemene regel. o Hangt af van hoe de oorspronkelijke data verdeeld is (hoe de populatie verdeling er uit ziet) o Als de gegevens van in het begin al van een normale verdeling komen zal je minder observaties nodig hebben dan wanneer je start van gegevens die niet normaal verdeeld zijn. Het is dus aan te raden om in het onderzoek toch eens te gaan kijken naar de verdeling. Niet de volledige populatie verdeling in kaart brengen maar gewoon kijken of je gegevens van je steekproef al dan niet normaal verdeeld zijn. Als ze symetrisch verdeeld zijn weet je dat je bij minder observaties nog steeds de CLT gaat kunnen toepassen. Wanneer je heel scheve data hebt en een kleine steekproef dan kan de CLT niet toegepast worden. Hoe schever de data, hoe moeilijker het wordt om de CLT toe te passen. Meer observaties lost dit probleem dan op De CLT is de reden dat veel natuurlijke fenomenen vaak normaal verdeeld zijn. Een gemiddelde is normaal verdeeld en is een goede representatie van de populatie. ̂ gebruiken dan 𝑥̅ . We kunnen wel aantonen dat We kunnen met de CLT niet voor andere Ө ̂ de 𝜃 zal benaderen. wanneer we de n vergroten, de Ө Enkel zal je bij 𝑥̅ een normale verdeling vinden, daarom gaan we altijd proberen het gemiddelde te gebruiken boven de mediaan. Zelfs liever het geometrisch gemiddelde dan mediaan. Standaard error of the mean. De CLT kunnen we dus toepassen om de nauwkeurigheid te bepalen van onze schatting µ (op basis van 𝑥̅ ). Van de moment dat we de CLT hebben kunnen we zien dat het gemiddelde = µ en dat de standaard deviatie = 𝜎² 𝑛 (= √ 𝜎² 𝑛 = 𝜎 √𝑛 ). Deze standaard deviatie wordt ‘standaard error of the mean’ genoemd (de standaard deviatie van het gemiddelde).De s.e.m. reflecteert de precisie in de schatting van µ door 𝑥̅ . Het gebruik van de s.e.m. is om aan te tonen hoe nauwkeurig het gemiddelde werd geschat. 36 B.P. Vb.: BMI Deze data set laat zien wat de BMI is in verschillende beroepsklassen. Hoe we de gegevens zouden beschrijven zoals we in het verleden gezien hebben. o Dan zou je dus zeggen: ik heb een gemiddelde ± standaard deviatie. └> dit beschrijft de locatie van de gegevens in de groep met de spreiding. o Bij normaal verdeelde gegevens is dit zinvol. o Wordt gebruikt om je gegevens te beschrijven (locatie en spreiding) Hier wordt het gemiddelde weergegeven met de s.e.m. o Dit ga je gebruiken om aan te tonen wat je schatting is en hoe nauwkeurig deze is. o Je kan dit altijd toepassen omdat de gegevens toch symmetrisch verdeeld zijn (er vanuit gaande dat de n groot genoeg is. Opletten dat je de juiste grafieken laat zien!!! Gemiddelde ±standaard deviatie: aantonen wat de locatie en spreiding is Gemiddelde ± s.e.m.: aantonen of je schatting al dan niet nauwkeurig is Hoofdstuk 12: betrouwbaarheidsinterval Het betrouwbaarheidsinterval (C.I.) beschrijft hoe het steekproef gemiddelde (𝑥̅ ) zich gaat gedragen als je herhaaldelijk steekproeven gaat nemen. Vb.: captopril In dit onderzoek gaan we 15 patiënten onderzoeken waar we de bloeddruk van hebben gemeten voor en na het toedienen van captopril. Je bent geïnteresseerd in de verandering in BD voor en na behandeling (X= BDvoor -BDna). Dit berekenen we op basis van de gegevens gevonden in de steekproef. 37 B.P. We willen de CLT toepassen maar we weten niet of n groot genoeg zal zijn. We kijken dan eerst naar het histogram (van de BD verschillen) om na te kijken of deze al dan niet symmetrisch verdeeld zijn. We zien dat er geen echte scheefheid is dus dat de gegevens ‘symmetrisch’ zijn. We kunnen de CLT toepassen Voor onze vraagstelling gaan we kijken wat het gemiddelde verschil is in BD waargenomen in onze steekproef. Als we het gemiddelde verschil bekijken zien we dat er een negatieve daling is. We komen op een 𝑥̅ = 9,27 (gemiddelde daling van 9,27). Dit blijft maar een schatting voor de µ dus we willen ook wel weten hoever dat onze schatting van de reële waarde µ ligt. (wat de kans is) We gaan een interval bepalen rond de schatting die heel waarschijnlijk is de reële µ te bevatten. Betrouwbaarheidsinterval (C.I.) We willen dus een uitspraak maken over hoe ver we van de reële µ zitten. We weten sowieso dat we er langs zitten want we hebben een schatting gemaakt en deze is onderhevig aan toeval. We spreken hier over een kans. Van het moment dat we over een kans spreken hebben we een verdeling nodig. We zijn geïnteresseerd om een uitspraak te maken over de kans van het steekproefgemiddelde (𝑥̅ ). Hier komt de CLT naar boven, deze zegt de verdeling te kennen. Los van wat de verdeling zal zijn van de oorspronkelijke gegevens, zal 𝑥̅ altijd een normale verdeling volgen met dit gemiddelde en variantie. Er ook weer vanuit gaande dat de n groot genoeg is. Dankzij de CLT kunnen we berekenen hoe waarschijnlijk het is dat onze schatting ver of dicht van de correcte waarde ligt. We kunnen bijvoorbeeld bepalen wat de kans is dat een random steekproef een 𝑥̅ zal bevatten die minder dan 1 unit verschilt van µ. 38 B.P. We weten dat wanneer we een normale verdeling hebben, we deze kunnen standaardiseren (standaard normaal verdeling). Deze is gemakkelijk te interpreteren dus gaan we hier naar toe proberen te werken. 𝑋 ~ 𝑁(µ, 𝜎 2 ) 𝑋̅−µ √𝜎² ~ 𝑁(0,1) In ons voorbeeld hebben we de verdeling 𝑋̅. Hiervan weten we ondertussen dat deze normaal verdeeld is (CLT) wat wilt zeggen dat we deze kunnen standaardiseren. 2 𝜎 𝑋̅ ~ 𝑁(µ, ) 𝑛 𝑋̅ −µ √𝜎² ~ 𝑁(0,1) 𝑛 Nu, omdat we dit gestandaardiseerd hebben gaan we de units ook moeten “transformeren” −1 1 √𝜎² 𝑛 √𝜎² Zoals altijd, word σ² geschat met s². 𝑛 n=15 Met deze gegevens kunnen we bepalen dat we bij een random steekproef in 35% van de gevallen een schatting van µ hebben die minder dan 1 unit van de reële µ zal verwijderd zijn. Deze berekening kan voor verschillende afstanden berekend worden Het is echter ook mogelijk om het omgekeerde te doen. Als we nu willen weten wat het interval zal zijn bij een bepaalde probabiliteit. Bijvoorbeeld als we 95% zekerheid willen hebben dat de units de reële µ bevatten. De intervallen die we bekomen is het C.I. (De 2 units ± 𝑥̅ ) Het bekomen percentage is het betrouwbaarheidslevel De grootte van het interval duid de precisie aan van de schatting. Deze is afhankelijk van de σ² in de populatie. (dus kunnen we niet aanpassen) Een 100% betrouwbaarheidslevel is nutteloos want dat zou een C.I. opleveren van [-∞,∞]. Voorbeeld: BMI We hebben nu enkel over een gemiddelde gesproken, een C.I. kan echter voor elke karakteristiek 𝜃, van random variabele X opgesteld worden. Zoals bij de BMI waar we geïnteresseerd waren in het percentage mannen met een BMI >25. Geobserveerde proportie= 𝜃̂ = 46,99% Om te kijken hoe precies die schatting is, kunnen we een C.I. bepalen met een betrouwbaarheidslevel van 95%. 95% C.I. voor 𝜃 = [0,45;0,49] Het interval [0,45;0,49] bevat de ongekende proportie 𝜃 met een waarschijnlijkheid van 95%. 39 B.P. Hoofdstuk 13: hypothesetesten Daar waar we bij een betrouwbaarheidsinterval gaan proberen weer te geven hoe nauwkeurig de schatting is en hoe groot de kans is dat je echt heel ver van de reële waarde af ligt. Bij het toetsen van hypothesen gaan we echter een uitspraak (hypothese) over een bepaalde parameter (gem,…) toetsen. Op basis van de gegevens die je verzameld hebt. Ondersteunen de gegevens die we verzameld hebben uit onze steekproef de hypothese die we gesteld hebben. o Hebben we voldoende evidentie om te geloven dat de uitspraak juist is o Of zeggen de gegevens dat we evidentie hebben om te geloven dat die hypothese niet correct is. Voorbeeld: captopril We gebruiken het zelfde voorbeeld als bij C.I. we willen dus achterhalen of de behandeling al dan niet een effect heeft op de diastolische bloeddruk. X= BDvoor - BDna We berekenen het gemiddelde 𝑥̅ (=9,27) We kijken naar het histogram om te zien hoe de gegevens verdeeld zijn , we willen hier later ook de CLT toepassen. Het verschil is dat we gaan werken met een hypothese. We gaan ons concentreren op het vinden van evidentie of de behandeling een effect heeft op de BD. In het geval dat de behandeling geef effect zou hebben, gaat het gemiddelde µ van X = 0 (want als uw 2 gemiddelden niet veranderd, dan ga je 2 dezelfde waarden van elkaar aftrekken) Dus als we kunnen aantonen dat er evidentie is dat µ ≠ 0 kunnen we concluderen dat er wel een effect gaat zijn. Wat we ons nu afragen is in andere woorden of µ al dan niet gelijk is aan 0. In onze steekproef hebben we een schatting gemaakt van µ µ̂ = 𝑥̅ = 9,27 └> Het gemeten verschil suggereert dat er een effect is. Omdat we µ nooit exact kunnen weten, kunnen we ook niet gaan zeggen dat alles wat niet 0 is direct betekend dat er geen effect is. We weten wel dat onze schatting µ̂ een goede benadering is voor µ. Dus als µ=0 zou zijn dan gaat µ̂ dicht in de buurt liggen van 0. We gaan hier eerst veronderstellen dat er geen effect is (µ=0). Daarna gaan we in de steekproef kijken wat µ̂ (𝑥̅ )is. Als je hier een groot effect waarneemt ga je besluiten dat onze eerste hypothese (µ=0) niet juist is en zullen we die hypothese dan ook verwerpen. We kunnen dan wel besluiten dan µ≠0 (er is geen effect). 40 B.P. Nul en alternatieve hypothese Wat we juist hebben besproken omschrijft een hypothese, meer bepaald de nul hypothese. De nul hypothese stelt dat µ=0 └> de 2 gemiddelden zijn gelijk aan elkaar geen effect De alternatieve hypothese stelt dat µ≠0 └> de 2 gemiddelden zijn niet gelijk aan elkaar wel een effect We vertrekken vanuit het geloof dan H0 correct is tot het tegendeel bewezen is (dat we voldoende evidentie hebben dat H0 fout is. We zijn nog altijd geïnteresseerd om een uitspraak te maken over µ. Niet zo zeer het schatten van µ maar we gaan proberen een uitspraak te testen. Deze uitspraak is: µ=0 (H0) of µ≠0 (HA). Het bepalen of we H0 of HA gaan aanvaarden doen we op basis van de steekproef. P-waarde en significantie niveau We trachten dus te achterhalen of we H0 al dan niet gaan verwerpen. Het verwerpen van H0 als µ te veel verschilt van 0. De vraag hier is dus wanneer kan je zeggen dat µ te veel verschilt van 0? Antwoord: Als het resultaat onwaarschijnlijk is te gebeuren door puur toeval als we er van uit gaan dat µ=0. Dus wat we zien kan geen toeval zijn. Als het resultaat niet is wat we verwachten te zien als µ=0. Dan kunnen we H0 verwerpen Wat verwachten we dan te zien als µ=0? Hiervoor kunnen we beroep doen op CLT. └> want deze omschrijft welke waardes voor 𝑥̅ we kunnen verwachten te zien als s we een experiment opnieuw en opnieuw zouden doen. Als we een steekproef nemen met een n die groot genoeg is bekomen we 41 B.P. In deze setting van de H0 stellen we echter dat µ=0. Dat geeft dan dus het volgende weer: 𝜎 2 = 𝑠 2 = 74,21 𝑛 = 15 Als onze uitspraak juist is (dat H0 correct is) gaan we deze verdeling zien in onze 𝑋̅. └> deze verdeling is wat we verwachten te zien als H0 juist is. In het geval dat wanneer we in een random steekproef een 𝑥̅ bekomen die te extreem is volgens deze verdeling. Dan gaan we moeten overwegen dat H0 (µ=0) niet juist zal zijn. Dan zullen we HA (µ≠0) aanvaarden. Hoever moet 𝑥̅ van 0 verwijderd zijn om die waarde als extreem te bezien? Dat kunnen we bepalen door de kans (probabiliteit), op het observeren van onze 𝑥̅ in de verdeling 𝑋̅, te berekenen. Het berekenen van een probabiliteit is het zelfde als voordien. Als µ=0, wat is dan de kans op het observeren van 𝑥̅ die minder dan 1 unit van 0 verwijderd is? Dit wilt dus zeggen dat als µ=0 er 35% kans is dat we een 𝑥̅ gaan vinden binnen 1 unit van 0. In andere woorden is er dus 65% kans dat we een 𝑥̅ gaan vinden die meer afwijkt dan 1 unit van 0. Het observeren van een 𝑥̅ =1 kan dus niet echt bezien worden als veel evidentie tegen H 0 (µ=0). Dit kunnen we dus ook weer berekenen voor verschillende units. In ons voorbeeld zagen we een 𝑥̅ = 9,27. Als we dit uitrekenen komen we op een probabiliteit van 0,1% (0,001). Deze probabiliteit wordt ook p-waarde genoemd. Dit suggereert dus dat wat we zien zeer onwaarschijnlijk lijkt voor te komen als µ=0 (zou maa 1 keer op de 1000 keer voorkomen). Kleine p-waarde: geeft aan dat de geobserveerde waarde heel extreem is. Dus dat H0 onwaarschijnlijk lijkt. Grote p-waarde: impliceert dat de geobserveerde waarde perfect in lijn staat met wat we kunnen verwachten als H0 juist is. Wanneer gaan we nu beslissen om H0 te verwerpen? Als het in onze ogen te onwaarschijnlijk lijkt dat H0 correct is. 42 B.P. Omdat dit vrij abstract is wordt er een standaard waarde vastgelegd die we gebruiken in de literatuur. Deze waarden noemen we het significantie niveau en word genoteerd als α. └> de waarde van α bepaal je zelf, meest frequent is een α=0,05. Dus van het moment dat wat we waarnemen minder waarschijnlijk is dan α, pas dan ga je H0 verwerpen. p-waarde < α H0 verwerpen p-waarde ≥ α H0 aanvaarden Een α van 1% (0,01) wilt dus zeggen dat je H0 pas gaat verwerpen als wat je gezien hebt in je experiment minder dan 1% kans heeft om te gebeuren door puur toeval. Als je een p-waarde < α bekomt, dan spreek je van een significant effect. Het effect dat we hebben geobserveerd is voldoende groot om een ook effect te hebben in de populatie. Omdat je de α zelf mag bepalen, moet je dus van in het begin duidelijk specifiëren welke α je gaat gebruiken om significantie aan te duiden. Als je gewoon zou zeggen dat er een significant effect is, zegt dit nog niets. Want als je een α van 0,05 gebruikt ga je pas later een significant resultaat bekomen dan wanneer je een α va 0,1 gebuikt. Borderline significantie Je gaat je strikt houden aan de α die je voorop gesteld hebt. Als je in een experiment een p-waarde bekomt van 0,06 bij een α=0,05 is dit niet significant!! Een α= 0,05 impliceert dat er 1/20 kans bestaat dat we een extreme waarde voor 𝑥̅ observeren die zelfs bij H0 correct zou zijn. Dus dat we 1/20 een fout gaan maken in het verwerpen van H0 Alles groter dan α is niet significant! Mogelijke fouten in het maken van een beslissing In statistiek gaan we nooit een uitspraak maken met 100% zekerheid. Er is altijd ruimte voor fouten. Zelfs als we gebruik maken van een significantie niveau α=0,01. Er is hier dan nog steeds mogelijk dat wat jij gemeten hebt juist die 1% is. In dit geval ga je H 0 verwerpen terwijl die wel correct is. Het omgekeerde kan uiteraard ook als je een grote p-waarde bekomt ga je besluiten H0 te aanvaarden (µ=0). Het kan echter zijn dat µ heel dicht bij 0 ligt maar toch niet 0 is en dat je het nooit gemerkt hebt. En dan ga je ook verkeerde conclusies maken. Wat je ook besluit, er is altijd de mogelijkheid dat je een foute beslissing maakt Later zullen we gaan kijken hoe groot de kans is dat je een foute beslissing maakt. Statistiek kan nooit iets bewijzen!!! 43 B.P. Het enige wat je kan zeggen is dat er grote evidentie is dat er een effect is. De reden hiertoe is omdat we uitspraken maken over een ∞ grote populatie op basis van een eindig grote steekproef. Hypothese testen VS betrouwbaarheidsinterval Als we het voorbeeld van de captopril data er nog eens bij nemen. Hier hebben we zowel een C.I. als een p-waarde op berekend. 95% C.I. : [4,91;13,63] P-waarde: 0,001 (0,1%) Uit de C.I. kunnen we halen dat de reële waarde (gemiddeld effect van de behandeling) zeer waarschijnlijk te vinden is tussen 4,91 en 13,61. Hier ga je ook kunnen besluiten dat de reële waarde niet 0 zal zijn (H0 verwerpen). Bij de p-waarde met α=0,05 hebben we besloten dat H0 niet correct is dus dat µ≠0. (want enkel in 0,1% van de gevallen zullen we waarnemen dat µ=0) Beide technieken geven elkaar dus gelijk. Bij het C.I. krijgen we wel meer informatie. Alle waardes die tussen het C.I. liggen zijn waardes van H0 die we zouden accepteren moesten we ze meten in een experiment. Met C.I. kan je dus ook een hypothese gaan toetsen. Als we H0 zouden verwerpen wilt dit ook zeggen dat, in het geval dat µ=0, de 0 niet in het C.I. gaat liggen. De twee technieken zijn altijd complementair aan elkaar, zolang je de juiste intervallen samen bekijkt! 44 B.P. 95% C.I. is de verzameling van alle H 0’s die we zouden accepteren in een statistische test met een α=0,05. Voorbeeld: BMI Net zoals bij de C.I. kunnen we een hypothese opstellen over alle Ө van de verdeling X. Veronderstel dat we 10 jaar geleden een experiment gedaan hebben over de BMI bij mannen met als resultaat dat 40% van de mannen een BMI had >25. We kunnen nu gaan testen of er momenteel (10 jaar later) al dan niet meer mannen zijn met een BMI>25. De H0 die we dan zouden opstellen is de volgende. H0 𝜃 ≤ 40% VS HA 𝜃>40% H0 : het percentage mannen met een BMI≤40 HA: het percentage mannen met ene BMI >40 We berekenen een p-waarde; p-waarde= <0,001 We verwerpen de H0 en weten nu dat het percentage mannen groter is dan 40% (α=0,05). Dit is een eenzijdige test omdat we zeggen dat het ofwel < of > is dan de setpoint waarde. Het voorbeeld van de captoprildata is een tweezijdige test. H0: µ=0 VS HA: µ≠0 Je bepaald hier enkel dat µ al dan niet 0 is (het ken groter of kleiner zijn) Bij een eenzijdige test H0 𝜃 ≤ set point VS HA 𝜃>set point Hier ga je bepalen of 𝜃 al dan niet groter of kleiner is dan de set point waarde. Deel 5: enkele frequent gebruikte testen In de vorige hoofdstukken hebben we altijd het voorbeeld van captopril data gebruikt, waar we 1 groep mensen 2 keer hebben gemeten (voor en na behandeling). De zelfde principes kunnen we toepassen in andere contexten (andere soort studies). Deze contexten zullen we, de meest voorkomende, hier gaan bekijken. 45 B.P. Hoofdstuk 14: vergelijken van 2 gemiddelden: ongepaarde data Hier gaan we 2 groepen met elkaar gaan vergelijken en we gaan zien of er een verschil is tussen die twee groepen / een verschil tussen de gemiddelden. In dit hoofdstuk kijken we specifiek naar ongepaarde data. De 2 groepen die we onderzoeken hebben niets met elkaar te maken Voorbeeld: gewichtstoename bij ratten. Hier zijn dus 2 groepen gemaakt, 1 groep kreeg een dieet hoog in proteïnen en groep 2 kreeg een dieet laag in proteïnen. (de 2 groepen staan los van elkaar dus we hebben ongepaarde data). We gaan kijken of we een verschil kunnen detecteren in gewichtstoename tussen de twee verschillende groepen. Hiervoor gebruiken we de zelfde methodologie als voordien, wat wilt zeggen dat we ook hier straks gebruik willen maken van de CLT. Onze steekproef is niet heel groot en we gaan dan ook voor de zekerheid eerst eens naar de histogrammen kijken. We zien dat de gegevens niet heel scheef verdeeld zijn en in zekere zin symmetrisch. We kunnen dus de CLT gaan toepassen. De gegevens zijn wel niet perfect symmetrisch maar zeker niet heel scheef. Dit is goed genoeg om te CLT te laten toepassen. Uit de beschrijvende statistiek kunnen we zien dat er wel een gemiddeld gewichtsverschil is van 19 gram. We zijn nu geïnteresseerd om te weten hoe waarschijnlijk het is dat we zo een verschil (19g) kunnen waarnemen als de gewichtstoename helemaal niets zou te maken hebben met het proteïnegehalte in het dieet. Voor ons onderzoek gaan we er vanuit dat we 2 ∞ grote populaties hebben waarvan 1 populatie een dieet heeft hoog in proteïnegehalte en een andere populatie een dieet heeft laag in proteïne gehalte. └> uit deze hypothetische populaties hebben we uit elk 1 steekproef genomen. Steekproef 1: n1 = 12 𝑥̅ 1 = 120 Steekproef 2: n2 = 7 𝑥̅ 2 = 101 46 B.P. Zoals eerder gezegd zitten we hier met ongepaarde data want de 2 groepen hebben niets met elkaar te maken. Er is geen relatie tussen de observaties uit de 1e populatie en de observaties uit de 2e populatie. Betrouwbaarheidsinterval voor het verschil tussen 2 gemiddelden. Ook hier kunnen we een C.I. gaan berekenen. We zijn niet geïnteresseerd in µ 1 of µ2 maar in het verschil tussen die twee. µ1-µ2 Hierop gaan we onze C.I. dan ook op samen stellen. µ1 en µ2 kunnen we niet kennen maar we kunnen wel een schatting maken met behulp van 𝑥̅ 1 en 𝑥̅ 2 We schatten µ1-µ2 door 𝑥̅ 1 - 𝑥̅ 2 = 19 Als we een C.I. gaan samen stellen met deze data voor een 95% betrouwbaarheidslevel dan bekomen we een interval van: [-2,19;40,19]. We kunnen met grote zekerheid zeggen dat het reële verschil tussen dit interval ligt. De 95% slaat op het geen wat we zullen zien als we het experiment meerdere keren zouden herhalen met andere steekproeven. In 95% van de gevallen zullen we een C.I. bekomen die de reële waarde bevat. Dit C.I. laat zien dat onze schatting niet heel precies is, dit kan verklaard worden doordat de steekproef veel te klein is. Ook kunnen we niet uitsluiten dat het verschil niet 0 gaat zijn (wat erop zou wijzen dat er geen verschil is tussen de twee gemiddelden. └> dit laat ook al zien dat, wanneer we de p-waarde gaan berekenen, deze een niet significant niveau gaat aantonen. De ongepaarde t-test We gaan willen testen of de twee populaties al dan niet een zelfde gemiddelde hebben. Hiervoor gaan we ook 2 hypotheses voor samenstellen. H0 : µ1=µ2 VS HA : µ1≠µ2 Vanaf het moment dat we te veel verschil waarnemen tussen de twee gemiddelden, gaan we H0 verwerpen. └> als 𝑥̅ 1 te veel verschilt van 𝑥̅ 2 . Dit brengt ons dan terug bij de vraag: wanneer gaat dat verschil te groot zijn? Wanneer het geobserveerde verschil (𝑥̅ 1 - 𝑥̅ 2 ) te onwaarschijnlijk lijkt om te gebeuren door puur toeval. (dat wat we zien geen geluk kan zijn) 47 B.P. Om dat te bepalen gaan we de probabiliteit bepalen van het observeren van een gemiddelde tussen de 2 groepen van minstens 19g, als µ1=µ2. De kans (p-waarde) die we voor deze gegevens berekend hebben is p-waarde = 0,0757. Dit wilt dus zeggen dat, zelfs al zou er geen verschil zijn tussen de twee groepen, dan nog zouden we in 7,57% van de gevallen een verschil kunnen waarnemen van minstens 19g in een gelijkaardig experiment door puur toeval. Om te bepalen of deze kans (p-waarde) klein genoeg is om te kunnen zeggen dat de gemiddelden toch van elkaar verschillen (en H0 fout is). Of dat de p-waarde groot genoeg is om te besluiten dat er geen verschil is. Dit doen we door de p-waarde te staven aan een α van 0,05. De geobserveerde p-waarde is 0,0757 en is dus > α 0,05. We gaan dus besluiten dat voor dit onderzoek er te weinig evidentie is om ervan uit te gaan dat de 2 gemiddelden van elkaar verschillen. We gaan H0 verwerpen een HA aanvaarden. Er is geen significant verschil in de gewichtstoename tussen ratten met een dieet hoog in proteïnegehalte en een dieet laag in proteïnegehalte. Het is belangrijk dat je duidelijk spreekt over een significantie. Zekerheid over onze uitspraak kunnen we nooit hebben. └> we kunnen niet gewoon zeggen dat het over een verschil gaat omdat we over statistiek bezig zijn. We hebben hier gesproken over een ongepaarde t-test, de p-waarden werden berekend op de t-verdeling (niet op de normaal verdeling). Assumpties Er zijn enkele voorwaarden waaraan je moet voldoen om een t-test te mogen uitvoeren. Om een resultaat te hebben dat representatief is. Om te beginnen zijn zowel C.I. als de p–waarde berekening gebaseerd op de sampling distributie 𝑋̅ − 𝑋̅ . Welke de verdeling geven voor respectievelijk 𝑥̅ 1 en 𝑥̅ 2 . deze sampling distributie is gebaseerd op die van 𝑋̅ 𝑒𝑛 𝑋̅. o In het geval dat je een grote steekproef neemt, zullen deze verdelingen altijd normaal verdeeld zijn. (CLT) o Als ze klein zijn, zoals in het voorbeeld, kunnen we daar niet zomaar vanuit gaan. Hier gaan we eerst nog eens kijken daar de histogrammen om te besluiten of de gegevens al dan niet symmetrisch verdeeld zijn. In beide populaties. Als ze voldoende symmetrie bevatten kunnen we CLT ook nog toepassen. Een 2e assumptie bij de ongepaarde t-test is dat er impliciet vanuit wordt gegaan dat de varianties, uit beide populaties, gelijk zijn. 48 B.P. o o Ook hier is het zo als de steekproef voldoende groot is dat deze sowieso gelijk zullen zijn. Bij kleine steekproeven zullen we dit moeten gaan bepalen. We kunnen de varianties gaan controleren met behulp van een hypothese test. H0: σ²1 = σ²2 VS HA: σ²1 ≠ σ²2 De meeste software pakketten zullen deze hypothese automatisch testen p-waarde < α H0 verwerpen p-waarde ≥ α H0 aanvaarden wanneer de p-waarde < α dan ga je de t-test niet mogen gebruiken. Ook hier geeft de statistiek een oplossing voor. Het berekend namelijk ook een p-waarde ‘by seperated variances’. In dit voorbeeld maakt dit nu niet veel uit want we hebben ook bepaald dat de varianties gelijk zijn. De gecorrigeerde test gaat hier dus ook ongeveer gelijk zijn aan de normale. Voorbeeld: overlevingstijden bij kankerpatiënten Wat we hier gaan proberen te achterhalen is of de gemiddelde overlevingstijden tussen maag- en dramkanker al dan niet dezelfde zijn. H0 : µ1=µ2 VS HA : µ1≠µ2 H0 : de gemiddelde overlevingstijd bij maagkanker is het zelfde als de gemiddelde overlevingstijd bij colon kanker. HA : de gemiddelden zijn niet gelijk. Voor dat we nu verder gaan moeten we eerst nog eens denken aan de assumpties! o Varianties: deze moeten gelijk zijn in beide populaties. Na berekening bekomen we een p-waarde > 0,05. Ze zijn dus gelijk. o Normaal verdeling: we weten ondertussen al dat wanneer je steekproef voldoende groot is dat deze assumpties sowieso voldaan zijn (CLT). Hier hebben we echter een kleine steekproef. Dus we gaan de verdelingen eerst moeten controleren. 49 B.P. zoals we zien zijn deze gegevens niet normaal verdeeld. Dit zou dus een probleem kunnen stellen als we de CLT willen toepassen. Wat we nu wel nog kunnen proberen is de gegevens te transformeren om ze symmetrisch te maken. Er zijn verschillende soorten transformaties. Voor deze gegevens gaan we een log transformatie toepassen. De gegevens zijn na transformatie beter verdeeld, ze zijn niet perfect symmetrisch verdeeld maar dat is niet nodig (wel zo symetrisch mogelijk). Met deze gegevens kunnen we dan wel een ongepaarde t-test gaan doen. Je gaat hier dus kijken naar de overlevingstijden tussen 2 groepen. logaritmes van Nu moeten we ook wel nog opnieuw de varianties controleren op deze, getransformeerde, gegevens. Deze zijn nog steeds gelijk. Alles ziet er nu goed uit dus we kunnen de p-waarde van deze t-test gaan gebruiken. We bekomen een p-waarde van 0,067. Deze p-waarde is groter dan onze α (0,05). We gaan de H0 vaanvaarden, de gemiddelden zijn gelijk. In principe zou je nu je conclusie moeten schrijven als: Er is geen signifiant verschil in de log overlevingstijden Dit word echter nooit gedaan, er zal gewoon geformuleerd worden dat er geen significant verschil is in overlevingstijden. De log is enkel belangrijk bij de berekeningen, voor de interpretatie geeft dit geen probleem. Let wel!! Bij deze gegevens (log getransformeerd) ga je in de beschrijvende statistiek beter werken met geometrisch gemiddelde en standaard deviatie. Hoofdstuk 15: vergelijken van 2 proporties bij ongepaarde data Ook hier gaan we 2 groepen met willen vergelijken en we gaan zien of er al dan niet een verschil is in proporties tussen de 2 groepen. Meer bepaald geen we kijken naar 2 groepen die niets met elkaar te maken hebben (ongepaarde data) 50 B.P. Voorbeeld: ziekteverzuim Wat we hier gaan willen onderzoeken is of dat ziekteverzuim gerelateerd is aan het geslacht. Hiervoor hebben we de percentages berekend van ziekteverzuim bij zowel mannen als vrouwen. Mannen: 37,2% Vrouwen: 42,9% Deze waardes suggereren dat er meer ziekteverzuim is bij vrouwen dan bij vrouwen. De geobserveerde waardes kunnen echter ook door puur toeval zijn gemeten. We hebben hier ook maar een steekproef en we willen een uitspraak proberen te maken over de populatie. Daarom is het hier interessant om eens te gaan kijken (berekenen) hoe waarschijnlijk het is dat deze waarden kunnen geobserveerd worden door puur toeval. (een kans berekenen). We gaan dus weer 2 hypothetische populaties hebben (populatie mannen en populatie vrouwen in een bedrijf). Uit elke populatie hebben we een steekproef Mannen: n = 156 genomen. Vrouwen: n = 429 𝜋1 en 𝜋2 representeren de proporties in de populaties met ziekteverzuim Omdat we 𝜋1 en 𝜋2 nooit kunnen weten gaan we deze schatten op basis van de gegevens die we in de steekproef halen. Dan bekomen we een 𝜋̂1 = 37,2% en voor 𝜋̂2 = 42,9%. Er is geen relatie tussen de twee groepen dus we zitten met ongepaarde data. De chi-kwadraat test Dit is de test die we gaan gebruiken om onze hypotheses te staven. Er worden dus weer twee hypotheses geformuleerd H 0 en HA H0: 𝜋1 = 𝜋2 VS HA: 𝜋1 ≠ 𝜋2 H0: de proportie mannen met ziekteverzuim is gelijk aan de proportie vrouwen met ziekteverzuim HA: er is wel een verschil in proportie, er is een relatie tussen geslacht en ziekteverzuim. Als er veel verschil is tussen de twee proporties, zullen we H 0 verwerpen, dus als 𝜋̂1 - 𝜋̂2 te groot is. Om te bepalen wanneer deze waarde te groot is gaan we een p-waarde berekenen. └> als het onwaarschijnlijk lijkt dat de geobserveerde waarde voorkomt door puur toeval gaan we H0 verwerpen. 51 B.P. De p-waarde laat ons zien wat de kan is op het observeren van een verschil dan minstens gelijk is aan 0,057 (0,429-0,372) in een gelijkaardig experiment als 𝜋1 = 𝜋2 p-waarde= 0,215 dus zelfs al zouden de 2 proporties gelijk zijn aan elkaar, dan zouden we nog in 21,5% van de toekomstige gelijkaardige experimenten een verschil observeren van minstens 0,057. Ook hier gaan we gebruik maken van een significantie niveau om een uitspraak te kunnen maken over de gegevens. We gebruiken een significantie niveau van α =0,05. De p-waarde die we geobserveerd hebben is groter dan α, we zullen H0 aanvaarden. Er is geen significant verschil in ziekteverzuim tussen mannen en vrouwen. Deze test noemt de chi-kwadraat test omdat de p-waarde berekend word op de chikwadraat verdeling. Assumpties Zoals bij elke test die we gaan zien, zijn er ook enkele assumpties waaraan de steekproef moet voldoen om de chi² test te mogen doen. We willen terug gebruik maken van de CLT. Dat brengt ons terug op de normaal verdeling ̂1 − ∏ ̂ 2. Deze van de gegevens. Het berekenen berust op een sampling distributie van ∏ omschrijft welke waardes 𝜋̂1 - 𝜋̂2 je kan verwachten als je een experiment meerdere keren herhaalt. Merk op dat ∏1 en ∏2 de sampling distributies zijn van respectievelijk 𝑋̅1 𝑒𝑛 𝑋̅2 van de binaire variabele ziekteverzuim. De CLT zegt ons dat in grote steekproeven de gegevens normaal verdeeld zullen zijn en dat er dus geen probleem is om chi² te gebruiken. Echter bij kleine steekproeven zitten we met een probleem. Bij het vergelijken van gemiddelden (t-test) gingen we dan kijken of de gegevens symmetrisch verdeeld zijn. Dit is hier niet mogelijk omdat we zitten met binaire gegevens. Bij kleine steekproeven gaan we chi² nooit mogen toepassen. Statistiek geeft ons voor dit probleem ook terug een oplossing. Er is een andere techniek die je kan toepassen in het geval dat je steekproef te klein zou zijn. Fisher exact test. Zoals de naam al laat blijken is dit een exacte test en gaat geen benadering maken zoals de CLT doet. Beide steekproeven moeten voldoende groot zijn!! Als er 1 niet groot genoeg is moet je ook fisher toepassen. In het voorbeeld hier zitten we met een zeer kleine steekproef. De CLT stelt dat we chi² niet kunnen toepassen We moeten Fisher toepassen 52 B.P. na het berekenen van de p-waarde bekomen we het volgende resultaat. Hier hebben we nu zowel chi² als Fisher laten berekenen om een voorbeeld te geven van hoe belangrijk het is dat je de juiste test kiest. Chi² : p-waarde: p=0,288 Fisher: p-waarde: p=0,396 Beide waarden zijn in dit geval niet significant maar je ziet wel dat er een duidelijk verschil is tussen de twee. In bepaalde situaties gaat dit dus wel een verschil kunnen geven tussen significant of niet. De p-waarde van fisher is de correcte waarden dus als je kan kiezen zou je altijd deze nemen. Echter kan niet elk software pakket de berekening van Fisher aan op grote steekproeven. daarom wordt er algemeen gesteld dat: Grote steekproef: chi² test Kleine steekproef: Fisher exact test Rijen VS kolommen Bij het vergelijken van 2 proporties kunnen we de gegevens weergeven in een 2X2 tabel. In de rijen krijgen we de 2 groepen te zien De kolommen geven de antwoorden weer. A= aantal vrouwen zonder ziekteverzuim B= aantal vrouwen met ziekteverzuim C= aantal mannen zonder ziekteverzuim D= aantal mannen met ziekteverzuim De hypothese die we hadden gesteld was om te vergelijken wat de prevalentie is van ziekteverzuim tussen mannen en vrouwen. Wat wij dan gedaan hebben is het % vrouwen met ziekteverzuim vergeleken met het % mannen met ziekteverzuim (de rijen met elkaar vergeleken). 𝐵 𝐷 = 𝐴+𝐵 𝐷+𝐶 Als we bij een 2X2 tabel de kolommen gaan vergelijken komen we echter op een zelfde conclusie. 𝐶 𝐷 = 𝐶+𝐴 𝐷+𝐵 Wat je hier dan gaat analyseren is het % mannen met ziekteverzuim met het % mannen zonder ziekteverzuim. Mathematisch maakt het niet uit wat we gebruiken, rijen of kolommen. 53 B.P. rijen en kolommen kunnen dus omgewisseld worden. Het belang hiervan kan interessant zijn bij het analyseren van een case-control studie. Case-control studie In dit onderzoek hebben we een aantal cases (patiënten met BMHK) en een aantal controls (mensen zonder BMHK). Aan elke vrouw werd gevraagd wat de leeftijd was van de eerste zwangerschap. De vraag waar wij in geïnteresseerd zijn is of er een relatie is tussen kanker en de leeftijd van de eerste zwangerschap. Ideaal zouden we nu ook de proportie vrouwen met BMHK met zwangerschap voor 25 willen vergelijken met de proportie vrouwen met BMHK met zwangerschap na 25 Hier zitten we echter met een probleem!! We hebben namelijk zelf gekozen wat het aantal cases en het aantal controls is. Dit kan nooit een goede representatie zijn van de populatie (de steekproef is niet meer random!). Als we hier percentages gaan berekenen zou dat eigenlijk een percentage zijn dat we zelf hebben samengesteld. We hebben juist wel gezien dat we rijen en kolommen kunnen omdraaien. Wat we dus wel kunnen bepalen is het % vrouwen met BMHK met een eerste zwangerschap voor de leeftijd van 25 en het % vrouwen zonder BMHK met 1 e zwangerschap voor de leeftijd van 25. Dit zal geen antwoord formuleren op de vraag die wij ons stellen Maar!! Zoals we eerder hebben gezien kunnen we rijen en kolommen omwisselen voor een zelfde resultaat. Als we kunnen aantonen dat deze proporties niet gelijk zijn dan kunnen we ook afleiden dat de omgekeerde proporties niet gelijk zijn. Dus als we kunnen aantonen dat het % vrouwen met BMHK met een eerste zwangerschap voor de leeftijd van 25 gelijk (of niet gelijk) is aan het % vrouwen zonder BMHK met een eerste zwangerschap voor de leeftijd van 25. Dan kunnen we ook aannemen dat het omgekeerde ook juist is. Dus dat het % vrouwen met BMHK gelijk is bij de vrouwen met een eerste zwangerschap voor en na 25 jaar. 54 B.P. Voor te testen: ga je rijen en kolommen mogen omwisselen Voor te beschrijven: hier ga je moeten oppassen welke percentages je gaat rapporteren want niet alle percentages zijn zinvol of kan je zomaar rapporteren. Hang af van het design van je studie Hoofdstuk 16: de vergelijking van 2 gemiddelden: gepaarde data Voorbeeld: captopril In dit onderzoek werden 15 patiënten behandeld tegen hoge bloeddruk (BD). We gaan de diastolische BD meten bij deze patiënten voor en na de behandeling met captopril. We gaan dus 1 groep volgen over tijd en 2 metingen doen per patiënt (voor en na de behandeling). Net zoals bij de ongepaarde t-test gaan we 2 populaties met elkaar gaan vergelijken. Bij gepaarde gegevens gaan de 2 populaties beschreven worden op 1 steekproef. Populatie 1: patiënten zonder behandeling (voor) Populatie 2: patiënten met behandeling (na) Voor onze vraagstelling zijn we geïnteresseerd in het verschil in gemiddelde BD: µ1-µ2. Het grote verschil met ongepaarde data is dat hier elke observatie van de eerste steekproef gekoppeld is aan een observatie in de tweede groep (1 persoon word 2 keer gemeten). De gegevens zijn dus gepaard 55 B.P. Aan de numerieke waarden kan je niet afleiden of de gegevens gepaard of ongepaard zijn. Je moet weten hoe de gegevens verzameld zijn. Het zou hier bijvoorbeeld ook even goed kunnen dat we begonnen zijn met 30 proefpersonen en die dan opgesplitst hebben in 2 groepen (2 keer 15 personen). Waarvan 15 personen een behandeling kregen en de andere 15 geen behandeling kregen. Dit is wel belangrijk om te weten voor de berekeningen! Omdat we met gepaarde gegevens zitten kunnen we netto het effect berekenen van de behandeling op patiënt niveau. We kunnen dus een variabele bepalen die het verschil weergeeft (dit kan omdat de gegevens toch gekoppeld zijn). 𝑋 = 𝐵𝐷𝑣𝑜𝑜𝑟 − 𝐵𝐷𝑛𝑎 De geobserveerde waarden x1 voor X kunnen we berekenen uit de BD waardes geobserveerd uit de steekproef. Deze gegevens kunnen we dan ook terug visualiseren aan de hand van een histogram. Net zoals voorheen kunnen we zien dat de gegevens iets of wat symmetrisch zijn. Ook al zitten we met een kleine steekproef, we kunnen CLT later toepassen. µ is het populatie gemiddelden voor de variabele X. de waarden µ kunnen we niet meten maar wel schatten. Deze schatting kunnen bij gepaarde gegevens gemaakt worden op het verschil tussen de patiënt obseervaties voor en na behandeling in plaats van de originele BD waardes te gebruiken. Betrouwbaarheidsinterval In hoofdstuk 12 hebben we dit al behandeld voor deze gegevens. We bekomen een 99%C.I. = [3,02;15,52] Gepaarde t-test De hypothese die we dillen testen is: H0: µ1 = µ2 VS HA: µ1 ≠ µ2 Dit hebben we reeds berekend in hoofdstuk 13. We kwamen hier op een p-waarde van 0,001. Wat een significant resultaat oplevert op het 1% significantieniveau. Er is een significant verschil waargenomen tussen de BD voor en de BD na behandeling. 56 B.P. Hier hebben we een p-waarde berekend met een gepaarde t-test omdat de observaties gelinkt zijn aan elkaar. Wat als we deze observaties nu berekend hadden met een ongepaarde t-test? (wat je dus niet doet!!!) Gepaarde VS ongepaarde t-test De gegevens die we verzameld hebben zijn niet gelinkt aan elkaar. We hebben 2 groepen gemaakt waarvan 1 een behandeling krijgt en de andere niet. De gegevens die we verzameld hebben zijn wel gelinkt. We hebben 1 groep 2 keer gemeten. 1 keer voor de behandeling. Dan hebben we alle personen een behandeling gegeven en daarna hebben we iedereen nog eens gemeten. als we nu de resultaten zouden gaan vergelijken wanneer we op gepaarde gegevens (captoprildata) zowel een gepaarde als een ongepaarde t-test zouden doen. gepaarde t-test: p-waarde= 0,0009 ongepaarde t-test: p-waarde= 0,0369 beide gegevens hebben in dit geval een significant resultaat geproduceerd maar je ziet wel dat er een heel groot verschil tussen de twee zit. Het kiezen van de verkeerde test kan dus in sommige gevallen wel een verkeerd resultaat opleveren. 15 x 2 metingen ≠ 30 x 1 meting (ongepaard) (gepaard) Voorbeeld Het is nu wel duidelijk dat het belangrijk is om te weten of de gegevens gepaard of ongepaard zijn. In de praktijk kan je dit enkel achterhalen door de opstelling van het onderzoek te weten en hoe de gegevens verzameld zijn. Vb.: Als we geïnteresseerd zijn in het testen van een verschil in BMI tussen mannen en vrouwen. We hebben 100 mannen en 100 vrouwen gemeten, gewogen en de BMI berekend. Voor deze gegevens zou je een ongepaarde t-test toepassen. (2 groepen die niets met elkaar te maken hebben) Nu, stel dat deze 100 mannen en 100 vrouwen genomen zijn uit 100 getrouwde koppels. Dit veranderd heel de kijk op het soort gegevens dat we hebben want elk koppel is uniek gelinkt. 57 B.P. Je kan je hier wel afvragen in welke maten dit belangrijk is. o Wel, als ze samen wonen en leven, dan hebben ze allerlei gemeenschappelijke eigenschappen (levensstijl, eetgedrag,…). En dit kan wel belangrijk zijn bij het bestuderen van de BMI. Je mag dus niet negeren als er een link is tussen de gegevens!!! Dit moet in rekening gebracht worden bij de statistiek. Assumpties De berekening van C.I. en p-waarde is afhankelijk van de normaliteit van de verdeling 𝑋̅ . - Grote steekproef geen probleem (CLT) we mogende test doen Kleine steekproef probleem (CLT) hier moeten we eerst terug gaan controleren of onze gegevens symmetrisch verdeeld zijn. Omdat we hier geïnteresseerd zijn in het verschil in BD voor en na de behandeling, gaan we niet kijken naar de verdeling van de originele waardes. We gaan naar de gegevens kijken uit de verdeling 𝑋 = 𝐵𝐷𝑣𝑜𝑜𝑟 − 𝐵𝐷𝑛𝑎. Scheefheid in de originele data maakt niet uit, zolang de gegevens van de verdeling X maar symmetrisch zijn (dat is ook de verdeling waar we een uitspraak over willen maken. De n van onze steekproef is niet het totaal aantal metingen maar het aantal gekoppelde gegevens (n=15) In het geval dat we in X een scheefheid waarnemen, is het niet zinvol om de gegevens van xi te gaan transformeren. Wat we dan wel kunnen doen is het transformeren van de originele data op zo een manier dat de gegevens van X symmetrisch verdeeld zullen zijn. Voor de gegevens xi kunnen we geen log berekenen omdat dit een verschil is tussen 2 waardes. Deze waarden kunnen positief of negatief zijn. Een log van negatieve gegevens gaat niet). Om hier te zeggen om een log +… dan krijg je geen overzichtelijk resultaat meer. Je weet niet meer juist wat je dan meet. 58 B.P. Hoofdstuk 17: vergelijken van 2 proporties: gepaarde data Voorbeeld: kinderen met verkoudheid In dit onderzoek zijn 1319 kinderen onderzocht geweest. Er werd gekeken naar de prevalentie van een zware verkoudheid op de leeftijd van 12 en 14 jaar. Dus de 1319 kinderen werden op 12 jaar onderzocht en dan 2 jaar later werden de zelfde kinderen nog eens onderzocht. Er werd aan hun gevraagd of ze in de laatste 12 maanden een ernstige verkoudheid gehad hadden. Dit leverde de volgende data op. Wat we nu juist willen weten is of het voorkomen van een zware verkoudheid even frequent is op de 2 leeftijden? In andere woorden willen we weten of een zware verkoudheid al dan niet meer (of minder) voorkomt op 14 jarige leeftijd. Uit deze date kunnen we al enkele percentages berekenen. Het voorkomen van verkoudheid op 12 jaar: Het voorkomen van verkoudheid op 14 jaar: 356 1319 468 1319 = 27% = 35% Deze percentages suggereren dat op 14 jarige leeftijd er meer verkoudheden voorkomen dan op 12 jaar. Er is dus een verschil in proportie. Ook hier zou het interessant zijn om te achterhalen wat de kans is da we dit observeren door puur toeval. Als het onwaarschijnlijk lijkt dat het toeval is dan geeft dit evidentie dat er een verschil is in het voorkomen en de leeftijd. De 1319 kinderen zijn op 2 leeftijden gemeten. De data die we hier hebben verzameld is dus gepaard. Het berekenen van deze kans doen we met behulp van de Mc Nemar test. Mc Nemar test We gaan een uitspraak proberen te maken over de totale populatie. We gaan dus willen te weten komen of 𝜋1 al dan niet gelijk is aan 𝜋2. 𝜋1 en 𝜋2 representeren respectievelijk de percentages van kinderen met een zware verkoudheid op de leeftijd van 12 en 14 jaar. De hypotheses die we gaan stellen zijn de volgende: H0: 𝜋1 = 𝜋2 VS HA: 𝜋1 ≠ 𝜋2 H0 : het percentage 12 jarige kinderen met een zware verkoudheid verschilt niet met het percentage 14 jarige kinderen met een zware verkoudheid. De percentages (proporties) zijn gelijk HA : er is wel een verschil tussen de leeftijden. 59 B.P. Een belangrijk in zicht hier is dat een verandering over leeftijd in het percentage kinderen met een zware verkoudheid enkel kan voorkomen als er kinderen veranderen van status. Dus als ze gaan van: Van zware verkoudheid op 12 jaar naar geen zware verkoudheid op 14 jaar. Van geen zware verkoudheid op 12 jaar naar zware verkoudheid op 14 jaar. A B C D A= zowel op 12 als op14 jaar zware verkoudheid D= zowel op 12 als op 14 jaar geen zware verkoudheid. Als deze twee groepen met elkaar vergelijken zou nutteloos zijn B= op 12 jaar verkoudheid en op 14 jaar geen verkoudheid C= op 12 geen verkoudheid en op 14 jaar wel een zware verkoudheid. Hier gaan we eventueel veranderingen in kunnen waarnemen We gaan dus controleren of er meer kinderen veranderen van ja naar nee of van nee naar ja. Als er voldoende kinderen in 1 richting veranderen, hebben we evidentie dat er een verschil is in het voorkomen van een zware verkoudheid tussen de leeftijd 12 en 14. We gaan dus kijken of er al dan niet meer kinderen veranderen van de ene naar de andere groep (om H0 te kunnen verwerpen). Als er evenveel kinderen van ja naar nee zouden gaan als dat er kinderen ven nee naar ja zouden gaan dan gaan we er van uit dat H0 correct is. We gaan H0 verwerpen wanneer [256 – 144] (=C-B) te groot is. Vanaf wanneer kunnen we stellen dat het geobserveerde verschil te groot is? Als het geobserveerde verschil [256 – 144] heel onwaarschijnlijk lijkt te gebeuren door puur toeval. Daarvoor gaan we de kans berekenen (p-waarde) om in een gelijkaardig experiment een verschil waar te nemen van minstens [256 – 144] = 112. Zelfs al zou er geen verschil zijn in de totale populatie. In ons voorbeeld bekomen we een p-waarde van 0,0001 Wanneer we de gegevens berekend hebben door een programma krijgen we 2 p-waarden? - Een p-waarde voor A/D Een p-waarde voor C/D We zijn enkel geïnteresseerd in de p-waarde van C/D. Enkel deze kan een verschil aantonen, dit hebben we ook bestudeerd. Deze p-waard gaan we terug toetsen aan een significantieniveau α (0,05). We zien duidelijk dat de p-waarde kleiner is dan 0,05 H0 verwerpen 60 B.P. We kunnen dus concluderen dat de kans op het krijgen van een zware verkoudheid op de leeftijd van 12 jaar niet het zelfde is als de kans op het krijgen van een verkoudheid op 14 jaar. Er is een significant verschil tussen het voorkomen van een zware verkoudheid tussen de leeftijden 12 en 14 jaar. Assumpties Ook hier gaan we de CLT willen toepassen. Bij grote steekproeven is er dan weer geen probleem. Bij kleine steekproeven is er wel een probleem. Er is namelijk geen alternatieve test die we kunnen toepassen zoals bij de chi² (Fisher). Hier moet je er maar voor zorgen dat je steekproef groot genoeg is. Opmerkingen We hebben het al eerder aangehaald. Het enige waar we in geïnteresseerd zijn is of er meer veranderingen zijn in 1 richting dan in de andere. Dus meer van nee ja of van ja nee In onze 2X2 tabel zijn dit gegevens uit B en C. naar A en B gaan we niet kijken en hebben ook geen invloed op de resultaten. Als deze waardes ineens veel groter zouden worden, dan gaan we nog altijd een zelfde p-waarde bekomen (zie figuur). Dit brengt dus een nieuwe kijk op het begrip ‘grote van de steekproef’. De steekproef is eigenlijk enkel die waardes die een invloed kunnen uitoefenen op het resultaat (personen in B en C). Mc Nemar VS Chi² Bij de t-test hadden we maar 1 keuze van test om te doen. Gepaarde data = gepaarde t-test Ongepaarde data = ongepaarde t-test Bij chi² (Fisher exact) en Mc nemar is het niet zo rechtlijnig. We kunnen bij gepaarde data al deze 3 testen toepassen. Het is wel zo dat wanneer we chi² of fisher exact doen, we een andere hypothese gaan testen dan wanneer we Mc Nemar gebruiken. Om dit te verduidelijken nemen we het volgende voorbeeld: Stemgedrag voor en na een tv debat. Het is duidelijk dat de data gepaard is want we gaan het stemgedrag van de zelfde groep analyseren voor en na het debat. Toch kunnen we hier zowel een chi² als een Mc nemar test op toepassen. 61 B.P. Chi²: testen wat de relatie is tussen het stemgedrag voor en het stemgedrag na het debat. Mcnemar: testen of de proportie reagan stemmers al dan niet veranderd voor en na het debat. Mc Nemar Is de proportie stemmers voor en na het debat het zelfde als na het debat? A B C D B= van reagan naar carter C= van carter naar reagan Het geobserveerde verschil in proportie is de volgende: 34 75 = 45,3% 𝑒𝑛 40 75 = 53,3% Deze gegevens suggereren dat er een verschil is in proportie stemmers voor reagan tussen: voor en na het debat. We gaan ook terug testen wat de kans is dat dit voorkomt door puur toeval en bekomen een p-waarde van 0,2635. Het geobserveerde verschil zou in 26% van de gevallen kunnen voorkomen door puur toeval. Als we dit staven aan het significantieniveau α (0,05) kunnen we stellen om H0 te aanvaarden. Het debat heeft geen significante verandering gebracht in het stemgedrag. Chi² Is de proportie Reagan stemmers het zelfde voor als na het debat? We gaan dus willen aantonen of er al dan niet een verschil is in stemgedrag voor en na het debat. Om dat te gaan controleren gaan we de proportie reagan stemmers na het debat vergelijken in 2 aparte groepen - Groep 1: mensen die voor het debat ook al op Reagan stemden Groep 2: mensen die voor het debat nog op Carter stemden. We observeren de volgende proporties: 27 34 = 79,4% 𝑒𝑛 13 41 = 31,7% We observeren 2 verschillende, onafhankelijke groepen met elkaar. We zitten dus wel degelijk met ongepaarde data Het geobserveerde verschil kan door toeval bekomen zijn dus we gaan de kans berekenen. We bekomen een p-waarde van 0,00004. Wat we gezien hebben is dus zeer onwaarschijnlijk te gebeuren door puur toeval, als er geen relatie zou zijn tussen het stemgedrag voor en na het debat. Er is een significante relatie tussen het stemgedrag voor en na het debat. 62 B.P. Algemeen besluit Mc Nemar: gaan we proberen aan te tonen dat het % Reagan stemmers veranderd na het debat. Kijken of het debat er voor zal zorgen dat er een verschil gaat zijn in uitkomst. Chi²: we willen gaan aantonen of er al dan niet een verschil zal zijn in stemgedrag voor en na het debat. Gaan mensen anders stemmen? Er is geen relatie tussen significantie van de chi² en de significantie van Mc Nemar. Het is dus niet zo dat wanneer chi² significant resultaat geeft, dat Mc nemar ook een significant resultaat geeft (je meet ook iets totaal anders). Chi²: vergelijken van 2 kolommen (of 2 rijen) Mc nemar: vergelijken van 1e kolom met 1e rij Deel 6: verdere onderwerpen over statistische conclusie Hoofdstuk 18: fouten in statistiek: basis concepten Introductie We nemen het voorbeeld van de ratten waarvan 1 groep een dieet had laag in proteïnen en de andere groep een dieet had hoog in proteïnen. We waren hier geïnteresseerd of er een verschil is tussen de 2 groepen in gewichtstoename. 63 B.P. We hebben een gemiddeld gewichtsverschil geobserveerd van 19 gram tussen de twee groepen. Na het uitvoeren van een ongepaarde t-test bekwamen we een p-waarde = 0,0757. Wat wilt zeggen dat wij gaan besluiten dat er geen significant verschil is tussen de twee groepen (op het 5% significantieniveau). We hebben altijd al gezegd dat het niet wilt zeggen dat wanneer wij een niet significant resultaat bekomen, dat er dan ook helemaal geen effect is. Het kan namelijk zijn dat het effect zo klein is dat we het niet gezien hebben. Misschien klopt de H0 toch niet en is er wel een verschil tussen de twee groepen maar is zo danig klein dat we het niet gezien hebben. Het enige wat wij besloten hebben met ons experiment is dat, als er in de populatie geen verschil zou zijn in gewicht, dan is het perfect mogelijk dat je zo iets observeert als wij gezien hebben in ons experiment. Het omgekeerde kan ook. Stel dat we een effect hebben waargenomen, p-waarde 0,001. Dan zouden we stellen dat er wel een significant verschil is tussen de twee groepen. Dit resultaat, hoe klein de p-waarde ook mag zijn, geeft nog steeds geen absolute zekerheid dat wat we gezien hebben ook effectief zo zal zijn in de populatie. Een p-waarde geeft enkel weer dat wanneer er geen effect zou zijn in de populatie, wat de kans dan zou zijn dat we dit observeren door puur toeval. Dus bij een p-waarden van 0,001 is er maar 1 kans op 1000 dat wat we geobserveerd hebben door puur toeval kan gebeuren, als de 2 groepen gelijk zijn. Er is dus wel nog steeds die 1 kans op duizend dat juist ons experiment die observaties geeft. Dus dat door toevalligheid van ons experiment een heel extreem resultaat hebben gemeten waardoor we de indruk krijgen dat er een effect is terwijl er helemaal geen effect is. We kunnen dus in 2 richtingen fouten maken. Ofwel zeggen we dat het significant is, en zeggen we dat er een effect is terwijl er in realiteit er geen effect is. Ofwel zeggen we dat het niet significant is, en we besluiten dat er geen effect is terwijl er in de realiteit wel een effect is. We kunnen fouten niet uitsluiten. De uitspraken die we maken zijn nooit met 100% zekerheid, dat is ook niet mogelijk. In dit hoofdstuk gaan we zien hoe vaak we zo een fouten maken. 2 types van fouten We hebben het al aangehaald, er zijn 2 soorten fouten die we kunnen maken op onze hypothese. 64 B.P. type 1 fout = we verwerpen H0 in ons experiment terwijl in realiteit H0 correct is. Type 2 fout = we aanvaarden in ons experiment H0 terwijl in realiteit H0 fout is. Type 1 fout Het onterecht verwerpen van H0. Wat is nu de kans dat we een type 1 fout maken? In andere woorden stelt dit hoe vaak zal het gebeuren dat we onterecht gaan zeggen dat H0 fout is. De beslissing of we H0 verwerpen of aanvaarden wordt genomen door het toetsen van de p-waarde aan het significantie niveau α. Dus als H0 correct, dan zullen we toch een significant resultaat zien in 5% (α = 0,05) van de gevallen. Dus in 5% van de gevallen zullen we H0 onterecht verwerpen. Het maken van type 1 fouten is dus gelijk aan de α die we gebruiken. Type 2 fout Het onterecht aanvaarden van H0 Hoe vaak het voorkomt dat we een type 2 fout maken is iets moeilijker te bepalen dat bij een type 1 fout. Er zijn namelijk verschillende aspecten die hier een invloed op uitoefenen. We noteren een type 2 fout als β. de power van een statistische test is 1-β, dit is de kans op het correct verwerpen van H0. We willen er dus voorzorgen dat β zo klein mogelijk is en 1-β zo groot mogelijk is. Power Waarvan hangt de power van een test af? Om een uitspraak over een experiment te maken, gaan we proberen er voor te zorgen dat: - De kans op het maken van een type 1 fout zo klein mogelijk is Dit kunnen we zelf bepalen door de α te verkleinen. - De power van ons experiment, om afwijkingen van H0 te detecteren, voldoende groot is. Om dit te doen is het iets gecompliceerder. We gaan dit illustreren in de context van het vergelijken van 2 groepen. 65 B.P. Laat ons veronderstellen dat µ1 en µ2 het gewicht illustreert van 2 populaties ratten, waar we het verschil van willen in kaart brengen. De hypothese die we stellen is : H0: µ1 = µ2 VS HA: µ1 ≠ µ2 De power is de kans op correct de H0 te verwerpen We kunnen het verschil tussen µ1 en µ2 noteren als ∆. (µ1-µ2 = ∆) Onze ongepaarde t-test verondersteld dat de gegevens normaal verdeeld zijn in beide populaties en dat varianties gelijk zijn. De power is afhankelijk van enkele parameters. 1) α hoe kleiner α, hoe lager de power zal zijn. Bij het verkleinen van α, gaan we strenger zijn we zullen H0 minder vaak gaan verwerpen. Dat wil dus ook zeggen dat we H0 vaker zullen aanvaarden. Dus ook vaker wanneer we ze eigenlijk niet mogen aanvaarden. 2) ∆ Hoe kleiner ∆, hoe kleiner de power. Hoe kleiner het effectieve verschil in de populaties, hoe moeilijker het zal worden om dat verschil te gaan meten. 3) σ² hoe kleiner σ², hoe groter de power. Als de σ² kleiner is, dan ga je gemakkelijker onderscheid kunnen maken tussen de twee groepen. 66 B.P. 4) steekproef grootte hoe groter de steekproef, hoe sterker de power als je een grotere steekproef neemt, heb je automatisch meer observaties. Dus ook meer informatie waardoor je met meer precisie een conclusie gaat kunnen maken. Samenvatting Power is afhankelijk van: - Significantie niveau : α Het echte effect in de populatie : ∆ De variantie in de populatie : σ² De steekproef grootte: n Het enige wat we van deze lijst kunnen aanpassen is de steekproef grootte. We kunnen ook bepalen hoe groot je steekproef zal moeten zijn voor voldoende power aan je experiment te geven.= sample size calculations. Sample size calculations We hebben juist besproken dat wanneer we de power willen opkrikken, we dit enkel kunnen doen door de steekproef te vergroten. We willen zeker zijn dat we voldoende power hebben! Hoe groot de steekproef gaat moeten zijn kunnen we berekenen op voorhand. In het vorige deel hebben we besproken dat de power afhankelijk is van 4 verschillende parameters. als we willen weten wat de steekproef grootte gaat moeten zijn voor een bepaalde power te halen , moeten we de 3 andere parameters ook kennen. 1) α deze kunnen we zelf kiezen. Als we ze groter maken gaat de power ook omhoog maar dan stijgt wel de kans op het maken van een type 1 fout. Algemeen behouden we de α = 0,05 2) σ² dit is een waarde die we niet kunnen weten want is eigen aan de populatie die we willen onderzoeken. We kunnen deze ook nog niet schatten aan de hand van een steekproef omdat we die nog niet genomen hebben. We hebben 2 mogelijkheden: - we gaan in de literatuur kijken wat de σ² is in gelijkaardige experimenten in relevante literatuur! We doen een pilot studie Het is ook beter om een overschatting te maken dan een onderschatting. 3) ∆ Ook dit is een waarde die we niet kennen, het is ook een waarde die we observeren in de populatie. wat we hier kunnen doen is het bepalen wat de kleinste, klinisch relevante ∆ is. Als we dan in onze steekproef een waarde uitkomen die kleiner is dan de gekozen ∆ maakt dat niet uit want dat is toch niet meer klinisch relevant. Elk verschil dat we zullen waarnemen in ons experiment dat groter is zal ons meer power opleveren. 67 B.P. De klinisch relevantie hangt af van wat we onderzoeken. Als we dit allemaal bepaald hebben, dan kunnen we de steekproef grootte bepalen. Voorbeeld: ratten We hebben hier een verschil waargenomen van 19g met een p-waarde =0,0757 niet significant. Nu we kunnen ook nadat het experiment is gedaan de power berekenen. Post- hoc power berekening Waarom we dit nog zouden doen is omdat we ons ook kunnen afvragen waarom is een verschil van 19g hier niet significant? Misschien was de power niet groot genoeg en hebben we te maken met een type 2 fout. We gaan dus de nodige parameters uit de steekproef halen α= 0,05 σ= 21 ∆= 19 # observaties 12 en 7 De power die we detecteren voor een ∆ = 19 43,45% Dus voor deze grootte van steekproef , is enkel 43,45% kans dat we een ∆ zouden meten van 19 gram. Dit is niet veel, we willen proberen om een power te halen van 95%. Dus als we er over eens zijn dat een ∆ van 19 een klinisch relevant verschil is, dan kunnen we besluiten dat onze steekproef te klein was. Want een power van 43% wilt ook zeggen dat je in 57% van de gevallen zo een verschil niet gaat detecteren. Nu kunnen we ook berekenen wat de power zal zijn bij andere ∆’s. Dan zien we dat bij een ∆ van 40 gram we een power zouden hebben van 96% Dit zou willen zeggen dat voor deze opstelling van experiment we een verschil zouden moeten observeren van minstens 40g om voldoende power te hebben in ons resultaat. Er zou hier dan maar 4% kans zijn dat we het niet zouden meten. De kans op type 2 fout is dus zeer klein (4%). Bij een ∆ van 0g komen we op een power van 5% uit. Dit moet altijd zo zijn omdat we berekenen hier wat de kans gaat zijn dat we H0 gaan verwerpen als H0 correct is. We bespreken dus eigenlijk wat de kans is op het maken van een type 1 fout (α = 0,05) 68 B.P. Nu, dit waren post-hoc onderzoeken maar in de praktijk gaan we op voorhand bepalen hoe groot onze steekproef gaat moeten zijn om een bepaalde power te halen. Stel dat we dit deden voor dit onderzoek en we hebben de volgende parameters bepaald: α= 0,05 σ= 21 ∆= 19 Power 95% We geven dit allemaal in het programma en we krijgen dan een grafiek waarop we kunnen afleiden hoe groot de steekproef zou moeten zijn voor een bepaalde power. We zien hier dat voor een power van 95% zouden we een steekproef grootte moeten hebben van 30. Dit zijn dus 30 ratten in elke groep (60 ratten in totaal). Voorbeeld: ziekteverzuim We nemen terug het onderzoek van ziekteverzuim, de data werd verzameld op 585 werknemers. Er werd een verschil geobserveerd van 5,7% met een p-waarde = 0,215. Het verschil is dus niet significant. Niet significant wilt niet automatisch zeggen dat de studie te klein is of dat de power te klein was. We kunnen we gaan kijken of de power al dan niet te klein was. Als het ∆ effectief 5% zou zijn bekomen we een power van 19% voor dit experiment. We kunnen dus concluderen dat de power te klein is. Als we ervanuit gaan dan de ∆ 5% klinisch relevant is, dan kunnen we wel berekenen hoe groot de steekproef zou moeten zijn geweest om voldoende power te hebben. voor ene power van 95% zouden we 2 groepen moeten hebben van elk 2500 personen (5000 in totaal). Dit is gigantisch veel en zeker als we dat dan gaan vergelijken met het vorig voorbeeld. Daar hadden we meer een n nodig van 30 (60 in totaal). 69 B.P. Dit verschil is te verklaren omdat we hier proporties aan het vergelijken zijn en in het vorig voorbeeld hadden we continue data. Continue data is veel nauwkeuriger dan percentages (want dit zijn dichotome data). Opmerking Deze berekeningen kunnen we bij alle testen doen, gepaard of ongepaard en alle onderzoeken die we nog gaan zien. Hoofdstuk 19: fouten in de statistiek: praktische implicaties Multiple testing Bij het uitvoeren van een experiment bestaat er altijd dat kans (α) op het maken van een type 1 fout. Dus bij een α= 0,05 gaan we in 5% van de gevallen H0 onterecht verwerpen. Dit impliceert dat wanneer je in je steekproef meerdere testen gaat doen, je in 5% van de gevallen een significant verschil zal observeren door puur toeval. Multiple testing slaat dus op het feit dat als je maar genoeg blijft testen zal je uiteindelijk wel iets vinden met een significant resultaat. Dit resultaat is dan waarschijnlijk een type 1 fout. Hoe meer je test, hoe hoger de kans dat iets gedetecteerd word door puur toeval Vb.1: een klasslokaal experiment Als je in de aula een onderverdeling gaat maken tussen links en rechts, er vanuit gaande dat iedereen random is gaan zitten bij het binnen komen. In beide groepen zullen we een aantal zaken gaan testen en vergelijken tussen de twee. - Gewicht Lengte Links of rechtshandig Geslacht Favoriete leesboek … Bij minstens 5 van deze uitkomsten zal je een significant resultaat bekomen op het 5% significantie niveau enkel en alleen door puur toeval. Als je dit gaat rapporteren, ben je fout bezig want je weet dat je waarschijnlijk met een type 1 fout zit. 70 B.P. Vb.2: testen van vele relaties Als je het aantal p-waardes gaat tellen, zie je dat ze 18 testen hebben gedaan op hun steekproef. Enkel 2 resultaten waren significant. Hier is het duidelijk dat het om multiple testing gaat. Vb.3: subgroep analyses We hebben hier een onderzoek waar we een nieuwe behandeling willen vergelijken met de huidige behandeling. Bij het vergelijken van de twee groepen vonden we geen significant resultaat. We hadden uiteraard gehoopt op een significant resultaat. We gaan nu proberen enkele subgroepen te maken en die dan met elkaar te vergelijken. - Enkel mannen Enkel vrouwen Enkel oudere mannen Enkel piraten met houten been en ooglapje … We blijven subgroepen maken tot we een significant resultaat vinden. Uiteindelijk werden er 63 testten uitgevoerd en enkel 5 significante resultaten werden gevonden. Dit is duidelijk multiple testing. De 5 significante resultaten zijn hoogst waarschijnlijk type 1 fouten. Het is nu niet altijd zo dat, wanneer je meerder zaken test dat je multiple testing gaat hebben. Stel dat we hier nu 59 significante resultaten hadden gevonden. Het kan niet zijn dat dit allemaal type1 fouten zijn. Er zullen er wel tussen zitten want we zitten nog steeds met een α 0,05. Het probleem is hier echter wel dat we niet weten welke resultaten een type 1 fout zijn en welke niet. 71 B.P. Multiple testing wordt pas echt een probleem als we veel zaken gaan testen en er maar een paar significant zijn. En dat we ons dan zouden focussen op die enkele resultaten. Want dit zijn waarschijnlijk type 1 fouten. Vb.3: zoeken naar het meest significante resultaat We hebben hier een krantenartikel waarin gesteld word dat het wetenschappelijk is bewezen dat mensen die vroeger dan 7.21 am opstaan een statistisch hoger stress level hebben gedurende de dag dan mensen die later dan 7.21 am opstaan. Het probleem hier is dat het zeer onwaarschijnlijk lijkt dat ze bij het opstellen van dit experiment gezegd hebben dat ze opzoek gaan naar mensen die al dan niet meer stress hebben als ze vroeger opstaan dan 7.21 am. Dit uur is gewoon te specifiek! Wat ze hier waarschijnlijk gedaan hebben is een steekproef genomen en van iedereen het stressniveau gemeten en dan bevraagd hebben hoe laat ze ‘s morgens opstaan. En dan zijn ze beginnen analyseren Is er een verschil als ze opstaan voor: Uur van opstaan (am) 6.01 6.02 6.03 6.04 … 7.09 7.20 7.21 Significant resultaat? Nee Nee Nee Nee Nee Nee Nee ja Ze zijn dus blijven zoeken tot er een bepaald uur was dat een significant resultaat opleverde. Dit is uiteraard fout. Het gaat hier over multiple testing en het zal hier waarschijnlijk gaan om een type 1 fout. Conclusie Significante resultaten bij multiple testing zijn vaak over geïnterpreteerd Als het totaal uitgevoerde testen is meegedeeld weet de lezer dat de resultaten aandachtig moeten geïnterpreteerd worden. het probleem is echter dat wanneer ze het aantal testen niet meedelen en enkel de significante resultaten. Dan weten we niet dat er multiple testing is gebeurt. - De resultaten bij multiple testing zijn niet reproduceerbaar. want het zijn type 1 fouten. - Bonferroni correctie Er is nu wel een mogelijkheid om te corrigeren voor multiple testing. Een van deze methodes die we daarvoor kunnen gebruiken is de bonferroni correctie. Veronderstel dat we 2 testen hebben uitgevoerd op het 5% significantieniveau. Als je 1 test doet heb je 5% kans om een type 1 fout te maken. 72 B.P. Als je 2 testen doen, wat is de kans dan op het maken van minstens één type 1 fout? (Dus dat je ofwel in de eerste test of in de tweede test of in beide testen) Mathematisch kan je bewijzen dat deze kans nooit groter zal zijn dan 2*0,05= 0,10 (10%) De kans kan iets kleiner zijn maar zeker niet groter. o o In het algemeen kan je het volgende stellen: Als ik ‘k’ testen uitvoer, allemaal op α 5%, dan zal de kans op het maken van minstens 1 type 1 fout nooit groter zijn dan K*0,05 Dus als je wilt zorgen dat je bij al uw testen onder het 5% niveau blijft, dan ga je α moeten verlagen zodat je in totaal onder de 5% blijft. Dus: als je 2 testen doet, ga je 10% kans hebben op een type 1 fout. 𝛼 Als je er nu voor wilt zorgen dat je onder de 5% blijft ga je o Voor de 2 testen samen blijf je onder de 5%. Voor de testen afzonderlijk ga je strenger worden. 2 = 0,05 o 2 = 0,025. Algemeen zal je α gaan delen door het aantal testen ‘k’ om onder het significantieniveau te blijven. α/k dit werkt het zelfde wanneer je C.I. gebruikt Strikt genomen is de bonferroni correctie een over correctie. Je gaat namelijk zeggen dat het maken van een fout zeker niet groter zal zijn dan α(0,05). Maar het kan ook iets kleiner zijn. Het probleem is ook dat je wel de ‘k’ moet weten om een bonferroni correctie te kunnen doen als lezer. Als auteurs dit niet vermelden kan je dit niet doen. Als je in een artikel wel kunt zien dat er multiple testing heeft plaats gevonden maar zonder bonferroni correctie toe te passen. Maar als je dan in de resultaten gaat kijken en je ziet dat ze enkel vermeld hebben dan er een p-waarde werd gevonden <0,002. Dan kan je nog steeds niet achterhalen of de gegevens nog significant zijn na bonferroni correctie. 73 B.P. Je moet ook redelijk zijn in het toepassen van de bonferroni correctie. (voorbeeld dat je de correctie zou moeten doorvoeren op alle testen in uw leven). Als je nu 2 of 3 uitkomstmaten hebt waarin je echt geïnteresseerd bent. Dus een paar resultaten die echt belangrijk zijn. En je wilt vermijden dat op die 2 (of 3,4,…) testen een type 1 fout gaat maken, dan ga je een bonferroni correctie toepassen. Denk er ook aan dat wanneer je α gaat verlagen dat de kans op het maken van een type 2 fout zal toenemen. Je wilt dus niet te ver gaan in het maken van de correctie. Testen van baseline verschillen We hebben gezien dat wanneer we causale verbanden willen aantonen met ons experiment. Dan moeten we randomiseren in 2 of meer groepen. Toch zou het nog kunnen dat door puur toeval er toch kleine verschillen gaan opduiken (een groep iets ouder dan de andere,…) we gaan dan dikwijls zien in de literatuur dat men die 2 groepen gaat vergelijken voor enkele baseline karakteristieken. Karakteristieken waarvan men weet dat ze toch wel belangrijk zijn voor het resultaat (voorbeeld de leeftijd). Kijken of de gemiddelde leeftijd in beide groepen gelijk zijn Dat het % mannen gelijk is aan het % vrouwen … Dat zijn baseline verschillen, gaan testen na gerandomiseerd te hebben. Vb.: we hebben een steekproef die we random gaan indelen in 2 groepen om zo 2 behandelingen te kunnen testen tegen hypertensie. - We zijn geïnteresseerd in veranderingen in veranderingen in diastolische BD We weten dat de leeftijd een belangrijke factor is die sterk gerelateerd is aan de BD. Het is dus belangrijk dat beide groepen de zelfde leeftijdsverdeling hebben. Om hiervoor een uitspraak te doen worden hypotheses gesteld H0: µ𝐴 = µ𝐵 VS HA: µ𝐴 ≠ µ𝐵 H0: de gemiddelde uit de 1e gerandomiseerde steekproef is gelijk aan de gemiddelde leeftijd uit de 2e gerandomiseerde steekproef. Als je deze stelling bekijkt zie je eigenlijk dat dit helemaal geen zin heeft om te berekenen. We zitten namelijk met een gerandomiseerde steeproef (uit de populatie van interesse) en hebben 2 random groepen gemaakt. 74 B.P. Met een hypothese test is onze bedoeling om een uitspraak te kunnen maken over de populatie, niet over de steekproef. En als we toch een random steekproef hebben dan weten we op voorhand dat de leeftijden gelijk gaan zijn aan elkaar. Het kan zijn dat er verschillen optreden maar dat is dan door puur toeval. Het is absoluut niet nuttig om na randomisatie de groepen te gaan vergelijken voor enkele baseline karakteristieken. Zelfs niet als je een significantie bekomt van 0,0001. Je weet dat dit toeval is Wat wel een alternatief zou zijn is dat je een C.I. berekend. Niet om de hypothese te testen maar gewoon om aan te geven dat er een verschil tussen de groepen kan zitten maar dat dit verschil zo klein is dat je op het einde niet kan verklaren waarom de groepen zouden verschillen op het einde. Stel bijvoorbeeld een 95% C.I. van de leeftijd [0,1;0,15]. Je zegt hier mee dat het niet significant is (want de 0 zit er niet in) maar je weet dat het toeval is omdat je met een steekproef zit. Maar dat verschil is zo klein dat je niet kunt gaan verklaren waarom er een verschil zou zijn op het einde van je onderzoek. Voorbeelden zie slides Equivalentie test Als je wilt aantonen dat 2 groepen niet van elkaar verschillen ga je een equivalentietest uitvoeren. Stel dat je 2 groepen met elkaar wilt vergelijken (A en B) en je gaat hiervoor een t-test doen. met de volgende hypotheses: H0: µ𝐴 = µ𝐵 VS HA: µ𝐴 ≠ µ𝐵 In het geval dat je een niet significant resultaat krijgt (p-waarde >α) ga je H0 aanvaarden. We zeggen dan dat er onvoldoende evidentie is om aan te tonen dat de twee groepen verschillend zijn. Wat je vaak ziet is dat ze hier gaan zeggen dat de 2 groepen gelijk zijn aan elkaar. Dit is echter niet correct. De klassieke t-test is gemaakt om verschillen te detecteren. Wat we met een klassieke t-test gaan doen is een H0 opstellenen en dan in onze data gaan kijken of er voldoende evidentie is tegen die H0. En we gaan die H0 pas verwerpen als er zoveel bewijs is tegen die H0. Dus als je gaat zeggen dat je een klassieke t-test gaat gebruiken om aan te tonen dat 2 groepen gelijk zijn, dan hoop ge eigenlijk om geen evidentie te vinden tegen die H0. Als je wilt kan je elke test zo gaan bewijzen, zolang je er maar voor zorgt dat je steekproef klein genoeg is zodat het maken ven een type 2 fout groot wordt. Dit kan uiteraard niet de correcte werkwijze zijn. Niet significantie op een 2- steekproef test zou nooit mogen geïnterpreteerd worden als gelijkheid (equivalentie) 75 B.P. Er zijn echter wel situaties waarin je wilt aantonen dat er wel degelijk geen verschil is tussen uw 2 groepen. Vb.: als je een nieuwe behandeling hebt en je wilt aantonen dat deze minder nevenwerkingen heeft dan de huidige behandeling maar dat het wel nog een gelijkaardig effect geeft In dit geval kan je een equivalentie test uitvoeren. Wat je hier gaat doen is de H0 en HA omwisselen. Zo moet je in de H0 gaan stellen dat er wel een effect is en in HA dat er geen effect is. Dus als je nu deze H0 gaat kunnen verwerpen, dan betekend het dat je in uw dataset voldoende evidentie hebt om H0 te verwerpen en HA te aanvaarden. En aangezien HA hier stelt dat de groepen gelijk zouden zijn heb je dus voldoende bewijs tegen de stelling dat ze gelijk zouden zijn. Praktisch ziet dit er als volgt uit: H0 : [µA - µB] > ∆ VS HA : [µA - µB] ≤ ∆ Je gaat op voorhand een ∆ moeten specifiëren (dit is niet de zelfde ∆ als in het vorig hoofdstuk). Deze ∆ is wat jij gebruikt om gelijkheid te definiëren. HA : elk verschil tussen de twee groepen dan kleiner is dan ∆ is voor u voldoende evidentie dat ze gelijk zijn. Als ze niet meer dat ∆ verschillen zijn ze klinisch relevant. Als je bijvoorbeeld zegt dat van het moment dat het verschil niet groter zal zijn dan 1 eenheid, dan zijn ze gelijk. Alles kleiner dan 1 eenheid = 0 Dit is eigenlijk niet zo moeilijk om te testen. We gaan dit doen op basis van een C.I. van µA - µB. dan ga je controleren of dat interval al dan niet tussen -∆ en ∆ valt. Als het er volledig in ligt, heb je bewijs om H0 te verwerpen en HA te aanvaarden. 76 B.P. Het is hier ook duidelijk dat de keuze van ∆ zeer belangrijk gaat zijn. Als je ∆ te groot kiest, ga je resultaten krijgen die sneller gelijk zijn maar die dat eigenlijk niet zijn Als je ∆ te klein kiest, dan ga je misschien te streng zijn De ∆ moet voorafgaand van het onderzoek bepaald worden, de ∆ definieer je zelf. └> niet nadien je ∆ bepalen, anders pleeg je fraude. Voorbeeld 1 In dit voorbeeld willen ze aantonen dat een nieuwe behandeling van ziekte van crohn gelijkaardig is aan die van de huidige behandeling. In het artikel schrijven ze dat de nieuwe techniek “as safe and effective” is dan de oude methode. Als we de gegevens er bij nemen dan zien we dat ze een ziekte vrije periode weergeven van beide technieken: Oud = 80% Nieuw = 62% Ze hebben hier een t-test gedaan en gezien dat er geen significant verschil is waar te nemen. Dat hebben ze dat in hun artikel opgenomen als dat de 2 technieken gelijk zijn aan elkaar. Dit resultaat is om te beginnen al een verkeerde interpretatie van de t-test en we zien ook dat de grootte van de steekproef veel te klein is en dus ook te weinig power bevat om een correcte t-test uit te voeren. Er is geen equivalentie tussen de 2 groepen. Voorbeeld 2 Dit is wel een correct voorbeeld Ze gaan hier dus ook 2 behandelingen met elkaar willen vergelijken om te kijken of ze equivalent zijn. Ze hebben een cross-overstudie gedaan (alle patiënten krijgen zowel behandeling A als B). de randomisatie gebeurt op vlak van wie welke behandeling eerst krijgt. Na analyse van de gegevens bekwamen ze niet symmetrische gegevens dus hebben ze een transformatie gedaan. Equivalentie werd gedefinieerd als ∆= 0,22 [-∆ ; ∆] = [-0,22 ; 0,22] op log schaal Als je de gegevens terug transformeert kom je op een interval [0,80 ; 1,25] 77 B.P. alle onderzoeken binnen het interval. vallen We kunnen H0 verwerpen en besluiten dat we voldoende evidentie hebben om er van uit te gaan dat de groepen gelijk zijn aan elkaar. Significantie VS relevantie Het is belangrijk om te begrijpen dat statistisch significant niets te maken heeft met de relevantie van het resultaat. Dit wordt duidelijk als we 2 voorbeelden bespreken. A B Bij beide situaties bekomen we een zeer significant resultaat, p-waarde= 0,001. Echter als we naar de C.I. gaan kijken zien we dat het effect bij A veel groter is dan het effect bij B. Wat we hier moeten onthouden is dat de C.I. veel meer info geeft dan de pwaarde o C.I. vertelt ook iets over de significantie (al dan niet bevatten van 0) o C.I. laat zien hoe groot het effect is Hoofstuk 20: eenzijdig vs tweezijdig testen Tweezijdige test Als we bijvoorbeeld de data bekijken van captopril. We hebben hier een verschil geobserveerd van µ̂ = 9,27. We hebben dan een hypothese opgesteld H0: µ = 0 VS HA: µ ≠ 0 H0 : er is geen verschil tussen de twee groepen. HA : er is wel een verschil tussen de 2 groepen. We bekwamen een significant resultaat, p-waarde < 0,05. Het enige wat we hier nu kunnen besluiten is dan µ ≠ 0. Het kan dus zijn dat er een verschil groter of kleiner is dan 0 maar dat kunnen we dus niet zeggen. Dit reflecteerd zich ook in de berekening van de p-waarde want: 78 B.P. De p-waarde is de kans dat we een gemiddelde waarnemen minstens even ver van 0 verwijdend dan 9,27, als µ=0. De p-waarde is dus de kans op het observeren van een gemiddeld verschil dat groter is dan 9,27 of kleiner is dan -9,27, als µ=0. de CLT zegt ons dat de verdeling normaal (symmetrisch) verdeeld is dus de kans dat je een waarde kleiner dan -9,27 of groter dan 9,27 bekomt is even groot. De kans die je aan één kant zou bekomen is p/2. Eenzijdige test Stel als we een hypothese hebben H0: µ ≤ 0 VS HA: µ > 0 We gaan hier dus aan één kant testen, als het geobserveerde verschil kleiner is dan 0, bied dit geen evidentie tegen H0. Als de waarde groter is dan 0, dan hebben we evidentie µ groter is dan 0. Dit heeft ook zijn effect op de berekening van de p-waarde. Bij een eenzijdige test zegt de p-waarde wat de kans is op het observeren van een gemiddelde dat minstens even groot is als 9,27, als µ=0. Als je dan de verdeling terug gaat bekijken, dan zien we dat de p-waarde anders zal berekend worden. Je gaat hier kijken wat de kans is dat je een waarde bekomt boven de 9,27. Het is dus duidelijk dat de p-waarde bij een enkel zijige test slechts de helft is als bij de tweezijdige test. Je gaat bij een eenzijdige dus rapper een significant resultaat bekomen dan bij een tweezijdige test. Het kan dus zijn dat wanneer je bij een enkelzijdige test een significant resultaat bekomt, dat deze niet meer significant is bij een tweezijdige test. o o 2-zijdig: je bekomt een p-waarde van 0,06 niet significant 1-zijdig: hier is de p-waarde van 0,03 wel significant Significantie zal dus sneller bekomen worden bij een 1-zijdige test dan bij een 2-zijdige test. Er zijn dus onderzoekers die er alles aan proberen te doen om 1-zijdig te testen. Ze gaan dus op zoek naar argumenten om het gebruik van een enkelzijdige test goed te praten. Het gebruik van een enkelzijdige test is echter zelden gegrond. - Wanneer je weet dat een effect enkel in 1 richting kan plaatsvinden. Als enkel een effect in 1 richting wetenschappelijk interessant is. 79 B.P. - De beslissing voor het maken van een 1-zijdige test moet gemaakt worden bij het opstellen van het experiment . niet wanneer je alle gegevens hebt fraude!! In de meeste gevallen ga je niet weten wanneer ze bepaald hebben welke test ze gaan doen Er zijn instellingen (tijdschriften) die niet meer toestaan dat er enkelzijdig getest word. Of als ze enkelzijdig willen testen dat ze een α moeten gebruiken van 0,025 in plaats van 0,05. Voorbeeld: captopril In het verleden hebben we met deze gegevens getest of het effect al dan niet significant verschillend is van 0. Stel dat we enkel geïnteresseerd zijn als we kunnen aantonen dat het gemiddeld effect groter is dan 5. Hypotheses: H0: µ ≤ 5 VS HA: µ > 5 In HA schrijf je altijd wat je wilt te weten komen. Enkel verschillen die groter zijn dan 5 geven voldoende evidentie om H0 te verwerpen. p-waarde geeft hier de kans op het observeren van een gemiddeld verschil dat minstens 9,25 is als µ=5. Als H0 correct blijkt te zijn, kunnen we enkel concluderen dat µ≤5 maar niet meer. Dit betekend dat we de CLT niet kunnen toepassen want daarvoor moeten we weten wat µ nu eigenlijk is. In dit geval pakken we de grens waarde. Grenswaarde: Omdat, als we een significant resultaat bekomen, wilt dit zeggen dat we evidentie hebben dat het verschil > dan 5. Dus ook alles < 5. Daarom is het hier voldoende om µ te zetten op de grenswaarde (in ons voorbeeld: 5). We vinden een p-waarde van 0,038. Dit is < α (0,05) significant resultaat. We kunnen dus concluderen dat het gemiddelde effect van captopril significant groter is dan 5 mmHg. We krijgen een verschillende waarde omdat we nu enkelzijdig testen en omdat we testen voor een verschil van 5 i.p.v. 0 Hoofdstuk 21: beschrijven van associaties Tot nu toe hebben we enkel getracht om te kijken in welke mate een geobserveerde relatie tussen 2 variabelen kan voorkomen door puur toeval. 80 B.P. - Je hebt dus met je hypothese testen aangetoond dat er een verband is, want er is een significant resultaat. Dus er is een significant verschil maar je weet nu nog niet hoeveel verschil er nu eigenlijk is. Met de volgende methodes gaan we dat proberen te kwantificeren. Ongepaarde t-test: Je gaat een relatie proberen aan te tonen tussen een continue respons (vb. gewichtsverlies) en een dichotome variabele (vb. hoog of laag proteïnegehalte). Chi² test: Je gaat de relatie proberen aan te tonen tussen een dichotome respons (vb. ziekteverzuim ja of nee) en een dichotome variabele (geslacht man of vrouw). De p-waarde geeft een indicatie van de grootte van de relatie. Een hoge significantie (lage p-waarde) betekend niet noodzakelijk dat er een klinisch effect is (zie eerder). In andere woorden de associatie tussen variabelen is niet noodzakelijk heel sterk. Pearson correlatie. Om dit te verklaren nemen we het voorbeeld van de operatiedata erbij. Hier gingen we op zoek naar een relatie tussen: - de tijd nodig om na operatie naar een normale BD waarde te geraken de log dosis van GM dat toegediend werd tijdens de operatie gemiddelde BD tijdens de operatie (als het GM wordt toegediend) bij 53 patiënten met 3 types van operatie. Als we de associatie van de gegevens tussen hersteltijd en toegediende log (dosis) GM willen analyseren krijgen we volgende scatter plot. Voor elke patiënt hebben we 2 metingen o o log (dose) xi hersteltijd yi door deze samen te brengen in een scatterplot kunnen we dit visualiseren. Als we naar een correlatie willen kijken, doen we dit op de gemiddelde relatie. Niet op patiënt niveau. Een eerste zicht op de scatter plot zegt ons dat er geen sterke correlatie zal zijn. Je kan met deze gegevens niet zeggen dat wanneer je de dosis kent, je ook weet wat de herstel tijd gaat zijn. 81 B.P. Toch gaan we een relatie kwantificeren met behulp van een pearson correlatie test. = een kwantitatieve meting voor de sterkte van een associatie tussen variabele X en Y Waar 𝑥̅ en 𝑦̅ de steekproef gemiddelden zijn van de geobserveerde x-waarden en ywaarden. o de figuur links geeft een inzicht in de formule Je scatter plot wordt ingedeeld in 4 delen op basis van 𝑥̅ en 𝑦̅ Dan wordt er gekeken hoe elk punt zich bevindt ten opzichte van deze gemiddelden. o Dus als je een punt pakt rechtsboven, deze zijn groter dan het 𝑥̅ en 𝑦̅. Dit levert dus 2 keer een positieve waarde (+,+) o Linksonder geeft dan 2 negatieve waarden (-,-) Vermenigvuldiging van deze gegevens zal leiden tot positieve waardes in de teller De waardes linksboven of rechtsonder geven zowel een + als een -. Vermenigvuldiging van deze gegevens zal leiden tot negatieve waardes in de teller Als er meer waarden in de ++ en -- delen zitten, zal er dus een positieve trend zijn. Als er meer waarden in de +- en -+ delen zitten dan zal er een negatieve trend zijn. Als overal evenveel waarden zijn, dan levert dit geen lineaire trend op De noemer is er enkel om ervoor te zorgen dat er uiteindelijk een waarde wordt bekomen tussen -1 en 1. rechts zie je de mogelijke uitkomsten: -1 ≤ r ≤ 1 r > 0 positieve trend r < 0 negatieve trend r = 1 allemaal op 1 lijn (positieve trend) r = -1 allemaal op 1 lijn (negatieve trend) r = 0 geen lineaire trend 82 B.P. wanneer r = 0 betekend dit enkel dat er evenveel waardes zijn te vinden in de 4 delen. Het kan wel nog zijn dat je en kwadratische functie bekomt. Daarom is het belangrijk om ook naar je scatterplot te kijken. In dit geval is er dus geen lineaire trend maar er is wel degelijk en correlatie tussen de gegevens. De associatie / correlatie die we gaan meten representeert enkel wat we zien in onze steekproef. Ook hier telt dat onze steekproef als schatting dient voor onze populatie. In onze hypotheses gaan we onderzoeken of ρ (correlatie in de populatie) al dan niet gelijk is aan 0. 𝜌 = 0 → 𝑔𝑒𝑒𝑛 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑒 H0: 𝜌 = 0 VS 𝜌 ≠ 0 → 𝑙𝑖𝑛𝑒𝑎𝑖𝑟𝑒 𝑡𝑟𝑒𝑛𝑑 HA: 𝜌 ≠ 0 De test gaat hier ook vanuit dat X en Y normaal verdeeld zijn. We willen de CLT toepassen. Als de gegevens niet symmetrisch zijn transformatie!! Nu kunnen we de C.I. en p-waardes bepalen voor ρ. Correlatie matrix Geeft een overzicht van alle correlaties die er zijn tussen de parameters die je ingeeft. Een sterke correlatie bevinden we pas bij een correlatie van 70% - 80%. 83 B.P. Relatief risico We nemen hier de data set over ziekteverzuim er nog eens bij. We observeerden het volgende: Mannen: 34,71% met ziekteverzuim Vrouwen: 43,49% met ziekteverzuim Met de chi² test vonden we een significant verschil tussen de 2 groepen met een p-waarde = 0,007. Met behulp van het relatief risico (RR) kunnen we berekenen hoeveel meer ziekteverzuim er bij de vrouwen is in vergelijking met de mannen. 𝑅𝑅 = % 𝑧𝑖𝑒𝑘𝑡𝑒𝑣𝑒𝑟𝑧𝑢𝑖𝑚 𝑏𝑖𝑗 𝑣𝑟𝑜𝑢𝑤𝑒𝑛 % 𝑧𝑖𝑒𝑘𝑡𝑒𝑣𝑒𝑟𝑧𝑢𝑖𝑚 𝑏𝑖𝑗 𝑑𝑒 𝑚𝑎𝑛𝑛𝑒𝑛 = 117⁄ 269 = 1,26 378⁄ 1089 Wat zegt dit nu juist? Ziekteverzuim komt bij de vrouwen 1,26 keer meer voor dan bij de mannen. Anders verwoord kunnen we zeggen dat ziekteverzuim 26% meer voorkomt bij vrouwen dan bij mannen. Aangezien het RR van 1 verondersteld dat er geen verschil is tussen de 2. 0,5 =1 0,5 Dit RR geeft het RR weer in de steekproef. We kunnen dit ook gaan gebruiken als een schatting voor de populatie. Een RR = 1 verondersteld dat er geen relatie is tussen ziekteverzuim en het geslacht Een chi² of Fisher exact test juist het zelfde. 𝜋1 𝜋2 = 1 is het zelfde als zeggen dat 𝜋1 = 𝜋2 Deze p-waarde laat ons dus de significantie zien van deze stelling. We kunnen ook een C.I. opstellen, als 1 niet in het interval zit, hebben we een significant resultaat. ODD’s ratio We nemen terug de data over BMHK en de leeftijd van eerste zwangerschap. We vonden hier een significante relatie tussen de leeftijd van eerste zwangerschap en het voorkomen van BMHK. P-waarde = 0,002. 84 B.P. Als we hier het RR op zouden berekenen dan zouden we het volgen demoeten doen: % 𝑣𝑟𝑜𝑢𝑤𝑒𝑛 𝑚𝑒𝑡 𝐵𝑀𝐻𝐾 𝑚𝑒𝑡 𝑒𝑒𝑟𝑠𝑡𝑒 𝑧𝑤𝑎𝑛𝑔𝑒𝑟𝑠𝑐ℎ𝑎𝑝 ≤ 25 %𝑣𝑟𝑜𝑢𝑤𝑒𝑛 𝑚𝑒𝑡 𝐵𝑀𝐻𝐾 𝑚𝑒𝑡 𝑒𝑒𝑛 𝑒𝑒𝑟𝑠𝑡𝑒 𝑧𝑤𝑎𝑛𝑔𝑒𝑟𝑠𝑐ℎ𝑎𝑝 > 25 !! echter!! Zoals we eerder hebben aangetoond zitten we hier met een case-control studie. wat dus wilt zeggen dat we zelf hebben gekozen hoeveel cases en hoeveel controls we gingen gebruiken. We hebben hier dus geen goede representatie van de populatie De uitkomst hier (bij RR) zou dan afhankelijk zijn van het aantal controls dat we gebruiken. We kunnen dus geen RR berekenen als we met een case-control studie zitten. Het alternatief dat we kunnen gebruiken is het ODD’s ratio. Het ODD’s ratio beschrijft de ratio odds van kanker in de groep met eerste zwangerschap voor de leeftijd van 25 over de odds van kanker in de groep met eerste zwangerschap na de leeftijd van 25 𝑂𝐷𝐷′ 𝑠 𝑘𝑎𝑛𝑘𝑒𝑟 𝑖𝑛 𝑔𝑟𝑜𝑒𝑝 ≤ 25 𝑂𝐷𝐷′ 𝑠 𝑘𝑎𝑛𝑘𝑒𝑟 𝑖𝑛 𝑔𝑟𝑜𝑒𝑝 > 25 Om het ODD’s ratio te kunnen berekenen moeten we dus eerst de ODD’s bepalen Odd’s ≤25 meet het risico op kanker in de groep ≤ 25. Als er veel kanker gevallen zijn zal je hier een grote uitkomst krijgen en visa versa. Odd’s >25 meet het risico ok kanker in de >25 groep. Veel kanker gevallen zorgt voor een grote uitkomst en visa versa. Nu we de ODD’s hebben, kunnen we het ODD’s ratio (OR) bepalen. 85 B.P. Er is dus 3,37 meer odd’s op het krijgen van kanker als je eerste zwangerschap is geweest voor de leeftijd van 25. Een belangrijk aspect is dat bij het berekenen van de ODD’s het niet meer uit maakt hoeveel cases of controls je hebt gekozen. De ODD’s die we berekend hebben kunnen we ook terug gebruiken als een schatting voor de totale populatie. Hier geld de zelfde als bij het RR. Een OR van1 zou betekenen dat er geen verschil gaat zijn tussen de groepen. Dat is het zelfde als Chi² en Fisher berekenen dus deze p-waardes reflecteert zich ook hier op. Nu kan ook een C.I. bepaald worden, als 1 niet in het interval zit, hebben we een significant resultaat. H0 kan verworpen worden. Deze testen worden gedaan voor dat je chi² of fisher gedaan hebt. Hoofdstuk 22: non parametrische testen De meeste testen in de statistiek berusten op een normaalverdeling van je populatie. hiervoor moesten altijd enkele assumpties voldaan zijn. - Normaliteit Gelijke varianties Dit zijn dus enkele parameters die moeten voldaan zijn. Als de gegevens niet normaal verdeeld zijn dan ga je ze proberen te transformeren zodat je een symmetrische verdeling krijgt. Getransformeerde gegevens zijn moeilijker te interpreteren en het is niet altijd mogelijk om gegevens te transformeren (multimodaal) In deze gevallen gaan we gebruik maken van non-parametrische testen. 86 B.P. Het principe van rangorde We nemen de dataset van kanker en overlevingstijden. Meer bepaald de gegevens van maagkanker en colonkanker. Deze gaan we eens bestuderen in een histogram. Hier zijn 2 histogrammen over elkaar gevisualiseerd. We willen dus weten of die overlevingstijden al dan niet ongeveer het zelfde zijn. Als we naar de histogrammen kijken, zien we in het blauwe histogram (maag) dat de meeste gegevens laag zitten en dat het dan heel snel omlaag gaat. In de rode curve (colon) zien we dat het iets langer hoog blijft en dan heb je een paar uitschieters. Omdat we hier met een scheve verdeling zitten hebben we de gegevens getransformeerd vooraleer we de test hebben kunnen uitvoeren. Als we nu stellen dat de gegevens niet gelijk zijn, wilt dit eigenlijk zeggen dat de rode gegevens meer aan de rechterkant liggen dan de blauwe curve. Dat is anders verwoord om te zeggen dat we zitten met 2 verschillende groepen. De ene groep is verschoven ten opzichte van de andere curve. En dat is eigenlijk wat we gaan proberen te meten.(dat de ene groep meer naar rechts ligt dan de andere. We kunnen dat doen door eens te kijken naar de rangorde van de gegevens. Als je observaties gaat ordenen van klein naar groot. Dan zou je moeten zien dat de rode gegevens meer aan de rechterkant liggen dan de blauwe. En op dat principe gaan ze zich baseren bij non-parametrische statistiek. Wilcoxon test (Mann-Whitney U test) Dit is de niet parametrische versie van de ongepaarde t-test. We gebruiken deze test als we 2 populaties gaan willen vergelijken. Zonder rekening te moeten houden met de verdeling van de gegevens. Ze mogen normaal verdeeld zijn maar het maakt hier niet uit. H0: beide verdelingen vallen samen -> 1 verdeling HA: de verdelingen liggen van elkaar weg. HA verondersteld dat 1 verdeling verplaatst is ten opzichte van de andere. In principe is dit de zelfde redenering als bij de ongepaarde t-test. Als µ1=µ2, dan gaan de verdelingen ook overlappen We gaan dus kijken of 1 verdeling meer verplaatst is (naar links of rechts) 2-zijdig testen 87 B.P. Om te beginnen gaan we alle observaties, van onze 2 groepen verzamelen. Deze gegevens gaan we allemaal rangschikken van klein naar groot (de 2 groepen door elkaar) Nu gaan we de geobserveerde waardes vervangen door hun rangorde. Met behoud van de oorspronkelijke populatie. Nu gaan we 1 van de groepen kiezen (A of B) en alle waardes (rangordes) die daar bij horen optellen. Als WA extreem groot gaat zijn, betekend dit dat er meer waardes aan de rechter kant zaten in vergelijking met groep B. We gaan H0 dus verwerpen wanneer WA te groot of te klein is. Om te bepalen wat te groot is en wat te klein is gaan we berekenen wat de kans is dat de geobserveerde waarde van WA zeer onwaarschijnlijk is te gebeuren door puur toeval. We berekenen de probabiliteit op het observeren van een gelijkaardig experiment met gelijkaardige waardes voor WA (als de 2 groepen gelijk zouden zijn). We bekomen een p-waarde = 0,2857. Er is dus 28,6% kans dat we dergelijk resultaat, dat de 2 groepen zo fel van elkaar zijn verschoven, hebben gemeten door puur toeval. Staven aan de α (0,05) We aanvaarde H0 de groepen zijn gelijk. Als we nu gekozen hadden om de waardes van groep B te berekenen, dan kwamen we op een zelfde conclusie uit. 88 B.P. Spearman correlatie Ook hier ga je in geval dat transformatie niet mogelijk of gewenst is een non parametrische test gebruiken. Meer bepaald de Spearman correlatie. Net zoals de Wlicoxon test ga je hier de gegevens vervangen door de rangorde. Elke waarde xi ga je vervangen door zijn rangorde en het zelfde voor y i. grafisch geeft dat het volgende weer. Op deze gegevens ga je een Pearson correlatie calculatie doen als een meting tussen de rangwaarden. In bovenstaand voorbeeld zien we dat bij spearman een perfecte lineaire relatie is van 1. Echter is dat bij de pearson niet het geval. Dit impliceert dat je met Spearman niet het zelfde zult gaan meten als met Pearson. Daar waar we bij Pearson gaan zoeken achter een lineair verband, zal er bij spearman gezocht worden naar monotone relaties. Monotone relatie: als xi stijgt, stijgt de waarde yi het zelfde. Pearson : lineaire verbanden Spearman: monotone verbanden 89 B.P. Opmerkingen Voor de meest ‘simpele’ statistische testen bestaan er non parametrische varianten. Non parametrische testen zijn niet gebaseerd op assumpties voor de verdeling van data Transformeren dan de data heeft geen invloed op de non parametrische analyse Ze zijn niet beïnvloedbaar door outliers (door de rangordes) Als je kan kiezen tussen een parametrische en een non parametrische (als alle assumpties voldaan zijn). Ga je toch kiezen voor een parametrische test Parametrische testen hebben een grotere power dan non parametrische testen Gemiddelde + standaarddeviatie parametrische test Mediaan + IQR non parametrische test 90 B.P.