Sociale statistiek Hoofdstuk 1) Statistiek is de kunst en de wetenschap van het ontwerpen van onderzoek en het analyseren van de informatie die dit onderzoek verschaft. Het ultieme doel is het vertalen van data naar kennis, inzicht en het begrijpen van de wereld om ons heen. Data is alle informatie die we verschaffen uit experimenten en surveys: kenmerken die we bij onze onderzoekselementen/eenheden registreren (meten). Doelstelling: 1) de kwaliteit van statistische toepassingen kunnen beoordelen en 2) op basis van beschikbare data antwoorden formuleren op onderzoeksvragen in verschillende sectoren (inzicht verkrijgen in de variabiliteit). 1.1 Analyse van data Waarom wordt statistiek gebruikt? Een statistisch probleem oplossen bestaat uit: 1) formuleer een statistische vraag, 2) verzamel data, 3) analyseer de data en 4) interpreteer de resultaten. Ontwerp: planning/werkwijze van hoe data te verkrijgen die efficiënt licht laten schijnen op het probleem Beschrijven (beschrijvende statistiek): (methoden van) onderzoeken en samenvatten van patronen in data, m.a.w. de ruwe data structureren en overzichtelijk en synthetisch weergeven in bijv. een grafiek of tabel, of in karakteristieke cijfers als gemiddelden en percentages. Grafische en numerieke samenvattingen worden meestal gecombineerd. Het doel is om de data te reduceren tot simpele samenvattingen zonder dat er data vervormd wordt of teveel verloren gaat. Veralgemenen (inferentiële of inductieve statistiek): infer = tot een beslissing of voorspelling komen door te redeneren vanuit bestaand bewijs. Inference = (methoden voor) beslissingen of voorspellingen (voor grotere groepen dan in de case zelf) maken op basis van de data. Inference helpt je daarnaast te beslissen of waargenomen patronen enige betekenis hebben. De kanstheorie (probabiliteit) is erg belangrijk voor inductieve statistiek: een kader voor het berekenen van hoe groot de kans is dat een gebeurtenis zich realiseert. 1.2 Inzicht verwerven in populaties door gebruik te maken van steekproeven Variabele verwijst naar het gemeten kenmerk, deze varieert. Onderzoekselementen (eenheden, subjecten) zijn onderdelen van de realiteit waarop het onderzoek betrekking heeft en waarbij de kenmerken worden gemeten. Dit kunnen personen zijn, maar ook voorwerpen, gebeurtenissen of collectiviteiten. De populatie is de verzameling van alle onderzoekselementen (afgebakend in de te onderzoeken kenmerken, tijd en ruimte), bij een steekproef neem je een deelverzameling daarvan. Doordat je elk element een gelijke kans geeft, is de uitkomst van de steekproef – op toevalsfouten na – gelijk aan de populatie. Is er data van een gehele populatie bekend, is de inductieve statistiek overbodig; een beschrijvende statistische analyse kan men dan nog wel uitvoeren. De relatieve grootte van een steekproef (t.o.v. de populatie) is veel minder belangrijk dan de absolute grootte. Inductieve statistiek doet uitspraken over de populatie, beschrijvende statistiek over de data van de steekproef. Het is belangrijk verschil te maken tussen de steekproefwaarde (statistiek) en de populatiewaarde: parameter, een numerieke samenvatting van de populatie. Vaak wordt de parameter m.b.v. de (steekproef) statistiek geschat. Een steekproef is representatief wanneer ieder subject van die populatie dezelfde kans heeft om in de steekproef terecht te komen, of algemener: de selectie van de elementen op toevalsbasis gebeurt: toevalssteekproef. Ook bij het experiment zelf worden de experimentele en controlegroep op basis van toeval samengesteld en zo zijn ook de verschillen tussen de twee groepen enkel gebaseerd op toeval. Door de variabiliteit levert het meten van een kenmerk verschillende waarden op. Doordat mensen van elkaar verschillen, doen steekproeven dat ook. Wil je inzicht krijgen in de variabiliteit, dan is het van belang een zo groot mogelijke steekproef te houden: des te nauwkeuriger. Wanneer er een constante is, is er geen variabiliteit en dus geen steekproef nodig. Elke steekproef kent een andere parameter, omdat 1) de eenheden binnen een steekproef van elkaar verschillen en 2) je in verschillende steekproeven andere eenheden hebt. De grootte van de variabiliteit tussen de steekproeven is berekenbaar. 1.3 Rol van de computer in de statistiek Datafile: in een bepaalde software gedefinieerde datamatrix Datamatrix: geordend aantal codes in een stel rijen en kolommen Code: waarde van het kenmerk weergegeven door een getal, bijv. 0 en 1 Coderen: het volgens bepaalde afspraken toekennen van codes aan waarden Rij: alle waarden gemeten bij één eenheid, van links naar rechts Kolom: alle waarden gemeten voor één kenmerk bij alle eenheden Database: gearchiveerde en gedocumenteerde verzameling van datafiles Hoofdstuk 2)Exploreren van data Beschrijven van data: Tabel en grafieken Karakteristieke cijfers (numerieke samenvatting) 2.1 Datatypes Het meten van kenmerken of variabelen: geobserveerde eigenschappen bij de elementen van het onderzoek. Meten: observeren, vaststellen… Variabelen: elementen variëren m.b.t. een kenmerk. Het doel van onderzoek is inzicht te krijgen in deze variabiliteit. Variabiliteit is het tegenovergestelde van een constante. Definitie van meten: het toepassen van een meetprocedure (wijze waarop) bij een onderzoekselement met als resultaat een waarde van het kenmerk. Meten verwijst naar kenmerk, waarden en meetprocedures. kwantiteit: uitdrukken van een hoeveelheid van een kenmerk in een bepaalde eenheid ordening: meten van een houding (voor/tegen) verschijningsvorm: vaststellen modaliteit Classificatie van variabelen gebeurt op basis van de omvang en aard (meetniveaus van de variabelen) van de uitkomstenverzameling. Je hebt drie soorten variabelen en meetniveaus: nominale kenmerken: .0categorieën of waarden zijn modaliteiten. het meten is het classificeren of benoemen en gebeurt op een laag meetniveau. het verschil in waarden is geen kwantitatief maar kwalitatief verschil. je kunt alleen uitspraken doen over het al of niet gelijk zijn en de uitkomstenverzameling is eindig (exhaustief, compleet en exclusief). ordinale kenmerken: ordeningscriterium. elementen van de uitkomstenverzameling kunnen geordend worden. ordinale kenmerken hebben rangkenmerken. verschil wordt uitgedrukt in termen van meer of minder. door het classificeren én ordenen is het meetniveau hoger. Nominale en ordinale variabelen samen heten categorische variabelen: ze behoren tot een bepaalde categorie. kwantitatieve of metrische kenmerken: aantal van een vaste meeteenheid, observaties nemen numerieke waardes aan die verschillende grootten van de waarde voorstellen. verschil wordt uitgedrukt in hoeveel meer of minder. meetresultaten hebben een hoger informatiegehalte. onderscheid tussen discreet (mogelijke waarden vormen een verzameling van afzonderlijke cijfers, telbaar en eindig aantal waarden) en continu (voor elke twee waarden is er een tussenliggende mogelijk, oneindig aantal waarden). Coderen: waarden noteren d.m.v. cijfers en codes. Een code is een symbolische voorstelling van de meetwaarde. Bij meten ken je volgens regels codes toe aan de eenheden. Een waarde én het element van die waarde: code. Nominale kenmerken: om het even welk symbool. Kent een eis van identiteit: gelijke code is gelijke modaliteit. Hiermee kun je geen wiskundige bewerkingen doen. Ordinale kenmerken: codes zijn uitdrukking van een ordeningscriterium, het best cijfers. Hiermee kun je identificeren en ordenen. Je hebt geen vaste meeteenheid: ze verschillen niet in termen van bepaalde hoeveelheid. Geen wiskundige bewerkingen. Kwantitatieve kenmerken: codes zijn getallen met een numerieke betekenis. Het zijn de meetresultaten, waarmee je het verschil kunt uitdrukken in hoeveelheden en ook wiskundige berekeningen mee kunt maken. Het informatiegehalte van de codes verschilt per meetniveau. De bewerkingen moeten het informatiegehalte van de codes respecteren. Belangrijk: data-analyse is afhankelijk van het type data. Wat kan op een laag meetniveau kan ook op een hoger meetniveau, maar wat specifiek is voor een hoger niveau kan NIET lager! Een frequentietabel is een lijst van de verschillende waardes van een variabele met daarbij de vermelding van het aantal eenheden (frequentie) en de relatieve frequentie. Het geeft een beschrijving van de distributie oftewel verdeling. Relatieve frequenties: Proportie: aantal eenheden in een categorie gedeeld door het totale aantal eenheden in de tabel, met som 1. (p) Percentage: proportie maal 100, met som 100. (f’) Voor categorische variabelen is de categorie met de hoogste frequentie de modale categorie, voor kwantitatieve variabelen is de waarde die het vaakst voorkomt de modus. Het kan nodig zijn om bij kwantitatieve variabelen de mogelijke waarden te groeperen. Wiskundige regels: de modaliteiten of waarden (categorieën) van een variabele: 1,2, … m. Het totale aantal waarden is dus m. f i is de absolute frequentie van de waarde met code i, wanneer i (1,2, … m). {f0, f1, … fm} is de absolute frequentieverdeling van een variabele. De totale absolute frequentie is gelijk aan het totale aantal elementen en dus ook gelijk aan de som van de klassenfrequenties. We stellen deze voor door n: n= f0 +f1 + … + fm = 2.2 Beschrijving van data door middel van grafieken Grafieken geven een samenvatting van de informatie of zijn een snelle communicatie van de informatie in de tabel. De perceptie van de voorstelling is reële informatie. Het informatiegehalte is niet te groot en niet te klein. Er zijn twee verschillende soorten grafieken voor categorische variabelen (je kunt ze echter ook voor kwantitatieve variabelen gebruiken, mits niet teveel waarden): Taartdiagram: je verdeelt de cirkel in stukken, met elke categorie: 360 x proportie. Staafdiagram: de verticale staaf is voor de categorieën en de hoogte geeft de frequenties of percentages weer. Deze is meer precies dan een taartdiagram, omdat het makkelijker is de categorieën te vergelijken. Pareto diagram: wanneer de categorieën geordend zijn naar frequentie, van hoog naar laag. Dit helpt bij het Paretoprincipe: een kleine deelgroep van de categorieën bevat het grootste gedeelte van de waarnemingen. Er zijn drie verschillende soorten grafieken voor kwantitatieve variabelen: Dot plot (puntgrafiek): elke observatie krijgt een punt boven de waarde van het kenmerk. Je trekt een horizontale lijn, benoemt de naam van het kenmerk en duidt de waarden van het kenmerk aan. Daarna krijgt elke observatie een punt. Stamgram (stem-and-leaf plot): je stelt de waarde van elke observatie voor door een stam (alle cijfers van de waarde behalve de laatste) en een blad. Je splitst de waarde dus op, schrijft de stam in een verticale kolom van klein naar groot en schrijft en ordent (ook van klein naar groot) het blad in de rij met de juiste stam. Je geeft alle mogelijke stammen weer, ook als er geen observaties met die waarde zijn! Histogram: grafiek waarbij staafjes worden gebruikt om de (relatieve) frequenties van de waarden van het kwantitatieve kenmerk voor te stellen. Je deelt de waarden in in klassen van gelijke breedte, telt het aantal observaties in elke klasse, de horizontale as vormt de waarden of eindpunten van de klassen en per klasse krijg je een staaf met de hoogte van de frequentie. Bij een discrete variabele met niet al te veel mogelijke waarden kun je ook de eigenlijke waarde per klasse nemen. Het klassemidden is het gemiddelde van de halve som van de uitgedrukte klassegrenzen. Histogram wordt gebruikt voor kwantitatieve variabelen, staafdiagram voor categorisch. Dot plots en stamgrammen worden gebruikt voor kleine datasets en behouden de waarden. Histogrammen worden gebruikt voor grotere datasets, zijn compacter en zijn flexibel om een interval mee te bepalen (i.t.t. de stam van een stamgram). De verdeling (waarden van de variabele met de frequentie) kent een algemeen patroon met het centrum, de spreiding en de vorm. Symmetrische distributie: de linker- en rechterkant kunnen gespiegeld worden rond de centrale as. Bij een scheve (skewed) distributie links is de linkerstaart langer dan de rechter, bij een scheve distributie rechts is de rechterstaart langer dan de linker. Data met één ophoping (modus) zijn unimodaal, met twee bimodaal. Tijdsgrafieken (time plots): grafische weergave van een tijdreeks. Dit zijn opeenvolgende metingen van dezelfde variabele op geregelde tijdstippen. Op de x-as zet je de tijdsvariabele, op de y-as de waarde van het gemeten kenmerk. De trend is het algemene patroon in de data: stijging, daling etc. Je kunt hiervoor ook een staafdiagram gebruiken. 2.3 Beschrijving van data door middel van een centrummaat De centrummaat is een maat van centrale tendens en geeft een numerieke samenvatting: door middel van een centraal gelegen waarde die als een representatieve waarde wordt beschouwd. Modus: de waarde van het kenmerk met de hoogste frequentie, ook wel modale klasse genoemd en deze is te gebruiken voor elk meetniveau. De modus hoeft niet bij het centrum van de verdeling te liggen. Bij kwantitatieve variabelen is de modus het best te gebruiken bij discrete variabelen die slechts enkele waarden kunnen aannemen. Mediaan: de middelste waarde van de observaties, wanneer ze geordend zijn van klein naar groot of groot naar klein – ongeacht welke waarden erboven of onder liggen. De mediaan is te bepalen bij ordinale gegevens, precieze gemiddelde is niet te berekenen. Bij een frequentietabel: de mediaan pakken van het totaal aantal observaties en kijken in welke categorie deze waarde valt ((1+n)/2). Gemiddelde: de som van de waarden die gemeten werden bij de onderzoekselementen, gedeeld door het aantal onderzoekselementen; het balanceerpunt van de verdeling. (zie slide voor verschillende berekeningen van het gemiddelde) Eigenschappen van het gemiddelde: het evenwichtspunt van de data: steunpunt (fulcrum) plaatsen op de waarde van het gemiddelde, dan is de balans in evenwicht. bij een scheve verdeling wordt het gemiddelde in de richting geduwd van de lange staart. gevoelig voor extreem hoge of lage waarden: outliers. enkel te berekenen voor kwantitatieve variabelen. bij een frequentietabel: elke mogelijke waarde maal de frequentie daarvan en dat optellen, om vervolgens te delen door n. Wiskundige regels: sommeren tot n alle waarden afzonderlijk. Sommeren met m de waarden maal de frequentie (fi * xi). Bij pi * xi valt de 1/n weg, omdat deze al bij de proportie inbegrepen zit. Fi * mi: frequentie maal klassenmidden. (zie slide voor het gemiddelde van getransformeerde variabelen) De vorm van de verdeling bepaalt of het gemiddelde groter of kleiner is dan de mediaan: symmetrische verdeling: gemiddelde = mediaan scheve verdeling: gemiddelde situeert zich verder in de lange staart dan de mediaan. Bij een scheve verdeling is de mediaan een betere vertegenwoordiger v.d. verdeling. Het gemiddelde wordt meer beïnvloed door extreme waarden dan de mediaan: hoe ver een extreme waarde zich van het midden bevindt maakt niets uit voor de mediaan. een mediaan is resistent voor outliers: de waarde wordt niet/minder beïnvloed door extreme waarden en is daardoor beter geschikt bij scheve verdelingen. 2.4 Beschrijving van spreiding bij kwantitatieve data Evaluatie van de spreiding rond de centrale waarde. Range: de numerieke uitdrukking van de spreiding. verschil tussen de hoogste en laagste waarde, gebruikt slechts deze twee extremen. niet resistent: zeer gevoelig voor outliers (1) en negeert de overige data (2). De standaarddeviatie gebruikt alle waarden en is een samenvatting van de deviatiescores: de positieve en negatieve afwijkingen van het gemiddelde (x - x̅ ). Aangezien het gemiddelde het balanspunt is, wegen de positieve en negatieve afwijkingen tegen elkaar op. De som van de deviaties is dus altijd 0. (zie slide voor hoe de som van alle deviatiescores gelijk is aan 0) Het gemiddelde van de gekwadrateerde afwijkingen heet de variantie. De vierkantswortel hiervan heet de standaarddeviatie: de ‘gemiddelde’ afstand van een variabele tot het gemiddelde. s is 0 wanneer elke observatie dezelfde waarde heeft. s is niet resistent; outliers hebben grote gekwadrateerde afwijkingen. De kwadratensom: ∑(x - x̅ )². (zie slide voor de variantie en standaarddeviatie gecombineerd met het boek) Hoe groter de standaarddeviatie, hoe groter de variabiliteit van de data. Er wordt gedeeld door n-1 omdat er slechts n-1 informatie-elementen zijn die kunnen variëren, oftewel niet overbodige informatie is. n-1 informatie-elementen bepalen het laatste element. Dit komt omdat de som van de deviatiescores 0 is. Werkwijze: 1) bereken het gemiddelde. 2) bepaal de afwijking van elke waarde van het gemiddelde. 3) kwadrateer de afwijking. 4) maak de som van de gekwadrateerde afwijkingen. 5) deel door n-1. (zie slides voor de variantie van een getransformeerde variabele) De empirische regel die ons een interpretatie van de grootte van s geeft: Indien een variabele klokvormig (bell shaped) is, dan zal bij benadering: 68% van de observaties tussen x̅ - s en x̅ + s vallen (één standaarddeviatie) 95% van de observaties tussen x̅ - 2s en x̅ + 2s vallen (twee standaarddeviaties) (bijna) alle observaties tussen x̅ - 3s en x̅ + 3s vallen (drie standaarddeviaties) Deze regel kan toegepast worden wanneer het gemiddelde en de mediaan ongeveer even groot zijn. Wanneer de grootste observatie minder dan een standaarddeviatie boven het gemiddelde ligt, is het een scheve verdeling naar links. Wanneer de kleinste observatie minder dan een standaarddeviatie onder het gemiddelde ligt, is het eentje naar rechts. x̅ en s verwijzen naar de berekende waarde op basis van de steekproef, bij de populatieparameter: µ is het populatiegemiddelde (gemiddelde op basis van alle eenheden in de populatie). σ is de populatiestandaarddeviatie (spreiding van alle populatieobservaties rond het populatiegemiddelde) Deze twee zijn meestal ongekend. Beschrijving van de spreiding bij een categorische variabele Bij minimale spreiding is elke observatie gelijk aan de andere (dus allen in dezelfde categorie), bij maximale spreiding realiseren we de maximaal mogelijke verschillen tussen observaties. Index van kwalitatieve variatie (IKV): totaal aantal gerealiseerde verschillen delen door het aantal maximaal mogelijke verschillen hoe dichter bij 1 hoe meer spreiding, hoe dichter bij 0 hoe minder spreiding. Berekening: Teller: het aantal geobserveerde verschillen; dus de frequentie van de ene categorie vermenigvuldigen met de frequentie in de andere categorieën en deze optellen. (bijv. bij waarden 20/30/10: 20*40 + 30*10) Noemer: maximaal mogelijke verschillen; je deelt door twee omdat a b en b a. (bijv. 20/20/20: 20*40 + 20*20, IKV is dan 1100/1200 = 0.92) (zie slide voor berekening van de noemer) 2.5 Maten van positie/ligging De maten van ligging geven informatie over de spreiding in de verdeling: type 1: de waarde waarboven of waaronder een bepaald percentage van de observaties valt (bijv. de mediaan). type 2: hoever ligt een observatie van een bepaald punt (bijv. het aantal standaardafwijkingen dat een observatie van het gemiddelde ligt). Het p-de perciel van een variabele is de waarde waaronder er p procent van de eenheden valt. Als p = 50, is dat 50% en dus de mediaan. Nuttige percentielen zijn de kwartielen: Eerste kwartiel: p=25: Q1 Derde kwartiel: p=75: Q3 Bij het bepalen van de kwartielen wanneer n een oneven getal is, moet je de mediaan na het bepalen ervan niet meer meetellen. De waarden geven info over de vorm: elk kwartiel kan zich uitstrekken over een interval met een verschillende lengte, maar elk bevat 25% van de eenheden. Maat van spreiding: interkwartielafstand (IQR). Dit is de afstand tussen het derde en eerste kwartiel; Q3 – Q1. Oftewel: de range van de middelste helft. Deze afstand is meer resistent dan de range en SD, omdat deze niet beïnvloed wordt door outliers. Daarom is dit beter te gebruiken bij hele scheve verdelingen of outliers. Wanneer een observatie 1.5 keer de IQR onder Q1 valt of 1.5x de IQR boven Q3 is er mogelijk sprake van een outlier De kwartielen en de minimum- en maximumwaarde, ook wel de vijf getallen samenvatting genoemd, geven een goed beeld van de verdeling. Deze getallen vormen de basis van de boxplot, waarbij de doos de middelste 50% bevat, de lijn in de doos de mediaan is en de whiskers de lijnen aan de randen van de boxplot die of de 1.5xIQR omvatten of het minimum-maximum wanneer deze data geen outliers zijn (let op, lijnen trekken tot data en niet tot de plek waar zich outliers voor kunnen doen!). Eventuele outliers worden los getoond: Zo kunnen ze onderzocht worden. Ze geven toch niet veel informatie over de verdeling. De boxplot en het histogram zijn complementaire grafische voorstellingen. Het histogram is informatiever over de verdeling; het laat ophopingen en eventuele gaten in de data beter zien. De boxplot is een betere samenvatting en kan gebruikt worden om de scheefheid te beoordelen en om outliers te identificeren. Tevens kunnen we daarmee groepen vergelijken (side-by-side box plot). Een type 2 maat van ligging is de z-score, de transformatie van de geobserveerde waarden: z = (waarde observatie – gemiddelde) / standaarddeviatie. De z-score is dus ook wel een genormaliseerde of gestandaardiseerde waarde: het aantal SD’s dat een geobserveerde waarde van het gemiddelde verschilt of verwijderd is. positieve z-score: waarde ligt boven het gemiddelde. Bij negatief eronder. ook deze manier kan gebruikt worden om outliers te identificeren: in klokvormige verdeling een z-score van 3. relatieve positie van een waarde in een verdeling positie van een waarde t.o.v. het gemiddelde in verhouding tot de gemiddelde afwijking van het gemiddelde 2.6 Herkennen en vermijden van misbruik van grafische samenvattingen Hoe een effectieve grafiek te maken: label beide assen en geef een kop die duidelijk maakt waar de grafiek over gaat. om ons te helpen de relatieve grootten te vergelijken, begint de y-as meestal met 0. wees voorzichtig met het gebruik van figuren i.p.v. staven of punten. De relatieve percentages gaan dan gemakkelijk fout. het kan moeilijk zijn om meer dan één groep in een enkele grafiek goed weer te geven wanneer de variabelen veel van elkaar verschillen. In dat geval kun je beter losse grafieken gebruiken of relatieve grootten zoals proporties of percentages plotten. Hoofdstuk 3) Samenhang: contingentie, correlatie en regressie De verklarende of onafhankelijke variabele bepaalt de groepen die gebruikt worden bij een vergelijking van de response variabele. De response of afhankelijke variabele is de variabele waarvan de waarden worden vergeleken en die bepaald worden (outcome variable) of verklaard worden door de verklarende variabele. De variabelen kunnen ook allebei afhankelijk van elkaar zijn. Een associatie of samenhang treedt op wanneer een bepaalde waarde voor de ene variabele meer dan toevallig optreedt met bepaalde waardes van de andere variabele. 3.1 De samenhang tussen twee categorische variabelen Er is een samenhang tussen twee variabelen wanneer een categorie van de ene variabele meer dan toevallig optreedt met een bepaalde waarde van de andere variabele. Er zijn altijd twee variabelen; je bekijkt de verdeling van de ene variabele binnen de categorieën van de andere. Een kruistabel is een voorstelling van twee of meer categorische variabelen. De rijen worden bepaald door de categorieën van de ene variabele, de kolommen door die van de andere variabele. Een cel is de combinatie van een categorie van de ene variabele met een categorie van de andere variabele. De frequentie van de combinatie is de celfrequentie. Marginale verdeling: sommeren over de categorieën van een kenmerk: rij- en kolomtotalen. Van een kruistabel kun je naar een marginale verdeling, andersom niet. (zie slide voor de kruistabel uitgedrukt in sommen) Conditionele proporties zijn proporties die berekend worden binnen de categorieën (condities, dus afhankelijk) van de andere variabele. Het totaal van een rij is altijd 1,0. Rijpercentages worden berekend op het totaal van de rij. Kolompercentages worden berekend op het totaal van de kolom. Belangrijk: bij horizontaal berekenen, vergelijk je verticaal en andersom. In een tabel geeft n het totaal van waarop de proporties in die rij zijn gebaseerd. Marginale proportie: de proporties gevonden in de marges van de tabel. Er is sprake van samenhang wanneer de conditionele proporties van elkaar verschillen. Anders zijn beide kenmerken onafhankelijk. Let op: zijn de verschillen toevallig? Inductieve statistiek: significantietest. De sterkte van de samenhang wordt uitgedrukt d.m.v het verschil in rij- of kolompercentage. Procentpunten: verschil tussen de conditionele percentages. 3.2 De samenhang tussen twee kwantitatieve variabelen Een spreidingsdiagram/scatterplot is een grafische voorstelling voor twee kwantitatieve variabelen die de x-as voor de verklarende variabele x gebruikt en de y-as voor de response variabele y. De waarden worden weergegeven met een punt en het aantal punten is gelijk aan het aantal eenheden. Twee kwantitatieve variabelen hangen… positief samen wanneer: hoge waarden van x optreden met hoge waarden van y lage waarden van x optreden met lage waarden van y negatief samen wanneer: hoge waarden van x optreden met lage waarden van y lage waarden van x optreden met hoge waarden van y De covariantie drukt uit in welke mate twee kwantitatieve kenmerken gezamenlijk variëren (samenhangen). Het samen optreden van afwijkingen t.o.v. het gemiddelde = het samen optreden van deviatiescores. (zie slides voor formule van de covariantie) Er wordt geen onderscheid gemaakt tussen de verklarende en response variabele. Teken (+/-) van de covariantie geeft informatie over de richting. De absolute waarde is weinig informatief: het hangt af van de meeteenheid en je hebt geen vaste onder- of bovengrens. De covariantie is symmetrisch. De covariantie is een correlatie met gestandaardiseerde waarden. De correlatiecoëfficient (r) is een numerieke samenvatting van de richting en de sterkte van een lineaire samenhang tussen twee kwantitatieve variabelen. ‘r’ situeert zich in het interval [-1;1]. Bij positieve waarden heb je positieve samenhang, bij negatief andersom. Hoe dichter de waarden liggen bij -1 of 1, hoe sterker de samenhang. Bij 0 geen. Er is geen onderscheid tussen de (on)afhankelijke variabele. De waarde hangt niet af van de meeteenheid, maar is wel gevoelig voor extreme waarden. LET OP: parabolen en hyperbolen vertonen ook samenhang, maar níét lineair! (zie slide voor de berekening van de correlatie) De correlatie berekenen: 1/(n-1) * ∑zxzy. Je kunt een scatterplot opdelen in vier gelijke kwadranten, waarbij de punten rechtsboven en linksonder op positieve samenhang wijzen: de z-scores zullen positief uitvallen. 3.3 De waarde van de response variabele voorspellen De regressielijn is een rechte lijn die beschrijft welke verandering er optreedt in de afhankelijke variabele y wanneer de onafhankelijke variabele x verandert, oftewel: voorspelt de waarde van y op basis van een lineaire functie van x. ŷ = a + bx; de vergelijking van een rechte waarbij y^ de voorspelde waarde is. Lineair verband: per eenheidswijziging in x een constante verandering in y. b is de slope: richtingscoëfficiënt, wijziging in y per eenheidswijziging in x. a is de intercept: de waarde van y als x gelijk is aan nul. De slope is een lineaire functie. negatieve slope: daling van de voorspelde waarden als x stijgt; negatief verband. positieve slope: stijging van de voorspelde waarden als x stijgt. slope is nul: dan krijg je een horizontale lijn en is er geen samenhang. Slopes kun je niet zomaar onderling vergelijken: let op de betekenis van de eenheidswijziging in x! Het effect daarvan kan klein zijn, let op de volledige wijziging! Voor een waarde van x observeren we verschillende waarden van y: er is variabiliteit. De voorspelde waarde van y is dus niet altijd gelijk aan de geobserveerde waarde van y. De verticale afstand tussen yi - ŷ is e,i. Deze afstand is een residuele waarde. Het geeft de verdeling van y weer, gegeven een conditionele waarde van x. Je hebt negatieve en positieve residuele waarden. Je kunt de rechte bepalen d.m.v. de kleinste kwadratenmethode. Rechte zodanig bepalen dat de voorspellingsfouten geminimaliseerd worden. Positieve en negatieve residuele waarden neutraliseren elkaar: de som van de residuele waarden is 0. Je moet dus werken met gekwadrateerde residuelen. De som van de gekwadrateerde residuelen kan gebruikt worden om de voorspellingsfouten te evalueren. Σ(residuals)² = Σ(y-ŷ)². De slope: b = r(sy/sx). De intercept: a = ‾y – b(‾x). De regressielijn gaat steeds door (‾x, ‾y). Met de GR: 1) Stat: EDIT 2) x in L1, y in L2 3) Stat: CALC; optie 8 4) L1,L2. Een vergelijking tussen de slope en de correlatie: De slope is geen uitdrukking van de sterkte van samenhang. De waarde is afhankelijk van de meeteenheid van de variabele: een andere meeteenheid resulteert in een andere slope. Er wordt een onderscheid gemaakt tussen de verklarende en response variabele. Op basis van de regressievergelijking kunnen we de afhankelijke variabele voorspellen gegeven de waarde van de onafhankelijke variabele. Er is geen boven- of ondergrens. De correlatie beschrijft de sterkte van de lineaire associatie tussen twee kwantitatieve kenmerken. Deze verandert niet wanneer de meeteenheid verandert. Er wordt geen onderscheid gemaakt tussen de (on)afhankelijke variabele. De correlatie ligt altijd in het interval [-1,1]. De correlatie en slope hebben hetzelfde teken (positief, negatief, 0). Ze zijn allebei geschikt om te gebruiken bij lineaire samenhang. 3.4 Waarschuwingen bij het analyseren van associaties Extrapoleren is gevaarlijk: het gebruik van de regressielijn om y te voorspellen voor x waarden die niet geobserveerd werden. Risico of onzekerheid bij de voorspelling neemt toe naarmate men zich verder buiten de range van x bevindt. Wees voorzichtig met invloedrijke uitbijters: Met een spreidingsdiagram kan men 'ongewone' observaties op het spoor komen. Regressie uitbijter: observatie die duidelijk afwijkt van de trend in de data. Dit hoeft niet noodzakelijk een uitzonderlijke x of y te zijn! Invloedrijke observatie: sterk effect op het resultaat van de regressie-analyse. De observatie heeft een relatief hoge of lage x-waarde. De observatie is een regressie uitbijter. Correlatie/covariantie betekent niet noodzakelijk oorzakelijkheid: samen variëren betekent niet dat de wijziging in de ene variabele oorzaak is van de wijziging in de andere variabele. Latente (lurking) variabele: niet geobserveerde variabele die de samenhang tussen variabelen beïnvloedt. Dus: samenhang impliceert geen oorzakelijkheid. Simpson's paradox: de richting van de samenhang tussen twee variabelen verandert na het toevoegen van een derde variabele en het berekenen van de associatie binnen de categorieën van die derde variabele. Conditionele relaties zijn verschillend van associatie in de marginale tabel. Een latente variabele kan op de verklarende en response variabele een invloed hebben: common cause. Het is moeilijk om het effect van een enkele variabele op een andere variabele te bestuderen, omdat een verschijnsel vaak meerdere verklaringen heeft. Confounding treedt op wanneer twee variabelen allebei geassocieerd zijn met een response variabele, maar zij ook geassocieerd met elkaar zijn. Hoofdstuk 5) Probabiliteit in het dagelijks leven De kanstheorie is het kwantificeren van onzekerheid. Er zijn regels om kansen te bepalen van mogelijke uitkomsten van toevalsprocessen. Je kunt ook kansen schatten op basis van intuïtie. 5.1 Hoe kunnen kansen toeval kwantificeren? Bij toevalsselectie geldt: De mogelijke uitkomsten zijn gekend, maar niet welke waarde je krijgt bij één proef. bij kleine aantallen: verschillen zijn mogelijk. bij grote aantallen: de uitkomsten stabiliseren (‘long-run proportion’) en wordt gelijk aan de proportie in de populatie: basiskans. De cumulatieve proportie bepalen na elke poging: aantal successen/aantal pogingen. De wet van de grote aantallen: als het aantal pogingen/experimenten toeneemt, dan benadert – in de long-run – de proportie van optreden van een bepaalde gebeurtenis een bepaalde waarde (Jacob Bernoulli). Bij een toevalsexperiment is de kans op een bepaald resultaat gelijk aan de proportie van het aantal keer dat dit resultaat bekomen wordt bij een long-run experiment. LET OP! Bij een normale steekproef krijg je een schatting van de populatieproportie, slechts bij een hele grote steekproef kun je spreken van een echte populatieproportie. De kans neemt een waarde aan tussen 0 en 1, soms worden percentages gebruikt. Verschillende experimenten zijn onafhankelijk wanneer het resultaat van om het even welk experiment niet bepaald wordt door het resultaat van een ander experiment. We kunnen de probabiliteit bepalen door theoretische berekeningen op basis van veronderstellingen van het toevalsexperiment. Verschillende types: relatieve frequentie: proportie van een uitkomst bij een groot aantal herhalingen. subjectieve definitie van probabiliteit: persoonlijke beoordeling dat de uitkomst zal optreden gegeven de beschikbare informatie (Bayesiaanse statistiek). 5.2 Hoe kunnen we probabiliteit bepalen? Probabiliteit laat toe om onzekerheid bij resultaten van experimenten te kwantificeren. Steekproefruimte/universum: de verzameling van alle mogelijke uitkomsten bij een toevalsexperiment. Dit kan uitgebeeld worden met een boomdiagram voor weinig uitkomsten. Gebeurtenis: elke deelverzameling van de steekproefruimte. Elementaire gebeurtenis: één enkele gebeurtenis van de steekproefruimte. Eén kans afzonderlijk ligt tussen 0 en 1; het totaal van kansen is gelijk aan 1. De kans op gebeurtenis A, P(A), wordt verkregen door de som van de kansen van de afzonderlijke uitkomsten van de gebeurtenis. Wanneer deze allemaal een gelijke kans hebben om op te treden, dan P(A): aantal uitkomsten in gebeurtenis A / uitkomsten in de steekproefruimte. Je hebt niet altijd gelijke kansen van uitkomsten, in dat geval kun je kansen schatten op basis van grote steekproeven. Sommige gebeurtenissen worden uitgedrukt op basis van gebeurtenissen die: niet horen tot een andere gebeurtenis; complementaire gebeurtenis behoren tot een gebeurtenis OF een andere gebeurtenis; unie van gebeurtenissen behoren tot een gebeurtenis EN een andere gebeurtenis; doorsnee van gebeurtenissen Het complement van gebeurtenis A: alle uitkomsten in de steekproefruimte die niet tot A behoren: AC (niet A). P(A) + P(AC) = 1; P(AC) = 1 – P(A). Handig bij bijvoorbeeld het bepalen van de kans dat ten minste één gebeurtenis zal optreden: 1 – de kans dat er helemaal geen gebeurtenis zal optreden. Disjuncte gebeurtenis (wederzijds exclusief): wanneer twee gebeurtenissen A en B geen uitkomsten gemeenschappelijk hebben. De doorsnede van A en B is ook een gebeurtenis en bevat de gebeurtenissen die tot A en B horen: A B = A en B. De unie van A en B is ook een gebeurtenis die bestaat uit de gebeurtenissen die tot A of B of beide behoren: A B = A of B. Dit is dus P(A) + P(B), maar dan wordt de doorsnede dubbel geteld. Optelregel: P(A of B) = P(A) + P(B) – P(A en B). Wanneer A en B disjunct zijn, dan is P(A en B) = 0, dus kun je ze gerust optellen. Uitwerking van de kans dat A en B beide optreden voor onafhankelijke gebeurtenissen: het resultaat van de ene poging wordt niet beïnvloed door het resultaat van de andere poging. De kans van een gebeurtenis wijzigt soms niet op basis van bijkomende informatie: P(AB) = P(A) * P(B). LET OP De veronderstelling van onafhankelijkheid moet grondig geëvalueerd worden! 5.3 Voorwaardelijke kansen Het bepalen van een kans op een gebeurtenis o.b.v. bijkomende relevante informatie kan de kans wijzigen. Bijkomende informatie omschrijft een conditie (beperking van de steekproefruimte) en er wordt enkel nog gewerkt met de uitkomsten die conform de conditie zijn. De kans op gebeurtenis A gegeven dat B optreedt: P(A|B), de proportie van de eenheden in de doorsnede op het totaal van de eenheden in gebeurtenis B. De conditionele kans van gebeurtenis A gegeven dat gebeurtenis B zich heeft gerealiseerd: P(A|B) = P(AB) / P(B). De productregel voor P(A en B): P(AB) = P(A|B) * P(B). (zie slides 41, 42, 43) Bij trekken zonder terugleggen hangt de uitkomst af van de vorige uitkomst. Wanneer A en B onafhankelijk zijn: P(A|B) = P(A) of P(B|A) = P(B). Dit impliceert dat P(A en B) = P(A)*P(B), want P(AB) / P(B) = P(A) P(AB) = P(A) * P(B). Hoe kunnen we nagaan of A en B onafhankelijk zijn? Is P(A|B) = P(A)? Is P(B|A) = P(B)? Is P(A en B) = P(A)*P(B)? Als één van deze uitdrukkingen juist is, zijn A en B onafhankelijk. Zijn de verschillen toevallig of niet? Significantietest! 5.4 Toepassingen van kansregels Gebeurtenissen die zeer toevallig lijken, moeten gesitueerd worden in de context van alle (en vele) mogelijke coïncidenties. Gebeurtenissen die uitzonderlijk zijn op het niveau van één persoon kunnen frequent voorkomen bij een groot aantal personen. Wet van de grote aantallen: indien iets kan optreden bij een zeer groot aantal gelegenheden, dan zal het optreden - ook al is de kans om op te treden klein bij een afzonderlijke gelegenheid. In de praktijk is het niet altijd duidelijk of uitkomsten dezelfde kans hebben of dat gebeurtenissen onafhankelijk zijn. De oplossing: Probabiliteitsmodel: specifieert de mogelijke uitkomsten van een steekproefruimte en de veronderstellingen die gebruikt worden bij de kansberekening voor de gebeurtenissen die gedefinieerd worden op die steekproefruimte. Dit is een benadering van de realiteit. Sensitiviteit P(POS|S) en specificiteit P(NEG|Sc) verwijzen naar correcte resultaten gegeven de actuele toestand. De kans op een correcte positieve test wordt sterk mede bepaald door de prevalentie: bij lage prevalentie is er een kleinere kans op een correcte positieve test. Prevalentie: proportie of % van een bepaald aandeel in de bevolking waarbij een aandoening voorkomt. Incidentie: aantal nieuwe gevallen. Kansen kunnen geschat worden d.m.v. simulatie, wanneer kansen moeilijk te bepalen zijn met logisch redeneren: het herhaaldelijk nabootsen van de reële situatie en de resultaten evalueren. De conditie is telkens de werkelijke status: je conditioneert op de werkelijke status. 5.5 Appendix hoofdstuk 5 Combinatieleer: gegeven een verzameling n elementen, hoeveel groepjes of uitdrukkingen kunnen we maken uit deze verzameling die voldoen aan bepaalde voorwaarden? Voorwaarde 1: alle n elementen of k elementen met k < n Voorwaarde 2: volgorde Machten: Lengte van de rij = aantal elementen in de rij = n Aantal mogelijke waarden van elk rij-element = N Totaal aantal rijen met lengte n: Nn Permutaties: herschikking van n elementen alle elementen worden gebruikt en de herschikkingen verschillen in de volgorde. n! = n (n-1) (n-2) … 3x2x1. 0! = 1. n! = n (n-1)! = n(n-1)(n-2)! Variaties: een variatie van k elementen uit n is elke rij (volgorde speelt) van k verschillende elementen uit een verzameling van n verschillende elementen. (n)k = n (n - 1) … (n – k + 1) = n! / (n – k)! n! = n (n - 1) … [ (n-(k-1) ] (n-k) [ n-(k+1) ]…1 = (n)k (n-k)! Bij selectie van het k-de element: n – (k – 1) mogelijkheden. Gelijkenissen met permutaties, maar: De vermenigvuldiging wordt vroeger afgebroken: als het k-de element aan de groep is toegevoegd dan nog n-k elementen over die bij de permutaties worden vermenigvuldigd. Combinaties: elke verzameling van k elementen getrokken uit n verschillende elementen. Verschil met variaties is dat de volgorde niet uitmaakt. Aantal combinaties van k uit n: variaties van k uit n gedeeld door het aantal permutaties van k. Binomiaalgetal: = (1 / k!) * (n)k (of nk / k!) = n! / k! (n - k)!