Samenvatting 2

advertisement
Sociale statistiek
Hoofdstuk 1)







Statistiek is de kunst en de wetenschap van het ontwerpen van onderzoek en het
analyseren van de informatie die dit onderzoek verschaft. Het ultieme doel is het
vertalen van data naar kennis, inzicht en het begrijpen van de wereld om ons heen.
Data is alle informatie die we verschaffen uit experimenten en surveys: kenmerken die
we bij onze onderzoekselementen/eenheden registreren (meten).
Doelstelling: 1) de kwaliteit van statistische toepassingen kunnen beoordelen en 2) op
basis van beschikbare data antwoorden formuleren op onderzoeksvragen in
verschillende sectoren (inzicht verkrijgen in de variabiliteit).
1.1 Analyse van data
Waarom wordt statistiek gebruikt?
Een statistisch probleem oplossen bestaat uit: 1) formuleer een statistische vraag, 2)
verzamel data, 3) analyseer de data en 4) interpreteer de resultaten.
 Ontwerp: planning/werkwijze van hoe data te verkrijgen die efficiënt licht laten
schijnen op het probleem
 Beschrijven (beschrijvende statistiek): (methoden van) onderzoeken en samenvatten
van patronen in data, m.a.w. de ruwe data structureren en overzichtelijk en synthetisch
weergeven in bijv. een grafiek of tabel, of in karakteristieke cijfers als gemiddelden en
percentages. Grafische en numerieke samenvattingen worden meestal gecombineerd.
 Het doel is om de data te reduceren tot simpele samenvattingen zonder dat er
data vervormd wordt of teveel verloren gaat.
 Veralgemenen (inferentiële of inductieve statistiek): infer = tot een beslissing of
voorspelling komen door te redeneren vanuit bestaand bewijs. Inference = (methoden
voor) beslissingen of voorspellingen (voor grotere groepen dan in de case zelf) maken op
basis van de data. Inference helpt je daarnaast te beslissen of waargenomen patronen
enige betekenis hebben.
 De kanstheorie (probabiliteit) is erg belangrijk voor inductieve statistiek: een
kader voor het berekenen van hoe groot de kans is dat een gebeurtenis zich
realiseert.
1.2 Inzicht verwerven in populaties door gebruik te maken van steekproeven
Variabele verwijst naar het gemeten kenmerk, deze varieert.
Onderzoekselementen (eenheden, subjecten) zijn onderdelen van de realiteit waarop het
onderzoek betrekking heeft en waarbij de kenmerken worden gemeten.
 Dit kunnen personen zijn, maar ook voorwerpen, gebeurtenissen of collectiviteiten.
De populatie is de verzameling van alle onderzoekselementen (afgebakend in de te
onderzoeken kenmerken, tijd en ruimte), bij een steekproef neem je een
deelverzameling daarvan. Doordat je elk element een gelijke kans geeft, is de uitkomst
van de steekproef – op toevalsfouten na – gelijk aan de populatie.
 Is er data van een gehele populatie bekend, is de inductieve statistiek overbodig; een
beschrijvende statistische analyse kan men dan nog wel uitvoeren.
 De relatieve grootte van een steekproef (t.o.v. de populatie) is veel minder belangrijk
dan de absolute grootte.





Inductieve statistiek doet uitspraken over de populatie, beschrijvende statistiek
over de data van de steekproef.
Het is belangrijk verschil te maken tussen de steekproefwaarde (statistiek) en de
populatiewaarde: parameter, een numerieke samenvatting van de populatie. Vaak wordt
de parameter m.b.v. de (steekproef) statistiek geschat.
Een steekproef is representatief wanneer ieder subject van die populatie dezelfde kans
heeft om in de steekproef terecht te komen, of algemener: de selectie van de elementen
op toevalsbasis gebeurt: toevalssteekproef. Ook bij het experiment zelf worden de
experimentele en controlegroep op basis van toeval samengesteld en zo zijn ook de
verschillen tussen de twee groepen enkel gebaseerd op toeval.
Door de variabiliteit levert het meten van een kenmerk verschillende waarden op.
Doordat mensen van elkaar verschillen, doen steekproeven dat ook. Wil je inzicht krijgen
in de variabiliteit, dan is het van belang een zo groot mogelijke steekproef te houden: des
te nauwkeuriger.
 Wanneer er een constante is, is er geen variabiliteit en dus geen steekproef nodig.
 Elke steekproef kent een andere parameter, omdat 1) de eenheden binnen een
steekproef van elkaar verschillen en 2) je in verschillende steekproeven andere
eenheden hebt.
 De grootte van de variabiliteit tussen de steekproeven is berekenbaar.
1.3 Rol van de computer in de statistiek
Datafile: in een bepaalde software gedefinieerde datamatrix
 Datamatrix: geordend aantal codes in een stel rijen en kolommen
 Code: waarde van het kenmerk weergegeven door een getal, bijv. 0 en 1
 Coderen: het volgens bepaalde afspraken toekennen van codes aan waarden
 Rij: alle waarden gemeten bij één eenheid, van links naar rechts
 Kolom: alle waarden gemeten voor één kenmerk bij alle eenheden
Database: gearchiveerde en gedocumenteerde verzameling van datafiles
Hoofdstuk 2)Exploreren van data




Beschrijven van data:
 Tabel en grafieken
 Karakteristieke cijfers (numerieke samenvatting)
2.1 Datatypes
Het meten van kenmerken of variabelen: geobserveerde eigenschappen bij de elementen
van het onderzoek. Meten: observeren, vaststellen… Variabelen: elementen variëren
m.b.t. een kenmerk. Het doel van onderzoek is inzicht te krijgen in deze variabiliteit.
Variabiliteit is het tegenovergestelde van een constante.
Definitie van meten: het toepassen van een meetprocedure (wijze waarop) bij een
onderzoekselement met als resultaat een waarde van het kenmerk. Meten verwijst naar
kenmerk, waarden en meetprocedures.
 kwantiteit: uitdrukken van een hoeveelheid van een kenmerk in een bepaalde eenheid
 ordening: meten van een houding (voor/tegen)
 verschijningsvorm: vaststellen modaliteit
Classificatie van variabelen gebeurt op basis van de omvang en aard (meetniveaus van
de variabelen) van de uitkomstenverzameling.





Je hebt drie soorten variabelen en meetniveaus:
 nominale kenmerken:
.0categorieën of waarden zijn modaliteiten.
 het meten is het classificeren of benoemen en gebeurt op een laag meetniveau.
 het verschil in waarden is geen kwantitatief maar kwalitatief verschil.
 je kunt alleen uitspraken doen over het al of niet gelijk zijn en de
uitkomstenverzameling is eindig (exhaustief, compleet en exclusief).
 ordinale kenmerken: ordeningscriterium.
 elementen van de uitkomstenverzameling kunnen geordend worden.
 ordinale kenmerken hebben rangkenmerken.
 verschil wordt uitgedrukt in termen van meer of minder.
 door het classificeren én ordenen is het meetniveau hoger.
 Nominale en ordinale variabelen samen heten categorische variabelen: ze behoren
tot een bepaalde categorie.
 kwantitatieve of metrische kenmerken: aantal van een vaste meeteenheid, observaties
nemen numerieke waardes aan die verschillende grootten van de waarde voorstellen.
 verschil wordt uitgedrukt in hoeveel meer of minder.
 meetresultaten hebben een hoger informatiegehalte.
 onderscheid tussen discreet (mogelijke waarden vormen een verzameling van
afzonderlijke cijfers, telbaar en eindig aantal waarden) en continu (voor elke twee
waarden is er een tussenliggende mogelijk, oneindig aantal waarden).
Coderen: waarden noteren d.m.v. cijfers en codes. Een code is een symbolische
voorstelling van de meetwaarde. Bij meten ken je volgens regels codes toe aan de
eenheden. Een waarde én het element van die waarde: code.
 Nominale kenmerken: om het even welk symbool. Kent een eis van identiteit: gelijke
code is gelijke modaliteit. Hiermee kun je geen wiskundige bewerkingen doen.
 Ordinale kenmerken: codes zijn uitdrukking van een ordeningscriterium, het best
cijfers. Hiermee kun je identificeren en ordenen. Je hebt geen vaste meeteenheid: ze
verschillen niet in termen van bepaalde hoeveelheid. Geen wiskundige bewerkingen.
 Kwantitatieve kenmerken: codes zijn getallen met een numerieke betekenis. Het zijn
de meetresultaten, waarmee je het verschil kunt uitdrukken in hoeveelheden en ook
wiskundige berekeningen mee kunt maken.
Het informatiegehalte van de codes verschilt per meetniveau. De bewerkingen moeten
het informatiegehalte van de codes respecteren. Belangrijk: data-analyse is afhankelijk
van het type data. Wat kan op een laag meetniveau kan ook op een hoger meetniveau,
maar wat specifiek is voor een hoger niveau kan NIET lager!
Een frequentietabel is een lijst van de verschillende waardes van een variabele met
daarbij de vermelding van het aantal eenheden (frequentie) en de relatieve frequentie.
Het geeft een beschrijving van de distributie oftewel verdeling. Relatieve frequenties:
 Proportie: aantal eenheden in een categorie gedeeld door het totale aantal eenheden
in de tabel, met som 1. (p)
 Percentage: proportie maal 100, met som 100. (f’)
Voor categorische variabelen is de categorie met de hoogste frequentie de modale
categorie, voor kwantitatieve variabelen is de waarde die het vaakst voorkomt de
modus. Het kan nodig zijn om bij kwantitatieve variabelen de mogelijke waarden te
groeperen.









Wiskundige regels: de modaliteiten of waarden (categorieën) van een variabele: 1,2, …
m. Het totale aantal waarden is dus m. f i is de absolute frequentie van de waarde met
code i, wanneer i (1,2, … m). {f0, f1, … fm} is de absolute frequentieverdeling van een
variabele. De totale absolute frequentie is gelijk aan het totale aantal elementen en dus
ook gelijk aan de som van de klassenfrequenties. We stellen deze voor door n: n= f0 +f1 +
… + fm =
2.2 Beschrijving van data door middel van grafieken
Grafieken geven een samenvatting van de informatie of zijn een snelle communicatie van
de informatie in de tabel. De perceptie van de voorstelling is reële informatie. Het
informatiegehalte is niet te groot en niet te klein.
Er zijn twee verschillende soorten grafieken voor categorische variabelen (je kunt ze
echter ook voor kwantitatieve variabelen gebruiken, mits niet teveel waarden):
 Taartdiagram: je verdeelt de cirkel in stukken, met elke categorie: 360 x proportie.
 Staafdiagram: de verticale staaf is voor de categorieën en de hoogte geeft de
frequenties of percentages weer. Deze is meer precies dan een taartdiagram, omdat
het makkelijker is de categorieën te vergelijken.
 Pareto diagram: wanneer de categorieën geordend zijn naar frequentie, van hoog
naar laag. Dit helpt bij het Paretoprincipe: een kleine deelgroep van de categorieën
bevat het grootste gedeelte van de waarnemingen.
Er zijn drie verschillende soorten grafieken voor kwantitatieve variabelen:
 Dot plot (puntgrafiek): elke observatie krijgt een punt boven de waarde van het
kenmerk. Je trekt een horizontale lijn, benoemt de naam van het kenmerk en duidt de
waarden van het kenmerk aan. Daarna krijgt elke observatie een punt.
 Stamgram (stem-and-leaf plot): je stelt de waarde van elke observatie voor door een
stam (alle cijfers van de waarde behalve de laatste) en een blad. Je splitst de waarde
dus op, schrijft de stam in een verticale kolom van klein naar groot en schrijft en
ordent (ook van klein naar groot) het blad in de rij met de juiste stam.
 Je geeft alle mogelijke stammen weer, ook als er geen observaties met die waarde
zijn!
 Histogram: grafiek waarbij staafjes worden gebruikt om de (relatieve) frequenties van
de waarden van het kwantitatieve kenmerk voor te stellen. Je deelt de waarden in in
klassen van gelijke breedte, telt het aantal observaties in elke klasse, de horizontale as
vormt de waarden of eindpunten van de klassen en per klasse krijg je een staaf met de
hoogte van de frequentie. Bij een discrete variabele met niet al te veel mogelijke
waarden kun je ook de eigenlijke waarde per klasse nemen. Het klassemidden is het
gemiddelde van de halve som van de uitgedrukte klassegrenzen.
Histogram wordt gebruikt voor kwantitatieve variabelen, staafdiagram voor categorisch.
Dot plots en stamgrammen worden gebruikt voor kleine datasets en behouden de
waarden. Histogrammen worden gebruikt voor grotere datasets, zijn compacter en zijn
flexibel om een interval mee te bepalen (i.t.t. de stam van een stamgram).
De verdeling (waarden van de variabele met de frequentie) kent een algemeen patroon
met het centrum, de spreiding en de vorm.
Symmetrische distributie: de linker- en rechterkant kunnen gespiegeld worden rond de
centrale as. Bij een scheve (skewed) distributie links is de linkerstaart langer dan de
rechter, bij een scheve distributie rechts is de rechterstaart langer dan de linker.
Data met één ophoping (modus) zijn unimodaal, met twee bimodaal.











Tijdsgrafieken (time plots): grafische weergave van een tijdreeks. Dit zijn opeenvolgende
metingen van dezelfde variabele op geregelde tijdstippen. Op de x-as zet je de
tijdsvariabele, op de y-as de waarde van het gemeten kenmerk. De trend is het algemene
patroon in de data: stijging, daling etc. Je kunt hiervoor ook een staafdiagram gebruiken.
2.3 Beschrijving van data door middel van een centrummaat
De centrummaat is een maat van centrale tendens en geeft een numerieke samenvatting:
door middel van een centraal gelegen waarde die als een representatieve waarde wordt
beschouwd.
Modus: de waarde van het kenmerk met de hoogste frequentie, ook wel modale klasse
genoemd en deze is te gebruiken voor elk meetniveau. De modus hoeft niet bij het
centrum van de verdeling te liggen. Bij kwantitatieve variabelen is de modus het best te
gebruiken bij discrete variabelen die slechts enkele waarden kunnen aannemen.
Mediaan: de middelste waarde van de observaties, wanneer ze geordend zijn van klein
naar groot of groot naar klein – ongeacht welke waarden erboven of onder liggen. De
mediaan is te bepalen bij ordinale gegevens, precieze gemiddelde is niet te berekenen.
 Bij een frequentietabel: de mediaan pakken van het totaal aantal observaties en
kijken in welke categorie deze waarde valt ((1+n)/2).
Gemiddelde: de som van de waarden die gemeten werden bij de onderzoekselementen,
gedeeld door het aantal onderzoekselementen; het balanceerpunt van de verdeling.
(zie slide voor verschillende berekeningen van het gemiddelde)
Eigenschappen van het gemiddelde:
 het evenwichtspunt van de data: steunpunt (fulcrum) plaatsen op de waarde van het
gemiddelde, dan is de balans in evenwicht.
 bij een scheve verdeling wordt het gemiddelde in de richting geduwd van de lange
staart.
 gevoelig voor extreem hoge of lage waarden: outliers.
 enkel te berekenen voor kwantitatieve variabelen.
 bij een frequentietabel: elke mogelijke waarde maal de frequentie daarvan en dat
optellen, om vervolgens te delen door n.
Wiskundige regels: sommeren tot n  alle waarden afzonderlijk. Sommeren met m 
de waarden maal de frequentie (fi * xi). Bij pi * xi valt de 1/n weg, omdat deze al bij de
proportie inbegrepen zit. Fi * mi: frequentie maal klassenmidden.
(zie slide voor het gemiddelde van getransformeerde variabelen)
De vorm van de verdeling bepaalt of het gemiddelde groter of kleiner is dan de mediaan:
 symmetrische verdeling: gemiddelde = mediaan
 scheve verdeling: gemiddelde situeert zich verder in de lange staart dan de mediaan.
 Bij een scheve verdeling is de mediaan een betere vertegenwoordiger v.d. verdeling.
Het gemiddelde wordt meer beïnvloed door extreme waarden dan de mediaan: hoe ver
een extreme waarde zich van het midden bevindt maakt niets uit voor de mediaan.
 een mediaan is resistent voor outliers: de waarde wordt niet/minder beïnvloed door
extreme waarden en is daardoor beter geschikt bij scheve verdelingen.
2.4 Beschrijving van spreiding bij kwantitatieve data
Evaluatie van de spreiding rond de centrale waarde.
Range: de numerieke uitdrukking van de spreiding.
 verschil tussen de hoogste en laagste waarde, gebruikt slechts deze twee extremen.
 niet resistent: zeer gevoelig voor outliers (1) en negeert de overige data (2).









De standaarddeviatie gebruikt alle waarden en is een samenvatting van de
deviatiescores: de positieve en negatieve afwijkingen van het gemiddelde (x - x̅ ).
 Aangezien het gemiddelde het balanspunt is, wegen de positieve en negatieve
afwijkingen tegen elkaar op. De som van de deviaties is dus altijd 0.
(zie slide voor hoe de som van alle deviatiescores gelijk is aan 0)
 Het gemiddelde van de gekwadrateerde afwijkingen heet de variantie. De
vierkantswortel hiervan heet de standaarddeviatie: de ‘gemiddelde’ afstand van een
variabele tot het gemiddelde.
 s is 0 wanneer elke observatie dezelfde waarde heeft.
 s is niet resistent; outliers hebben grote gekwadrateerde afwijkingen.
 De kwadratensom: ∑(x - x̅ )².
(zie slide voor de variantie en standaarddeviatie gecombineerd met het boek)
Hoe groter de standaarddeviatie, hoe groter de variabiliteit van de data.
Er wordt gedeeld door n-1 omdat er slechts n-1 informatie-elementen zijn die kunnen
variëren, oftewel niet overbodige informatie is. n-1 informatie-elementen bepalen het
laatste element. Dit komt omdat de som van de deviatiescores 0 is.
Werkwijze: 1) bereken het gemiddelde. 2) bepaal de afwijking van elke waarde van het
gemiddelde. 3) kwadrateer de afwijking. 4) maak de som van de gekwadrateerde
afwijkingen. 5) deel door n-1.
(zie slides voor de variantie van een getransformeerde variabele)
De empirische regel die ons een interpretatie van de grootte van s geeft:
 Indien een variabele klokvormig (bell shaped) is, dan zal bij benadering:
 68% van de observaties tussen x̅ - s en x̅ + s vallen (één standaarddeviatie)
 95% van de observaties tussen x̅ - 2s en x̅ + 2s vallen (twee standaarddeviaties)
 (bijna) alle observaties tussen x̅ - 3s en x̅ + 3s vallen (drie standaarddeviaties)
 Deze regel kan toegepast worden wanneer het gemiddelde en de mediaan ongeveer
even groot zijn.
Wanneer de grootste observatie minder dan een standaarddeviatie boven het
gemiddelde ligt, is het een scheve verdeling naar links. Wanneer de kleinste observatie
minder dan een standaarddeviatie onder het gemiddelde ligt, is het eentje naar rechts.
x̅ en s verwijzen naar de berekende waarde op basis van de steekproef, bij de
populatieparameter:
 µ is het populatiegemiddelde (gemiddelde op basis van alle eenheden in de populatie).
 σ is de populatiestandaarddeviatie (spreiding van alle populatieobservaties rond het
populatiegemiddelde)
 Deze twee zijn meestal ongekend.
Beschrijving van de spreiding bij een categorische variabele
Bij minimale spreiding is elke observatie gelijk aan de andere (dus allen in dezelfde
categorie), bij maximale spreiding realiseren we de maximaal mogelijke verschillen
tussen observaties.
Index van kwalitatieve variatie (IKV):
 totaal aantal gerealiseerde verschillen delen door het aantal maximaal mogelijke
verschillen
 hoe dichter bij 1 hoe meer spreiding, hoe dichter bij 0 hoe minder spreiding.
 Berekening:
 Teller: het aantal geobserveerde verschillen; dus de frequentie van de ene








categorie vermenigvuldigen met de frequentie in de andere categorieën en deze
optellen. (bijv. bij waarden 20/30/10: 20*40 + 30*10)
 Noemer: maximaal mogelijke verschillen; je deelt door twee omdat a  b en b  a.
(bijv. 20/20/20: 20*40 + 20*20, IKV is dan 1100/1200 = 0.92)
(zie slide voor berekening van de noemer)
2.5 Maten van positie/ligging
De maten van ligging geven informatie over de spreiding in de verdeling:
 type 1: de waarde waarboven of waaronder een bepaald percentage van de
observaties valt (bijv. de mediaan).
 type 2: hoever ligt een observatie van een bepaald punt (bijv. het aantal standaardafwijkingen dat een observatie van het gemiddelde ligt).
Het p-de perciel van een variabele is de waarde waaronder er p procent van de eenheden
valt.
 Als p = 50, is dat 50% en dus de mediaan.
Nuttige percentielen zijn de kwartielen:
 Eerste kwartiel: p=25: Q1
 Derde kwartiel: p=75: Q3
 Bij het bepalen van de kwartielen wanneer n een oneven getal is, moet je de mediaan
na het bepalen ervan niet meer meetellen.
 De waarden geven info over de vorm: elk kwartiel kan zich uitstrekken over een
interval met een verschillende lengte, maar elk bevat 25% van de eenheden.
Maat van spreiding: interkwartielafstand (IQR). Dit is de afstand tussen het derde en
eerste kwartiel; Q3 – Q1. Oftewel: de range van de middelste helft.
 Deze afstand is meer resistent dan de range en SD, omdat deze niet beïnvloed wordt
door outliers. Daarom is dit beter te gebruiken bij hele scheve verdelingen of outliers.
Wanneer een observatie 1.5 keer de IQR onder Q1 valt of 1.5x de IQR boven Q3 is er
mogelijk sprake van een outlier
De kwartielen en de minimum- en maximumwaarde, ook wel de vijf getallen
samenvatting genoemd, geven een goed beeld van de verdeling. Deze getallen vormen de
basis van de boxplot, waarbij de doos de middelste 50% bevat, de lijn in de doos de
mediaan is en de whiskers de lijnen aan de randen van de boxplot die of de 1.5xIQR
omvatten of het minimum-maximum wanneer deze data geen outliers zijn (let op, lijnen
trekken tot data en niet tot de plek waar zich outliers voor kunnen doen!). Eventuele
outliers worden los getoond:
 Zo kunnen ze onderzocht worden.
 Ze geven toch niet veel informatie over de verdeling.
De boxplot en het histogram zijn complementaire grafische voorstellingen. Het
histogram is informatiever over de verdeling; het laat ophopingen en eventuele gaten in
de data beter zien. De boxplot is een betere samenvatting en kan gebruikt worden om de
scheefheid te beoordelen en om outliers te identificeren. Tevens kunnen we daarmee
groepen vergelijken (side-by-side box plot).
Een type 2 maat van ligging is de z-score, de transformatie van de geobserveerde
waarden: z = (waarde observatie – gemiddelde) / standaarddeviatie. De z-score is dus
ook wel een genormaliseerde of gestandaardiseerde waarde:
 het aantal SD’s dat een geobserveerde waarde van het gemiddelde verschilt of verwijderd is.
 positieve z-score: waarde ligt boven het gemiddelde. Bij negatief eronder.

 ook deze manier kan gebruikt worden om outliers te identificeren: in klokvormige
verdeling een z-score van 3.
 relatieve positie van een waarde in een verdeling
 positie van een waarde t.o.v. het gemiddelde in verhouding tot de gemiddelde
afwijking van het gemiddelde
2.6 Herkennen en vermijden van misbruik van grafische samenvattingen
Hoe een effectieve grafiek te maken:
 label beide assen en geef een kop die duidelijk maakt waar de grafiek over gaat.
 om ons te helpen de relatieve grootten te vergelijken, begint de y-as meestal met 0.
 wees voorzichtig met het gebruik van figuren i.p.v. staven of punten. De relatieve
percentages gaan dan gemakkelijk fout.
 het kan moeilijk zijn om meer dan één groep in een enkele grafiek goed weer te geven
wanneer de variabelen veel van elkaar verschillen. In dat geval kun je beter losse
grafieken gebruiken of relatieve grootten zoals proporties of percentages plotten.
Hoofdstuk 3) Samenhang: contingentie, correlatie en regressie







De verklarende of onafhankelijke variabele bepaalt de groepen die gebruikt worden bij
een vergelijking van de response variabele.
De response of afhankelijke variabele is de variabele waarvan de waarden worden
vergeleken en die bepaald worden (outcome variable) of verklaard worden door de
verklarende variabele.
 De variabelen kunnen ook allebei afhankelijk van elkaar zijn.
Een associatie of samenhang treedt op wanneer een bepaalde waarde voor de ene
variabele meer dan toevallig optreedt met bepaalde waardes van de andere variabele.
3.1 De samenhang tussen twee categorische variabelen
Er is een samenhang tussen twee variabelen wanneer een categorie van de ene variabele
meer dan toevallig optreedt met een bepaalde waarde van de andere variabele.
 Er zijn altijd twee variabelen; je bekijkt de verdeling van de ene variabele binnen de
categorieën van de andere.
Een kruistabel is een voorstelling van twee of meer categorische variabelen.
 De rijen worden bepaald door de categorieën van de ene variabele, de kolommen door
die van de andere variabele.
 Een cel is de combinatie van een categorie van de ene variabele met een categorie van
de andere variabele. De frequentie van de combinatie is de celfrequentie.
 Marginale verdeling: sommeren over de categorieën van een kenmerk: rij- en kolomtotalen. Van een kruistabel kun je naar een marginale verdeling, andersom niet.
(zie slide voor de kruistabel uitgedrukt in sommen)
Conditionele proporties zijn proporties die berekend worden binnen de categorieën
(condities, dus afhankelijk) van de andere variabele. Het totaal van een rij is altijd 1,0.
 Rijpercentages worden berekend op het totaal van de rij.
 Kolompercentages worden berekend op het totaal van de kolom.
 Belangrijk: bij horizontaal berekenen, vergelijk je verticaal en andersom.
 In een tabel geeft n het totaal van waarop de proporties in die rij zijn gebaseerd.
 Marginale proportie: de proporties gevonden in de marges van de tabel.
Er is sprake van samenhang wanneer de conditionele proporties van elkaar verschillen.
Anders zijn beide kenmerken onafhankelijk.
 Let op: zijn de verschillen toevallig? Inductieve statistiek: significantietest.
 De sterkte van de samenhang wordt uitgedrukt d.m.v het verschil in rij- of kolompercentage. Procentpunten: verschil tussen de conditionele percentages.






3.2 De samenhang tussen twee kwantitatieve variabelen
Een spreidingsdiagram/scatterplot is een grafische voorstelling voor twee kwantitatieve
variabelen die de x-as voor de verklarende variabele x gebruikt en de y-as voor de
response variabele y. De waarden worden weergegeven met een punt en het aantal
punten is gelijk aan het aantal eenheden.
Twee kwantitatieve variabelen hangen…
 positief samen wanneer:
 hoge waarden van x optreden met hoge waarden van y
 lage waarden van x optreden met lage waarden van y
 negatief samen wanneer:
 hoge waarden van x optreden met lage waarden van y
 lage waarden van x optreden met hoge waarden van y
De covariantie drukt uit in welke mate twee kwantitatieve kenmerken gezamenlijk
variëren (samenhangen).
 Het samen optreden van afwijkingen t.o.v. het gemiddelde = het samen optreden van
deviatiescores.
(zie slides voor formule van de covariantie)
 Er wordt geen onderscheid gemaakt tussen de verklarende en response variabele.
 Teken (+/-) van de covariantie geeft informatie over de richting.
 De absolute waarde is weinig informatief: het hangt af van de meeteenheid en je hebt
geen vaste onder- of bovengrens. De covariantie is symmetrisch.
 De covariantie is een correlatie met gestandaardiseerde waarden.
De correlatiecoëfficient (r) is een numerieke samenvatting van de richting en de sterkte
van een lineaire samenhang tussen twee kwantitatieve variabelen.
 ‘r’ situeert zich in het interval [-1;1].
 Bij positieve waarden heb je positieve samenhang, bij negatief andersom.
 Hoe dichter de waarden liggen bij -1 of 1, hoe sterker de samenhang. Bij 0 geen.
 Er is geen onderscheid tussen de (on)afhankelijke variabele. De waarde hangt niet af
van de meeteenheid, maar is wel gevoelig voor extreme waarden.
 LET OP: parabolen en hyperbolen vertonen ook samenhang, maar níét lineair!
(zie slide voor de berekening van de correlatie)
De correlatie berekenen: 1/(n-1) * ∑zxzy. Je kunt een scatterplot opdelen in vier gelijke
kwadranten, waarbij de punten rechtsboven en linksonder op positieve samenhang
wijzen: de z-scores zullen positief uitvallen.
3.3 De waarde van de response variabele voorspellen
De regressielijn is een rechte lijn die beschrijft welke verandering er optreedt in de
afhankelijke variabele y wanneer de onafhankelijke variabele x verandert,
oftewel: voorspelt de waarde van y op basis van een lineaire functie van x.
 ŷ = a + bx; de vergelijking van een rechte waarbij y^ de voorspelde waarde is.
 Lineair verband: per eenheidswijziging in x een constante verandering in y.
 b is de slope: richtingscoëfficiënt, wijziging in y per eenheidswijziging in x.
 a is de intercept: de waarde van y als x gelijk is aan nul.








De slope is een lineaire functie.
 negatieve slope: daling van de voorspelde waarden als x stijgt; negatief verband.
 positieve slope: stijging van de voorspelde waarden als x stijgt.
 slope is nul: dan krijg je een horizontale lijn en is er geen samenhang.
 Slopes kun je niet zomaar onderling vergelijken: let op de betekenis van de
eenheidswijziging in x! Het effect daarvan kan klein zijn, let op de volledige wijziging!
Voor een waarde van x observeren we verschillende waarden van y: er is variabiliteit. De
voorspelde waarde van y is dus niet altijd gelijk aan de geobserveerde waarde van y.
 De verticale afstand tussen yi - ŷ is e,i. Deze afstand is een residuele waarde.
 Het geeft de verdeling van y weer, gegeven een conditionele waarde van x.
 Je hebt negatieve en positieve residuele waarden.
Je kunt de rechte bepalen d.m.v. de kleinste kwadratenmethode.
 Rechte zodanig bepalen dat de voorspellingsfouten geminimaliseerd worden.
 Positieve en negatieve residuele waarden neutraliseren elkaar: de som van de
residuele waarden is 0. Je moet dus werken met gekwadrateerde residuelen.
 De som van de gekwadrateerde residuelen kan gebruikt worden om de voorspellingsfouten te evalueren.
 Σ(residuals)² = Σ(y-ŷ)².
De slope: b = r(sy/sx). De intercept: a = ‾y – b(‾x).
 De regressielijn gaat steeds door (‾x, ‾y).
 Met de GR: 1) Stat: EDIT 2) x in L1, y in L2 3) Stat: CALC; optie 8 4) L1,L2.
Een vergelijking tussen de slope en de correlatie:
 De slope is geen uitdrukking van de sterkte van samenhang.
 De waarde is afhankelijk van de meeteenheid van de variabele: een andere
meeteenheid resulteert in een andere slope.
 Er wordt een onderscheid gemaakt tussen de verklarende en response variabele.
 Op basis van de regressievergelijking kunnen we de afhankelijke variabele
voorspellen gegeven de waarde van de onafhankelijke variabele.
 Er is geen boven- of ondergrens.
 De correlatie beschrijft de sterkte van de lineaire associatie tussen twee kwantitatieve
kenmerken.
 Deze verandert niet wanneer de meeteenheid verandert.
 Er wordt geen onderscheid gemaakt tussen de (on)afhankelijke variabele.
 De correlatie ligt altijd in het interval [-1,1].
De correlatie en slope hebben hetzelfde teken (positief, negatief, 0). Ze zijn allebei
geschikt om te gebruiken bij lineaire samenhang.
3.4 Waarschuwingen bij het analyseren van associaties
Extrapoleren is gevaarlijk: het gebruik van de regressielijn om y te voorspellen voor x
waarden die niet geobserveerd werden.
 Risico of onzekerheid bij de voorspelling neemt toe naarmate men zich verder buiten
de range van x bevindt.
Wees voorzichtig met invloedrijke uitbijters:
 Met een spreidingsdiagram kan men 'ongewone' observaties op het spoor komen.
 Regressie uitbijter: observatie die duidelijk afwijkt van de trend in de data.
 Dit hoeft niet noodzakelijk een uitzonderlijke x of y te zijn!
 Invloedrijke observatie: sterk effect op het resultaat van de regressie-analyse.




 De observatie heeft een relatief hoge of lage x-waarde.
 De observatie is een regressie uitbijter.
Correlatie/covariantie betekent niet noodzakelijk oorzakelijkheid: samen variëren
betekent niet dat de wijziging in de ene variabele oorzaak is van de wijziging in de
andere variabele.
 Latente (lurking) variabele: niet geobserveerde variabele die de samenhang
tussen variabelen beïnvloedt.
 Dus: samenhang impliceert geen oorzakelijkheid.
 Simpson's paradox: de richting van de samenhang tussen twee variabelen
verandert na het toevoegen van een derde variabele en het berekenen van de
associatie binnen de categorieën van die derde variabele.
 Conditionele relaties zijn verschillend van associatie in de marginale tabel.
Een latente variabele kan op de verklarende en response variabele een invloed
hebben: common cause.
Het is moeilijk om het effect van een enkele variabele op een andere variabele te
bestuderen, omdat een verschijnsel vaak meerdere verklaringen heeft.
Confounding treedt op wanneer twee variabelen allebei geassocieerd zijn met een
response variabele, maar zij ook geassocieerd met elkaar zijn.
Hoofdstuk 5) Probabiliteit in het dagelijks leven







De kanstheorie is het kwantificeren van onzekerheid.
 Er zijn regels om kansen te bepalen van mogelijke uitkomsten van toevalsprocessen.
 Je kunt ook kansen schatten op basis van intuïtie.
5.1 Hoe kunnen kansen toeval kwantificeren?
Bij toevalsselectie geldt:
 De mogelijke uitkomsten zijn gekend, maar niet welke waarde je krijgt bij één proef.
 bij kleine aantallen: verschillen zijn mogelijk.
 bij grote aantallen: de uitkomsten stabiliseren (‘long-run proportion’) en wordt gelijk
aan de proportie in de populatie: basiskans.
De cumulatieve proportie bepalen na elke poging: aantal successen/aantal pogingen.
De wet van de grote aantallen: als het aantal pogingen/experimenten toeneemt, dan
benadert – in de long-run – de proportie van optreden van een bepaalde gebeurtenis een
bepaalde waarde (Jacob Bernoulli).
Bij een toevalsexperiment is de kans op een bepaald resultaat gelijk aan de proportie van
het aantal keer dat dit resultaat bekomen wordt bij een long-run experiment.
 LET OP! Bij een normale steekproef krijg je een schatting van de populatieproportie,
slechts bij een hele grote steekproef kun je spreken van een echte populatieproportie.
 De kans neemt een waarde aan tussen 0 en 1, soms worden percentages gebruikt.
Verschillende experimenten zijn onafhankelijk wanneer het resultaat van om het even
welk experiment niet bepaald wordt door het resultaat van een ander experiment.
We kunnen de probabiliteit bepalen door theoretische berekeningen op basis van
veronderstellingen van het toevalsexperiment. Verschillende types:
 relatieve frequentie: proportie van een uitkomst bij een groot aantal herhalingen.
subjectieve definitie van probabiliteit: persoonlijke beoordeling dat de uitkomst zal
optreden gegeven de beschikbare informatie (Bayesiaanse statistiek).
5.2 Hoe kunnen we probabiliteit bepalen?













Probabiliteit laat toe om onzekerheid bij resultaten van experimenten te kwantificeren.
Steekproefruimte/universum: de verzameling van alle mogelijke uitkomsten bij een
toevalsexperiment.
 Dit kan uitgebeeld worden met een boomdiagram voor weinig uitkomsten.
Gebeurtenis: elke deelverzameling van de steekproefruimte.
 Elementaire gebeurtenis: één enkele gebeurtenis van de steekproefruimte.
 Eén kans afzonderlijk ligt tussen 0 en 1; het totaal van kansen is gelijk aan 1.
 De kans op gebeurtenis A, P(A), wordt verkregen door de som van de kansen van de
afzonderlijke uitkomsten van de gebeurtenis. Wanneer deze allemaal een gelijke kans
hebben om op te treden, dan P(A): aantal uitkomsten in gebeurtenis A / uitkomsten
in de steekproefruimte.
Je hebt niet altijd gelijke kansen van uitkomsten, in dat geval kun je kansen schatten op
basis van grote steekproeven.
Sommige gebeurtenissen worden uitgedrukt op basis van gebeurtenissen die:
 niet horen tot een andere gebeurtenis; complementaire gebeurtenis
 behoren tot een gebeurtenis OF een andere gebeurtenis; unie van gebeurtenissen
 behoren tot een gebeurtenis EN een andere gebeurtenis; doorsnee van gebeurtenissen
Het complement van gebeurtenis A: alle uitkomsten in de steekproefruimte die niet tot A
behoren: AC (niet A).
 P(A) + P(AC) = 1; P(AC) = 1 – P(A).
 Handig bij bijvoorbeeld het bepalen van de kans dat ten minste één gebeurtenis zal
optreden: 1 – de kans dat er helemaal geen gebeurtenis zal optreden.
Disjuncte gebeurtenis (wederzijds exclusief): wanneer twee gebeurtenissen A en B geen
uitkomsten gemeenschappelijk hebben.
De doorsnede van A en B is ook een gebeurtenis en bevat de gebeurtenissen die tot A en
B horen: A  B = A en B.
De unie van A en B is ook een gebeurtenis die bestaat uit de gebeurtenissen die tot A of B
of beide behoren: A  B = A of B.
 Dit is dus P(A) + P(B), maar dan wordt de doorsnede dubbel geteld.
 Optelregel: P(A of B) = P(A) + P(B) – P(A en B). Wanneer A en B disjunct zijn, dan is
P(A en B) = 0, dus kun je ze gerust optellen.
Uitwerking van de kans dat A en B beide optreden voor onafhankelijke gebeurtenissen:
het resultaat van de ene poging wordt niet beïnvloed door het resultaat van de andere
poging. De kans van een gebeurtenis wijzigt soms niet op basis van bijkomende
informatie: P(AB) = P(A) * P(B).
 LET OP De veronderstelling van onafhankelijkheid moet grondig geëvalueerd worden!
5.3 Voorwaardelijke kansen
Het bepalen van een kans op een gebeurtenis o.b.v. bijkomende relevante informatie kan
de kans wijzigen.
 Bijkomende informatie omschrijft een conditie (beperking van de steekproefruimte)
en er wordt enkel nog gewerkt met de uitkomsten die conform de conditie zijn.
De kans op gebeurtenis A gegeven dat B optreedt: P(A|B), de proportie van de eenheden
in de doorsnede op het totaal van de eenheden in gebeurtenis B.
De conditionele kans van gebeurtenis A gegeven dat gebeurtenis B zich heeft
gerealiseerd: P(A|B) = P(AB) / P(B).













De productregel voor P(A en B): P(AB) = P(A|B) * P(B).
(zie slides 41, 42, 43)
Bij trekken zonder terugleggen hangt de uitkomst af van de vorige uitkomst.
Wanneer A en B onafhankelijk zijn: P(A|B) = P(A) of P(B|A) = P(B).
 Dit impliceert dat P(A en B) = P(A)*P(B), want P(AB) / P(B) = P(A)  P(AB) = P(A)
* P(B).
Hoe kunnen we nagaan of A en B onafhankelijk zijn?
 Is P(A|B) = P(A)?
 Is P(B|A) = P(B)?
 Is P(A en B) = P(A)*P(B)?
 Als één van deze uitdrukkingen juist is, zijn A en B onafhankelijk.
 Zijn de verschillen toevallig of niet? Significantietest!
5.4 Toepassingen van kansregels
Gebeurtenissen die zeer toevallig lijken, moeten gesitueerd worden in de context van alle
(en vele) mogelijke coïncidenties.
Gebeurtenissen die uitzonderlijk zijn op het niveau van één persoon kunnen frequent
voorkomen bij een groot aantal personen.
Wet van de grote aantallen: indien iets kan optreden bij een zeer groot aantal
gelegenheden, dan zal het optreden - ook al is de kans om op te treden klein bij een
afzonderlijke gelegenheid.
In de praktijk is het niet altijd duidelijk of uitkomsten dezelfde kans hebben of dat
gebeurtenissen onafhankelijk zijn. De oplossing:
 Probabiliteitsmodel: specifieert de mogelijke uitkomsten van een steekproefruimte en
de veronderstellingen die gebruikt worden bij de kansberekening voor de gebeurtenissen die gedefinieerd worden op die steekproefruimte.
 Dit is een benadering van de realiteit.
Sensitiviteit P(POS|S) en specificiteit P(NEG|Sc) verwijzen naar correcte resultaten
gegeven de actuele toestand.
 De kans op een correcte positieve test wordt sterk mede bepaald door de prevalentie:
bij lage prevalentie is er een kleinere kans op een correcte positieve test.
 Prevalentie: proportie of % van een bepaald aandeel in de bevolking waarbij een
aandoening voorkomt.
 Incidentie: aantal nieuwe gevallen.
Kansen kunnen geschat worden d.m.v. simulatie, wanneer kansen moeilijk te bepalen
zijn met logisch redeneren: het herhaaldelijk nabootsen van de reële situatie en de
resultaten evalueren.
De conditie is telkens de werkelijke status: je conditioneert op de werkelijke status.
5.5 Appendix hoofdstuk 5
Combinatieleer: gegeven een verzameling n elementen, hoeveel groepjes of
uitdrukkingen kunnen we maken uit deze verzameling die voldoen aan bepaalde
voorwaarden?
 Voorwaarde 1: alle n elementen of k elementen met k < n
 Voorwaarde 2: volgorde
Machten:
 Lengte van de rij = aantal elementen in de rij = n




 Aantal mogelijke waarden van elk rij-element = N
 Totaal aantal rijen met lengte n: Nn
Permutaties: herschikking van n elementen
 alle elementen worden gebruikt en de herschikkingen verschillen in de volgorde.
 n! = n (n-1) (n-2) … 3x2x1.
0! = 1.
n! = n (n-1)! = n(n-1)(n-2)!
Variaties: een variatie van k elementen uit n is elke rij (volgorde speelt) van k
verschillende elementen uit een verzameling van n verschillende elementen.
 (n)k = n (n - 1) … (n – k + 1) = n! / (n – k)!
 n! = n (n - 1) … [ (n-(k-1) ] (n-k) [ n-(k+1) ]…1 = (n)k (n-k)!
 Bij selectie van het k-de element: n – (k – 1) mogelijkheden.
Gelijkenissen met permutaties, maar:
 De vermenigvuldiging wordt vroeger afgebroken:
 als het k-de element aan de groep is toegevoegd
 dan nog n-k elementen over die bij de permutaties worden vermenigvuldigd.
Combinaties: elke verzameling van k elementen getrokken uit n verschillende elementen.
 Verschil met variaties is dat de volgorde niet uitmaakt.
 Aantal combinaties van k uit n: variaties van k uit n gedeeld door het aantal
permutaties van k.
 Binomiaalgetal:
= (1 / k!) * (n)k (of nk / k!) = n! / k! (n - k)!
Download