Beginselen van de Statistiek in de Kinesiologie

advertisement
Beginselen van de Statistiek in de
Kinesiologie
Prof. Dr. I. De Bourdeaudhuij
Theorie : auditorium
Oefeningen : SPSS pc klas UZ
Handboek :
Statistiek in de Praktijk
Davis Moore & George McCabe
2001
3e herziene uitgave / Theorieboek
Academic Service, Schoonhoven
Alles is te vinden op :
• http://allserv.rug.ac.be/~ibourd/index.htm
Inleiding
• Redeneren, nadenken, inzicht
<=>
• Berekenen, computer
• Link met praktijk : SPSS voor thesis
Wat is statistiek ?
• Wetenschap van
• verzamelen
• organiseren
• interpreteren
van data of gegevens
Doel van statistiek ?
• NIET
het berekenen op zich
• WEL
het verwerven van inzicht uit
getallen
Doel van deze cursus = BEGRIJPEN
Hoofdstuk 1
Kijken naar
gegevens & verdelingen
• Variabele = kenmerk van persoon of ding dat
in een getal kan worden uitgedrukt
• Waarde = getal voor die persoon of dat ding
• Hoeveel variabelen ? H1 = 1 variabele
• Typen variabelen
– Kwantitatieve variabelen (numeriek, bewerking)
– Kwalitatieve variabelen (categorie)
1.1. Weergeven van verdelingen
met grafieken
• Data beschrijven : exploratieve data-analyse
• Twee basistrategieën
– Eerst 1 variable dan verbanden
– Eerst grafisch dan numeriek
• H 1 : 1 variable , H2 : 2 variabelen
• Steeds eerst grafisch dan numeriek
A. Grafieken voor kwalitatieve
variabelen
• Kwalitatieve variabelen = categorie
Burg. staat
Nooit getrouwd
Getrouwd
Weduwe/weduwnaar
Gescheiden
Aantal (milj)
43.9
116.7
13.4
17.6
Percentage
22.9
60.9
7.0
9.2
Staafdiagram
140
120
100
80
60
40
20
0
1
Case Number
2
3
4
Taartdiagram
4
3
2
1
• Grafieken voor kwalitatieve variabelen
geven een goed overzicht, niet echt
noodzakelijk
• Grafieken voor kwantitatieve variabelen
leren ons duidelijk iets meer, data op zich
zeggen niet veel
B. Meting
• Verzameling getallen
168 158 149 169 175 185
192 167 185 184 168 184
• Welke variabele wordt gemeten ?
- goede methode / instrument ?
- verschillend per wetenschap
• NADENKEN over getallen
bv. dodelijke ongevallen
5000
60+ers
3000
18-20 jarigen
bv. werkloosheidscijfers
bv. mortaliteitscijfers
Verhoudingsgetallen !!!
C. Variatie
• Verschillende metingen van hetzelfde
fenomeen bij - 1 persoon
- verschillende personen
• In elke verzameling gegevens zekere variatie
• Variatiepatroon van een kwantitatieve
variabele = VERDELING
• In het midden van de verdeling : het
gemiddelde
• VERDELING = hoe vaak komt elke waarde
voor ? Grafische voorstelling
• DUS :
gemiddelde & verdeling
van variabelen zijn belangrijk
D. Stamdiagrammen
• Of « stam-en-blad » = « stem-and-leaf »
• Doel : vorm van de verdeling in beeld
• Voorbeeld : doelpunten per seizoen
21 13 8
19 14
26 12 24 9
14
STAM BLAD
0 |
89
1 |
23449
2 |
146
• Rug-aan-rug stamdiagram : 2 vergelijken
• stammen splitsen of afkappen
• niet geschikt voor grote groepen
• diagram op zijn kant zetten (scheefheid ?)
E. Onderzoeken van verdelingen
EIGENSCHAPPEN :
1. Centrum van de verdeling
= MEDIAAN
2. Een top of verschillende ?
= UNI MODAAL
3. Vorm van de verdeling
= SYMMETRISCH of SCHEEF
4. Afwijkingen van de algemene vorm
= HIATEN of UITBIJTERS
F. Histogrammen
• Aantal of percentage waarnemingen in elk
interval
• HOE ?
1. Verdeel in klassen van gelijke breedte
2. Aantal per klasse = frequenties
Frequentietabel
3. Histogram tekenen
5
4
3
2
1
Std. Dev = 14,14
Mean = 31,9
N = 10,00
0
10,0
VAR00001
20,0
30,0
40,0
50,0
60,0
• In histogram
frequenties
of
percentages = relatieve frequenties
• Keuze maken over aantal te gebruiken
klassen
te weinig of te veel
G. Kijken naar gegevens
• Globaal patroon en afwijkingen
• Uitbijters of uitschieters :
–
–
–
–
oorzaak ?
Fouten = weglaten
Sterke beïnvloeding van gemiddelde
Soms hebben uitbijters een betekenis
H. Tijdreeksgrafieken
• Gegevens uitzetten tegen tijd of volgorde
• Belangrijk bij systematische verandering
• Bv. Tijdreeksen : springen
tijden in lopen/zwemmen
• Observatie : trend
seizoenvariatie
fluctuaties
cycli
1.2. Verdelingen beschrijven
• Eerst kijken naar de vorm van de verdeling
op grafische manier
• Dan beschrijven :
– Centrum
– Spreiding
A. Meten van het centrum :
het gemiddelde
Rekenkundig gemiddelde of gemiddelde
= tel alle waarnemingen op en deel door
het aantal
x1 + x2 + x3 + … +xn
x = 1/n (x1 + x2 + x3 + … +xn)
x = 1/n  xi
• Voorbeeld :
Aantal doelpunten per match
2
3
1
0
0
1
2
1
2
1
2
0
0
3
= 18 / 14 = 1.2857….
• Voorbeeld :
Verspringen
623 684 598 385 654 589
= 3533 / 6 = 588.83333….
= 3148 / 5 = 629.6
• Zwakheid van gemiddelde :
– > gevoelig voor extremen
• bv. uitbijters of uitschieters
• bv. scheve verdeling met 1 staart
= gemiddelde is GEEN resistente maat
B. Meten van het centrum:
de mediaan
• Mediaan
= middelste waarneming in geordende lijst
• oneven = middelste
• even = gemiddelde van twee middelste
• Voorbeeld :
aantal doelpunten per match :
2
3
1
0
0
1
ordenen :
0
0
1
1
2
2
Mediaan = 1
2
3
• Mediaan gemakkelijk uit stamdiagram
• Mediaan is resistente centrummaat
C. Gemiddelde versus mediaan
• Bij symmetrische verdeling
– gemiddelde = mediaan
• Naarmate verdelingen schever worden
– gemiddeld en mediaan verder uit elkaar
• Dus : bij uitschieters
– Goed bekijken, ev. Corrigeren of weglaten
• Gemiddelde gebruiken
– Uitschieters erin laten
• Mediaan gebruiken
D. Meten van de verdeling:
kwartielen
• Bij het beschrijven van een verdeling :
– > centrummaat + spreidingsmaat
• Spreiding of variabiliteit van een verdeling
• Gelijk gemiddelde en verschillende spreiding
=> andere betekenis (bv. inkomen)
• Percentiel
30ste percentiel = de waarde zodat 30% van
de verdeling hieronder valt of gelijk is
bv. kind van 7 jaar weegt 22 kg.
50ste percentiel = mediaan
• Kwartielen
1ste kwartiel = 25ste percentiel
2de kwartiel = 50ste percentiel of mediaan
3de kwartiel = 75ste percentiel
-> waarnemingen ordenen
Mediaan bepalen
Mediaan van waarnemingen hieronder
Mediaan van waarnemingen hierboven
• Kwartielen en mediaan leren iets over de
verdeling
Q1 = 14€ M = 20€ Q3 = 33€
-> scheefheid naar rechts
• Met computer soms iets andere waarden
voor kwartielen : andere regels
– Kleine verschillen = afrondingsfouten
E. Meten van de verdeling :
de interkwartielafstand
• Interkwartielafstand
IKA = afstand Q3 - Q1 = 50% van de data
resistente maat : uitschieters spelen geen rol
33€ - 14€ = 19€
• 1.5 keer IKA boven 3e kwartiel of onder 1e
kwartiel = verdachte uitschieters
1.5 keer 19€ = 28.5€
Q1= 14€ 28.5€ = -14.5€
Q3= 33€ +
28.5€ = 61.5€
F. De vijf getallen samenvatting
en de doosdiagrammen
• Vijf getallen samenvatting
Minimum, Q1, M, Q3, Maximum
=> Geeft ons nuttige informatie over het
centrum en de spreiding van een verdeling
• Boxdiagram of doosdiagram = visuele voorstelling
van vijf getallen samenvatting
– 1. Randen van de doos = kwartielen
– 2. Mediaan = lijn
– 3. Snorharen = Minimum en maximum die geen
uitschieters zijn
– 4. Uitschieters worden apart aangegeven
• Met computer soms snorharen tot uitersten binnen
1.5 keer IKA en resterende waarnemingen
afzonderlijk of zonder uitschieters
70
65
60
55
50
45
40
35
30
25
20
15
10
N=
15
VAR00001
G. Verdelingen vergelijken
• Boxdiagrammen om verschillende
verdelingen met elkaar te vergelijken
120
100
8
80
13
60
40
1
7
20
0
N=
15
15
VAR00001
VAR00002
H. Meten van de spreiding:
de standaardafwijking
• Meest gebruikte spreidingsmaat
• Spreiding rond het gemiddelde
• Gebruiken als gemiddelde centrummaat is
• Gebaseerd op afwijking van elke
waarneming van het gemiddelde
xi - gemiddelde
• afwijkingen zullen positief en negatief zijn
– Want waarnemingen boven en onder het gemiddelde
• som van alle afwijkingen zal altijd 0 zijn
– Juist omdat we gemiddelde aftrekken
• Oplossing : afwijkingen kwadrateren
• VARIANTIE = gemiddelde van de gekwadrateerde
afwijkingen (s2)
ver van gemiddelde : grote gekwadr. afwijk.
dicht bij gemiddelde : kleine gekw. afw.
• S2= (x1 - x)2 + (x2 - x)2 + …
en delen door n-1
S2= 1/(n-1)  (xi - x)2
waarom delen door n-1 en niet door n ?
=> aangezien som van afwijkingen steeds 0
is kan laatste afwijking gevonden worden
uit eerste n-1, dus n-1 kunnen vrij bewegen
= aantal vrijheidsgraden
• Door te kwadrateren krijgen we een andere
eenheid bv. cm wordt cm2
•
STANDAARDAFWIJKING
= de wortel uit de variantie wat de spreiding
rond het gemiddelde in de oorspronkelijke
schaal meet
I. Eigenschappen van de
standaardafwijking
• Eigenschappen van s
– s meet de spreiding rond het gemiddelde
(gemiddelde is centrummaat)
– s = o als er geen spreiding is (alle
waarnemingen zijn gelijk), anders is s > 0
• s is geen resistente maat, door kwadraten
zelfs nog gevoeliger
• s is vooral belangrijk bij symmetrische
verdelingen (normaalverdelingen)
J. Het kiezen van centrum- en
spreidingsmaten
• Voor een scheve verdeling of sterke
uitschieters :
- Vijf getallen samenvatting
• Voor een redelijk symmetrische verdeling
zonder uitschieters
- Gemiddelde en standaarddeviatie
=> DUS altijd eerst grafische voorstelling maken
K. Meeteenheid veranderen
• Beschrijvingen van een verdeling kunnen
geconverteerd worden van de ene naar de
andere meeteenheid
– > lineaire transformatie xnieuw = a + bx
= optellen van een constante a
= vermenigvuldigen met constante b (b>0)
– bv. mijl in kilometer
– bv. graden celcius en Fahrenheit
• Lineaire transformaties hebben geen effect
op de vorm van de verdeling
– symmetrisch blijft symmetrisch
– scheef naar rechts blijft scheef naar rechts
• Maar centrum en spreiding kunnen wel
veranderen
– gemiddelde, mediaan en kwartielen :
vermenigvuldigen met b en a optellen
– IKA en standaardafwijking vermenigvuldigen
met b
1.3. De normale verdeling
•
1.
2.
3.
Tot nu toe :
Teken de gegevens : grafiek
Kijk naar patroon en afwijkingen
Bereken centrum en spreiding
• Volgende stap :
4. Soms is patroon zo regelmatig dat we kunnen
beschrijven door gladde kromme
30
20
10
Std. Dev = 1,12
Mean = 2,9
N = 72,00
0
1,0
VAR00002
2,0
3,0
4,0
5,0
• Maken van een wiskundig model van een
verdeling
• Doel : volledige verdeling beschrijven met
enkele uitdrukkingen + regels die gelden
voor vele verdelingen
• Punten zullen niet exact op het model
liggen, maar bij benadering
A. Dichtheidskrommen
• Gladde kromme overheen histogram
– compacte beschrijving
– details verdwijnen
• De hoekigheid van histogram verdwijnt
5
4
3
2
1
Std. Dev = 2,26
Mean = 12,0
N = 20,00
0
8,0
9,0
VAR00001
10,0
11,0
12,0
13,0
14,0
15,0
16,0
• Totaal van de percentages over alle
waarnemingen = 100% of relatieve
frequentie 1
=> oppervlakte onder de kromme = 1
oppervlakte = relatieve frequentie
=> dichtheidskromme
B. Het meten van centrum en
spreiding voor dichtheidskrommen
• Maten van centrum en spreiding zijn
toepasbaar op dichtheidskrommen
- p de percentiel : p% oppervlakte links
100 - p% oppervlakte rechts
- mediaan : punt van gelijke oppervlaktes
- kwartielen : 4 gelijke oppervlaktes
- IKA : afstand tussen Q1 en Q3
• Gemiddelde of beter verwachting van een
dichtheidskromme: punt waar de kromme in
evenwicht zou zijn
• Bij symmetrische krommen :
– Mediaan = gemiddelde
• Bij scheve krommen :
– Gemiddelde wordt dichter naar de staart
getrokken (meer beïnvloed)
• Feitelijke waarnemingen :
x en s
• Dichtheidskromme (geïdealiseerd)
µ (Griekse letter mu) en  (sigma)
C. Normale verdelingen
• Normale verdelingen zijn :
– symmetrische
– ééntoppige
– klokvormige dichtheidskrommen
• Verwachting µ in centrum = mediaan
• Standaardafwijking  = spreiding
• Normale krommen met gelijke verwachting
maar andere waarden voor 
• Van steile naar zwakke dalingstendens
 verandering in de kromme
 dit punt aan weerszijden 


•
Waarom zijn normale verdelingen zo
belangrijk in de statistiek ?
1. Ze zijn goede modellen voor verdelingen
met echte data : groot aantal pp.
2. Goede benaderingen van toevallige
uitkomsten : bv. Gooien dobbelsteen
3. Vele statistische inferentie procedures
gebaseerd op normale verdeling gelden
voor andere, min of meer normale
verdelingen
• Normaalverdelingen
– toets bij de bevolking
– herhaald meten van zelfde grootheid
– karakteristieken van biologische populaties
• MAAR : ook veel verdelingen zijn niet
normaal
– inkomen
– levensverwachting
D. De 68 - 95 - 99.7 regel
• Er bestaan vele normale krommen maar ze
voldoen allemaal aan de 68 - 95 - 99.7 regel
• Voor elke normaalverdeling geldt :
– 68% van de waarnemingen ligt binnen de
afstand 
van het gemiddelde µ
– 95% van de waarnemingen ligt binnen de
afstand 2  van het gemiddelde µ
– 99.7% van de waarnemingen ligt binnen de
afstand 3  van het gemiddelde µ
• Voorbeeld : lengte vrouwen 18-24jaar
– µ = 166.4 cm
 = 6.4 cm
– 95% tussen 153.6 cm en 179.2 cm
– 99.7% tussen 147.2 cm en 185.6 cm
• Korte notatie :
N(µ, ) dus N(166.4, 6.4)
• Steeds eerst nagaan of je een
normaalverdeling hebt vooraleer conclusies
met 68 - 95 - 99.7 regel
E. Gestandaardiseerde
waarnemingen
• Als een variabele X (bv. lengte) een
normale verdeling heeft, met verwachting µ
en standaarddeviatie 
X is N (µ, )
• Eigenlijk zijn alle normale verdelingen
identiek als de metingen gebeuren met  als
eenheid en µ als het centrum
• Dus : als de verdeling van een variabele
normaal is kan ze worden gestandaardiseerd
STANDAARDISEREN =
– door verwachting af te trekken
– en dit te delen door de standaardafwijking
Een gestandaardiseerde waarde = z-score
x-µ
z = --------
• Gevolg : hoeveel standaardafwijking ligt de
waarde van de verwachting (van 0)
– positief : groter dan verwachting
– negatief : kleiner dan verwachting
• Voorbeeld :
– x wordt na standaardisering = 0.5 dit wil
zeggen een halve standaardafwijking boven
gemiddelde
• Voorbeeld : lengte jonge vrouwen
– µ = 166.4 cm en  = 6.4 cm
– gestandaardiseerde lengte
z = lengte - 166.4
6.4
– bv. 176 cm : z = 1.5 of 1.5 stand. afw. boven µ
– bv. 152 cm : z = -2.25 of 2.25 stand. afw. onder µ
F. De standaardnormale verdeling
• Door standaardiseren zetten we alle normale
verdelingen om in één enkele verdeling :
deze nieuwe variabelen hebben de
standaardnormale verdeling
• N (0,1) is de standaardnormale verdeling
• Z=X-µ

• Tabel A geeft de oppervlaktes onder de
standaardnormale kromme
• Voor elke waarde z kan men opzoeken
welke oppervlakte hier links van ligt
• Voorbeeld:
welk percentage vrouwen heeft een dergelijke
lengte ? Oppervlakte onder de kromme
=> dit opzoeken in tabel A
1.5 komt overeen met 0.9332 dus 93% en 7%
G. Berekeningen bij de normale
verdeling
•
Het gebruik van tabel A is zeer handig om
vraagstukken op te lossen m.b.t.
A. Hoeveel % heeft een score
•
•
•
Lager dan ..
Hoger dan
Tussen … en ….
B. Welke waarde komt overeen met xx %
•
Ook via Tabel A maar OMGEKEERD
H. Normaal-kwantiel-diagrammen
• Telkens eerst normaliteit vaststellen
vooraleer er berekeningen worden gedaan
die hiervan uitgaan
1. Op basis van figuur : histogram of
stamdiagram
2. Vergelijkingen met de 68 - 95 - 99.7 regel
3. Normaal-kwantiel-diagram : meer precieze
methode
• Principe aan de hand van een voorbeeld :
12
12
14
13
13
12
11
10
9
11
– eerst de data ordenen
– dan voor elk punt percentiel vastleggen (P10, P20,…
– Tabel A kijken naar welke z met deze oppervlakte
overeenkomt.
– elk punt met zijn z-waarde uittekenen
=> data zijn normaal als ze dicht bij een rechte lijn
liggen (met computer)
Normal P-P Plot of VAR00001
1,00
,75
Expected Cum Prob
,50
,25
0,00
0,00
,25
,50
Observed Cum Prob
,75
1,00
• Soms veel keer dezelfde meting = op een
stapel dit noemt korreligheid (is meestal
geen probleem)
• Op basis van normaal-kwantiel-diagram
is een normaal model passend ?
–
–
–
–
Uitschieters ver van de lijn
Kleine afwijkingen, kronkels geen probleem
Bij benadering normaal
Zeer veel gebruikt in statistiek
Download