Beginselen van de Statistiek in de Kinesiologie

Beginselen van de Statistiek in de
Kinesiologie
Prof. Dr. I. De Bourdeaudhuij
Theorie : auditorium
Oefeningen : SPSS pc klas UZ
Handboek :
Statistiek in de Praktijk
Davis Moore & George McCabe
2001
3e herziene uitgave / Theorieboek
Academic Service, Schoonhoven
Alles is te vinden op :
• http://allserv.rug.ac.be/~ibourd/index.htm
Inleiding
• Redeneren, nadenken, inzicht
<=>
• Berekenen, computer
• Link met praktijk : SPSS voor thesis
Wat is statistiek ?
• Wetenschap van
• verzamelen
• organiseren
• interpreteren
van data of gegevens
Doel van statistiek ?
• NIET
het berekenen op zich
• WEL
het verwerven van inzicht uit
getallen
Doel van deze cursus = BEGRIJPEN
Hoofdstuk 1
Kijken naar
gegevens & verdelingen
• Variabele = kenmerk van persoon of ding dat
in een getal kan worden uitgedrukt
• Waarde = getal voor die persoon of dat ding
• Hoeveel variabelen ? H1 = 1 variabele
• Typen variabelen
– Kwantitatieve variabelen (numeriek, bewerking)
– Kwalitatieve variabelen (categorie)
1.1. Weergeven van verdelingen
met grafieken
• Data beschrijven : exploratieve data-analyse
• Twee basistrategieën
– Eerst 1 variable dan verbanden
– Eerst grafisch dan numeriek
• H 1 : 1 variable , H2 : 2 variabelen
• Steeds eerst grafisch dan numeriek
A. Grafieken voor kwalitatieve
variabelen
• Kwalitatieve variabelen = categorie
Burg. staat
Nooit getrouwd
Getrouwd
Weduwe/weduwnaar
Gescheiden
Aantal (milj)
43.9
116.7
13.4
17.6
Percentage
22.9
60.9
7.0
9.2
Staafdiagram
140
120
100
80
60
40
20
0
1
Case Number
2
3
4
Taartdiagram
4
3
2
1
• Grafieken voor kwalitatieve variabelen
geven een goed overzicht, niet echt
noodzakelijk
• Grafieken voor kwantitatieve variabelen
leren ons duidelijk iets meer, data op zich
zeggen niet veel
B. Meting
• Verzameling getallen
168 158 149 169 175 185
192 167 185 184 168 184
• Welke variabele wordt gemeten ?
- goede methode / instrument ?
- verschillend per wetenschap
• NADENKEN over getallen
bv. dodelijke ongevallen
5000
60+ers
3000
18-20 jarigen
bv. werkloosheidscijfers
bv. mortaliteitscijfers
Verhoudingsgetallen !!!
C. Variatie
• Verschillende metingen van hetzelfde
fenomeen bij - 1 persoon
- verschillende personen
• In elke verzameling gegevens zekere variatie
• Variatiepatroon van een kwantitatieve
variabele = VERDELING
• In het midden van de verdeling : het
gemiddelde
• VERDELING = hoe vaak komt elke waarde
voor ? Grafische voorstelling
• DUS :
gemiddelde & verdeling
van variabelen zijn belangrijk
D. Stamdiagrammen
• Of « stam-en-blad » = « stem-and-leaf »
• Doel : vorm van de verdeling in beeld
• Voorbeeld : doelpunten per seizoen
21 13 8
19 14
26 12 24 9
14
STAM BLAD
0 |
89
1 |
23449
2 |
146
• Rug-aan-rug stamdiagram : 2 vergelijken
• stammen splitsen of afkappen
• niet geschikt voor grote groepen
• diagram op zijn kant zetten (scheefheid ?)
E. Onderzoeken van verdelingen
EIGENSCHAPPEN :
1. Centrum van de verdeling
= MEDIAAN
2. Een top of verschillende ?
= UNI MODAAL
3. Vorm van de verdeling
= SYMMETRISCH of SCHEEF
4. Afwijkingen van de algemene vorm
= HIATEN of UITBIJTERS
F. Histogrammen
• Aantal of percentage waarnemingen in elk
interval
• HOE ?
1. Verdeel in klassen van gelijke breedte
2. Aantal per klasse = frequenties
Frequentietabel
3. Histogram tekenen
5
4
3
2
1
Std. Dev = 14,14
Mean = 31,9
N = 10,00
0
10,0
VAR00001
20,0
30,0
40,0
50,0
60,0
• In histogram
frequenties
of
percentages = relatieve frequenties
• Keuze maken over aantal te gebruiken
klassen
te weinig of te veel
G. Kijken naar gegevens
• Globaal patroon en afwijkingen
• Uitbijters of uitschieters :
–
–
–
–
oorzaak ?
Fouten = weglaten
Sterke beïnvloeding van gemiddelde
Soms hebben uitbijters een betekenis
H. Tijdreeksgrafieken
• Gegevens uitzetten tegen tijd of volgorde
• Belangrijk bij systematische verandering
• Bv. Tijdreeksen : springen
tijden in lopen/zwemmen
• Observatie : trend
seizoenvariatie
fluctuaties
cycli
1.2. Verdelingen beschrijven
• Eerst kijken naar de vorm van de verdeling
op grafische manier
• Dan beschrijven :
– Centrum
– Spreiding
A. Meten van het centrum :
het gemiddelde
Rekenkundig gemiddelde of gemiddelde
= tel alle waarnemingen op en deel door
het aantal
x1 + x2 + x3 + … +xn
x = 1/n (x1 + x2 + x3 + … +xn)
x = 1/n  xi
• Voorbeeld :
Aantal doelpunten per match
2
3
1
0
0
1
2
1
2
1
2
0
0
3
= 18 / 14 = 1.2857….
• Voorbeeld :
Verspringen
623 684 598 385 654 589
= 3533 / 6 = 588.83333….
= 3148 / 5 = 629.6
• Zwakheid van gemiddelde :
– > gevoelig voor extremen
• bv. uitbijters of uitschieters
• bv. scheve verdeling met 1 staart
= gemiddelde is GEEN resistente maat
B. Meten van het centrum:
de mediaan
• Mediaan
= middelste waarneming in geordende lijst
• oneven = middelste
• even = gemiddelde van twee middelste
• Voorbeeld :
aantal doelpunten per match :
2
3
1
0
0
1
ordenen :
0
0
1
1
2
2
Mediaan = 1
2
3
• Mediaan gemakkelijk uit stamdiagram
• Mediaan is resistente centrummaat
C. Gemiddelde versus mediaan
• Bij symmetrische verdeling
– gemiddelde = mediaan
• Naarmate verdelingen schever worden
– gemiddeld en mediaan verder uit elkaar
• Dus : bij uitschieters
– Goed bekijken, ev. Corrigeren of weglaten
• Gemiddelde gebruiken
– Uitschieters erin laten
• Mediaan gebruiken
D. Meten van de verdeling:
kwartielen
• Bij het beschrijven van een verdeling :
– > centrummaat + spreidingsmaat
• Spreiding of variabiliteit van een verdeling
• Gelijk gemiddelde en verschillende spreiding
=> andere betekenis (bv. inkomen)
• Percentiel
30ste percentiel = de waarde zodat 30% van
de verdeling hieronder valt of gelijk is
bv. kind van 7 jaar weegt 22 kg.
50ste percentiel = mediaan
• Kwartielen
1ste kwartiel = 25ste percentiel
2de kwartiel = 50ste percentiel of mediaan
3de kwartiel = 75ste percentiel
-> waarnemingen ordenen
Mediaan bepalen
Mediaan van waarnemingen hieronder
Mediaan van waarnemingen hierboven
• Kwartielen en mediaan leren iets over de
verdeling
Q1 = 14€ M = 20€ Q3 = 33€
-> scheefheid naar rechts
• Met computer soms iets andere waarden
voor kwartielen : andere regels
– Kleine verschillen = afrondingsfouten
E. Meten van de verdeling :
de interkwartielafstand
• Interkwartielafstand
IKA = afstand Q3 - Q1 = 50% van de data
resistente maat : uitschieters spelen geen rol
33€ - 14€ = 19€
• 1.5 keer IKA boven 3e kwartiel of onder 1e
kwartiel = verdachte uitschieters
1.5 keer 19€ = 28.5€
Q1= 14€ 28.5€ = -14.5€
Q3= 33€ +
28.5€ = 61.5€
F. De vijf getallen samenvatting
en de doosdiagrammen
• Vijf getallen samenvatting
Minimum, Q1, M, Q3, Maximum
=> Geeft ons nuttige informatie over het
centrum en de spreiding van een verdeling
• Boxdiagram of doosdiagram = visuele voorstelling
van vijf getallen samenvatting
– 1. Randen van de doos = kwartielen
– 2. Mediaan = lijn
– 3. Snorharen = Minimum en maximum die geen
uitschieters zijn
– 4. Uitschieters worden apart aangegeven
• Met computer soms snorharen tot uitersten binnen
1.5 keer IKA en resterende waarnemingen
afzonderlijk of zonder uitschieters
70
65
60
55
50
45
40
35
30
25
20
15
10
N=
15
VAR00001
G. Verdelingen vergelijken
• Boxdiagrammen om verschillende
verdelingen met elkaar te vergelijken
120
100
8
80
13
60
40
1
7
20
0
N=
15
15
VAR00001
VAR00002
H. Meten van de spreiding:
de standaardafwijking
• Meest gebruikte spreidingsmaat
• Spreiding rond het gemiddelde
• Gebruiken als gemiddelde centrummaat is
• Gebaseerd op afwijking van elke
waarneming van het gemiddelde
xi - gemiddelde
• afwijkingen zullen positief en negatief zijn
– Want waarnemingen boven en onder het gemiddelde
• som van alle afwijkingen zal altijd 0 zijn
– Juist omdat we gemiddelde aftrekken
• Oplossing : afwijkingen kwadrateren
• VARIANTIE = gemiddelde van de gekwadrateerde
afwijkingen (s2)
ver van gemiddelde : grote gekwadr. afwijk.
dicht bij gemiddelde : kleine gekw. afw.
• S2= (x1 - x)2 + (x2 - x)2 + …
en delen door n-1
S2= 1/(n-1)  (xi - x)2
waarom delen door n-1 en niet door n ?
=> aangezien som van afwijkingen steeds 0
is kan laatste afwijking gevonden worden
uit eerste n-1, dus n-1 kunnen vrij bewegen
= aantal vrijheidsgraden
• Door te kwadrateren krijgen we een andere
eenheid bv. cm wordt cm2
•
STANDAARDAFWIJKING
= de wortel uit de variantie wat de spreiding
rond het gemiddelde in de oorspronkelijke
schaal meet
I. Eigenschappen van de
standaardafwijking
• Eigenschappen van s
– s meet de spreiding rond het gemiddelde
(gemiddelde is centrummaat)
– s = o als er geen spreiding is (alle
waarnemingen zijn gelijk), anders is s > 0
• s is geen resistente maat, door kwadraten
zelfs nog gevoeliger
• s is vooral belangrijk bij symmetrische
verdelingen (normaalverdelingen)
J. Het kiezen van centrum- en
spreidingsmaten
• Voor een scheve verdeling of sterke
uitschieters :
- Vijf getallen samenvatting
• Voor een redelijk symmetrische verdeling
zonder uitschieters
- Gemiddelde en standaarddeviatie
=> DUS altijd eerst grafische voorstelling maken
K. Meeteenheid veranderen
• Beschrijvingen van een verdeling kunnen
geconverteerd worden van de ene naar de
andere meeteenheid
– > lineaire transformatie xnieuw = a + bx
= optellen van een constante a
= vermenigvuldigen met constante b (b>0)
– bv. mijl in kilometer
– bv. graden celcius en Fahrenheit
• Lineaire transformaties hebben geen effect
op de vorm van de verdeling
– symmetrisch blijft symmetrisch
– scheef naar rechts blijft scheef naar rechts
• Maar centrum en spreiding kunnen wel
veranderen
– gemiddelde, mediaan en kwartielen :
vermenigvuldigen met b en a optellen
– IKA en standaardafwijking vermenigvuldigen
met b
1.3. De normale verdeling
•
1.
2.
3.
Tot nu toe :
Teken de gegevens : grafiek
Kijk naar patroon en afwijkingen
Bereken centrum en spreiding
• Volgende stap :
4. Soms is patroon zo regelmatig dat we kunnen
beschrijven door gladde kromme
30
20
10
Std. Dev = 1,12
Mean = 2,9
N = 72,00
0
1,0
VAR00002
2,0
3,0
4,0
5,0
• Maken van een wiskundig model van een
verdeling
• Doel : volledige verdeling beschrijven met
enkele uitdrukkingen + regels die gelden
voor vele verdelingen
• Punten zullen niet exact op het model
liggen, maar bij benadering
A. Dichtheidskrommen
• Gladde kromme overheen histogram
– compacte beschrijving
– details verdwijnen
• De hoekigheid van histogram verdwijnt
5
4
3
2
1
Std. Dev = 2,26
Mean = 12,0
N = 20,00
0
8,0
9,0
VAR00001
10,0
11,0
12,0
13,0
14,0
15,0
16,0
• Totaal van de percentages over alle
waarnemingen = 100% of relatieve
frequentie 1
=> oppervlakte onder de kromme = 1
oppervlakte = relatieve frequentie
=> dichtheidskromme
B. Het meten van centrum en
spreiding voor dichtheidskrommen
• Maten van centrum en spreiding zijn
toepasbaar op dichtheidskrommen
- p de percentiel : p% oppervlakte links
100 - p% oppervlakte rechts
- mediaan : punt van gelijke oppervlaktes
- kwartielen : 4 gelijke oppervlaktes
- IKA : afstand tussen Q1 en Q3
• Gemiddelde of beter verwachting van een
dichtheidskromme: punt waar de kromme in
evenwicht zou zijn
• Bij symmetrische krommen :
– Mediaan = gemiddelde
• Bij scheve krommen :
– Gemiddelde wordt dichter naar de staart
getrokken (meer beïnvloed)
• Feitelijke waarnemingen :
x en s
• Dichtheidskromme (geïdealiseerd)
µ (Griekse letter mu) en  (sigma)
C. Normale verdelingen
• Normale verdelingen zijn :
– symmetrische
– ééntoppige
– klokvormige dichtheidskrommen
• Verwachting µ in centrum = mediaan
• Standaardafwijking  = spreiding
• Normale krommen met gelijke verwachting
maar andere waarden voor 
• Van steile naar zwakke dalingstendens
 verandering in de kromme
 dit punt aan weerszijden 


•
Waarom zijn normale verdelingen zo
belangrijk in de statistiek ?
1. Ze zijn goede modellen voor verdelingen
met echte data : groot aantal pp.
2. Goede benaderingen van toevallige
uitkomsten : bv. Gooien dobbelsteen
3. Vele statistische inferentie procedures
gebaseerd op normale verdeling gelden
voor andere, min of meer normale
verdelingen
• Normaalverdelingen
– toets bij de bevolking
– herhaald meten van zelfde grootheid
– karakteristieken van biologische populaties
• MAAR : ook veel verdelingen zijn niet
normaal
– inkomen
– levensverwachting
D. De 68 - 95 - 99.7 regel
• Er bestaan vele normale krommen maar ze
voldoen allemaal aan de 68 - 95 - 99.7 regel
• Voor elke normaalverdeling geldt :
– 68% van de waarnemingen ligt binnen de
afstand 
van het gemiddelde µ
– 95% van de waarnemingen ligt binnen de
afstand 2  van het gemiddelde µ
– 99.7% van de waarnemingen ligt binnen de
afstand 3  van het gemiddelde µ
• Voorbeeld : lengte vrouwen 18-24jaar
– µ = 166.4 cm
 = 6.4 cm
– 95% tussen 153.6 cm en 179.2 cm
– 99.7% tussen 147.2 cm en 185.6 cm
• Korte notatie :
N(µ, ) dus N(166.4, 6.4)
• Steeds eerst nagaan of je een
normaalverdeling hebt vooraleer conclusies
met 68 - 95 - 99.7 regel
E. Gestandaardiseerde
waarnemingen
• Als een variabele X (bv. lengte) een
normale verdeling heeft, met verwachting µ
en standaarddeviatie 
X is N (µ, )
• Eigenlijk zijn alle normale verdelingen
identiek als de metingen gebeuren met  als
eenheid en µ als het centrum
• Dus : als de verdeling van een variabele
normaal is kan ze worden gestandaardiseerd
STANDAARDISEREN =
– door verwachting af te trekken
– en dit te delen door de standaardafwijking
Een gestandaardiseerde waarde = z-score
x-µ
z = --------
• Gevolg : hoeveel standaardafwijking ligt de
waarde van de verwachting (van 0)
– positief : groter dan verwachting
– negatief : kleiner dan verwachting
• Voorbeeld :
– x wordt na standaardisering = 0.5 dit wil
zeggen een halve standaardafwijking boven
gemiddelde
• Voorbeeld : lengte jonge vrouwen
– µ = 166.4 cm en  = 6.4 cm
– gestandaardiseerde lengte
z = lengte - 166.4
6.4
– bv. 176 cm : z = 1.5 of 1.5 stand. afw. boven µ
– bv. 152 cm : z = -2.25 of 2.25 stand. afw. onder µ
F. De standaardnormale verdeling
• Door standaardiseren zetten we alle normale
verdelingen om in één enkele verdeling :
deze nieuwe variabelen hebben de
standaardnormale verdeling
• N (0,1) is de standaardnormale verdeling
• Z=X-µ

• Tabel A geeft de oppervlaktes onder de
standaardnormale kromme
• Voor elke waarde z kan men opzoeken
welke oppervlakte hier links van ligt
• Voorbeeld:
welk percentage vrouwen heeft een dergelijke
lengte ? Oppervlakte onder de kromme
=> dit opzoeken in tabel A
1.5 komt overeen met 0.9332 dus 93% en 7%
G. Berekeningen bij de normale
verdeling
•
Het gebruik van tabel A is zeer handig om
vraagstukken op te lossen m.b.t.
A. Hoeveel % heeft een score
•
•
•
Lager dan ..
Hoger dan
Tussen … en ….
B. Welke waarde komt overeen met xx %
•
Ook via Tabel A maar OMGEKEERD
H. Normaal-kwantiel-diagrammen
• Telkens eerst normaliteit vaststellen
vooraleer er berekeningen worden gedaan
die hiervan uitgaan
1. Op basis van figuur : histogram of
stamdiagram
2. Vergelijkingen met de 68 - 95 - 99.7 regel
3. Normaal-kwantiel-diagram : meer precieze
methode
• Principe aan de hand van een voorbeeld :
12
12
14
13
13
12
11
10
9
11
– eerst de data ordenen
– dan voor elk punt percentiel vastleggen (P10, P20,…
– Tabel A kijken naar welke z met deze oppervlakte
overeenkomt.
– elk punt met zijn z-waarde uittekenen
=> data zijn normaal als ze dicht bij een rechte lijn
liggen (met computer)
Normal P-P Plot of VAR00001
1,00
,75
Expected Cum Prob
,50
,25
0,00
0,00
,25
,50
Observed Cum Prob
,75
1,00
• Soms veel keer dezelfde meting = op een
stapel dit noemt korreligheid (is meestal
geen probleem)
• Op basis van normaal-kwantiel-diagram
is een normaal model passend ?
–
–
–
–
Uitschieters ver van de lijn
Kleine afwijkingen, kronkels geen probleem
Bij benadering normaal
Zeer veel gebruikt in statistiek

Beginselen van de Statistiek in de Kinesiologie

Related documents

Products

Support

Beginselen van de Statistiek in de Kinesiologie

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib