st_werkcollege_3_uitwerkingen

advertisement
Werkcollege 3
Statistiek
Matthijs Fleurke
1 (1)
a)
We meten bij meerdere objecten tegelijkertijd 2 interval- of ratiovariabelen (bijvoorbeeld bij
meerdere proefpersonen de hartslag en bloeddruk). Deze waarnemingen kunnen we als
punten in een spreidingsdiagram zetten.
De correlatie geeft de mate aan waarin deze punten op een rechte lijn liggen.
De correlatie loopt van –1 tot 1. Een waarde dichtbij de –1 wijst op een negatieve samenhang
(dalende lijn), een waarde dichtbij de 1 wijst op een positieve samenhang (stijgende lijn) en
een waarde dichtbij de nul wijst op geen samenhang.
Je mag deze correlatiecoefficient berekenen als de 2 populatieverdelingen van de 2 variabelen
waar je de correlatie van berekend normaal verdeeld zijn. Omdat je dit over het algemeen niet
weet, kun je je gegevens plotten en kijken of er een normale verdeling uitkomt. Als je minder
dan 25 gegevens hebt (waardoor je geen goed plaatje meer kunt maken) en je weet niet of de
verdelingen normaal zijn, is deze correlatiecoefficient niet de juiste keuze.
1 (2)
b)
c)
Hetzelfde als bij a), alleen kijken we nu niet naar de
waarden van de variabelen zelf maar naar de
rangschikking (dus de hoogste hartslag krijgt een 1,
die daarna een 2 etc. en hetzelfde bij de bloeddruk).
Deze correlatiecoefficient gebruik je als je die bij a)
niet kan of mag gebruiken
Als er sprake is van correlatie dan is het zinnig om
door de puntenwolk een lijn te tekenen. De best
passende lijn noemen we de regressielijn
2 (2)
wiskunde (X)
statistiek (Y)
X2
Y2
XY
60
75
3600
5625
4500
85
80
7225
6400
6800
32
40
1024
1600
1280
58
50
3364
2500
2900
45
50
2025
2500
2250
70
72
4900
5184
5040
84
80
7056
6400
6720
72
48
5184
2304
3456
40
46
1600
2116
1840
64
49
4096
2401
3136
∑ = 610
∑ = 590
∑ = 40074
∑ = 37030
∑ = 37922
2 (3)
rxy =
rxy =
rxy =
n ∑xy - ∑x ∑y
[n ∑x 2 - (∑x) 2 ][(n ∑y 2 - (∑y) 2 ]
=
10 • 37922 - 610 • 590
(10 • 40074 - 610 2 )(10 • 37030 - 590 2 )
19320
19320
=
= 0.76
28640 • 22200 25215.23
=
2 (4)
H 0: ρ = 0
H 1: ρ > 0
r = 0.76
n = 10
Nu kijken we in de tabel bij α = 0.01 en n = 10 voor eenzijdig toetsen.
Daar vinden we een (kritieke) waarde 0.746. Alle r-waarden groter
dan 0.746 zien we dus als verschillend van 0.
r = 0.76 > 0.746, in kritieke gebied, dus H0 verwerpen
Conclusie: Er is voldoende reden om aan te nemen dat de
correlatiecoefficient groter is dan 0.
3 (1)
studie-uren en aantal punten
(met regressielijn)
90
80
aantal punten
70
60
50
40
30
20
10
0
0
10
20
30
40
aantal uren
50
60
70
80
3 (2)
Methode: Spearman-rangcorrelatie want minder dan 25 waarnemingen
student
wiskunde
statistiek
rang
wiskunde
rang
statistiek
d
d2
a
50
65
5
5
0
0
b
30
40
1
1
0
0
c
65
80
6
6.5
-0.5
0.25
d
45
60
3.5
4
-0.5
0.25
e
40
45
2
2
0
0
F
75
80
7
6.5
0.5
0.25
g
45
50
3.5
3
0.5
0.25
Σ=1
Op dezelfde wijze als bij opgave 2:
rs = 1 – 6 * 1 / (73 –7) = 0.98
3 (3)
H 0: ρ = 0
H 1: ρ > 0
r = 0.98
n=7
Nu kijken we in de tabel bij α = 0.01 en n = 7 voor eenzijdig toetsen.
Daar vinden we een (kritieke) waarde 0.893. Alle r-waarden groter
dan 0.893 zien we dus als verschillend van 0.
r = 0.98 > 0.893, in kritieke gebied, dus H0 verwerpen
Conclusie: Er is voldoende reden om aan te nemen dat de
correlatiecoefficient groter is dan 0.
Download