Werkcollege 3 Statistiek Matthijs Fleurke 1 (1) a) We meten bij meerdere objecten tegelijkertijd 2 interval- of ratiovariabelen (bijvoorbeeld bij meerdere proefpersonen de hartslag en bloeddruk). Deze waarnemingen kunnen we als punten in een spreidingsdiagram zetten. De correlatie geeft de mate aan waarin deze punten op een rechte lijn liggen. De correlatie loopt van –1 tot 1. Een waarde dichtbij de –1 wijst op een negatieve samenhang (dalende lijn), een waarde dichtbij de 1 wijst op een positieve samenhang (stijgende lijn) en een waarde dichtbij de nul wijst op geen samenhang. Je mag deze correlatiecoefficient berekenen als de 2 populatieverdelingen van de 2 variabelen waar je de correlatie van berekend normaal verdeeld zijn. Omdat je dit over het algemeen niet weet, kun je je gegevens plotten en kijken of er een normale verdeling uitkomt. Als je minder dan 25 gegevens hebt (waardoor je geen goed plaatje meer kunt maken) en je weet niet of de verdelingen normaal zijn, is deze correlatiecoefficient niet de juiste keuze. 1 (2) b) c) Hetzelfde als bij a), alleen kijken we nu niet naar de waarden van de variabelen zelf maar naar de rangschikking (dus de hoogste hartslag krijgt een 1, die daarna een 2 etc. en hetzelfde bij de bloeddruk). Deze correlatiecoefficient gebruik je als je die bij a) niet kan of mag gebruiken Als er sprake is van correlatie dan is het zinnig om door de puntenwolk een lijn te tekenen. De best passende lijn noemen we de regressielijn 2 (2) wiskunde (X) statistiek (Y) X2 Y2 XY 60 75 3600 5625 4500 85 80 7225 6400 6800 32 40 1024 1600 1280 58 50 3364 2500 2900 45 50 2025 2500 2250 70 72 4900 5184 5040 84 80 7056 6400 6720 72 48 5184 2304 3456 40 46 1600 2116 1840 64 49 4096 2401 3136 ∑ = 610 ∑ = 590 ∑ = 40074 ∑ = 37030 ∑ = 37922 2 (3) rxy = rxy = rxy = n ∑xy - ∑x ∑y [n ∑x 2 - (∑x) 2 ][(n ∑y 2 - (∑y) 2 ] = 10 • 37922 - 610 • 590 (10 • 40074 - 610 2 )(10 • 37030 - 590 2 ) 19320 19320 = = 0.76 28640 • 22200 25215.23 = 2 (4) H 0: ρ = 0 H 1: ρ > 0 r = 0.76 n = 10 Nu kijken we in de tabel bij α = 0.01 en n = 10 voor eenzijdig toetsen. Daar vinden we een (kritieke) waarde 0.746. Alle r-waarden groter dan 0.746 zien we dus als verschillend van 0. r = 0.76 > 0.746, in kritieke gebied, dus H0 verwerpen Conclusie: Er is voldoende reden om aan te nemen dat de correlatiecoefficient groter is dan 0. 3 (1) studie-uren en aantal punten (met regressielijn) 90 80 aantal punten 70 60 50 40 30 20 10 0 0 10 20 30 40 aantal uren 50 60 70 80 3 (2) Methode: Spearman-rangcorrelatie want minder dan 25 waarnemingen student wiskunde statistiek rang wiskunde rang statistiek d d2 a 50 65 5 5 0 0 b 30 40 1 1 0 0 c 65 80 6 6.5 -0.5 0.25 d 45 60 3.5 4 -0.5 0.25 e 40 45 2 2 0 0 F 75 80 7 6.5 0.5 0.25 g 45 50 3.5 3 0.5 0.25 Σ=1 Op dezelfde wijze als bij opgave 2: rs = 1 – 6 * 1 / (73 –7) = 0.98 3 (3) H 0: ρ = 0 H 1: ρ > 0 r = 0.98 n=7 Nu kijken we in de tabel bij α = 0.01 en n = 7 voor eenzijdig toetsen. Daar vinden we een (kritieke) waarde 0.893. Alle r-waarden groter dan 0.893 zien we dus als verschillend van 0. r = 0.98 > 0.893, in kritieke gebied, dus H0 verwerpen Conclusie: Er is voldoende reden om aan te nemen dat de correlatiecoefficient groter is dan 0.