lOMoARcPSD Hoorcollege 1 Numerieke maatstaven van centrale tendentie Steekproefgemiddelde: optelling van de waarde gedeeld door het aantal waarden dat je hebt. X met streepje staat voor steekproefgemiddelde. n x i x i 1 n Mediaan: middelste getal wanneer de waarnemingen op volgorde gezet worden. Oneven: middelste n/2 + 0,5 Even: twee middelste gemiddelde van de n/2 en n/2 + 1 Modus: meest voorkomende waarde in een dataset De dataset kan multi-modaal zijn meerdere modi hebben. Voorbeeld {1,3,5,6,8,8,9,11,12,100} Door een groot getal wordt het gemiddelde helemaal vervormd. De mediaan blijft op 8 en de modus ook. Gemiddelde = (1+3+5+6+8+8+9+11+12)/9 = 7 Meidaan is het gemiddelde van (8+8)/2 = 8 Modus is 8 Algemene regel: bij een symmetrische verdeling gebruik je het gemiddelde en bij een scheve verdeling gebruik je de mediaan. (bij een histogram) Modus gebruik je alleen maar als er categorieabele variabelen zijn. (niet bij een continue variabele) Kwalitatieve data SPSS Analyse Descriptive statistics Frequencies Bij statisctis mean, meidan, mode Cirkeldiagram: graphs legacy dialogs pie Graphs legacy dialogs bar Steekproefgemiddelde vs populatiegemiddelde Steekproefgemiddelde: x met een streepje, je krijgt elke keer net een ander gemiddelde lOMoARcPSD n x i x i 1 n Mu, is een constante en varieert niet krijgen we nooit met zekerheid, met het steekproefgemiddelde willen we hier iets over zeggen. N x i i 1 N N = alle eenheden van de populatie waarover we iets willen zeggen n = aantal analyse-eenheden. Samengevat Mediaan bij scheve verdelingen Gemiddelde bij symmetrische verdelingen Modus kan willekeurig zijn (dus niet geschikt), maar wel geschikt bij kwalitatieve data Voldoende aan maten voor centrale tendentie? Als je twee verschillende grafieken heeft, kies je de meest betrouwbare Numeriek spreidingsmaatstaven Spreiding van data over de verschillende waarden Veel gebruikte maatstaven: 1. bereik 2. interkwartielafstand 3. variantie &standaarddeviatie - - Bereik: grootste waarneming – de kleinste waarneming; hoogste = 90, laagste = 10. Dit geeft een bereik van 80. Ongevoelig voor vorm verdeling (in dit geval spreiding) Interkwartielafstand (IKA) = 75e percentiel (Q3) – 25e percentiel (Q1) Mediaan = 50e percentiel Stel 75e = 40 en 25e = 30, dan IKA = 40. Zegt al iets meer over de spreiding van de data dan het bereik. variantie & standaarddeviatie (populatievariantie en standaarddeviantie) N s2 = å(xi - m ) N 2 i=1 N en 2 ( x ) i i 1 N 2 lOMoARcPSD FORMULE KENNEN EN TOEPASSEN (met de hand uitrekenen op tentamen) variantie: je neemt een waarde – het gemiddelde. Kwadrateer dit, en doet dit met alle getallen. Tel deze bij elkaar op en deel door het aantal N Standaarddeviatie: de wortel van de variantie. Gemiddelde 5 6 1 5 8 5 6 1 5 8 (xi – u) 0 1 -4 0 3 (xi-u)^2 0 1 16 0 9 5 26 Variantie = 26/5 = 5,2 St. Dev = √5,2 = 2,28 Numerieke spreidingsmaatstaven Voor de steekproefvariantie delen we 26 door n-1, oftewel 26/(5-1) = 6,5 Bij een kleine hoeveelheid datapunten, corrigeer je de st.dev. en de variantie n n s2 ( xi x) 2 2 i s= i 1 n 1 å(x - x) i=1 en n -1 = s2 Excel: Var.p = variantie populatie Var.s = variantie steekproef STDEV.p = standaarddeviatie populatie STDEV.s = standaarddeviatie steekproef Populatievariantie = σ Steekproefvariantie = s (met delen door n-1) Spss geeft altijd de parameters van de steekproef dus de steekproefvariantie en de bijbehorende standaarddeviatie hiervan. Huiwerkopdracht: let op naar welk steekproefwaarden er gevraagd wordt. Interpretatie van de standaardafwijking Hoeveel waarnemingen zitten binnen +- n s van het gebied. De standaardafwijking veronderstelt de normale verdeling Empirische regel - 68% van de waarden tussen -1 en 1 - 95% van de waarden tussen -2 en 2 - 99,7% van de waarden tussen -3 en 3 lOMoARcPSD bereik, IKA, variantie en standaarddeviatie: percentielen: explore functie statistics percentiles Numerieke maatstaven van relatieve positie Beschrijvende maatstaven die de relatie tussen een meting met de rest van de data weergeven. 2 maatstaven: - z-score: de afstand tussen meting x en het gemiddelde, uitgedrukt in standaardafwijkingen. Het gebruik van standaardafwijkingen maakt het mogelijk verschillende datasets met elkaar te vergelijken z = (x- x(streepje) /s) SPSS: transform compute variable numeric expression: (paardekr104.2)/38.3 target variable: Zpaardekracht klik analyse/discriptive statistics/explore voeg Zpaardekracht toe aan dependent list - percentiel score Een 2e methode om uitscheiden van outliers Box plots: Gebaseerd op quartielen, waarden die de dataset in 4 groepen indelen op basis van 3 percentielen. Q1,Q2 (mediaan) en Q3 IKA = Q3-Q1 Methoden om uitschieters te detecteren Vuistregels: - box plots: o metingen buiten Q3 + 1,5 * IKA (50) zijn verdacht - Z-scores o Scores van +_ 3 in bergachtige verdelingen (+- 2 in scheve verdelingen) worden beschouwd als uitschieters o Graphische representatie van bivariatie relaties Bivariate relaties – de relatie tussen twee kwantitatieve variabelen Graphische representatie met scatter (puntenwolk) diagram lOMoARcPSD graphische representatie van bivariate relaties Zelf: Auto.sav Graphs/legacy dialogs/scatter Simple scatter define KG als X (onafhankelijk) Kies brandstof gebruik in liters als Y (afhankelijk), en Outliers belangrijk als je kijkt naar verband tussen 2 variabelen Een afwijkend punt vervormd een data-set helemaal belangrijk om outliers te bepalen want ze hebben de potentie om de regressielijn weg te trekken. Samenvatting - Grafische methoden voor kwalitatieve data o Cirkeldiagram o Staafdiagram - Grafische methoden voor kwantitatieve data o Histogram - Numerieke maatstaven van centrale tendentie o Gemiddelde o Mediaan o Modus - Numerieke maatstaven van spreiding o Bereik o Interkwartielafstand o Variantie & standaarddeviatie - Verdelingsregels o Empirische regel - Maatstaven van relatieve positie o Percentiel scores o Z-scores - Methoden voor het detecteren van uitschieters o Box plots o Z-scores - Methoden voor het grafisch representeren van de relatie tussen twee kwantitatieve variabelen o Scatter (puntenwolk) diagram lOMoARcPSD HUISWERKOPDRACHT Bb/assignments/data-analyse/huiswerkopdracht 1 Oefenen met oefenopdracht 1 Individueel Deadline: 19 Februari 7.30 lOMoARcPSD Hoorcollege 2: Simuleren Steekproef random variabelen Stochastische variabelen Numerieke waarden die toegekend worden aan de uitkomsten van een random proces. 0 kop komt boven 1 munt komt boven oftewel de bernoulli verdeling. Random waarden uit verdeling trekken Transform/compute variable Target variabele = Bernoulli0punt5 Numeric experession = RV.BERNOULLI(0.5) maak frequentietabel histogram variantie Bernoulli kans op succes Gemiddelde en spreiding van Bernoulli verdeling (algemeen) Variantie = p * (1-p) Bij welke kans is de spreiding van een Bernoulli distributie maximaal? variantie is het grootst als de kans 0,5 is. Dit kan je zien aan de volgende tabel: P 1-p Variantie 0,1 0,9 0,09 0,2 0,8 0,16 0,3 0,7 0,21 0,4 0,6 0,24 0,5 0,5 0,25 0,6 0,4 0,24 0,7 0,3 0,21 0,8 0,2 0,16 0,9 0,1 0,09 De variantie heeft bij deze tabel zijn hoogste punt bij 0,25. Dit is bij de vermenigvuldiging van 0,5*0,5. lOMoARcPSD Uniforme verdeling Transform/COmpute variable Target variabele = Uniform3tot7 Numeric expression = RV.UNIFORM(3,7) Gelijke kans bij de uniforme verdeling Elke waarde komt maar 1 keer voor in de dataset, omdat er oneindig veel cijfers achter de komma staan. Dit zorgt ervoor dat elke waarde uniek is elke waarde is mogelijk. De kans dat je exact 5 trekt is gelijk aan 0! Je kan nooit precies een waarde trekken uit deze verdeling. Wel: wat is de kans tussen twee waarden (bijvoorbeeld 4,95 en 5,05) je kan de oppervlakte van de range bepalen, nooit een exacte waarde. Cumulatieve distributiefunctie geeft aan hoeveel procent van de waarden lager of gelijk aan de gegeven waarde is. Normale verdeling Transform/compute variabele Target variable = NormalMu5Sigma2 Numeric expression = RV.NORMAL(5,2) historam maken frequentietabel Is de verdeling discreet of continu? continu verdeling (je kan alleen iets zeggen over een bepaald interval) Ook deze verdeling geeft alleen unieke waarden. Geen analytische oplossing gebruik tabel of excel De kans zal nooit exact 0 worden, de staarten lopen oneindig ver door (excel bestand). Standaard normale verdeling: gemiddelde = o en de st.dev = 1. lOMoARcPSD Als je interval van 3 keer de standaarddeviatie neemt, beide kanten op de x-as, dan heb je vrijwel alle waarden (99,7%). Excel normale verdeling vragen met behulp van: NORM.DIST (statistieken) 1. 2. 3. 4. geef waarde op voor x = 0 gemiddelde = 0 standaard deviatie = 1 cumulatief = true (geeft de cumulatieve distributie functie) Men gebruikt meestal niet de kansdichtheidsfunctie om dit te berekenen. Opdracht excel Gegeven is een normaal verdeelde continue kansvariabele x waarvoor geldt dat de gemiddelde waarde gelijk is aan -4 en de st dev = 3. a) bereken de kans P(x<-7) in vier decimalen =NORM.DIST(-7;-4;3;TRUE) b) bereken de kans dat x gelijk of groter is dan 2,3 in vier decimalen. = 1-NORM.DIST(2,3;4;3;TRUE) c) Bereken de kans dat x inligt tussen -11,2 en 3,2 in vier decimalen = NORM.DIST(3,2;-4;3;TRUE)NORM.DIST(-11,2;-4;3;TRUE) In plaats van true kan je ook een 1 invoeren, en voor false een 0. Zie excel en slide Transformeren naar standaard normaal verdeling (z-score) Je kan de kans berekenen met behulp van een z-score. z x P( X x) P( z x opdracht transformeren (z-score) ) lOMoARcPSD tranformeer de waarden naar standaardnormale verdeling en bereken de kansen in Excel Gegeven is een normaal verdeelde continue kansvariabele x waarvoor geldt dat de gemiddelde waarde gelijk is aan -4 en de standaarddeviatie 3. a) bereken de kans P(X<_ -7) in vier decimalen = NORM.S.DIST(-1;TRUE) b) Bereken de kans P(X>_ 2,3) in vier decimalen = 1-NORM.S.DIST(2,1;TRUE) c) Bereken de kans dat x inligt tussen -11,2 en 3.2 = NORM.S.DIST(2,4;TRUE)-NORM.S.VERD.(2,4;TRUE) Verdeling herleiden(1) Va neen normaal verdeelde kansvariabele is gegeven dat ze een standaarddeviatie heeft die gelijk is aan 8. Kan dat x gelijk of kleiner is aan 60,92 = 0,0222 Bereken het gemiddelde van deze kansvariabele en rond af op een geheel getal. 1. 2. 3. teken de verdeling bereken de z-score: NORM.S.INV(0,0222) in excel bedenk de regel voor transformeren P( X x) P( z x ) opdracht gemiddelde en kans op iets bekend. 1. 2. 3. teken de verdeling 1-p acherhaal de z-score Som van n onafhankelijke random variabelen (wortel N-wet) Maak 5 normaal verdelingen (normaal 1 t/m normaal5) met mu=16 en sigma=5 Maak een nieuwe variabelen Y = normaal1 +normaal2+normaal3+normaal4+normaal5 n E (Y ) E ( X i ) n * E ( X i ) 5 *16 80 i 1 n VAR(Y ) VAR( X i ) n *VAR( X i ) 5 * 25 125 i 1 y n *VAR( X i ) n * VAR( X i ) n * i 5 * 5 11,2 Wortel-N wet oftwel: - gemiddelde = som van de gemiddeldes variantie = som van de varianties standaarddeviatie = √n * variantie(van 1 variabele) Voorbeeld: Een wereldreiziger koopt ten behoeve van zijn videocamera batterijen waarvan de levensduur kan worden beschrven door een normale verdeling met mu=16 en sigma=5 uur. Hij neemt 5 batterijen mee op zijn tocht. lOMoARcPSD Hoe groot is de kans dat de totale draaitijd van 60 uur wel gehaald wordt? P(X>_60)=???? 1. 2. 3. 4. Maak een tekening Zet alle bekende waarden in de tekening en markeer het deel dat je wil weten Schrijf om naar: P(X>_60)= 1 – P(x<_60) Schrijf om naar de z-score en gebruik: NORM.S.VERD(-20/11.18;1) De gemiddelde van n onafhankelijke random variabelen n 1 n 1 1 E ( Z ) E ( X i ) * E ( X i ) * n * E ( X i ) 16 n i 1 n n i 1 n n *VAR( X i ) VAR( X i ) 25 1 n 1 VAR( Z ) VAR( X i ) 2 VAR( X i ) 2 n i 1 n n n 5 i 1 z VAR( X i ) i VAR( X i ) 5 2,32 n n n 5 Voorbeeld: Van een grote groep mensen wordt precies gemeten wat het gemiddelde is van de lengte van deze personen. Dit gemiddelde blijkt gelijk te zijn aan 177 cm met een spreiding van sigma = 18 cm. Men neemt een steekproef van 10 personen en bepaalt de gemiddelde lichaamslengte Hoe groot is de kans dat deze uitkomst groter is dan 175? z i 177 P( x z z z) z i n 18 5,69 10 175 177 P( z) 5,69 1 P( z 0,35) P 0,64 lOMoARcPSD Hoorcollege 3 Gemiddelde van n onafhankelijke random variabelen n 1 n 1 1 E ( Z ) E ( X i ) * E ( X i ) * n * E ( X i ) 16 n i 1 n n i 1 n n *VAR( X i ) VAR( X i ) 25 1 n 1 VAR( Z ) VAR( X i ) 2 VAR( X i ) 2 n i 1 n n n 5 i 1 z VAR( X i ) i VAR( X i ) 5 2,32 n n n 5 Met de z-score standaardiseer je iets. De verdeling van de gemiddelde van steekproeftrekkingen (van een normale verdeling) vormt ook een normale verdeling. Dit is niet alleen bij een normale verdeling, maar bij alle verdelingen, wordt de verdelingen van de gemiddeldes van de steekproeven een normale verdeling centrale limietstelling. Vanaf N=25 zal er een normale verdeling gemaakt worden. Het gemiddelde van n onafhnakelijke random variabelen - open centrale limiet stelling.sav Maak een histogram van Uniform1, wat zijn de parameters van deze verdeling? Maak een nieuwe variabelen uniformgemiddelde = (uniform1 + uniform2 + uniform3 + uniform4 + uniform5)/5 Hoe ziet de verdeling van uniformgemiddelde er uit? Wat is het gemiddelde (mu), variantie (sigma kwadraat) en de standaarddeviatie (sigma) van de nieuwe verdeling (uniformgem)? Wat is de relatie met mu en sigma van de originele verdelingen? Hypothese toetsen Stel: in 1930 trekken we een aselecte steekproef van N=1000. Gemiddelde leeftijd is nu 28,4, in 1899 was deze 27,1. Is de gemiddelde leeftijd gestegen? Steekproef (1930) Populatie (1899) N = 1.000 N = 5.104.026 X streepje = 28,4 Mu = 27,1 S=? Sigma = 20,6 Wat gaan we doen? - Stel een nulhypothese op: Het populatiegemiddelde is niet gestegen (sigma = 27,1) Wat is dan de kans (p) dat we in 1930 met een willekeurige steekproef toevallig een steekproefgemiddelde van 28,4 of hoger vinden? Als deze kans p <0,05 dan verwerpen we de nulhypothese (en nemen we de alternatieve hypothese aan >27,1) Hoe kunnen we deze kans p berekenen? lOMoARcPSD Centrale limiet theorie Wat zijn de waarden van x en sigma van de steekproef? x n 20 ,6 0,65 1000 x 27,1 = Standaardfout Om de kan te berekenen wordt gebruik gemaakt van de z-score. X = 28,4 Mu = 27,1 Sigma = 0,65 Steekproefverdeling (centrale limietstellig) De steekproefverdeling is ongeacht de populatieverdeling een normale verdeling. De standaardfout is de sigma (sigma/wortel n). We gaan ervan uit dat het gemiddelde hetzelfde is gebleven. (27,1) Z-toets voor gemiddelde VOORBEELD ZIE SCHRIFT Significantieniveau Twee soorten fouten bij het al dan niet verwerpen van de nulhypothese Werkelijkheid Onze beslissing H0 is waar H1 is waar H0 wordt niet verworpen OK Type 2 is fout (beta) H0 wordt verworpen Type 1 fout (alfa) OK Er kunnen eenzijdige of tweezijdige centrale limietstellingen voorkomen. Tweezijdige z-toets H0: mu = 30 H1: mu =/ 30 Geen verwachting richting tweezijdige p-waarde x 1 f (x ) +1,96 -1,96 xx 0 x Eenzijdig H0: mu = 30 H1: mu < 30 of H1: mu . 30 Wel verwachting richting eenzijdige p-waarde lOMoARcPSD x 1 f (x ) f (x ) x 1 +1,66 -1,66 xx 0 x xx 0 x Betrouwbaarheidsinterval x z x Van een bepaald type batterij is bekend dat de gebruiksduur kan worden weergegeven door de kansvariabele x die een onbekende verwachtingswaarde mu heeft, terwijl de sigma = 6 Voor n = 60 batterijen wordt vervolgens de gebruiksduur bepaald. Dit levert een gemiddelde op van x =44 uur Voor het populatiegemiddelde mu vinden we als 99% betrouwbaarheidsinterval lOMoARcPSD Hoorcollege 4 we hoeven niet te weten hoe de populatieverdeling eruit ziet, de steekproefverdeling is namelijk altijd normaal verdeeld. z-toets: enkelvoudig (voorbeeld zie schrift) enkelvoudige steekproef als het gemiddelde van de steekproef hoger is dan het gemiddelde van de populatieverdeling, en je wil toetsen of het gedaald is. Hoef je het niet te toetsen. De alternatieve hypothese kan dan al niet meer weer zijn en je kan per definitie H1 verwerpen en H0 aannemen. Steekproefgrootte bepalen Zie schrift voorbeeld Bernoulli-verdeling Hierbij krijg je bij de som, net als bij een normale verdeling, ook een normale verdeling voor de som. Als je de som neemt van bernoulli-verdelingen, krijg je een Binomial verdelen met (n,p) = (5;0,4) Vergelijk met BIN(5,0.4) Centrale limiet theorie Populatieverdeling: 2 p * (1 p) 0,24 Steekproevenverdeling van de som: s 2 = n * p *(1- p) = 2, 4 Steekproevenverdeling van het gemiddelde: 2 p * (1 p) 2x 0,024 n n Je kan ook de sigma gebruiken Populatieverdeling: p * (1 p) 0,24 Steekproevenverdeling: x n p * (1 p ) n Z-toets op proportie 0,24 10 lOMoARcPSD In plaats van dat sigma gegeven is, kan je de sigma zelf berekenen (er is sprake van een Bernoulli-verdeling). Hiermee bereken je ook de sigma van de steekproevenverdeling en kan je een bepaalde steekproefwaarde berekenen. Betrouwbaarheidsinterval voor proportie Kan je hetzelfde bepalen als dat je het voor een gemiddelde bepaald. Studieuren Een aselecte steekproef van N = 145 Gemiddeld aantal uur besteed aan studie (x streepje) = 28,3 Nulhypothese: het populatiegemiddelde voor u_studie = 30 uur Alternatieve hypothese: het populatiegemiddelde voor u_studie is niet gelijk aan 30 uur. We gebruiken de steekproef-standaarddeviatie omdat we de populatiestandaarddeviatie niet weten. Om dit te corrigeren gebruiken we de student tdistributie. T-verdeling versus normale verdeling Hoe minder vrijheidsgraden K (N=1), dus als je steekproef kleiner is en onzekerder, zijn de staarten veel dikker (dit is om rekening te houden met de onzekerheid van de standaarddeviatie). Bij N=30 krijg je een redelijke normaal verdeling. SPSS werkt bijna nooit met de normale verdeling dus altijd t-toets in SPSS (z-toets is niet mogelijk). Bepalen toetsingsgrootheid De z-waarde en de t-waarde zijn precies hetzelfde, maar je gebruikt een andere formule om de kans te bereken. t x x x dezelfde formule als voor de z-toets. In excel gebruiken we: TVERD(x; vrijheidsgraden; zijden) Je kan je antwoorden controleren in SPSS. Standaardfout van de standaarddeviatie steekproefverdeling (std. Error mean). VOORBEELD lOMoARcPSD Betrouwbaarheidsinterval obv t-waarde Vrijheidsgraden = aantal steekproeven – 1 Je hebt niet bijzonder grote steekproeven nodig om toch iets met redelijke betrouwbaarheid over de populatie te zeggen. lOMoARcPSD Hoorcollege 5 Eenzijdige t-toets Omdat we de populatie standaarddeviatie niet weten (sigma) gebruiken we de steekproef standaarddeviatie. Om voor deze schatting te corrigeren gebruiken we de student t-distributie. Vrijheidsgraden: N -1 Begrippen Steekproevenverdeling: dit geeft aan hoe de waardes van de getrokken steekproef verdeeld zijn in een grafiek. Met heel veel steekproeven Standaardfout: de standaarddeviatie van de steekproevenverdeling T-waarde: p-waarde: de kans dat een bepaalde waarde die groter of kleiner is dan een gegeven waarde voorkomt. Alpha: de waarde waar je de p-waarde mee vergelijkt. Het minimaal geaccepteerde onzekerheid die voor mag komen in de verdeling zodat je de nulhypothese aanneemt of verwerpt. Als de nulhypothese groter is dan de alpha wordt deze hypothese aangenomen, in het andere geval wordt de alternatieve hypothese aangenomen. Gepaarde t-toets met twee reeksen Voor Na 68 81 75 73 73 68 70 74 95 78 77 67 86 85 82 90 1. maak een nieuwe variabele met het verschil 2. gemiddelde verschil (1,25) 3. sd: standaarddeviatie van het verschil berekenen sd(s) ZIE EXCEL In spss: 1. analyze 2. compare means 3. paired sample T-test 4. beide selecteren compute variable target variable: verschil voor – na nu uitvoeren: one simple t-test Je test value is nu 0 Je krijgt dezelfde waarden als bij een paired sample t-test. Ongepaarde t-test (gelijke variantie) Onafhankelijke steekproeven. De variabelen komen uit twee verschillende groepen. Is er een verschil in gemiddeldes tussen de beide reeksen? lOMoARcPSD Neem aan dat de verdelingen gekenmerkt worden door even grote (gelijke) varianties. Je kan van beide reeksen het gemiddelde berekenen, en het verschil van de twee gemiddeldes Ongepaarde t-test (ongelijke variantie) Moeilijke formule voor het aantal vrijheidsgraden. Zijn de onbekende varianties gelijk? Levene’s test for equality of variances - hij berekent de f-waarde (ene variantie gedeeld door de andere variantie) - als deze waarde groot is (groter is dan 1), dan verschillen de varianties van elkaar - bij bijvoorbeeld een 0,153 voor f-waarde zijn de varanties gelijk - als de p-waarde kleiner is dan 0,05 (sig) dan de onderste rij - anders de bovenste rij dus als sig > 0,05 (ook wel de p-waarde) lOMoARcPSD Hoorcollege 6 De formules voor t-toetsen herkennen (niet uit je hoofd kennen) alleen voor de t-toets voor mu, moet je de formules wel uit je hoofd kennen. Twee soorten fouten bij het al dan niet verwerpen van de nulhypothese: Type 1 : H0 wordt verworpen, terwijl H0 wel waar is Type 2 : H0 wordt niet verworpen, terwijl H1 waar is Kanskapitalisatie Als je meerdere toetsen achter elkaar doet, ontstaat er kanskapitalisatie. 1- P(x=geenfouten) = 1 – (1-0.05)^6 = 1 – 0,74 = 0,26 Dit is de kans dat je tenminste één fout maakt van type 1. Variantie-analyse Oplossen met: variantie-analyse ANOVA (Spss) Gebruiken als je drie of meer groepen wil vergelijken Uitgangspunt: de variantie van de afhankelijke variabele (bijvoorbeeld opdracht 3) Oorzaak en gevolg onafhankelijke en afhankelijke variabelen. Voorbeeld: Toets of de groepsgemiddelde van afstand tot winkelcentrum verschillen van 3 gebruikte vervoerswijzen (auto, fiets en OV) Variantie-analyse Variantie-analyse gebaseerd op de variantie (formule uit college 1) Totale variantie uitsplitsen in: - tussengroepsvariantie - binnengroepsvariantie - totale variantie = tussengroepsvariantie + binnengroepsvariantie MSG = Mean Sum of Squares of Groups MSE = Mean Sum of Squares of Errors Tussengroepsvariantie (MSG): afstand berekenen van groepsgemiddelde met overall gemiddelde, hiervan de som nemen en delen door (p-1). P is hier het aantal groepen. p MSG n (x x) i 1 i 2 i p 1 Binnengroepsvariantie: heeft te maken met de afwijking. Hoe breder het bereik van een groep, hoe groter de afwijking kan zijn maar hoe betrouwbaarder de f-waarde zal zijn. lOMoARcPSD n1 MSE (x j 1 1j np n2 x1 ) ( x2 j x2 ) ... ( x pj x p ) 2 2 2 j 1 j 1 n p F-waarde F-toetsgrootheid F = tussengroep/ binnengroep F MSG MSE H0: F = 1, waarden van F dicht bij 1 suggereren dat de groepsgemiddelden niet van elkaar verschillen H1: F > 1, waarden die verder van 1 liggen, suggereren dat de variatie in groepsgemiddelde groter is dan de variatie binnen groepen, hetgeen de alternatieve hypothese ondersteunt. F-verdeling: F > 1: verwerpen van H0, groepsgemiddelden zijn ongelijk F MSG Tussengroep groot groot 1 MSE Binnengroep klein F < 1: aannemen van H0, groepsgemiddelden zijn gelijk aan elkaar F MSG Tussengroe p klein klein 1 MSE Binnengroep groot SPSS Analyze Compare means One-way anova Toevoegen van factor (vervoersmiddel) Dependent list (afstand) Descriptives: opvragen bij opties lOMoARcPSD Voorbeeld Dependent: cijfers opdracht 3 Factor: cohort Experiment Heeft een bepaald medicijn een positieve invloed op het chlesterolgehalte. Er zijn 3 groepen, met A 5 patienten, B 3 patienten en C 4 patienten. H0 blijft behouden Een f-waarde kan je controleren in SPSS. De waarden moeten onder elkaar staan en elk een groepsnummer hebben. Geef de variabelen een naam en bereken de ANOVA. Er kan nu gecontroleerd worden of je het goed gedaan hebt. Post hoc tests (SPSS) Wat weten we nu wel/niet? - er zijn verschillen in gemiddelden tussen groepen - maar welke groepen verschillen significant van elkaar? Post hoc tests: - alle paren van groepen worden vergeleken - met strengere alpha dan t-toest (correctie door kanskapitalisatie) - er zijn verschillende correctie methoden voor alpha - in deze modulen kiezen we voor ‘Bonferroni’ NB. Alleen post-hoc test als F-waarde significant is (p,0,05) Keuze analysetechniek Is afhankelijke van: - het aantal variabelen (1 of 2) - de meetniveaus van de (onafhankelijke en afhankelijke) variabele(n) - de verdeling van de variabele (bij N < 30 moet de variabele normaal verdeeld zijn) Wat zijn de meetniveaus? Hoe controleer je de verdeling? Meetniveaus Nominaal meetniveau: cijfers duiden alleen dat er te onderscheiden categorieën zijn (groepen of klassen) Voorbeeld: herkomst 1= VS; 2 = Europa; 3= Japan is gelijk aan 2 = Japan; 3 =VS; 1= Europa dichotoom: variabele nominaal meetniveau met slecht 2 categorieën (geslacht: 1 vrouw, 2 man) Ordinaal meetniveau Er is wel een ordening, maar je kan niet zeggen wat de verschillen zijn tussen de opeenvolgende categorieën. lOMoARcPSD Voorbeeld: 1 mavo; 2 havo; 3 vwo = 2 mavo; 5 havo; 7 vwo (ordening is belangrijk) interval meeniveau ordening met gelijke afstand, maar geen absoluut nulpunt voorbeeld: wel: verschil 20 graden – 10 graden = 2 x (15 graden – 10 graden) Maar niet: als temperatuur daalt van 20 graden naar 10 graden is het 2 maal zo koud Vanaf dit meetniveau zijn gemiddelde en mediaan zinnig. Ratio meetniveau Ordening & gelijke intervallen Absoluut nulpunt Voorbeeld: geld, kilometers, temperatuur in graden Kelvin (absoluut nulpunt) Discreet: nominaal en ordinaal Continu: interval en ratio Normaliteitsassumptie Voorwaarde bij t-testen en variantie-analyse (patametrische toetsen) Als je N < 30, dan moet je verdeling normaal verdeeld zijn. Als dit niet het geval is of als je een ordinale variabele hebt gebruik je een ‘’niet-parametrische toets’’. Controle normaliteit 1. visuele inspectie histogram 2. kolmogorov-Smirnov toetsen: K-S toets Ho wordt met een p-waarde van 0,000 (<0,05) verworpen H1 wordt aangenomen Je moet hiervoor kijken naar de significantie lOMoARcPSD Hoorcollege 7 Relatie tussen continue variabelen Voorbeeld: Open auto.sav Graphs/legacy dialogs / scatter / simple Bekijken in auto.sav (verband tussen gewicht en het brandstofverbruik) - afhankelijke variabele komt op de y-as - onafhankelijke variabele komt op de x-as - kunnen we dit verband generaliseren naar de populatie? - wat is de vorm van het verband? waar snijdt hij de y-as, gebruiken om te voorspellen (regressie) - als je een lijn door de lijn heen schat, wat is dan de variantie die overblijft (hoe zitten die punten om die lijn heen) regressie-analyse: lijn die het beste bij de punten past. Sterkte verband: correlatiecoëfficiënt Covariantie n i 1 i x )( y i y ) 16 14 12 10 n 1 afstand tot winkelcentrum COV ( X , Y ) (x is een maat voor de sterkte van een lineaire relatie tussen X en Y: 8 6 4 2 0 1000 2000 3000 4000 5000 6000 7000 netto maandinkomen huishouden Positieve relatie: cov(X,Y) > 0 Negatieve relatie: cov(X,Y) < 0 gemiddeld aantal winkelbezoeken per maand 12 De covariantie lijkt qua formule erg op de formule van de variantie 11 10 9 8 7 6 5 4 3 2 1 0 0 2 4 6 8 10 12 14 16 afstand tot winkelcentrum Nadeel covariantie Grootte hangt af van de schalen waarop X en Y gemeten zijn (x = gewicht in kg, y = brandstofverbruik in liter/1000 km). Dit kan genormaliseerd worden met een formule voor r. R is de correlatiecoëfficient ( X ,Y ) r COV ( X , Y ) sx s y Covariantiedelen door productie van de standaarddeviatie. De correlatiecoëfficient heeft altijd een waarde -1 en 1. lOMoARcPSD Correlatiecoefficient r >1 positieve lineaire relatie (de lijn loopt van linksonder naar rechtsboven) r < 0 negatieve relatie (de lijn loopt van linksboven naar rechtsonder) r = 0 geen relatie of niet-lineaire relatie Het toetsen van de correlatiecoefficient H0: geen relatie tussen X en Y H1: twee zijdige relatie; eenzijdige positieve relatie tussen X en Y of eenzijdige negatieve relatie tussen X en Y. Schatten van correlatiecoefficient o.b.v steekproef. De verdeling van r is niet bekend maar wordt benaderd met een t-waarde: n2 *r 1 r2 T= De student-t-distributie met (n-2) vrijheidsgraden (df) Dus Student-t-test om de nulhypothese te testen P (X,Y) = 0 SPSS: Open auto.sav Analyse/correlate/bivariate Gewicht en brandstofverbruik toevoegen Options: “cross-product deviations and covariances” R = pearson Correlation = 0,0886 Covariantie = covariance = 1300,15 Nulhypothese wordt verworpen (0,000 < 0,05) Casus H0: er is geen relatie tussen het cijfer voor opdracht 1 en het cijfer voor opdracht 2 in de populatie H1: er is een positieve relatie tussen het cijfer voor 1 en het cijfer voor 2 Hoe sterk is het verband? Mag het verband gegeneraliseerd worden naar de populatie 1. alles invullen 2. gemiddelde berekenen 3. beren (xi – x ) en (yi – y ) 4. vermenigvuldig dit per persoon 5. productensom hiervan nemen 6. bereken de covariantie 7. correlatie berekenen 8. t-waarde berekenen 9. p-waarde Eenzijdig toetsen lOMoARcPSD Samenvatting correlatie Maatstaf voor het teken en sterkte van een relatie tussen 2 variabelen van tenminste intervalmeetniveau. Teken (+/-) - positief: lage waarden van X gaan gepaard met lage waarden van Y. - Negatief: lage waarden van X gaan gepaard met hoge waarden van Y Sterkte Waarden dichter bij +1 of -1 indiceren sterkere lineaire relatie tussen X en Y. Enkelvoudige regressieanalyse Enkelvoudig: 1 voorspellende variabele en 1 afhankelijke variabelen Regressie: welke vorm heeft het verband (waar snijdt hij de y-as). De helling van deze lijn is b1. Doel is voorspellen! y b0 b1 x bestaat uit e = error = ŷ - yi yˆ b0 b1 x en Met steekproefwaarden b0 en b1 schatten. Met een regressielijn probeer je de errors te minimaliseren de kleinste kwadraatmethode. Je probeert de kwadraten van de error termen te minimaliseren. Je kan het partieel differentiëren naar b0 en b1. (KENNISCLIPS) Minimaliseren kan met de volgende formule: n b 0 i 1 b1 xi yi 2 Belangrijk: als je dit doet met 1 voorspeller, worden de formules eigenlijk gegeven door: n b1 x x y i i 1 n y /(n 1) i x x i 1 2 i /(n 1) b0 y b1 x Met y (dakje), de voorspelde waarde, kan je door een x in te vullen een waarde schatten. lOMoARcPSD Spss, regressie Analyse/regression/lineair Afhankelijk: brandstofverbruik (dependent) Onafhankelijk: gewicht (independenten) OK Model fit hoe precies voorspelt het regressiemodel? Verklaarde variantie Gerelateerd aan de correlatie. Zegt iets over hoe goed de voorspelling is van je regressiemodel. Als je geen info hebt over onafhankelijke variabele x, het gemiddelde gebruiken om de waarde van Y te voorspellen. Deze lijn is dan de beste voorspelling. De afstand van punt tot lijn is te zien als de totale fout (SStotal). (SSreg) is het verklaarde deel. Is de afstand van regressielijn tot lijn (SSer) is het onverklaarde deel. Is de afstand van regressielijn tot punt. De voorspelde waarden zijn de waarden die op de regressielijn liggen Y streepje. SStotal = SS reg + SS er n n 2 i i 1 = i 1 y y yˆ i y n 2 y yˆ 2 i i i 1 + Deel van de variantie in Y dat verklaard wordt door waarden van de onafhankelijke variabele x R2 = SSreg / SStotal R-square = R-kwadraat = (correlatiecoefficient)^2 De waarden liggen tussen 0 en 1. Hoe dichter de waarde bij 1 ligt, hoe preciezer je voorspelling is. Model summary R = absoute waarde van correlatiecoëfficiënt R square = verklaarde variantie (geeft het percentage aan wanneer 2 variabele een verband hebben verklaard, voorspellende kracht van het model). De voorspellingsfout neemt af. Proportie verklaarde variantie 1. bereken de covariantie 2. bereken de correlatie 3. doe de regressieanalyse 4. gebruik de antwoorden om de proportie verklaarde variantie te bepalen. SPSS multiple regressie Open ‘cijfers opdracht 1-3.sav’ Analyse/regression/lineair Dependent: opdracht 3 Independents: opdracht 1 en 2 lOMoARcPSD F-test H0: B1 = B2 = Bn = 0 H1: tenminste 1 Bi =/ 0 Dit is de correctie voor kanskapitalisatie Voorwaarden regressieanalyse 1. lineaire relatie (controle scatterplot) 2. constante variantie (controle scatterplot) 3. normale verdeling van residuen of N>100 4. geen outliers / leverage point Invloedrijke punten Punten die buiten het algemen patroon vallen: - niet altijd slecht - identificeren en invloed onderzoeken 2 soorten 1. Uitbuiters/outliers: cases met grote residuen (voorspellingsfouten_ 2. Leverage (hefboom) punten: sterk afwijkende waarden op onafhankelijke variabelen Samenvatting Correlatie: sterkte en richting van een verband; gestandaardiseerd Covariantie: ongestandaardiseerd Regressiecoëfficiënt(b1): de verandering in Y bij 1 eenheid verandering in X Regressieconstante (b0): voorspelde waarde van Y bij X=0 Variantie: kan gebruikt worden als indicator voor voorspellingsfout R-square/R-kwadraat: de reductie in voorspellingsfout t.o.v gemiddelde van Y; bij enkelvoudige regressie R^2 lOMoARcPSD Hoorcollege 8 Meetniveau bepaalt de test die je moet doen. Kruistabel en Chi-kwadraat toets Relatie tussen 2 variabelen van nominaal niveau. (verschilt de verdeling van woonsituatie (uitwonend of thuiswonend) tussen mannen en vrouwen (geslacht)). Analyze/Descriptive statistics/ crosstabs Row: geslacht Column: woonsituatie Cells percentages (rows) Rijen zijn onafhankelijke variabele, kolommen zijn afhankelijke variabele. Als je de relatie tussen twee nominale variabelen orienteert, moet je kijken naar de percentagess (cells percentage). Je percenteert over de rijen (horizontaal) en kijkt verticaal naar de kruistabel. Nooit absolute aantallen, maar percentages. Er is in dit geval een verschil (vrouwen meer uitwonend dan mannen): STAPPENPLAN Chi-kwadraat Gebaseerd op het verschil in de verwachtte en geobserveerde frequentie. De verwachte frequenti Verwachte frequentie: de frequentie die zou zijn verkregen als de verdeling van uitwonend/thuiswonend onafhankelijke is van geslacht. Hoe zou de verdleing eruit zien bij onafhankelijkheid? Als geslacht (a) en woonsituatie (b) onafhankelijk zijn dan geldt: P (A = man en B=thuiswonend ) = 13,5 % Als je dit vermenigvuldigt met het totaal krijg je de verwachte frequentie: 0,135 * 143 = 19,3 Algemeen: rijtotaal * kolomtotaal / generaal totaal SPSS Analyze/descriptive statistics/crosstabs Cells : expected Chi-kwadraat berekenen Formule: Bereken het verschil tussen de verwachte en de geobserveerde frequentie. lOMoARcPSD De waarde geeft aan hoe groot het verschil is tussen de verwachtte en geobserveerde frequentie. Als deze heel groot is, zal de onafhankelijkheid steeds kleiner worden. Vrijheidsgraden = het aantal datapunten wat te kiezen valt zonder dat je daardoor andere datapunten vastlegt. Df = (N rij – 1 ) * (N kolom – 1 ) Chi-kwadraat verdeling De standaard normaal verdeling in het kwadraat. Het is namelijk de som van kwadraten van K standaardnormaal verdeelde variabelen met Df = k = 1 Met mu = 0 en sigma = 1 Berekende chi-kwadraat in steekproef - geeft aan hoe groot de kans is dat we een dergelijke Chi-kwadraat of groter vinden, gegeven dat de nulhypothese klopt - als deze klein is, dan geloven we niet meer dat de variabelen onafhankelijk van elkaar zij. SIGNIFICANT Resultaat chi-kwadraat SPSS: crosstabs Statictics: square Je kan alleen eenzijdig toetsen want je hebt geen inzicht over de richting van het verband. Pearson Chi-square – value = chi-kwadraat = 3,125 P –waarde = asump. Sig. = 0,077 H0: … en .. zijn onafhankelijk H1:… en. …. Zijn afhankelijk Opdracht – kranterverkoper Zie schrift H0 blijft behouden en H1 wordt verworpen Kritieke grenswaarde: de waarde van de toetsingsgrootheid waarbij je H0 zou gaan verwerpen. Dit kan je berekenen door de inverse van 0,05 te nemen. CHIKW.INV(0.95;4;1) = 9.4877 0.95 omdat we het linkerdeel van de grafiek berekenen. Het kritieke gebied ligt op 5% van het rechterdeel. Niet-parametrische toets - verdelingsvrije toets (verondersteld geen normale verdeling) - gebruik je voor: o variabelen van ordinaal meetniveau o continue variaben met groepsgrootten N<30 en geen normale verdeling - principe: geobserveerde waarden worden vertaald naar rangnummers (afstanden spelen geen rol) lOMoARcPSD elke parametrische toets heeft een equivalente niet-parametrische toets. (weten waar te vinden in spss). Wilcoxon signed rank test Tegenhanger van de t-toets voor bekend gemiddelde Voorwaarden: - 1 steekproef - variabelen van ordinaal meetniveau wilcoxon test: - mediaan voorbeeld lOMoARcPSD VOORBEELDEN TENTAMENVRAGEN 1. toets (met a = 0,05) met een parametrische toets of er een verband is tussen geslacht en lichaamslengte. De verwachting is dat mannen gemiddelde langer zijn dan vrouwen. H0: gemiddelde man = gemiddelde vrouw H1: gemiddelde man > gemiddelde vrouw Geslachte = nominaal en onafhankelijk Lichaamslengte = rationiveau en afhankelijk Explore/ geslacht factor list, lengte dependent list / normally plots with tests en histogram aanvinken Mannen 40 > normaal verdeeld Vrouwen < 30; controleren Kolmogorov smirnov: Vrouwen: p = 0,2; H0 blijft behouden Je voldoet aan de voorwaarden Uitvoeren: analyze/compare means / independent t-test Geslacht = onafhankelijk Lengte = afhankelijk OK Kijken of varianties gelijk zijn: gelijk (p = 0,9) en hoeft niet verworpen te worden. Uitgaan van gelijke varianties. Als je de toetsingsgrootheid moet rapporteren, rapporteer je de t-waarde (8,…). H0 wordt verworpen en H1 wordt aangenomen. SIg. (2-tailed) wordt altijd gegeven, als je eenzijdig moet toetsen moet deze nog door 2 gedeeld worden, in dit geval maakt dat niet uit want hij is al 0, en H0 zal dus al verworpen worden. Als je niet aan de voorwaarden had voldoen (vrouwen steekproefgrootte is kleiner dan 30 en niet normaal verdeeld) dan mag je geen parametrische toets meer uitvoeren. Dan moet je de Mann Whitney U toets (= Wilcoxon toets) uitvoeren 2. Toets (met a = 0.05) met een parametrische toets of studenten statistiek noodzakelijker vinden voor een TB-er (Statistiek_D) in algemene zin (statistiek_C) meetniveau = inteval-niveau 2 variabelen van continu meetniveau. Het is een meetniveau met onafhankelijke variabelen, van ordinaal/continu. Meetniveau afhankelijke variabele is continu er is sprake van een verschil dus een gepaarde t-toets. H0: gemiddelde TB = gemiddelde algemeen H1: gemiddelde TB > gemiddelde algemeen lOMoARcPSD We toetsen weer eenzijdig. We willen weten of het gemiddelde voor tb-ers groter is dan het gemiddelde in algemene zin. Voorwaarden: Explore C en D in dependent list De steekproefgrootte is 93 , het maakt niet uit of hij normaal verdeeld is of niet (CLS) Analyze/compare means/ paired t-test Als paar toevoegen T = -3,070 Df = 92 Sig(2-tailed) = 0,003 / 2 = 0,0015 Eenzijdig is 0,0015 < 0,05 er is een significant verschil. Dus H0 verwerpen 3. toets met een parametrische toets of het cijfer cohort een significante invloed heeft op het cijfer voor opdracht 2. Meetniveau: Cohort (4 jaren) dus meer dan 2 groepen: nominaal Opdracht 2: ratio-niveau Het zijn meer dan 2 groepsgemiddelden, en om een type 1 –fout te voorkomen gebruiken we de variantie-analyse H0: gemiddelde 1 = gemiddelde 2 = gemiddelde 3 = gemiddelde 4 H1: minimaal 2 gemiddelde zijn ongelijk aan elkaar. Post-hoc is vanwege kanskapitalisatie Voorwaarden: Steekproefgrootte moet groter dan 30 of normaal verdeeld. Explore: cohort = factor list Opdracht 2 = dependent list KS-toets Bij de 4e toets is Sig. Groter dan 0,05,maar je kan niet zeggen dat de variabele niet normaal verdeeld is variantie-analyse uitvoeren One-way ANOVA Afhankelijk: opdracht 2 Onafhankleijk = cohort Post-hoc en bonferonni. Opties: lOMoARcPSD F-waarde is 8,552 en SIg. Is 0,000 H1 wordt aangenomen en H0 wordt verworpen. Post Hoc test vergelijkt alle groepen met elkaar Eerste en tweedejaars/derdejaars verschillen ergs van elkaar Tweede en derde jaars niet POST HOC VARIANTIE-ANALYSE Toets die je zou moeten uitvoeren als je er niet aan voldeed: Kruskal-wallis toets TENTAMEN Vragen van huiswerkopdracht Voorbeeld tentamenvragen Inzichtvragen (begrip van het hele toetsverhaal) Geef een uitleg van alle theoretische en wiskudige stappen achter de one-sample t-toets. Betrek in je antwoord de termen populatiegemiddede, populatievariantie/-SD,