H2-H5. Statistiek Statistiek haalt info uit data. Descriptieve statistiek beschrijft de dataset. Inferentiële statistiek geeft met data conclusie over populatie. Populatie en steekproef Populatie= totale groep die wordt onderzocht. Parameter= kengetal van de populatie Steekproef= deel van de populatie. Statistiek= kengetal van de steekproef. Variabele Variabele is kenmerk die per persoon kan verschillen. Data is meting van kenmerk. Een discrete variabele als vaste stappen tussen de uitkomsten, bijv. aantal kinderen Een continue variabele heeft tussen 2 punten oneindig aantal uitkomsten, bijv. tussen 1,74 meter en 1,75 meter oneindig aantal lengtes. Scores bij continu zijn dus altijd afgeronde getallen. Frequentieverdelingen. Een frequentietabel geeft aan hoe vaak waarnemingen voorkomen. Grafisch weergave: lijndiagram. Een relatieve frequentietabel maakt percentages van de aantallen: p= frequentie/N Een gegroepeerde frequentieverdeling geeft aantal scores per interval. Een cumulatieve frequentieverdeling geeft het aantal waarnemingen kleiner dan de klasse bovengrens. Grafisch weergave: histogram histogram. De staafdiagram (bar chart) geeft het aantal waarnemingen per categorie. Klassen in taartdiagram en staafdiagram zijn geschikt voor nominaal/ordinaal: Ned/Belg, Man/Vrouw. In een taartdiagram (pie chart) komt het oppervlakte van de cirkelsector overeen met het percentage waarnemingen in de klasse. Verschillende schalen. Een schaal is de meeteenheid om een variabele te meten Een nominale (=naam geven) variabele heeft wel of niet een kenmerk, bijv: Belg/Ned, Man/Vrouw. Een ordinale variabele ordent de kenmerken van laag naar hoog zonder vaste onderliggende schaal: Afstand van 1 tot 2 ≠ afstand van 2 tot 3. Bijv: laag-, midden-, hoogopgeleid. Nominaal en ordinaal zijn kwalitatief= wel/niet in klasse. Een kwantitatieve variabele is numeriek en krijgt een getalswaarde: Een interval schaal gaat van laag naar hoog met vaste onderliggende schaal. Afstand van 1 tot 2 = afstand van 2 tot 3. Bijv: hoogte van temperatuur. Een ratioschaal gaat van laag naar hoog met vaste schaal en nulpunt. Afstand van 1 tot 2 = afstand van 2 tot 3. Bijv: lengte in centimeters. Een absolute schaal als de variabele maar op een manier gemeten kunnen worden, bijv: aantal kinderen in een gezin Zinvolle bewering. Een bewering is zinvol als waar voor iedereen die werkt met dezelfde schaal. Voorbeeld: ‘temperatuur ligt hoger’ is waar voor Celcius en Fahrenheit= zinvol ‘temperatuur 10 graden hoger’ verschilt voor Celcius en Fahrenheid= niet zinvol Nominale variabelen kan je niet zinvol numeriek vergelijken. Je kan niet zeggen dat Belg hogere score is dan Nederlander. Je kan de frequenties per categorie wel vergelijken (meer Belgen dan Ned). Bij ordinale variabelen kan je wel zeggen dat iemand hoger of lager scoort, bijv: universiteit hogere opleiding dan alleen lagere school, maar je kan dat verschil geen getalwaarde geven. Bij interval wel hoger/lager, je mag ook zeggen dat verschil A-B 2x zo hoog is als verschil A-C je mag niet zeggen: A= 2B (verschilt tussen Celcius en Fahrenheit) je mag niet zeggen: verschil= 5 (verschilt tussen Celcius en Fahrenheit), Bij Ratio wel hoger/lager, je mag ook zeggen dat verschil A-B 2x zo hoog is als verschil A-C je mag zeggen: A= 2B (gelijk voor meting in centimeters en meters) je mag niet zeggen: verschil= 5 (verschilt tussen cm en meters) Bij absoluut wel hoger/lager je mag ook zeggen dat verschil A-B 2x zo hoog is als verschil A-C je mag zeggen: A= 2B je mag zeggen: verschil= 1 (1 kind meer per gezin wordt altijd zo gemeten) 6. Reductietechnieken. Reductie zoekt 1 score die data samenvat. Nadruk op 2 kenmerken van de data: - Centrale tendentie (=gemiddelde) - Spreiding (=spreiding rond het gemiddelde). Centrale tendentie. Het rekenkundig gemiddelde Als losse scores: som van de waarnemingen ΣX X= = aantal waarnemingen n Als data gegroepeerd in klassen: n1 * Klassemidden Groep 1 + n2 * Klassemidden Groep 2 X= aantal waarnemingen= n1 + n2 n1,n2= aantal waarnemingen per klasse Klassemidden= (bovengrens + ondergrens)/2 Kenmerken van rekenkundig gemiddelde. - Elke verandering van 1 score verandert uitkomst. - Zeer gevoelig voor outliers. De mediaan. Als 50% kleiner en 50% groter= mediaan. De mediaan bij losse scores: De mediaan is de middelste waarneming als van laag naar hoog gerangschikt. Als even aantal waarnemingen het gemiddelde van de middelste 2 waarnemingen. Als data gegroepeerd in klassen: Aflezen op y-as (=relatieve frequentie) bij 50% De Modus. Bij losse waarnemingen is de modus de waarneming die het meest voorkomt. Als waarnemingen in groepen is de modus het midden van de klasse met de meeste waarnemingen (=de modale klasse). Als 2 modi: bimodaal Keuze tussen gemiddelde, mediaan en modus gemiddelde meest gangbaar. Nominale variabele alleen met modus. soms mediaan beter dan mean: 1. Extreme scores of scheve verdeling (uitersten te bepalend voor gemiddelde). 2. Als ordinale schaal (gemiddelde niet te bepalen). Spreiding Variantie s2 Σ(losse scores X - gemiddelde)2 s2= n= aantal losse scores standaarddeviatie s= √variantie s2 Percentiel Een percentiel geeft het % waarnemingen kleiner dan deze waarde. Het percentage staat op y-as, de waarde kan je aflezen op x-as Percentiel interkwartielafstand % 75% p 25% x-waarde Q p25 x-waarde p75 Eerste kwartiel= p25= 25% kleiner, 75% groter Mediaan= p50= 50% kleiner, 50% groter Derde kwartiel= p75= 75% kleiner, 25% groter Interkwartielafstand Q= derde kwartiel - eerste kwartiel. Over percentielen. - Het percentiel is een soort rangordenummer in een groep. Score van persoon is dus sterk afhankelijk van niveau van de groep. - De berekening wordt helemaal bepaald door het aantal mensen dat lager scoort. Hoeveel lager anderen scoren heeft geen invloed. De variatiebreedte variatiebreedte =de grootste waarneming - de kleinste waarneming. In klassen: bovenste klassegrens – onderste klassegrens Spreidingsmaat d 1 – fmo/n d= 1 – 1/p fmo= aantal scores bij de modus of in modale klasse n= aantal waarnemingen p= aantal verschillende uitkomsten of aantal klassen Vergelijken variantie=s2, percentiel, variatiebreedte en d Doel: meting moet stabiel zijn Outliers veel invloed op s2 en variatiebreedte, niet op percentiel en d d vanaf nominaal, percentiel vanaf ordinaal, breedte en d vanaf interval 7. Bivariate statistiek Bivariaat=2 variabelen, je kijkt naar 2 variabelen tegelijk Een spreidinsdiagram (scatterplot) is een puntenwolk. Elk punt geeft de scores op x en y van 1 individu. Je kan in een scatterplot zien hoe x en y samenhangen: - 1. de richting (stijgend=positief of dalend=negatief) - 2. de sterkte (tussen -1 en 1) - 3. de vorm (lineair of kwadratisch) Het lineaire model. y= b0 + b1 * x Doel is voorspellen van y. Residu= meting y – schatting b0 + b1 * x (residu: hoe ver ligt een los punt van de rechte lijn) De lijn wordt zo geschat dat ∑residuen2 wordt geminimaliseerd =kleinste kwadratenmethode Het model bestaat uit een rechte lijn die ergens begint (=b0) en die een constante richting heeft (helling= b1). b1 laat het effect van x op y zien als x met 1 punt stijgt. Schatten van Regressielijn. y= b0 + b1 * x sy b1= r * sx b0= y - b * x Voorwaarden voor regressie. - De relatie tussen X en Y is lineair. - Beide variabelen minimaal interval. Correlatie. y correlatie r. cov(X,Y) r= sx*sy (x,y)= ++ (X,Y) x (x,y)= -- cov(X,Y)= ∑(X-X)(Y-Y)/N-1 Kruisprodukt= ∑(X-X)(Y-Y) Covariantie= gemiddeld kruisprodukt Correlatie= gestandaardiseerde covariantie Als zowel x en y hoger of lager dan gemiddelde draagt punt bij aan een positieve correlatie. Pearson orrelatie r - Pearson correlatie meet alleen lineaire correlatie (=lijntje). Niet-lineaire correlatie wordt niet gemeten. Duidelijke niet-lineaire samenhang kan r=0 opleveren. - Extreme scores kunnen allesbepalend zijn. Outliers liggen een eind buiten het algemene patroon. - Beide variabelen minimaal interval. Een correlatie is niet een causaal verband. Wel gemeten correlatie, maar geen causaal effect. Bijv.: X1 en Y worden allebei beïnvloed door X2. X2 X1 Y Voorbeeld: Hoge inkomen ouders (X1) hangt samen met IQ van kinderen (Y). IQ ouders (X2) verklaart allebei: Slimme ouders verdienen meer en krijgen slimme kinderen. Kinderen worden niet slimmer als ouders meer gaan verdienen. Kendall’s tau τ Kendall als relatie x en y monotoon stijgend of monotoon dalend is, maar niet lineair (dan Pearson) Je hebt van een aantal personen de scores op 2 variabelen. Je vergelijkt alle personen paarsgewijs. A - B τ = n*(n-1)/2 A= aantal paren waar de ene persoon hoger of lager scoort op beide variabelen B= aantal paren waar de ene hoger scoort op 1 variabele, maar lager op andere Tie= als 2 personen gelijk scoren op 1 variabele (telt niet mee bij A of B) n= aantal personen n*(n-1)/2= aantal paren dat je kan maken met n personen Spearman rS Pearson r voor interval Spearman rS- correlatie tussen 2 ordinale variabelen. 6 * ∑D2 rS= 1 – ( ) n * (n2-1) 1. Per kenmerk resultaten rangordenen. 2. Per paar rangnummers van elkaar aftrekken=D. 3. Verschillen gekwadrateerd bij elkaar optellen=D2. Persoon 1 Kenmerk X Kenmerk Y P2 P3 P4 P5 P6 per paar aftrekken X EN Y APART RANGORDENEN D1 D2 D3 D4 D5 D6 H8. Theorie Kansen. samenvatting 8.1-8.3 De toevalsvariabele Een toevalsvariabele is een variabele waarvan de uitkomst toeval is. Een gebeurtenis is een groepje mogelijke uitkomsten van de variabele. Een zekere gebeurtenis zijn alle mogelijke uitkomsten. De som van de kansen op alle uitkomsten is 1. voorbeeld: dobbelsteen is toevalsvariabele uitkomst 1,2= gebeurtenis uitkomst 1,2,3,4,5,6= zekere gebeurtenis De uitkomsten van de variabele zijn discreet of continu: discreet= eindig aantal uitkomsten. continu= oneindig aantal waarnemingen in interval. voorbeeld: dobbelsteen is discreet, lengte in continu De kans de kans op een uitkomst is hoe vaak iets gebeurt als je eindeloos probeert: aantal uitkomsten met A P(A)= De kans op uitkomst A= totaal aantal uitkomsten complement van kans A: De kans dat iets niet gebeurt= 1 - de kans dat het wel gebeurt. p(AC)= 1 - p(A) p(AC)= het complement van p(A) voorbeeld zuivere dobbelsteen: kans op gooien van 6= 1/6 complement van gooien van 6: 1 – 1/6= 5/6 Unie= kansen optellen. aantal uitkomsten met tenminste 1 kenmerk A of B P(A U B)= totaal aantal uitkomsten als A en B elkaar uitsluiten: P(A U B)= P(A) + P(B) als A en B elkaar niet uitsluiten: P(A U B)= P(A) + P(B) - P(A ∩ B) voorbeeld zuivere dobbelsteen als uitsluiten: uitkomst A= 1,2,3 uitkomst B= 4,5 P(A U B)= 3/6 + 2/6= 5/6 voorbeeld zuivere dobbelsteen als niet uitsluiten: uitkomst A= 1,2,3 uitkomst B= 1,3,5 P(A U B)= 3/6 + 3/6 – 2/6= 4/6 1 2 3 4 5 6 4 6 2 1 3 5 Onafhankelijke en afhankelijke kansen. onafhankelijk= uitkomst A geen invloed op uitkomst B: P(B)= P(B│A) afhankelijk= uitkomst A invloed op uitkomst B: P(B)≠ P(B│A) voorbeeld zuivere dobbelsteen onafhankelijk A= 1,2 B= even= 2,4,6 P(B)= 3/6= 1/2 1 3 5 2 4 6 P(B│A)= 1/2 P(B)=3/6 voorbeeld zuivere dobbelsteen afhankelijk A= 1,2,3 B= even= 2,4,6 P(B)= 3/6= 1/2 1 3 5 2 4 6 P(B│A)= 1/3 P(B)=3/6 1 2 P(B│A)= 1/2 1 2 3 P(B│A)= 1/3 Doorsnede= overlap tussen de uitkomsten. aantal uitkomsten met beide kenmerken A en B P(A ∩ B)= totaal aantal uitkomsten Als kansen onafhankelijk: p(A ∩ B)= p(A) * p(B) P(A)=P(A│B) P(B)=P(B│A) Als kansen afhankelijk: p(A ∩ B)= p(A) * p(B│A) voorbeeld zuivere dobbelsteen onafhankelijk A= 1,2 B= even= 2,4,6 P(A ∩ B)= 1/6 1 2 4 6 P(A ∩ B)= p(A) * p(B)= 2/6 * 1/2= 1/6 3 5 P(A ∩ B)= 1/6 voorbeeld zuivere dobbelsteen afhankelijk A= 1,2,3 B= even= 2,4,6 P(A ∩ B)= 1/6 1 3 2 4 6 P(A ∩ B)= P(A) * p(B│A)= 1/2 * 1/3= 1/6 5 P(A ∩ B)= 1/6 De voorwaardelijke kans P(A│B): het aantal waarnemingen A in B P(A ∩ B) P(A│B)= = het aantal waarnemingen B P(B) voorbeeld zuivere dobbelsteen: A=1,2,3 B=1,3,5 C=2,4,6 P(B)= 3/6 P(B│A)= 2/3 P(C)= 3/6 P(C│A)= 1/3 of met formule: P(A ∩ B) / P(B)= 2/6 / 3/6= 2/3 of met formule: P(A ∩ C) / P(C)= 1/6 / 3/6= 1/3 Samenvatting 8.4-8.7 Een discrete kansverdeling. Een discrete kansverdeling f(x) geeft de uitkomsten met de kans. De cumulatieve kansverdeling F(x) geeft de kans kleiner of gelijk aan. F(x)= een niet dalende stapsgewijze functie. voorbeeld X 1 fx: 1/6 Fx: 1/6 dobbelsteen 2 3 4 1/6 1/6 1/6 2/6 3/6 4/6 5 1/6 5/6 6 1/6 1 Het gemiddelde van de discrete kansverdeling. E(X)= Σ(de uitkomsten * de kansen) De variantie van de discrete kansverdeling. V(X)= Σ(de uitkomsten - gemiddelde)2 * de kansen voorbeeld X: 4 fx: 1/4 8 3/4 E(X)= 4 * 1/4 + 8 * 3/4= 7 V(X)= (4-7)2 * 1/4 + (8-7)2 * 3/4= 3 Een continue kansverdeling. De kansdichtheidsfunctie f(x) geeft de kans op een uitkomst in een interval. De kans op een uitkomst in een interval is gelijk aan het oppervlakte dat hoort bij het interval. In een continue kansverdeling heeft een punt geen oppervlakte -> p(X=getal)=0 (Logica: Niemand weegt precies 80kg, maar bijv. 80,0001kg) Totale oppervlakte onder de functie is 1. De verdelingsfunctie F(x) geeft de kans kleiner of gelijk aan. F(x)= is een continue niet-dalende functie. Bivariate (=gezamenlijke) kansverdeling. Een gezamenlijke kansverdeling geeft de kans op tegelijk X en Y. - kansen (x,y) ≥ 0 - som gezamenlijke kansen ∑(x,y) = 1 cov(X,Y) = E(XY) - E(X) * E(Y) E(XY)= Σ(uitkomst X * uitkomst Y * kans op tegelijk X en Y) cov(X,Y) ρ(X,Y)= σX * σY voorbeeld Y=0 Y=1 X=0 0,4 0,3 X=1 0,1 0,2 P(X=0)= 0,7 E(X)= 0 * 0,7 + 1 * 0,3= 0,3 V(X)= (0 – 0,3)2 * 0,7 + (1 – 0,3)2 * 0,3= 0,063 + 0,147= 0,21 E(Y)= 0 * 0,5 + 1 * 0,5= 0,5 V(X)= (0 – 0,5)2 * 0,5 + (1 – 0,5)2 * 0,5= 0,125 + 0,125= 0,25 E(XY)= 0*0*0,4 + 0*1*0,3 + 1*0*0,1 + 1*1*0,2= 0,2 COV(XY)= 0,2 – 0,3*0,5= 0,05 COR(XY)= 0,05/ (√0,21*√0,25)= 0,218 P(X=0│Y=0)= 0,4/0,5= 0,8 P(X=0│Y=1)= 0,3/0,5= 0,6 samenvatting 8.8 De verwachting voor een constante maal een variabele. Als Z= aX E(Z)=E(a * X)= a * E(X) voorbeeld Als E(X)=4 en Z=2X -> E(Z)= 2* E(X)= 2*4= 8 De verwachting voor een constante maal een variabele. Als Z= aX V(Z)= a2 * V(X) voorbeeld Als V(X)=3 en Z=2X -> V(Z)= 22* V(X)= 4*3= 12 De verwachting van een som. Als Z= X + Y E(Z)=E(X) + E(Y) voorbeeld Als E(X)=4 en E(Y)=2 en Z=X+Y E(Z)= E(X) + E(Y)= 4+2= 6 -> De verwachting van een produkt. Als Z= X * Y E(Z)=E(X) * E(Y) (als onafhankelijk) voorbeeld Als E(X)=4 en E(Y)=2 en Z=X*Y E(Z)= E(X) * E(Y)= 4*2= 8 -> De variantie van een som. Als Z= X + Y V(Z)=V(X) + V(Y) + 2*COV(X,Y) voorbeeld Als V(X)=4 en V(Y)=2 en COV(X,Y)=1 en Z=X+Y V(Z)= V(X) + V(Y) + 2*COV(X,Y)= 4+2+2*1= 8 -> De variantie van een aftrekking. Als Z= X - Y V(Z)=V(X) + V(Y) - 2*COV(X,Y) voorbeeld Als V(X)=4 en V(Y)=2 en COV(X,Y)=1 en Z=X-Y V(Z)= V(X) + V(Y) – 2*COV(X,Y)= 4+2-2*1= 4 -> H9. Bijzondere kansverdelingen 9.1 Binomiale kansverdeling B met parameters n en π. n! kans op k goede uitkomsten= * π k * (1- π)n-k k!*(n-k)! n= de steekproefgrootte E(B)= n*π π= kans op succes bij elke poging V(B)= n*π*(1- π) k= aantal successen in de steekproef Aanname: De kans op succes is constant. voorbeeld dobbelsteen: je gooit 4x met een dobbelsteen, kans op uitkomst 1x 6: 4! * 1/61 * 5/64-1 = 4 * 1/6 * 0,5787= 0,386 1!*(4-1)! 9.2 Normale kansverdeling met parameters μ en σ. De normale verdeling. N(μ,σ) is een normale verdeling met gemiddelde μ en afwijking σ. De normale verdeling is symmetrisch rond μ. De z-verdeling. De standaard normale verdeling Z is symmetrisch rond 0 met σ=1. Elke score van normale verdeling N kan worden omgeschreven naar z: ruwe score X - μ z= σ voorbeeld: μ=100 en σ=10 kans op score kleiner dan 90 -> p(Z < ((90 – 100)/10)= p(Z < -1)= 0,1587 9.3 Χ2-verdeling. E(Χ2)= v en V(Χ2)= 2v 9.4 t-verdeling. z t-verdeling (in vergelijking met z-verdeling). t= meer uitgewaaierd dan z Bij n>30 -> t ~ z t en z beide symmetrisch rond 0. t 0 9.5 F-verdeling: 0 1 ∞ - F altijd positief - Rechtsscheef - Piek bij ongeveer 1 (iets groter) Steekproevenverdeling van X. Je doet een steekproef uit populatie waarvan gemiddelde en bekend zijn. Het gemiddelde van steekproef is niet bekend (kan door toeval afwijken van gemiddelde populatie) en de steekproevenverdeling X geeft kansverdeling van de mogelijke uitkomsten van gemiddelde steekproef. Rekenen met X. X - μ z = σ/√n voorbeeld μ=10, σ=5, n=25 kans op uitkomst gemiddelde >12 p(X > ((12-10)/(5/√25)) -> P(Z > 2)= 0,0228 Centrale limietstelling: Als populatie normaal is kansverdeling X altijd normaal verdeeld. Als n > 30 kan je het gemiddelde normaal benaderen, ook als populatie niet normaal verdeeld is. Steekproevenverdeling X heeft gemiddelde µ en V(X)= V(X)/n Als n groter, wordt verdeling steeds normaler en V(X) steeds kleiner. Steekproevenverdeling van S2. Je doet een steekproef uit populatie waarvan variantie s2 bekend is. De variantie in de steekproef is niet bekend (kan door toeval afwijken van de populatie) en de steekproevenverdeling S2 geeft kansverdeling van de mogelijke uitkomsten van variantie in steekproef. Rekenen met S2. Gegeven:nS2/σ2= Χ2n-1 Als P(S2 < getal) -> (links en rechts vermenigvuldigen met n/σ2) P(nS2/σ2 < n*getal/σ2) -> P(Χ2n-1 < n*getal/σ2) -> opzoeken in Χ2-tabel voorbeeld n=10 en σ2=100 P(S2 > 190) -> P(10*S2/100 > 10*190/100) P(Χ29 > 19)= 1 – 0,975= 0,025 -> Vanaf 26 december definitieve herziene versie met H10 + vectoren