H1, H2. Beschrijvende Statistiek. Statistiek haalt info uit data. Descriptieve statistiek geeft de kenmerken van een dataset. Inferentiële statistiek geeft met data conclusie over populatie. Populatie= totale groep die wordt onderzocht. Parameter= kengetal van de populatie Steekproef= deel van de populatie. Statistiek= kengetal van de steekproef. Variabele is kenmerk die per persoon kan verschillen. Data is meting van kenmerk. Een discrete variabele als vaste stappen tussen de uitkomsten, bijv. aantal kinderen Een continue variabele heeft tussen 2 punten oneindig aantal uitkomsten, bijv. tussen 1,74 meter en 1,75 meter oneindig aantal lengtes. Scores zijn dus altijd afgeronde getallen. Cross-sectional als gemeten op hetzelfde moment. Time-series data als gemeten op verschillende momenten. Een nominale (=naam geven) variabele heeft wel of niet een kenmerk, bijv: Belg/Ned, Man/Vrouw. Een ordinale variabele ordent de kenmerken van laag naar hoog zonder vaste onderliggende schaal: Afstand van 1 tot 2 ≠ afstand van 2 tot 3. Bijv: laag-, midden-, hoogopgeleid. Nominaal en ordinaal zijn kwalitatief= categorisch= wel/niet in klasse. Een kwantitatieve variabele is numeriek en krijgt een getalswaarde. Frequentieverdelingen. Een absolute frequentietabel geeft aan hoe vaak waarnemingen voorkomen. Een relatieve frequentietabel maakt percentages van de aantallen: p= frequentie/N Een groepsfrequentieverdeling geeft aantal scores per interval. Een cumulatieve frequentieverdeling geeft het aantal waarnemingen kleiner dan de klasse bovengrens. Een frequentie polygoon trekt een lijntje door de middenpunten met het aantal waarnemingen per klasse. De staafdiagram (bar chart) geeft het aantal waarnemingen per klasse. Klassen in taartdiagram en staafdiagram zijn geschikt voor nominaal/ordinaal: Ned/Belg, Man/Vrouw. En ook voor discrete kwantitatieve variabelen, bijv. aantal kinderen per gezin. In een taartdiagram (pie chart) komt het oppervlakte van de cirkelsector overeen met het percentage waarnemingen in de klasse. De histogram geeft het aantal waarnemingen per klasse. Voordeel: overzichtelijker. Hoogte geeft frequentie, breedte geeft exacte klassengrenzen. Klassen zijn kwantitatief: 10-20, 20-30, etc. Rechtsscheef= positief Linksscheef=negatief H3. Centrummaten. De mediaan. Als 50% kleiner= mediaan. Mediaan handig in scheve verdelingen. De mediaan bij losse scores: De mediaan is de middelste waarneming als van laag naar hoog gerangschikt. Als even aantal waarnemingen het gemiddelde van de middelste 2 waarnemingen. De mediaan in kansverdelingen: De waarde waarbij de relatieve cumulatieve frequentieverdeling een half passeert. Uitzondering als precies op grens: zie opgave. De mediaan in een histogram: Bereken waar in het histogram een half gepasseerd wordt. Het Gemiddelde (=Mean). Als losse scores: _ som van de waarnemingen ΣX X= = aantal waarnemingen N Als frequentieverdeling: _ som van de waarnemingen ΣXf X= = aantal waarnemingen Σf X= de uitkomsten f= hoe vaak een uitkomst voorkomt De Modus. Bij losse waarnemingen is de modus de waarneming die het meest voorkomt. Als waarnemingen in groepen is de modus het midden van de klasse met de meeste waarnemingen (de modale klasse). Unimodaal= 1 top. Bimodaal= 2 toppen. Keuze tussen mean, mediaan en modus Mean meest gangbaar. Alleen bij kwantitatief. Modus alleen bij Nominale, Discrete variabele. Mediaan beter dan mean als: 1. Extreme scores (outliers) of scheve verdeling te bepalend bij mean. 2. Als waarden niet zijn te bepalen, bijv. niet af binnen de tijdsduur. 3. Als ordinale schaal (mean niet te bepalen). Mean, mediaan en modus in scheve verdelingen: Linksscheef: mean < mediaan < modus (zeer kleine waarden trekken mean omlaag) Rechtsscheef: mean > mediaan > modus (zeer hoge waarden trekken mean omhoog) Geometrisch gemiddelde= gemiddelde percentuele stijging: Gemiddelde rente rg 3 jaar= 3√(1+r1).(1+r2).(1+r3) - 1 Dus: A . (1 + rg)3= A . (1+r1).(1+r2).(1+r3) H4. Spreidingsmaten. Een percentiel geeft het % waarnemingen kleiner dan dit punt. Voordeel percentiel= uitschieters weinig invloed. Eerste kwartiel=25% kleiner. Mediaan=50% kleiner. Derde kwartiel=75% kleiner. Interkwartielafstand IQR= k3 - k1= derde kwartiel - eerste kwartiel. Relatieve IQR= IQR/mediaan De steekproefvariantie s2: Inzichtelijke formule: Rekenformule: Σ(losse scores x - x)2 Σx2 – nx2 2 s= = n - 1 n - 1 standaarddeviatie s= √variantie s2 s= maat voor spreiding rond het gemiddelde. Frequenties: Σ(losse scores x - x)2 . f s2= n - 1 Boxplot. Een boxplot-grafiek zet het kleinste getal, het grootste getal, Q1, Q3 en de mediaan in een plaatje. Whiskers zijn de lijntjes naar de grootste en kleinste waarde. Het plaatje van de boxplot heeft de volgende standaardvorm: 50% 25% Kleinste getal Q1 25% Mediaan Q3 Grootste getal kwartielafstand Een complete boxplot geeft extra aandacht aan de outliers. Lower inner fence= Q1 – 1,5 . IQR Als waarneming < lower inner fence= outlier Upper inner fence= Q1 + 1,5 . IQR Als waarneming > upper inner fence= outlier Whiskers lopen nu naar de grootste en kleinste waarde die geen outlier zijn (als geen outliers -> is grootste en kleinste waarde). Chebyshev’s theorem. Als interval: x – k . s, x + k . s) -> liggen minimaal (1 – 1/k2) van de data in het interval Ruwe score omrekenen naar z-score Je kan van elke ruwe score een z-score maken: ruwe score X - gemiddelde = z-score s H5. Regressie. Het lineaire model. y = b0 + b1 . x Doel Model is voorspellen en verklaren van y. Residu= e= y- y’= gemeten y – geschatte y. De lijn wordt zo geschat dat e2 wordt geminimaliseerd =kleinste kwadratenmethode= minimaliseer ∑e2=SSE Het model bestaat uit een rechte lijn die ergens begint (=b0) en die een constante richting heeft (helling=b1). b1 laat het effect van x1 op y zien als x1 met 1 punt stijgt. Een scatterplot is een puntenwolk. Elk punt geeft de scores op x en y van 1 individu. Je kan in een scatterplot zien: - 1. de richting (stijgend=positief of dalend=negatief) - 2. de sterkte (r tussen -1 en 1) - 3. de vorm (lineair of kwadratisch) Basisberekeningen voor regressielijn. Σ(losse scores x - x)2 Σx2 – n.x2 sx2= = n - 1 n - 1 Σ(losse scores x – x).(losse scores y - y) sxy= ∑xy – (∑x.∑y)/n = n-1 n-1 Schatten van Regressielijn. y= b0 + b1 . x sxy r= sxy b1= sx.sy s2= variantie s= standaard deviatie sxy= covariantie rxy= correlatie b0= y - b1 . x s2x Rekenregels. E(a . X + b)= a . E(X) + b V(a . X + b)= a2 . V(X) V(a . X + b . Y)= a2 . V(X) + b2 . V(Y) + 2 . a . b . cov(X,Y) Als onafhankelijk -> cov(X,Y)=0 cor(-ax+b, cy+d)= -cor(x,y) -> schaal onbelangrijk, behalve minteken cov(-ax+b, cy+d)= -a.c.cov(x,y) Computeruitdraai. Model SS Regression SSM Residual SSE Total SST df 1 n-2 n-1 MS MSM=SSM/1 MSE=SSE/n-2 F MSM/MSE sig p-waarde SSE= ∑(meting - schatting )2= ∑(y - y)2 Coefficients: Model Constant b0 X1 b1 Std. Error se(b0) se(b1) t b0/se(b0) b1/se(b1) sig p-waarde H6, H7. Kansen. Een toevalsverschijnsel=random event: - heeft meer dan 1 uitkomst - welke uitkomst is toevallig - is gebaseerd op een onderliggende kansverdeling. De klassieke kans kan logisch worden afgeleid uit vaststaande gegevens. aantal uitkomsten met A P(A)= De kans op uitkomst A= totaal aantal uitkomsten Complement van A= P(AC)= 1 - P(A) De empirische kans is een ervaringskans op basis van waarnemingen. De subjectieve kans is gebaseerd op een individuele inschatting. De wet van grote aantallen. Als experiment groter, benadert de empirische kans de werkelijke kans beter. Kansen optellen. aantal uitkomsten met tenminste 1 kenmerk A of B P(A U B)= totaal aantal uitkomsten Als A en B elkaar uitsluiten: P(A U B)= P(A) + P(B) Als A en B elkaar niet uitsluiten: P(A U B)= P(A) + P(B) - P(A ∩ B) Kansen vermenigvuldigen. aantal uitkomsten met beide kenmerken A en B P(A ∩ B)= totaal aantal uitkomsten Als kansen onafhankelijk: p(A ∩ B)= p(A) . p(B) P(A)=P(A│B) P(B)=P(B│A) Als kansen afhankelijk: p(A ∩ B)= p(A) . p(B│A) De voorwaardelijke kans P(A│B): het aantal waarnemingen A in B P(A ∩ B) P(A│B)= = het aantal waarnemingen B P(B) Je kan kans A verdelen over B en niet-B. P(A)= P(A ∩ B) + P(A ∩ BC) De Bayesiaanse beslissingstheorie. Een verhaaltje met conditionele kansen kan worden uitgetekend in een kansboom. De gezamenlijke joint kans op A en B= p(A) . p(B|A) p(B│A) ->de joint kans op A en B= p(A) . p(B|A) A p(niet-B│A) p(B│niet-A) Niet-A p(niet-B│niet-A) Bayes’ rule: p(A) . p(B|A) P(A│B)= P(B) H8. Kansverdeling. Discreet= eindig aantal uitkomsten. Een discrete kansverdeling geeft een beperkt aantal uitkomsten met de kans. Continu= oneindig aantal waarnemingen in interval. De kans op een uitkomst in een interval is gelijk aan het oppervlakte dat hoort bij het interval. In een continue kansverdeling heeft een punt geen oppervlakte -> p(X=getal)=0 (Logica: Niemand weegt precies 80kg, maar bijv. 80,0001kg) Een discrete kansverdeling. Een discrete kansverdeling geeft de uitkomsten met de kans. De cumulatieve kansverdeling F(x) geeft de kans kleiner of gelijk aan. F(x)= een niet dalende stapsgewijze functie. F(-∞)=0 en F(∞)=1 Het gemiddelde van de discrete kansverdeling. μX= E(X)= Σ(de uitkomsten . de kansen) E(X2)= Σ(de uitkomsten2 . de kansen) De variantie van de discrete kansverdeling. σ2X= V(X)= Σ(de uitkomsten - gemiddelde)2 . de kansen Of: V(X)= E(X2) – (EX)2 σX = √σ2X Een continue kansverdeling. De kansdichtheidsfunctie f(x) geeft de kans op een uitkomst in een interval. Totale oppervlakte onder de functie is 1. De verdelingsfunctie F(x) geeft de kans kleiner of gelijk aan. F(x)= is een continue niet-dalende functie. F= ∫f - ondergrens= begin traject - bovengrens= x - voorafgaande oppervlakten meetellen - F(-∞)=0 en F(∞)=1 Het gemiddelde van de continue kansverdeling. μX= E(X)= -∞∞∫x.f(x) dx -∞=begin van het traject en ∞=eind van het traject De variantie van de continue kansverdeling. V(X)= -∞∞∫(x-μ)2.f(x) dx H9. Discrete kansverdelingen. Een discrete kansverdeling f(k) geeft de uitkomsten met de kans. De cumulatieve kansverdeling F(k) geeft de kans kleiner of gelijk aan. Binomiale kansverdeling. Y ~ Bin(n,p) f(k)= n k . pk . (1-p)n-k n= aantal experimenten p= kans op succes k= aantal goeden n boven k met nCr Aannames: Onderzoeker bepaalt de steekproefgrootte n. Observaties zijn onafhankelijk. Elke observatie is een succes of geen succes (=Bernoulli trial). De kans op succes is constant. Kansverdeling p in binomiaal experiment. μp= p (zie steekproevenverdeling p H14) p.(1-p) p.(1-p) σ2p= -> σp= √[ ] n n Kansverdeling aantal goede uitkomsten k in Binomiaal experiment. μ= np en σ2=np(1-p) (zie normale benadering H10) Als n=1 (Bernoulli): μ=p en σ2=p(1-p) Hypergeometrische kansverdeling. Y ~ H(n,M,N) M k N - M n - k f(k)= N n N= n= M= k= totale totale aantal aantal populatie steekproef goeden in de populatie goeden in de steekproef: 0,1 . . n Kansverdeling aantal goede uitkomsten k in Hypergeometrisch experiment. μ=n.M en σ2= n . M . N-M . N-n N N N N-1 Binomiale benadering Hypergeometrisch. Als n/N ≤ 0,1 -> Binomiale benadering met p=M/N Overzicht kansverdeling. - Binomiaal als constante kans (=met teruglegging of grote populatie). - Hypergeometrisch als zonder teruglegging met 2 kleine groepen. Voorbeeld: je pakt uit een bakje met rode en zwarte knikkers. H10. Continue kansverdelingen. Uniforme kansverdeling Y ~ Uniform (,) = begin van het traject, = het einde van het traject 1 y- f(y)= F(y)= - - De normale verdeling. Y ~ N(μ, σ) -> Y is normaal verdeeld met gemiddelde μ en afwijking van gemiddelde σ 68,3% binnen 1σ van het gemiddelde. 95,4% binnen 2σ van het gemiddelde. 99,7% binnen 3σ van het gemiddelde. De normale verdeling X is symmetrisch rond μ. De standaard normale verdeling Z is symmetrisch rond μ=0 met σ=1 Van Y naar Z. Y ~ N(μ, σ) -> getal - μ p(Y < getal) -> p(Z < ) σ Normale benadering Binomiaal met x + 0,5 - µ p(z ≤ ) of p(z ≥ σ Binomiaal ≤ Getal -> Normaal ≤ Binomiaal ≥ Getal -> Normaal ≥ Benadering redelijk ok als np>5 μ=np en σ2= np(1-p) continuïteitscorrectie. x - 0,5 - µ ) σ Getal + 0,5 Getal - 0,5 en n(1-p)>5 H11. Joint kansverdeling. Het gemiddelde van de kansverdeling. μX= E(X)= Σ(de uitkomsten . de kansen) E(X2)= Σ(de uitkomsten2 . de kansen) De variantie van de kansverdeling. σ2X= V(X)= Σ(de uitkomsten - gemiddelde)2 . de kansen Of: V(X)= E(X2) – (EX)2 σX = √σ2X Een gezamenlijke kansverdeling. Een gezamenlijke kansverdeling geeft de kans op tegelijk X en Y. Voorwaarden: Joint kansen h(x,y) ≥ 0 Som joint kansen ∑h(x,y) = 1 σXY= cov(X,Y)= Σ(uitkomsten X – mean X) . (uitkomsten Y – mean Y) . kansen Of: σXY= cov(X,Y) = E(XY) - E(X) . E(Y) E(XY)= Σ(uitkomst X . uitkomst Y . kans op tegelijk X en Y) cov(X,Y) ρ(X,Y)= σX . σY Rekenregels. E(a . X + b)= a . E(X) + b V(a . X + b)= a2 . V(X) V(a . X + b . Y)= a2 . V(X) + b2 . V(Y) + 2 . a . b . cov(X,Y) Als onafhankelijk -> cov(X,Y)=0 cor(-aX+b, cY+d)= -cor(X,Y) -> schaal onbelangrijk, behalve minteken cov(-aX+b, cY+d)= -a.c.cov(X,Y) Conditionele kansen in joint kansverdeling. P({X=x} ∩ B) (=stukje X in B) P(X=x│B)= P(B) Onafhankelijkheid in een joint kansverdeling. Kans op X=x is gelijk voor elke waarde van Y -> - Joint= marginale kansen vermenigvuldigd. - E(XY)= E(X).E(Y) en cov(X,Y)=0 Verwachting en variantie bij SOM. μSOM = n . µ σ2SOM= n . σ2 Sommeren - n bij X ~ Y ~ X + Y ~ van binomiale kansen als dezelfde p. elkaar optellen. (n1, p) (n2, p) (n1+n2, p) Sommeren van normale kansen. - verwachtingen en varianties apart bij elkaar optellen. X ~ N(a+μ1, cσ12) Y ~ N(b+μ2, dσ12) X + Y ~ N(a+b+μ1+μ2, c2σ12 + d2σ22) H12. Random Samples. Steekproef random als elke persoon in populatie dezelfde kans heeft om voor de steekproef geselecteerd te worden. Voor reeks van random trekkingen met teruglegging geldt: iid= independent en identieke distributies Voor steekproef zonder teruglegging geldt: iid + cov(X1,X2)= -σ2/(N-1) H13. Steekproeven verdeling gemiddelde. _ Steekproevenverdeling van X. Je doet een steekproef uit populatie waarvan gemiddelde en bekend zijn. Het gemiddelde van de steekproef is niet bekend en de steekproevenverdeling geeft de kansverdeling van de mogelijke uitkomsten van dat gemiddelde. Steekproevenverdeling X heeft gemiddelde µ en Standard Error Mean= σX=σX/√n Als n groter, verdeling normaler en de Standard Error Mean kleiner. _ Rekenen met X. gemiddelde steekproef – μ0 p(Z < ) σX Centrale limietstelling: _ Als populatie normaal is kansverdeling X altijd normaal verdeeld. Als n > 30 altijd normaal benaderen, ook als populatie niet normaal. H14. Steekproeven verdeling kans p. Steekproevenverdeling van p geeft mogelijke uitkomsten in de steekproef (als p in de populatie bekend is). De normale verdeling van p. Voor de kansverdeling van p geldt: E(p)=p en σP= √[p.(1-p)/n] Voorwaarde normale benadering: np>5 en n(1-p)>5 Rekenen met steekproevenverdeling van p. p steekproef - p p(Z < ) σp H15. Toetsen. - Interval voor het gemiddelde μ met σ bekend. _ L= X - z . σ/√n _ U= X + z . σ/√n n die een maximale halflengte B van het interval garandeert. H= z . σ/√n - Interval voor de kans p L= p - z . √[p . (1-p)/n] U= p + z . √[p . (1-p)/n] p= aantal goeden in de steekproef/aantal waarnemingen in de steekproef z in onderste regel t-tabel - Toets voor het gemiddelde μ met σ populatie. H0: µ ≥, =, ≤ H1: µ <, , > _ p-value rechtszijdig: p(Z > z-waarde) X - μ0 p-value linkszijdig: p(Z < z-waarde) z= z ~ N(0, 1) Als 2-zijdig: 2 . p(kleinste staart) σ/√n Toetsen met Rejection Region in 5 stappen. 1. H0 en H1. 2. Test statistic. 3. Rejection Region. 4. Test Statistic berekenen. 5. Uitkomst toetsingsgrootheid wel/niet in Rejection Region. H0 wel/niet verwerpen. Toetsen met p-waarde en Statistische Significantie α. Als de p-waarde < α -> H0 verwerpen. Als de p-waarde > α -> H0 niet verwerpen. Significantie α. Uitgangspunt: H0 is waar. α is de kans dat een ware H0 wordt verworpen. Als een ware H0 wordt verworpen is Type-I fout. α het liefst 0, maar in de praktijk meestal 0,05. α=0,05 betekent maximaal 5% kans dat ware H0 wordt verworpen. Type-II fout. Uitgangspunt: H1 is waar. Type-II fout is de kans dat een ware H1 niet wordt aangetoond. p-waarde. Uitgangspunt: H0 is waar. De p-waarde is de waarschijnlijkheid van een uitkomst die zo extreem is, of nog extremer, als de H0 waar is. p-waarde is oppervlakte in de staart. p-waarde is kleinste waarde van α, waarmee je H0 nog verwerpt.