Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman Hoofdstuk 1 Schalen Nominaal (identificatie zonder hoeveelheid -> rugnummer, rekeningnummer) Ordinaal (Nominale schaal + volgorde -> Goud-zilver-brons, officiersgraad) Interval (Ordinale schaal + verschillen tussen waarden hebben een betekenis. Geen absoluut nulpunt -> Temperatuur (0 °C betekent niet dat er geen temperatuur aanwezig is) Ratio (Interval schaal + absoluut nulpunt -> Lengte, geld, reactietijd) Continue variabelen: Kunnen tussenwaarden aannemen -> Lengte (tussen 2 en 3 cm, ligt ook 2,3) Discrete variabelen: Geen tussenwaarden -> aantal kinderen (geen 2,4 kinderen mogelijk) Hoofdstuk 2 Aselecte steekproef: Op willekeurige wijze Absolute frequentie: Aantal keer dat de waarde in de steekproef voorkomt Absolute frequentieverdeling: Een tabel van de absolute frequentie Steekproefgrootte (n): Aantal elementen in de steekproef Relatieve frequentie: Absolute frequentie gedeeld door de steekproefgrootte Staafdiagram: Alle rechthoeken zijn even breed Afstand tussen de verschillende rechthoeken is hetzelfde Rechthoeken raken elkaar niet Histogram: Staven raken elkaar Aantal klassen is ongeveer wortel van n Gegroepeerde frequentieverdeling: Tabel met de klassen en de overeenkomstige frequenties Scheef naar rechts/staart naar rechts: Massa van histogram ligt links Scheef naar links/staart naar links: Massa van histogram ligt rechts Symmetrisch: Massa van histogram is aan beiden kanten ongeveer gelijk Cumulatieve absolute frequentie (F(x)): Het aantal elementen in de steekproef die kleiner dan of gelijk aan x zijn. Cumulatieve absolute frequentieverdeling: Tabel met de waarden van de variabele en de overeenkomstige cumulatieve absolute frequenties. Cumulatieve frequentiecurve (ongegroepeerd): Stap 1: Alle waarden aanduiden door middel van punten Stap 2: Punten trapsgewijs verbinden Stap 3: Horizontale lijn bij 0 en bij n Cumulatieve absolute frequentie van een klasse: Het aantal elementen in die klasse plus het aantal elementen in lagere klassen. Cumulatieve absolute gegroepeerde frequentieverdeling: Tabel met de klassen en de overeenkomstige cumulatieve absolute frequenties. Cumulatieve frequentiecurve (gegroepeerd): Stap 1: Alle waarden aanduiden door middel van punten Stap 2: Punten met rechten verbinden Stap 3: Horizontale lijn bij 0 en bij n Hoofdstuk 3 Centrummaat/maat van centrale tendentie: Maat voor het centrum van een verdeling. Laat toe de waarden van een variabele samen te vatten in één getal. Gemiddelde (𝑥̅ ): o Kan berekend worden op basis van: Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman Een variabele Een frequentieverdeling Gegroepeerde data o Enkel zinnig voor interval- en ratiovariabelen o Gevoelig aan outliers o In R: Mean 1 o Formule: 𝑛 ∑𝑛𝑖=1 𝑥𝑖 𝑥𝑖𝑢 : Unieke waarden van de variabele X in de steekproef (bij een frequentieverdeling) 𝑓𝑖 : Absolute frequentie horende bij de waarde 𝑥𝑖𝑢 1 𝑝 Formule gemiddelde op basis van een frequentieverdeling formule: 𝑛 ∑𝑖=1 𝑓𝑖 𝑥𝑖𝑢 Klassenmidden: 𝑎+𝑏 2 1 𝑛 𝑝 Formule gemiddelde van gegroepeerde data: ∑𝑖=1 𝑓𝑖 𝑎𝑖 +𝑏𝑖 2 Mediaan (𝑚𝑑𝑥 ): Niet meer dan de helft van de elementen in de steekproef heeft een waarde kleiner dan 𝑚𝑑𝑥 en niet meer dan de helft van de elementen in desteekproef heeft een waarde groter dan 𝑚𝑑𝑥 . o Enkel zinnig voor ordinale, interval- en ratiovariabelen o Indien mediaan is bekomen door rekenkundig gemiddelde, is ze enkel zinnig voor interval- en ratiovariabelen. o Niet gevoelig aan outliers o In R: median 𝑛 ( −𝑐)(𝑏−𝑎) 𝑎+ 2 𝑑 a: De ondergrens van de mediane klasse b: De bovengrens van de mediane klasse c: De cumulatieve absolute frequentie van de klasse net kleiner dan de mediane klasse d: De absolute frequentie van de klasse net kleiner dan de mediane klasse d: De absolute frequentie van de mediane klasse (cumulatieve klasse van de mediaan – de cumulatieve klasse net voor de mediaan) n: De steekproefgrootte Modus (mo): De klasse of de waarde met de grootste frequentie. o Modi: Als er meerdere dergelijke klassen of waarden zijn o Unimodaal: 1 modus o Bimodaal: twee modi o Zinnig voor nominale, ordinale, interval- en ratiovariabelen. o Niet gevoelig aan outliers. o In R: via table kan je zien wie de grootste frequentie heeft o 𝑚𝑑𝑥 = Outliers/uitschieters: Waarden die ver verwijderd zijn van de overige waarden van een variabele. Uit te rekenen door: 𝑃25 − 1,5 ∙ 𝑄 𝑃75 + 1,5 ∙ 𝑄 Spreidingsmaten: Maat voor de spreiding van een verdeling. Variatiebreedte (𝑣𝑥 ): o De grootste min de kleinste waarde voor ongegroepeerde data o De bovengrens van de laatste klasse min de ondergrens van de eerste klasse voor gegroepeerde data o Enkel zinnig voor interval- en ratiovariabelen. o In R: min en max Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman o Zeer gevoelig aan outliers. Gemiddelde absolute afwijking(𝑔𝑎𝑥 ): o Indien er spreiding is zullen er waarden zijn die verschillen van het gemiddelde. Hoe groter de spreiding, hoe groter de gemiddelde absolute afwijkig. o Enkel zinnig voor interval- of ratiovariabelen o Nadeel: Er worden absolute warden gebruikt. Kan worden verholpen door de absolute waarden te vervangen door kwadraten (variantie) o In R: aad o Gevoelig aan outliers. 1 o 𝑛 ∑𝑛𝑖=1 |𝑥𝑖 − 𝑥̅ | Variantie: o Enkel zinnig voor interval- of ratiovariabelen o In R: var (alleen 𝑠²𝑥 ). o Zee gevoelig aan outliers. o Twee verschillende formules: 1 𝑠𝑑²𝑥 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )² 𝑠²𝑥 = − 𝑥̅ )² Standaarddeviatie: o Wortel van variantie o In R: sd (Alleen 𝑠𝑥 ) o Gevoelig aan outliers. o Twee verschillende formules: 𝑠𝑑𝑥 = √𝑠𝑑²𝑥 𝑠𝑥 = √𝑠²𝑥 Interkwartielafstand (Q): o Interkwartiel (𝑃𝑘 ): 𝑃25 = De waarde van een variabele waarvoor 25% van de waarden hetzelfde of kleiner zijn. 𝑃50 = 𝑚𝑑𝑥 Kan worden afgelezen van de cumulatieve relatieve frequentiecurve. Om het 30e percentiel te berekenen, trek je bij een waarde van 30 op de verticale as een horizontale lijn tot aan de curve, om vervolgens een verticale lijn te trekken naarde horizontale as. De waarde op de horizontale as ter hoogte van die lijn is het 30e percentiel. In R: Quantile 𝐹(𝑃 ) 1 ∑𝑛 (𝑥 𝑛−1 𝑖=1 𝑖 𝑘 𝑘 = 𝑛 100 o Q = 𝑃75 − 𝑃25 o Interkwartielinterval: [𝑃25 , 𝑃75 ]. Dit interval bevat 50% van alle waarden. Enkel zinnig voor ordinale, interval- en ratiovariabelen. o Enkel zinnig voor interval- en ratiovariabelen. o In R: IQR o Niet gevoelig aan outliers. Spreidingsmaat d o Wordt vooral gebruikt met nominale variabelen. o De letter p stelt het aantal unieke waarden voor dat een variabele aan kan nemen (Bij geslacht p=2, want of man of vrouw). o 𝑓𝑚𝑜 : Frequentie van de modus (een waarde of een klasse) Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman o 𝐴𝑙𝑠 𝑓𝑚𝑜 = 𝑛 dan is er geen spreiding, alle waarden van de variabele zijn gelijk aan de 𝑛 modus. Als er geen spreiding is, dan d = 0. Bij maximale spreiding (𝑓𝑚𝑜 = 𝑝 , want o o modus kan nooit kleiner zijn dan dit) dan d = 1. Te gebruiken voor nominale, ordinale, interval- en ratiovariabelen. Niet gevoelig aan outliers. o d= 𝑓 1− 𝑚𝑜 𝑛 1 𝑝 1− Boxplot: Geeft een idee over de verdeling van de data en om outliers visueel vast te stellen. Stap 1: Verticale as tekenen Stap 2: Stippen zetten voor de waarde van de variabele van elke proefpersoon Stap 3: Outliers bepalen Stap 4: Outlier-stippen aangeven (rood kleuren) Stap 5: Horizontale lijn bij laagste stip die geen outlier is Stap 6: Horizontale lijn bij hoogste stip die geen outlier is Stap 7: Horizontale lijn ter hoogte van het eerste kwartiel Stap 8: Horizontale lijn ter hoogte van het derde kwartiel Stap 9: Horizontale lijnen van de kwartielen met elkaar verbinden, een rechthoek vormend Stap 10: Alle stippen behalve de outliers verwijderen Stap 11: Verticale stippellijn van de onderste horziontale lijn tot het eerste kwartiel Stap 12: Verticale stippellijn van het derde kwartiel tot de bovenste horizontale lijn Stap 13: Horizontale lijn in de rechthoek tekenen ter hoogte van de mediaan Boxplot scheef naar rechts: Meeste outliers bevinden zich boven/links Boxplot scheef naar links: Meeste outliers bevinden zich onder/rechts Symmetrisch: Evenveel outliers aan beiden kanten Hoofdstuk 4 Univariate statistiek: één variabele per keer bekijken. Toegepast op afzonderlijke variabelen. Bivariate statistiek: twee variabelen per keer bekijken. Toegepast op gezamenlijke variabelen. Univariate absolute frequentieverdeling: Tabel die enkel informatie bevat over één variabele. Van de bivariate verdeling kan je de univariate verdeling afleiden. Marginale verdelingen: Univariate verdelingen op basis van bivariate verdelingen. Er zijn drie soorten samenhang: Positieve samenhang (eventueel perfect) Negatieve samenhang (eventueel perfect) Geen samenhang Puntenwolk: Een spreidingsdiagram waarin geen patroon te zien is, de punten zijn willekeurig verspreid. In R: dim() = het aantal rijen (=het aantal personen) en het aantal kolommen (=aantal variabelen) plot(): Een spreidingsdiagram, met de variabelen als argumenten, gescheiden door een komma. Standaarddeviatie van X wordt weergegeven door 𝑠𝑥 en standaarddeviatie van Y wordt weergegeven door 𝑠𝑦 . Met maten van samenhang kan je de samenhang kwantificeren. Er zijn 3 maten: Covariantie 1 o 𝑐𝑜𝑣𝑋𝑌 = 𝑛−1 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) o Is enkel zinnig wanneer beide variabelen van tenminste intervalniveau zijn. o Er geldt dat: 𝑐𝑜𝑣𝑋𝑌 > 0 bij een positieve samenhang. Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman 𝑐𝑜𝑣𝑋𝑌 < 0 bij een negatieve samenhang. 𝑐𝑜𝑣𝑋𝑌 ≈ 0 indien er geen samenhang is. Je kan een spreidingsdiagram opsplitsen in vier kwadranten op basis van de gemiddelden. Positieve samenhang: Alle punten liggen linksonder en rechtsboven. Negatieve samenhang: Alle punten liggen linksboven en rechtsonder. Geen samenhang: Punten liggen in alle kwardranten. o De covariantie is afhankelijk van de meeteenheid. Daarom kan je niet met alleen de covariantie besluiten of er een sterke samenhang is. o Lineaire samenhang. o Gevoelig aan outliers. o In R: cov() Correlatiecoëfficiënt 𝑐𝑜𝑣 o 𝑟𝑥𝑦 = 𝑠 𝑠𝑋𝑌 𝑥 𝑦 o o De correlatiecoëfficiënt ligt tussen de -1 en 1 Er geldt dat: 𝑟𝑥𝑦 = 1 bij een perfecte positieve samenhang. 𝑟𝑥𝑦 = −1 bij een perfecte negatieve samenhang. 𝑟𝑥𝑦≈0 indien er geen samenhang is. o Gevoelig aan outliers. o Lineaire samenhang. Kendall’s τ o Wordt berekend door concordante en disconcordante paren te tellen. 𝑦 −𝑦 Concordant: een paar (𝑥𝑖 , 𝑦𝑖 ) en (𝑥𝑗 , 𝑦𝑗 ) indien 𝑥𝑗𝑗−𝑥𝑖𝑖 > 0. Dit is wanneer (𝑥𝑖 < 𝑥𝑗 én 𝑦𝑖 <𝑦𝑗 ) of wanneer (𝑥𝑖 < 𝑥𝑗 én 𝑦𝑖 >𝑦𝑗 ). Disconcordant: een paar (𝑥𝑖 , 𝑦𝑖 ) en (𝑥𝑗 , 𝑦𝑗 ) indien 𝑦𝑗 − 𝑦𝑖 𝑥𝑗 −𝑥𝑖 < 0. Dit is wanneer o (𝑥𝑖 < 𝑥𝑗 én 𝑦𝑖 > 𝑦𝑗 ) of wanneer (𝑥𝑖 > 𝑥𝑗 én 𝑦𝑖 < 𝑦𝑗 ). Als er voor een paar 𝑥𝑖 = 𝑥𝑗 en 𝑦𝑖 = 𝑦𝑗 dan is het paar niet concordant en niet disconcordant. o Kendall’s τ wordt gegeven door: τ = o o o Kendall’s τ ligt tussen de -1 en 1. Is enkel zinnig als de variabelen minstens van het ordinale niveau zijn. Kan ook visueel worden weergegeven door alle punten in het spreidingsdiagram paarsgewijs te verbinden via rechten. De concordante paren zijn de rechten met een positieve richtingscoëfficient. De didconcordante paren zijn de rechten met een negatieve richtingscoëfficient. Niet gevoelig aan outliers. Monotone (niet-lineaire) functies. In R: cor() method = “kendall”. o o o 2(𝑎𝑎𝑛𝑡𝑎𝑙 𝑐𝑜𝑛𝑐𝑎𝑟𝑑𝑎𝑛𝑡𝑒 𝑝𝑎𝑟𝑒𝑛−𝑎𝑎𝑛𝑡𝑎𝑙 𝑑𝑖𝑠𝑐𝑜𝑟𝑑𝑎𝑛𝑡 𝑝𝑎𝑟𝑒𝑛) 𝑛(𝑛−1) Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman Lineaire functies: Kan worden voorgeste;d door een rechte lijn. Monotone functie: Bewaart de orde. De functie moet ofwel stijgen ofwel dalen, maar niet beiden. Een lineaire functie is een monotone functie, maar er bestaan ook functies die monotoon zijn zonder lineair te zijn. De correlatiecoëfficient is enkel geschikt als de puntenwolk een lineaire trend vertoont, terwijl Kendall’s τ geschikt is voor de puntenwolken die een monotone trend vertonen. In de onderste voorbeelden zou je op basis van de maten besluiten dat er een zwakke samenhang is (omdat de getallen klein zijn( terwijl er visueel een sterke niet-monotne samenhang is. Het is belangrijk om data eerst te visualiseren door middel van een spreidingsdiagram en dan pas te beslissen welke spreidingsmaat geschikt is. Regressielijn: Het verband tussen Y en X beschreven door een rechte (𝑌 = 𝑏0 + 𝑏1 𝑋). Indien er een perfect lineair verband is, gaat er precies één rechte door alle punten. Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman Regressecoëfficiënt: Het getal 𝑏1 . 𝑏1 = 𝑦𝑗 − 𝑦𝑖 𝑥𝑗 −𝑥𝑖 . 𝑏0 kan worden gevonden door 𝑏0 = 𝑦𝑖 − 𝑏1 𝑥𝑖 . Als de samenhang niet perfect is is het onmogelijk een rechte te tekenen door alle punten. Als oplossing wordt er een rechte getelemd die het best door de puntenwolk gaat. Deze rechte kan worden bekomen door de volgende uitdrukking: ∑𝑛𝑖=1(𝑦𝑖 − (𝑏0 + 𝑏1 𝑥𝑖 ))². Dit heet de kleinstekwadrantenmethode. De oplossing wordt gegeven door: 𝑆 𝑏1 = 𝑟𝑋𝑌 𝑆𝑌 en 𝑏0 = 𝑦̅ − 𝑏1 𝑥̅ . 𝑋 De vergelijking van de regressielijn maakt gebruik van gemiddelden en de correlatiecoëfficient en is bijgevolg enkel zinnig als beide variabelen van tenminste intervalniveau zijn. Je kan de regressielijn tekenen met behulp van de volgende stappen: Neem twee willekeurige waarden voor X. Vul voor elk van deze waarden de formule van de regressielijn in. Teken deze punten op het spreidingsdiagram. Als we deze twee punten verbinden met een rechte bekomen we de regressielijn. Indien er een stijgende lijn is, is er een stijgende trend. Indien de punten sterk verspreid liggen is er sprake van een zwakke samenhang. Indien er een samenhang is tussen twee variabelen wil dit niet noodzakelijk zeggen dat er een causaal verband is. Hoofdstuk 5 Een populatie kan zeer groot zijn, we beschouwen zo’n populatie als oneindig groot. Verdelingsfunctie van populatie (frequentieverdeling van steekproef): Aan de hand hiervan kan een populatie worden beschreven. De beschrijving van deze functie verschilt per type variabele: Discrete variabelen (Kansverdeling): Nemen een eindig aantal waarden aan. p: het aantal waarden. De p verschillende waarden die de variabele X kan aannemen, duiden we aan als 𝑥1 , 𝑥2 , … , 𝑥𝑝 . 𝑃(𝑋 = 𝑥𝑖 ) is de kans dat de variabele X de waarde 𝑥𝑖 aanneemt. Hangt nauw samen met de frequentieverdeling in de steekproef. Wordt gedefinieerd als: 𝑓 𝑃(𝑋 = 𝑥𝑖 ) = lim 𝑛𝑖. 𝑛→∞ Het is de limiet van de relatieve frequentie in de steekproef wanneer de steekproef oneindig groot wordt. De kans 𝑃(𝑋 = 𝑥𝑖 ) kan worden geïnterpreteerd als de relatieve frequentie van 𝑥𝑖 in de populatie. De kansverdeling van een discreet variabele X: een tabel met twee kolommen waarbij de eerste kolom de waarden 𝑥𝑖 weergeeft en de tweede kolom de overeenkomstige kansen 𝑃(𝑋 = 𝑥𝑖 ). De cumulatieve verdelingsfunctie (𝐹𝑋 (𝑥)): de tegenhanger van de cumulatieve relatieve frequentie. 𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥) Deze kan worden bekomen door de kansen 𝑃(𝑋 = 𝑥𝑖 ) uit de kansverdeling waarvoor𝑥𝑖 ≤ 𝑥 op te tellen Continue variabele (Kansverdeling): Kan in theorie oneindig verschillende waarden aannemen. Dit impliceert dat de kans 𝑃(𝑋 = 𝑥) = 0 voor elke waarde 𝑥. Om kansen te berekenen bij continue variabelen gebruiken we de dichtheidsfunctie. Voor een variabele X wordt de dichtheidsfunctie 𝑓𝑋 (𝑥), ook wel de kansdichtheid genoemd, gegeven door de afgeleide van de verdelingsfunctie: 𝑓𝑋 (𝑥) = lim 𝑏→0 𝐹𝑥 (𝑥+𝑏)−𝐹𝑥 (𝑥) 𝑏 Het geeft de kans weer dat X binnen het interval [𝑥, 𝑥 + 𝑏] gedeeld door b. b: Breedte van het interval, convergeert naar 0 (wordt kleiner en kleiner). 𝑓𝑋 (𝑥) heeft niet de Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman interpretatie van een kans, omdat b zeer klein is, kan 𝑓𝑋 (𝑥) groter zijn dan 1, dus kan het geen kans zijn. De dichtheidsfunctie is een continue functie en wordt theoretisch bekomen door het histogram op te delen in oneindig veel kansen. Via de dichtheidsfunctie kunnen we kansen van de vorm 𝑃(𝑥𝑖 ≤ 𝑋 ≤ 𝑥2 ) berekenen. Om deze kansen te bekomen moeten we de dichtheidsfunctie integreren. Integralen kunnen visueel worden voorgesteld door oppervlaktes. Algemeen kunnen we stellen dat: 𝑥 𝑃(𝑥1 ≤ 𝑋 ≤ 𝑥2 ) = ∫𝑥 2 𝑓𝑥 (𝑥)𝑑𝑥 1 Deze kans is gelijk aan een oppervlakte. De kans dat een variabele X in het interval [𝑥1 , 𝑥2 ] is gelijk aan de oppervlakte onder de dichtheidsfunctie 𝑓𝑋 (𝑥) tussen 𝑥1 en 𝑥2 waarvan de integraal de bovengenoemde is. Kansen van de vorm 𝑃(𝑋 ≤ 𝑥) en 𝑃(𝑋 > 𝑥) kunnen worden bekomen door: 𝑥 𝑃(𝑋 ≤ 𝑥) =∫∞ 𝑓𝑥 (𝑥)𝑑𝑥 +∞ 𝑃(𝑋 > 𝑥) =∫𝑥 𝑓𝑥 (𝑥)𝑑𝑥 Indien we beschikken over de verdelingsfunctie 𝐹𝑋 (𝑥), is het echter eenvoudig om de kans te bekomen via de volgende eigenschap: 𝑃(𝑥1 ≤ 𝑋 ≤ 𝑥2 ) = 𝑃(𝑋 ≤ 𝑥2 ) − 𝑃(𝑋 ≤ 𝑥1 ) = 𝐹𝑥 (𝑥2 ) − 𝐹𝑥 (𝑥1 ) De cumulatieve frequentieverdelingsfunctie geeft de kans dat de waarde van een variabele X kleiner dan of gelijk is aan 𝑥. 𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥) Opgelet: Bij continue variabelen maakt het niet uit of we < of ≤ gebruiken omdat 𝑃(𝑋 = 𝑥). Een aantal interessante eigenschappen: De dichtheidsfunctie is een positieve functie: 𝑓𝑋 (𝑥) ≥ 0. Een functie die het negatieve ingaat kan om die reden nooit een dichtheidsfunctie zijn. +∞ De volledige oppervlakte onder de dichtheidsfunctie is gelijk aan 1: ∫−∞ 𝑓𝑥 (𝑥)𝑑𝑥 = 1 Er gelt dat: 𝑃(𝑋 > 𝑥) = 1 − 𝑃(𝑋 ≤ 𝑥) Het gemiddelde en de variantie zijn populatieparameters. Afhankelijk van het type variabele zijn er verschillende definities voor het populatiegemiddelde: Discrete variabelen (Populatiegemiddelde) Het gemiddelde (E(X)) van een discrete variabele X in een populatie wordt gegeven door: 𝑝 𝐸(𝑋) = ∑𝑖=1 𝑃(𝑋 = 𝑥𝑖 )𝑥𝑖 Het populatiegemiddelde wordt ook wel de verwachtingswaarde genoemd en wordt aangeduid door 𝑓 𝐸(𝑋), 𝜇𝑥 of 𝜇. Het verschil met het steekproefgemiddelde is dat de relatieve frequenties 𝑛𝑖 vervangen zijn door de kansen 𝑃(𝑋 = 𝑥𝑖 ). Deze kansen vormen de tegenhanger van de relatieve frequentie op populatieniveau. Verder is 𝑥𝑖𝑢 vervangen door 𝑥𝑖 . Continue variabelen (Populatiegemiddelde) Voor continue variabelen is 𝑃(𝑋 = 𝑥𝑖 ) = 0. We moeten integreren om het populatiegemdidelde te definiëren. Het gemiddelde van een continue variabele X in een populatie wordt gegeven door: +∞ 𝐸(𝑋) = ∫−∞ 𝑓𝑥 (𝑥)𝑑𝑥 Deze vergelijking lijkt op die van de discrete variabele, echter wordt de som vervangen door integraal +∞ ∫−∞ 𝑑𝑥 en de kansverdeling door de dichtheidsfunctie 𝑓𝑋 (𝑥). Afhankelijk van het type variabele zijn er verschillende definities voor de populatievariantie: Discrete variabelen (Populatievariantie) De variantie (𝑉(𝑋)) van een discrete variabele X wordt gegeven door: 𝑝 𝑉(𝑋) = ∑𝑖=1 𝑃(𝑋 = 𝑥𝑖 )(𝑥𝑖 − 𝐸(𝑋))² Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman en wordt aangeduid door 𝑉(𝑋), 𝜎²𝑥 , 𝜎². De formule voor de populatievariantie lijkt sterk op die voor 1 de steekproefvariantie als je die van de steekproefvariantie omschrijft (𝑠𝑑²𝑥 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )² = 𝑓 𝑓 ∑𝑝𝑖=1 𝑖 (𝑥𝑖𝑢 − 𝑥̅ )²). Vervolgens als je 𝑖 vervangt door 𝑃(𝑋 = 𝑥𝑖 ), 𝑥̅ door 𝐸(𝑋) en 𝑥𝑖𝑢 door 𝑥𝑖 . 𝑛 𝑛 De standaarddeviatie van een variabele X in een populatie (𝜎𝑥 ) wordt gegeven door: 𝑝 𝜎𝑥 = √∑𝑖=1 𝑃(𝑋 = 𝑥𝑖 )(𝑥𝑖 − 𝐸(𝑋))² Continue variabelen (Populatievariantie) De variantie van een continue variabele X in een populatie wordt gegeven door: +∞ 𝑉(𝑋) = ∫−∞ 𝑓𝑥 (𝑥)(𝑥 − 𝐸(𝑋))²𝑑𝑥 Deze vergelijking lijkt op die van de discrete variabele, omdat de som wordt vervangen door een integraal en de kansverdeling door de dichtheidsfunctie. De standaarddeviatie wordt opnieuw bekomen door de vierkantswortel te nemen. Bivariate kansverdelingen: Twee variabelen gezamenlijk bekeken op populatieniveau. Ook hier wordt een onderscheid gemaakt tussen discrete en continue variabelen. Discrete variabelen (Bivariate kansverdelingen) De kans dat X de waarde 𝑥𝑖 aanneemt en Y de waarde 𝑦𝑖 wordt beschreven als: 𝑃(𝑋 = 𝑥𝑖 𝑒𝑛 𝑌 = 𝑦𝑗 ). p: het aantal mogelijke waarden dat X kan aannemen. q: het aantal mogelijke waarden dat Y kan aannemen. De univariate verdeling van X wordt bekomen via: 𝑞 𝑃(𝑋 = 𝑥𝑖 ) = ∫𝑗=1 𝑃(𝑋 = 𝑥𝑖 𝑒𝑛 𝑌 = 𝑦𝑗 ) We nemen de som van de kansen waar X wordt vastgehouden bij de waarde 𝑥𝑖 en Y varieert over alle mogelijke waarden. We kunenn op gelijkaardige wijze de univariate kansverdeling van Y afleiden uit de bivariate kansverdeling via: 𝑝 𝑃(𝑌 = 𝑦𝑗 ) = ∫𝑖=1 𝑃(𝑋 = 𝑥𝑖 𝑒𝑛 𝑌 = 𝑦𝑗 ) Statistische onafhankelijkheid: Een belangrijk begrip binnen bivariate kansverdelingen. Twee discrete variabelen X en Y zijn onafhankelijk als de volgende gelijkheid geldt voor alle mogelijke combinaties 𝑖 en 𝑗. 𝑃(𝑋 = 𝑥𝑖 en 𝑌 = 𝑦𝑗 ) = 𝑃(𝑋 = 𝑥𝑖 )𝑃(𝑌 = 𝑦𝑗 ) Covariantie voor twee discrete variabelen X en Y in een populatie (COV(X,Y)), wordt gegeven door: 𝑝 𝑞 𝐶𝑂𝑉(𝑋, 𝑌) = ∑𝑖=1 ∑𝑗=1 𝑃(𝑋 = 𝑥𝑖 𝑒𝑛 𝑌 = 𝑦𝑗 )(𝑥𝑖 − 𝐸(𝑋))(𝑦𝑗 − 𝐸(𝑌)) Correlatiecoëffiënt wordt gegeven door 𝜌𝑋𝑌 = 𝐶𝑂𝑉(𝑋,𝑌) 𝜎𝑋 𝜎𝑌 Met 𝜎𝑋 de standaarddeviatie van X en 𝜎𝑌 de standaarddeviatie van Y. Continue variabelen (Bivariate kansverdelingen) Voor continue variabelen zijn de kansen 𝑃(𝑋 = 𝑥𝑖 en 𝑌 = 𝑦𝑗 ) = 0. De cumulatieve bivariate verdelingsfunctie kan worden gedefiniëerd als: 𝐹𝑋,𝑌 (𝑥, 𝑦) = 𝑃(𝑋 ≤ 𝑥 𝑒𝑛 𝑌 ≤ 𝑦) De bivariate dichtheidsfunctie wordt bekomen door 𝐹𝑋,𝑌 (𝑥, 𝑦) af te leiden en wordt genoteerd als 𝑓𝑋,𝑌 (𝑥, 𝑦). Twee continue variabelen X en Y zijn onafhankelijk als geldt dat: 𝑃(𝑋 ≤ 𝑥 𝑒𝑛 𝑌 ≤ 𝑦) = 𝑃(𝑋 ≤ 𝑥)𝑃(𝑌 ≤ 𝑦) voor alle mogelijke waarden x en y. Covariantie voor twee continue variabelen X en Y in een populatie wordt gegeven door: +∞ +∞ 𝐶𝑂𝑉(𝑋, 𝑌) = ∫−∞ ∫−∞ 𝑓𝑋,𝑌 (𝑋, 𝑌) (𝑥 − 𝐸(𝑋))(𝑦 − 𝐸(𝑌))𝑑𝑥 𝑑𝑦 Correlatiecoëffiënt wordt gegeven door 𝜌𝑋𝑌 = 𝐶𝑂𝑉(𝑋,𝑌) 𝜎𝑋 𝜎𝑌 Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman Met 𝜎𝑋 de standaarddeviatie van X en 𝜎𝑌 de standaarddeviatie van Y. Stellingen: Steekproefgemiddelde 2. Voor een variabele Y=X+a geldt dat E(Y)=E(X)+a, waarbij a een constante is (voorbeeld €100 opslag, gemiddelde wordt €100 hoger). 3. Voor een variabele Y=aX geldt dat E(Y)=aE(X) waarbij a een constante is. (voorbeeld inkomen uitgedrukt in euro en uitgedrukt in dollar) 4. Voor twee variabelen X en Y (die onafhankelijk of afhankelijk kunnen zijn) geldt dat: E(X+Y)=E(X)+E(Y) E(X-Y)=E(X)-E(Y) (voorbeeld twee testen) Populatiegemiddelde 1. Als X en Y onafhankelijke variabelen zijn dan geldt dat 𝐶𝑂𝑉(𝑋, 𝑌) = 0. Een covariantie van 0 impliceert echter niet dat de variabelen onafhankelijk zijn. Populatiecovariantie is een maat voor lineaire samenhang. 5. Voor twee onafhankelijke variabelen X en Y geldt dat E(XY)=E(X)E(Y). Variantie 6. Voor een variabele Y=X+a geldt dat V(Y)=V(X) waarbij a een constante is (voorbeeld €100 opslag, spreiding blijft gelijk) 7. Voor een variabele Y=aX geldt dat V(Y)=a²V(X) waarbij a een constante is (voorbeeld euro naar dollar, spreiding verandert i.v.m. omzetting. €100 opslag, is $113 opslag). 8. Voor twee variabelen X en Y geldt dat V(X+Y)=V(X)+V(Y)+2COV(X,Y). (eerst per persoon de scores optellen en dan de variantie (=V(X+Y)), eerst per test de variantie en samen met de covariantie tellen we dit op (=V(X)+V(Y)+2COV(X,Y)). De variantie van de som is gelijk aan de som van de varianties plus twee keer de covarianties. (voorbeeld twee verschillende testen. Als de covariantie positief is impliceert dit dat de variantie van de totale score groter is dan de som van de varianties van de afzonderlijke scores. Dit komt doordat personen die een hoge score behalen op de eerste test vaak ook een hoge score behalen op de tweede. Hierdoor zal de totale score meer spreiding vertonen en is de variantie groter. Indien X en Y onafhankelijke variabelen zijn dan volgt uit stelling 1 en 8 dat V(X+Y) = V(X)+V(Y). 9. Voor twee variabelen X en Y geldt dat V(X-Y)=V(X)+V(Y)-2COV(X,Y). De variantie van het verschil is gelijk aan de som van de varianties min twee keer de covariantie. Als X en Y onafhankelijke variabelen zijn volgt uit stelling 1 en 9 dat V(X-Y) = V(X)+V(Y). De variantie van het verschil is gelijk aan de som van de varianties. De variantie van het verschil is dus niet gelijk aan het verschil van de varianties. De variantie is altijd groter dan of gelijk aan 0. Binomale verdeling: Geeft de kansverdeling weer om k correcte antwoorden te hebben op een examen met N vragen. Omdat alle studenten op willekeurige wijze een antwoord moeten aanduiden en omdat er vier antwoordmogelijkheden zijn, zal elk antwoord worden gekozen door een kwart van de populatie. Stel dat N=2, opnieuw op volledig willekeurige wijze. Omdat N=2 kan de variabele X drie mogelijke waarden aannemen: 9 X=0 indien beide antwoorden foutief zijn. De kans P(X=0)=16. 6 X=1 indien één antwoord correct is en één foutief is. De kans P(X=1)=16. 1 X=2 indien beide antwoorden correct zijn. De kans P(X=2)= . 16 De binomale kansverdeling wordt gegeven door: 𝑁! 𝑃(𝑋 = 𝑘) = 𝑝𝑘 (1 − 𝑝)𝑁−𝑘 𝑘! (𝑁 − 𝑘)! Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman N!: N faculteit² *N! = N∙ (N-1) ∙ (N-2) ∙... ∙2∙1. 0!=1. Bijvoorbeeld: 4!=4∙3∙2∙1=24. p: kans op succes. k: het aantal successen. N: maximaal aantal successen. 𝑥 0 = 1 voor alle reële getallen. Binomiale variabele (X~Binom(N,p)): Een variabele die een binomiale verdeling heeft. Stel, een examen met 5 vragen met bij elke vraag 10 antwoordmogelijkheden, de kans op succes is gelijk aan p=0,10. De kans om bijvoorbeeld alle vragen foutief te beantwoorden is veel groter dan de kans om alle vragen correct te beantwoorden. Voor p=0,5 is de verdeling perfect om alle vragen correct te beantwoorden, terwijl voor p=0,1 de verdeling scheef naar links is, en voor p=0,9 de verdeling scheef naar rechts is. De verwachtingswaarde van een binomiale variabele X~Binom(N,p) wordt gegeven door: 𝐸(𝑋) = 𝑁𝑝 en de variantie door: 𝑉(𝑋) = 𝑁𝑝 (1 − 𝑝) De binomiale verdeling kan enkel gebruikt worden als N vast is en indien de kans op succes p ongewijzigd blijft. Voor het meerkeuze-examen ligt het aantal vragen op voorhand vast en blijft de kans p=0,25 omdat ze moeten gokken. In R: Kansdichtheid P(X=k): dbinom(k, N, p) De cumulatieve verdelingsfunctie P(X≤k): pbinom (k, N, p) Normaal verdeelde variabelen: De normale verdeling is een goede benadering voor verschillende verdelingen in de praktijk en anderzijds is ze zeer nuttig omwille van de centrale limietstelling. Een normaal verdeelde variabele is continu en de dichtheidsfunctie wordt gegeven door: 𝑓𝑥 (𝑥) = −(𝑥−𝜇)² 1 𝑒 2𝜎² 𝜎√2𝜋 Een variabele die normaal verdeeld is noteren we als X~N(µ,σ²). De dichtheidsfunctie hangt af van twee parameters, 𝜇(=populatiegemiddelde) en 𝜎²(=populatievariantie), waarvoor geldt dat 𝐸(𝑋) = 𝜇 en 𝑉(𝑋) = 𝜎². De dichtheidsfunctie bereikt haar hoogste punt in het gemiddelde. Bij een grotere variantie 𝜎² (dus bij meer spreiding rond het gemiddelde) wordt de dichtheidsfunctie breder en minder hoog. De dichtheidsfunctie wordt echter nergens 0 omdat 𝑓𝑥 (𝑥) > 0 voor alle waarden x. De dichtheidsfunctie wordt gebruikt om kansen van de vorm 𝑃(𝑥1 ≤ 𝑋 ≤ 𝑥2 ) te berekenen. Voor de normale verdeling moet de volgende integraal worden berekend: 𝑥2 −(𝑥−𝜇)² 1 𝑃(𝑥1 ≤ 𝑋 ≤ 𝑥2 ) = ∫ 𝑒 2𝜎² 𝑑𝑥 𝑥1 𝜎√2𝜋 Deze integraal is echter niet analytisch op te lossen. Omdat µ en σ² oneindig veel verschillende waarden kunnen aannemen hebben we oneindig veel tabellen nodig. Hert blijk echter dat een tabel voor µ=0 en σ²=1 voldoende is om de kansen te berekenen voor elke normale verdeling, dus ook als µ≠0 en/of σ²≠1). Standaardnormale verdeling: De normale verdeling met µ=0 en σ²=1. Algemeen geldt voor de standaardnormale verdeling dat 𝑃(𝑋 > 𝑥) = 𝑃(𝑋 ≤ −𝑥). Dit is nuttig, omdat ze impliceert dat we een tabel meer beknopt kunnen schrijven door enkel de kansen 𝑃(𝑋 ≤ 𝑥) te geven waarvoor x positief is. Er is een verband tussen 𝑃(𝑋 ≤ −𝑥) en 𝑃(𝑋 ≤ 𝑥), namelijk: 𝑃(𝑋 ≤ −𝑥) = 1 − 𝑃(𝑋 ≤ 𝑥), voor alle x. Stelling: 10. Als X een normale verdeling heeft met gemiddelde µ en variantie σ², dus X~N(µ, σ²), 𝑋−µ dan heeft de variabele 𝑍 = 𝜎 een standaardnormale verdeling, dus Z~N(0,1). Deze stelling impliceert dat als X~N(µ, σ²) dan geldt dat: Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman 𝑋−µ 𝑥−µ 𝑥−µ 𝑃(𝑋 ≤ 𝑥) = 𝑃 ( ≤ ) = 𝑃 (𝑍 ≤ ), waarbij Z~N(0,1). Dit heet het 𝜎 𝜎 𝜎 standaardiseren van X. Door gebruik te maken van deze formule kunnen we voor elke normaalverdeelde variabele X~N(µ, σ²) de kansen 𝑃(𝑋 ≤ 𝑥) berekenen. In R: Voor een standaardnormale variabele X, kunnen we rechtstreeks de kansen 𝑃(𝑋 ≤ 𝑥): pnorm(x). Kansdichtheid 𝑓𝑥 (𝑥): dnorm(x) Voor een variabele X~N(1,4) kunnen we de kans P(X≤3) in R ook direct berekenen: pnorm(3, mean = 1, sd = sqrt(4)). Via mean=1 duiden we aan dat het gemiddelde van de normale verdeling µ=1 is en via sd=sqrt(4) duiden we aan dat de standaarddeviatie 𝜎 = √4 = 2 is. De standaarddeviatie moet worden ingegeven en de notatie N(1,4) staat voor een normale verdeling met gemiddelde µ=1 en variantie σ²=4. De kans P(X≤3) kan ook worden bekomen via de laatste formule: o > z <- (3-1)/sqrt(4) o > pnorm(z) X~N(0,1) lees je als X heeft normale verdeling met gemiddelde 0 en variantie 1, dus standaardnormale verdeling. Laat 𝑋1 , 𝑋2 , … , 𝑋𝑘 onafhankelijke standaardnormale variabelen zijn (dus 𝑋1 ~𝑁(0,1), 𝑋2 ~𝑁(0,1), … , 𝑋𝑘 ~𝑁(0,1). De 𝑥𝑘2 -verdeling (chikwadraat) is de verdeling van de variabele 𝑌 = 𝑋12 + 𝑋22 + ⋯ + 𝑋𝑘2 . De X²-verdeling is bijgevolg de verdeling van de som van k gekwadrateerde standaardnormale variabelen. k: het aantal vrijheidsgraden. E(Y)=k V(Y)=2k Dit laat ons te intepreteren als het populatiegemiddelde. Voor de 𝑋𝑘2 -verdeling is de variantie steeds gelijk aan twee maal het populatiegemiddelde. Een variabele Y die een 𝑋𝑘2 -verdeling heeft, noteren we als Y~𝑋𝑘2 . In R: De kansen P(Y ≤ y) voor een variabele Y~𝑋𝑘2 : Pchisq(y, k) Laat X~N(0,1) en Y~𝑋𝑘2 onafhankelijke variabelen zijn. De 𝑡𝑘 -verdeling is de verdeling van de variabele 𝑋 𝑇= . 1 𝑘 √ 𝑌 k: het aantal vrijheidsgraden. De dichtheidsfunctie van de 𝑡𝑘 -verdeling gelijkt op die van een normale verdeling, maar is niet volledig gelijk. Naarmate k toeneemt, gelijkt de 𝑡𝑘 -verdeling meer en meer op de dichtheid van een standaardnormale (als k naar oneindig convergeert valt ze exact samen met de standaardnormale). 𝑘 Als T~𝑡𝑘 dan geldt dat E(T)=0 en V(T)=𝑘−2, voor k>2. In R: P(T≤t) bekomen voor een variabele T~𝑡𝑘 : pt(t,k) Hoofdstuk 6 Reproduceerbaarheid van de onderzoeksresultaten: We verwachten gelijkaardige conclusies wanneer we het experiment opnieuw uitvoeren op basis van een nieuwe steekproef. Via de steekproevenverdeling kunnen we de reproduceerbaarheid inschatten zonder dat we het experiment opnieuw moeten uitvoeren. Aselecte steekproeftrekking: Op volledig willekeurige wijze worden n elementen geselecteerd uit de populatie. We veronderstellen dat deze n elementen onafhankelijk zijn van elkaar. Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman De waarden van de variabelen voor één specifieke steekproef schrijven we met kleine letters. 𝑋𝑖 stelt de variabele X voor van object i in e steekproef zonder dat we deze steekproef effectief getrokken hebben, terwijl 𝑥𝑖 de waarde voorstelt van de variabele X bij object i voor een specifiek getrokken steekproef. P: Komt van probabilteit, dit komt omdat we een kansinterpretatie kunnen geven aan P(X=𝑥𝑖 ). Voordat we dit kunnen doen moet je eerst weten wat er wordt bedoeld met een kans. Frequentistische interpretatie van een kans: De kans op een gebeurtenis is dus gelijk aan de relatieve frequentie van de gebeurtenis indien we het experiment een oneindig aantal keer herhalen. In de praktijk kan dit niet een oneindig aantal keer, maar we kunnen dit wel benaderen. Als we een geldstuk een groot aantal keer opwerpen, zullen we in ongeveer 50% van de gevallen munt gegooid hebben. We schrijven de uitkomst van het opwerpen van een geldstuk symbolisch als Y. Dan 𝑓 bekomen we: 𝑃(𝑌 = 𝑚𝑢𝑛𝑡) = lim 𝑚𝑢𝑛𝑡 , waarbij 𝑓𝑚𝑢𝑛𝑡 staat voor de absolute frequentie van 𝑛 𝑛→∞ 𝑓 ‘munt’ (het aantal keer dat we munt hebben bij n opwerpingen), zodat 𝑚𝑢𝑛𝑡 de relatieve frequentie 𝑛 is. Aangezien n naar oneindig gaat, geeft P(Y=munt) inderdaad de relatieve frequentie weer. Toevalsvariabele: Hiermee wordt een resultaat aangeduid van een toevallige trekking van een element uit de populatie. Het steekproefgemiddelde is variabel: de waarde hangt af van de frequentieverdeling van de scores in de steekproef en verschillende steekproeven hebben verschillende frequentieverdelingen. Het steekproefgemiddelde is daarom een variabele. 𝑋̅ stelt het steekproefgemiddelde voor van een steekproef in het algemeen. Zodra we een steekproef hebben getrokken en waarden 𝑥1 , 𝑥2 , … , 𝑥𝑛 van de variabele observeren, schrijven we het steekproefgemiddelde met een kleine letter 𝑥̅ . Steekproefgrootheid/statistiek: Een bewerking toegepast op de variabelen 𝑋1 , … , 𝑋𝑛 . Het steekproefgemiddelde is een voorbeeld van een steekproefgrootheid. Steekproevenverdeling van het gemiddelde: De dichtheidsfunctie van het gemiddelde, ze geeft de verdeling weer in termen van een dichtheidsfunctie van het steekproefgemiddelde voor zeer veel steekproeven (theoretisch gezien oneindig). De steekproevenverdeling kan worden bekomen voor elke steekproefgrootheid. Let op: De frequentieverdeling geeft de verdeling van een variabele weer, terwijl de steekproevenverdeling de verdeling van een steekproefgrootheid weergeeft. Stelling: 11. De verwachtingswaarde van het steekproefgemiddelde 𝑋̅ is gelijk aan het populatiegemiddelde van de variabele X: 𝐸(𝑋̅) = µ𝑥 . Voor één steekproef is het steekproefgemiddelde over het algemeen niet gelijk aan het populatiegemiddelde. Bij oneindig veel steekproeven garandeert stelling 11 dat het gemiddelde van deze steekproefgemiddelden exact gelijk zal zijn aan het populatiegemiddelde. 12. De variantie van het steekproefgemiddelde is gelijk aan de populatievariantie van de 𝜎² variabele gedeeld door de steekproefgrootte: 𝑉(𝑋̅) = 𝑥 . De variantie van het 𝑛 steekproefgemiddelde is dus niet gelijk aan de populatievariantie van de variabele. De variantie van het steekproefgemiddelde zal altijd kleiner dan of gelijk zijn aan de populatievariantie van de variabele omdat n≥1. Naarmate we grotere steekproeven nemen om het gemiddelde te berekenen zal de variatie tussen de steekproefgemiddelden afnemen (de variantie wordt dus kleiner). Bij grotere steekproeven hebben we meer informatie over de populatie (omdat we meer elementen in de steekproef hebben) en zal het steekproefgemiddelde ‘dichter’ bij het populatiegemiddelde liggen en minder variëren. De variantie is dus kleiner. 13. Stel dat 𝑋1 , … , 𝑋𝑛 n onafhankelijke lukrake trekkingen zijn uit een populatie met een normale verdeling 𝑁(µ𝑥 , 𝜎 2 𝑥 ), dan zal 𝑋̅ ook normaal verdeeld zijn: 𝑋̅~𝑁(µ𝑥 , 𝜎 2 𝑥 / 𝑛). Dit geldt voor elke keuze van de steekproefgrootte n. Let op: De normale verdeling gaat enkel op voor continue variabelen. 14. Centrale limietstelling. Stel dat 𝑋1 , … , 𝑋𝑛 n onafhankelijke lukrake trekkingen zijn uit een populatie met een gemiddelde µ𝑥 en variantie 𝜎 2 𝑥 /𝑛, dan wordt de verdeling Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman van het steekproefgemiddelde 𝑋̅ naarmate n groter wordt, steeds beter benaderd door de normale verdeling met gemiddelde µ𝑥 en variantie 𝜎 2 𝑥 /𝑛. Dus het steekproefgemiddelde is bij benadering altijd normaal verdeeld, zolang de steekproef maar groot genoeg is. Hoe groter de steekproef, hoe beter de verdeling van het steekproefgemiddelde zal lijken op een normaalverdeling. Stelling 14 is veel breder toepasbaar dan stelling 13 omdat ze opgaat voor elke verdeling van X, niet noodzakelijk de normaalverdeling. Anderzijds gaat stelling 13 voor elke keuze van n, terwijl stelling 14 alleen maar opgaat voor een ‘grote’ n. Een vuistregel is dat wanneer n>30 de steekproef groot is. Het steekproefgemiddelde kan net als normaal verdeelde variabelen ook gestandaardiseerd worden: 𝑥−µ 𝑃(𝑋̅ ≤ 𝑥) = 𝑃 (𝑍 ≤ 2 𝑋) , 𝑍~𝑁(0,1). Indien X uit een normale verdeling komt geldt deze √𝜎 𝑥 𝑛 eigenschap voor alle keuzes van n. Indien X niet uit een normale verdeling komt, geldt deze eigenschap enkel maar voor grote n. Stelling 13 en 14 zijn samen met de voorgaande eigenschap van fundamenteel belang voor de statistiek omdat ze toelaten kansen te berekenen die weergeven wat er zou gebeuren indien we een experiment blijven herhalen. Voorbeeld: Een onderzoeker wenst te weten of het gemiddelde van de scores op deze 50 testen (𝑥̅ = 5,92) ongewoon hoog of ongewoon laag is. Dit kan door de kans 𝑃(𝑋̅ ≤ 5,92) te berekenen. Indien deze kans zeer klein is weten we dat de gemiddelde score zeer laag is, indien deze kans zeer groot is weten we dat de gemiddelde score zeer groot is. Er zijn twee mogelijkheden om deze kans te berekenen: De onderzoeker zal het experiment vele malen herhalen, en berekent vervolgens de proportie van gemiddelden dat kleiner dan of gelijk is aan 5,92. De onderzoeker voert het experiment maar 1 keer uit en maakt gebruik van stelling 14 en eigenschap 6.2. We standaardiseren eerst het gemiddelde en vervolgens lezen we de kans af uit de tabel van de normaalverdeling. Deze kans is ook slecht een benadering omdat we beroep doen op de centrale limietstelling. Ze ligt echter dicht in de buurt van de kans bekomen door het experiment 1000 keer te herhalen. Deze aanpak laat ons toe een uitspraak te doen over wat er zou gebeuren indien we het experiment een oneindig aantal keer zouden herhalen, zonder dat we dit effectief moeten uitvoeren. Aanpak B heeft echter een nadeel, om de kans te kunnen berekenen moeten we µ𝑋 en 𝜎𝑋 invullen, terwijl deze populatieparameters voor vele studies typisch ongekend zijn. In het vervolg van de cursus zullen we methodes zien die deze tekortkoming omzeilen. Steekproefvariantie: Een ander voorbeeld van een steekproefvariantie. Voor deze grootheid kunnen we ook de steekproevenverdeling bepalen. We gebruiken ook hier hoofdletters om te benadrukken dat de steekproefvariantie een variabele is: als we voor verschillende steekproeven de variantie berekenen, zal deze variëren. We gebruiken opnieuw twee formules voor de steekproefvariantie: 1 1 𝑆𝐷²𝑋 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)² en 𝑆²𝑋 = 𝑛−1 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)². We kunnen voor deze steekrpoefgrootheden 𝑛−1 kunnen we ook de verwachtingswaarde bepalen. Er geldt dat 𝐸(𝑆 2𝑋 ) = 𝜎²𝑋 . De 𝑛 verwachtingswaarde van de steekproefvariantie is 𝑆𝐷²𝑋 is dus niet gelijk aan de populatievariantie. Voor 𝑆 2𝑋 is dit echter wel zo: 𝐸(𝑆 2𝑋 ) = 𝜎²𝑋 . De verwachtingswaarde van de steekproefvariantie 𝑆 2𝑋 is gelijk aan de populatievariantie. Als we zeer veel steekproeven trekken en telkens de steekproefvariantie berekenen via formule 𝑆 2𝑋 , dan zal het gemiddelde van de varianties gelijk zijn aan de populatievariantie. Dit is een gunstige eigenschap en daarom zal men in de praktijk vaak de variantie bereken 𝑆 2𝑋 in plaats van 𝑆𝐷 2𝑋 . 15. Stel dat 𝑋1 , … , 𝑋𝑛 n de onafhankelijke lukrake trekkingen zijn uit een populatie met normale verdeling 𝑁(µ𝑋 , 𝜎 2𝑋 ), dan geldt: (𝑛−1)𝑆 2 𝑋 𝜎2𝑋 ~𝑋²𝑛−1 . Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman Hoofdstuk 7 Een schatter voor populatieparameter θ, noteren we als θ̂, wat de steekproefgrootheid is. θ̂ is een goede schatter indien: Ze zuiver is (de verwachtingswaarde van de schatter is gelijk aan de populatieparameter: 𝐸(θ̂) = θ. De populatieparameter wordt niet systematisch te klein of te groot geschat. De variantie van de schatter 𝑉(θ̂) wordt kleiner naarmate de steekproefgrootte toeneemt. Dus de schatter wordt nauwkeuriger wanneer de steekproef groter wordt. Standaardfout: √𝑉(θ̂) , dit is de standaarddeviatie van de schatter. De schatter met de kleinste standaardfout is het efficiëntst. Het steekproefgemiddelde is een zuivere schatter van het populatiegemiddelde omdat aan beide voorwaarden van een goede schatter wordt voldoen Schatting: De waarde van de schatter op basis van één steekproef. 𝑋̅ is de schatter en 𝑥̅ is de schatting, die we bekomen op basis van één steekproef. De populatievariantie kan niet zuiver worden geschat door 𝑆𝐷²𝑋 , maar wel door 𝑆²𝑋 omdat 𝐸(𝑆 2𝑋 ) = 𝜎². Betrouwbaarheidsinterval: Stelt ons in staat om met een bepaalde zekerheid een uitspraak te doen over het populatiegemiddelde. Bij een schatting is het populatiegemiddeld altijd ongekend, omdat als ze wel gekend zou zijn er geen statistische methodes voor nodig zijn. X-normaal verdeeld en gekende populatievariantie 𝑧𝛼 : De waarde van de standaardnormale verdeling, zodat de oppervlakte onder de curve rechts van de waarde gelijk is aan α. 𝑃(𝑍 > 𝑧𝛼 ) = 𝛼 met Z ~ N(0,1). Voorbeeld: 𝑃(𝑍 ≤ 𝑧0,025 ) = 1 − 0,025 = 0,975. In de tabel N(0,1) kan je vinden dat P(Z ≤ 1,64) = 0,9495 en P(Z ≤ 1,65)=0,9505. We pakken dan het gemiddelde tussen die twee waarden en komen 1,64+1,65 dan uit op 𝑧0,05 = = 1,645. 2 𝑃 (−𝑧𝛼 ≤ 𝑍 ≤ 𝑧𝛼 ) = 1 − 𝛼. Deze formule is geldig voor elke standaardnormaal verdeelde variabele 2 2 Z en vormt de basis voor een betrouwbaarheidsinterval. Voorbeeld: α=0,05. 𝑧0,05 = 𝑧0,025 = 1,96. De oppervlakte onder de kromme tussen de grenzen -1,96 2 en 1,96 is gelijk aan 1-α = 1-0,05=0,05. De kans dat een variabele een waarde aanneemt tussen -1,96 en 1,96 ligt is 95%. 𝑋̅−µ Indien we het steekproefgemiddelde standaardiseren volgt dat: Z=𝜎/ 𝑛~N(0,1). 𝜎 √ 2 𝑛 𝑃(𝑋̅ − 𝑧𝛼 𝜎 )= √ 2 𝑛 ≤ µ ≤ 𝑋̅ + 𝑧𝛼 √ 1-α. Dit is een zeer belangrijke formule en wordt geïnterpreteerd als 𝜎 , 𝑋̅ √ 2 𝑛 de kans dat het populatiegemiddelde in het interval [𝑋̅ − 𝑧𝛼 𝜎 ] valt √ 2 𝑛 + 𝑧𝛼 interval wordt het 100% betrouwbaarheidsinterval (BI) genoemd. 𝜎 Voorbeeld: α=0,05. 𝑧𝛼 = 1,96. Het BI wordt dan [𝑋̅ − 1,96 𝑛 , 𝑋̅ + 1,96 √ 𝜎 ]. √𝑛 is gelijk aan 1-α. Dit De kans dat µ in het interval ligt is gelijk aan 95%. Er bestaat dus een kans dat onze conclusie fout is. Het steekproefgemiddelde ligt bij constructie van een BI altijd exact in het midden van het interval. Verschillende steekproeven zullen verschillende gemiddelden hebben, wat resulteert in verschillende betrouwbaarheidsintervallen. De grenzen zullen verschillen per steekproef. De breedte van een 𝜎 interval [a,b] is gelijk aan b-a. De breedte van een betrouwbaarheidsinterval is 𝑋̅ + 𝑧𝛼 − 𝜎 2 √𝑛 𝑋̅ − 𝑧𝛼 𝜎 . 2 √𝑛 = 2 ⋅ 𝑧𝛼 2 √𝑛 De breedte hangt af van n, de waarde 𝑧𝛼 en de populatiestandaarddeviatie σ. 2 De standaarddeviatie σ is een populatieparameter en kunnen we niet wijzigen. Een smaller betrouwbaarheidsinterval impliceert dat we een nauwkeurigere uitspraak kunnen doen over het populatiegemiddelde. Als n toeneemt, verkrijgen we meer informatie over de populatie wat zal Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman resulteren in een nauwkeurigere uitspraak over het populatiegemiddelde. Als α toeneemt zal de breedte van het interval afnemen. Als 𝑧𝛼 verder naar links opschuift, zal de oppervlakte rechts toenemen. Als α afneemt zal de breedte van het interval toenemen, omdat 1-α afneemt en daardoor zal de kans dat het interval het populatiegemiddelde bevat afnemen. Hoe smaller de intervallen, hoe kleiner de kans dat ze de populatieparameter zullen bevatten. X normaal verdeeld en ongekende populatievariantie De populatievariantie kan worden geschat door de steekproefvariantie 𝑆 2𝑋 . Echter kunnen we σ niet zomaar vervangen door 𝑆𝑋 , omdat 𝑆𝑋 een variabele is terwijl σ een constante is. Door twee gekende eigenschappen te combineren kunnen we een nieuw betrouwbaarheidsinterval opstellen: Als X normaal verdeeld is dan volgt uit stelling 15 dat Als X normaal verdeeld is dan volgt (𝑛−1)𝑆 2 𝑋 σ2 𝑋̅−µ ~𝑁(0,1). 𝜎/√𝑛 ~𝑋²𝑛−1 Door deze eigenschappen te combineren en te vereenvoudigen tonen we aan dat 𝑋̅−µ ~𝑡𝑛−1 . 𝑆𝑋 /√𝑛 Dus wanneer σ vervangen door 𝑆𝑋 dan wijzigt de standaardnormale verdeling naar een 𝑡𝑛−1 -verdeling. 𝑡𝑛−1;𝛼/2 geeft de waarde van de 𝑡𝑛−1 -verdeling zodat de oppervlakte rechts gelijk is aan α/2. Dus α 𝑃 (𝑇 > 𝑡𝑛−1;𝛼 ) = 2 , T~𝑡𝑛−1 . We kunnen aantonen dat 𝑃(𝑋̅ − 𝑡𝑛−1;𝛼 ≤ µ ≤ 𝑋̅ + 𝑡𝑛−1;𝛼 ), waardoor 2 2 2 𝑆 𝑆 het (1-α)100%-betrouwbaarheidsinterval gelijk is aan [𝑋̅ − 𝑡𝑛−1;𝛼 𝑋𝑛 , 𝑋̅ + 𝑡𝑛−1;𝛼 𝑋𝑛]. Indien we de 2 √ 2 √ steekproefstandaarddeviatie gebruiken in plaats van de populatiestandaarddeviatie, moeten we de 𝑡𝑛−1 -verdeling gebruiken. De dichtheidsfunctie van een standaardnormale verdeling en een t-verdeling lijken op elkaar, maar er zijn toch enkele verschillen: De𝑡𝑛−1 -verdeling heeft een grotere variantie dan de standaardnormale verdeling. De 𝑡𝑛−1;𝛼 -waarde van een 𝑡𝑛−1 -verdeling is groter dan de 𝑧𝛼/2 -waarde van een 2 standaardnormale verdeling: 𝑡𝑛−1;𝛼 > 𝑧𝛼/2 . 2 Deze eigenschappen impliceren dat het betrouwbaarheidsinterval in het geval van een ongekende populatievariantie en een normale X-verdeling breder is dan het betrouwbaarheidsinterval in het geval van een gekende populatievariantie en een normale X-verdeling. Dit komt doordat we de populatiestandaarddeviatie moeten schatten wat zal resulteren in extra variabiliteit. Echter, naarmate n groter wordt zal de 𝑡𝑛−1 -verdeling steedsd beter de standaardnormale verdeling benaderen. X niet normaal verdeeld en ongekende populatievariantie Als X niet normaal is verdeeld kunnen we voor een grote steekproef beroep doen op de centrale 𝑆 𝑆 limietstelling. Deze garandeert dat het interval [𝑋̅ − 𝑡𝑛−1;𝛼 𝑋 , 𝑋̅ + 𝑡𝑛−1;𝛼 𝑋 ] bij benadering een (12 √𝑛 2 √𝑛 α) betrouwbaarheidsinterval is voor het populatiegemiddelde µ. De t-toets is een statistische toets. Nulhypothese: 𝐻0 . Alternatieve hypothese: 𝐻𝑎 . Ofwel 𝐻0 is correct, ofwel 𝐻𝑎 . 𝐻0 : µ = µ0 en 𝐻𝑎 : µ ≠ µ0 , waar µ0 een gegeven waarde is. De alternatieve hypothese. De tweezijdig alternatieve hypothese: 𝐻𝑎 : µ ≠ µ0 . De eenzijdige alternatieve hypotheses: 𝐻𝑎 : µ > µ0 en 𝐻𝑎 : µ < µ0 . Bij een statistische toets proberen we 𝐻0 te verwerpen. Het bewijs tegen 𝐻0 zullen we samenvatten door middel van een toetsingsgrootheid. Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman Toetsingsgrootheid = 𝑋̅−µ0 𝑆𝑋 /√𝑛 = 𝐺, welke een 𝑡𝑛−1-verdeling volgt op voorwaarde dat 𝐻0 correct is. De toetsingsgrootheid is een steekproefgrootheid. De waarde van G die we bekomen op basis van één steekproef noteren we als g. De volgende conclusies kunnen worden getrokken: Als 𝐻0 waar is, verwachten we dat G warden aan zal nemen rond 0. Als 𝐻0 niet waar is, verwachten we dat G waarden zal aannemen die sterk verschillen van 0. Als g rond 0 ligt, aanvaarden we 𝐻0 . Als g sterk verschilt van 0, verwerpen we 𝐻0 . Wanneer verschilt g sterk van 0? Dit wordt beslist met de volgende beslissingsregels: Als −𝑡𝑛−1;𝛼 ≤ 𝑔 ≤ 𝑡𝑛−1;𝛼 aanvaarden we 𝐻0 . 2 2 Als 𝑔 < −𝑡𝑛−1;𝛼 of 𝑔 > 𝑡𝑛−1;𝛼 verwerpen we 𝐻0 . 2 2 Kritische waarden van de toets: De waarden −𝑡𝑛−1;𝛼 en 𝑡𝑛−1;𝛼 . Het 2 2 gebied tussen deze waarden heet het aanvaardingsgebied. Het gebied buiten deze waarden heet het kritisch gebied. Door middel van een statistische toets hebben we op basis van de steekproef een besluit geformuleerd over de populatie. De kans om een type I fout te maken noteren we als P(verwerp 𝐻0 |µ=µ0 . Dit is de kans om 𝐻0 te verwerpen terwijl in werkelijkheid µ=µ0 .Deze kans is gelijk aan α. Als µ=µ0 en we herhalen het experiment vele malen op basis van nieuwe steekproeven. De proportie van steekproeven waarvoor we 𝐻0 verwerpen (en we een fout maken in dit geval) is gelijk aan α. Significantieniveau: α. Betrouwbaarheid: De kans dat we een correcte conclusie bekomen indien µ=µ0 : P(aanvaard 𝐻0 | µ=µ0 ) = 1-α. De kans op een type 1 fout is exact gelijk aan α als X uit een normale verdeling komt. Indien X niet uit een normale verdeling komt garandeert de centrale limietstelling dat de kans op een type I fout bij benadering gelijk is aan α, indien de steekproef groot is. Indien X niet uit een normale verdeling komt en de steekproef klein is, kan de kans op een type I fout sterk verschillen van α en zullen we de toets niet gebruiken. De kans om een type II fout te maken noteren we als P(aanvaard 𝐻0 | µ≠µ0 = ß. Dit is de kans om 𝐻0 te aanvaarden terwijl in werkelijkheid µ≠µ0 . Deze hangt af van de volgende factoren: Het significantieniveau α: ß stijgt als α daalt. De steekproefgrootte n: ß daalt als n stijgt. Onderscheidingskans/power: De kans dat we een correcte conclusie formuleren terwijl in werkelijkheid µ=µ0 . Deze is gelijk aan 1-ß. De kans op een type I fout is gelijk aan α, vaak 5%. We zetten deze niet lager omdat de kans op een type I fout dan wel lager wordt, maar dit zal resulteren in een verhoogde kans op een type II fout. De kans op een type II fout kan men inschatten via een poweranalyse, en als deze te groot is kan men ervoor kiezen om een grotere steekproef te nemen. Overzicht Syllabus Statistiek I Schooljaar 2015-2016 Julia Saelman Als µ0 in het betrouwbaarheidsinterval ligt, aanvaarden we 𝐻0 . Als µ0 niet in het betrouwbaarheidsinterval ligt, verwerpen we 𝐻0 . Als µ0 niet in het betrouwbaarheidsinterval ligt, dan zijn we 95% zeker dat µ≠µ0 . Er is een 5% kans dat we foutief zeggen dat µ≠µ0 , dus dat er een type I fout wordt gemaakt. In dat geval wordt 𝐻0 verworpen op het 5% significantieniveau. In R: t.test (mu= *getalµ0 ∗) df: vrijheidsgraden van de 𝑡𝑛−1 -verdeling. t: geeft toetsingsgrootheid g qt(): De oppervlakte links, dus de kansen van de vorm P(T≤t) lower.tail = FALSE: De oppervlakte rechts (in de vorm qt(0.025, 29, lower.tail = FALSE)). De waarde t moet worden vergeleken met de kritische waarde 𝑡𝑛−1;𝛼 , welke staat voor de 𝛼 oppervlakte rechts van 2 . 2