Samenvatting Syllabus

advertisement
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman
Hoofdstuk 1
Schalen
 Nominaal (identificatie zonder hoeveelheid -> rugnummer, rekeningnummer)
 Ordinaal (Nominale schaal + volgorde -> Goud-zilver-brons, officiersgraad)
 Interval (Ordinale schaal + verschillen tussen waarden hebben een betekenis. Geen absoluut
nulpunt -> Temperatuur (0 °C betekent niet dat er geen temperatuur aanwezig is)
 Ratio (Interval schaal + absoluut nulpunt -> Lengte, geld, reactietijd)
Continue variabelen: Kunnen tussenwaarden aannemen -> Lengte (tussen 2 en 3 cm, ligt ook 2,3)
Discrete variabelen: Geen tussenwaarden -> aantal kinderen (geen 2,4 kinderen mogelijk)
Hoofdstuk 2
Aselecte steekproef: Op willekeurige wijze
Absolute frequentie: Aantal keer dat de waarde in de steekproef voorkomt
Absolute frequentieverdeling: Een tabel van de absolute frequentie
Steekproefgrootte (n): Aantal elementen in de steekproef
Relatieve frequentie: Absolute frequentie gedeeld door de steekproefgrootte
Staafdiagram:
 Alle rechthoeken zijn even breed
 Afstand tussen de verschillende rechthoeken is hetzelfde
 Rechthoeken raken elkaar niet
Histogram:
 Staven raken elkaar
 Aantal klassen is ongeveer wortel van n
Gegroepeerde frequentieverdeling: Tabel met de klassen en de overeenkomstige frequenties
Scheef naar rechts/staart naar rechts: Massa van histogram ligt links
Scheef naar links/staart naar links: Massa van histogram ligt rechts
Symmetrisch: Massa van histogram is aan beiden kanten ongeveer gelijk
Cumulatieve absolute frequentie (F(x)): Het aantal elementen in de steekproef die kleiner dan of
gelijk aan x zijn.
Cumulatieve absolute frequentieverdeling: Tabel met de waarden van de variabele en de
overeenkomstige cumulatieve absolute frequenties.
Cumulatieve frequentiecurve (ongegroepeerd):
 Stap 1: Alle waarden aanduiden door middel van punten
 Stap 2: Punten trapsgewijs verbinden
 Stap 3: Horizontale lijn bij 0 en bij n
Cumulatieve absolute frequentie van een klasse: Het aantal elementen in die klasse plus het aantal
elementen in lagere klassen.
Cumulatieve absolute gegroepeerde frequentieverdeling: Tabel met de klassen en de
overeenkomstige cumulatieve absolute frequenties.
Cumulatieve frequentiecurve (gegroepeerd):
 Stap 1: Alle waarden aanduiden door middel van punten
 Stap 2: Punten met rechten verbinden
 Stap 3: Horizontale lijn bij 0 en bij n
Hoofdstuk 3
Centrummaat/maat van centrale tendentie: Maat voor het centrum van een verdeling. Laat toe de
waarden van een variabele samen te vatten in één getal.
 Gemiddelde (𝑥̅ ):
o Kan berekend worden op basis van:
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman
 Een variabele
 Een frequentieverdeling
 Gegroepeerde data
o Enkel zinnig voor interval- en ratiovariabelen
o Gevoelig aan outliers
o In R: Mean
1
o Formule: 𝑛 ∑𝑛𝑖=1 𝑥𝑖
𝑥𝑖𝑢 : Unieke waarden van de variabele X in de steekproef (bij een frequentieverdeling)
𝑓𝑖 : Absolute frequentie horende bij de waarde 𝑥𝑖𝑢
1 𝑝
Formule gemiddelde op basis van een frequentieverdeling formule: 𝑛 ∑𝑖=1 𝑓𝑖 𝑥𝑖𝑢
Klassenmidden:
𝑎+𝑏
2
1
𝑛
𝑝
Formule gemiddelde van gegroepeerde data: ∑𝑖=1 𝑓𝑖

𝑎𝑖 +𝑏𝑖
2
Mediaan (𝑚𝑑𝑥 ): Niet meer dan de helft van de elementen in de steekproef heeft een waarde
kleiner dan 𝑚𝑑𝑥 en niet meer dan de helft van de elementen in desteekproef heeft een
waarde groter dan 𝑚𝑑𝑥 .
o Enkel zinnig voor ordinale, interval- en ratiovariabelen
o Indien mediaan is bekomen door rekenkundig gemiddelde, is ze enkel zinnig voor
interval- en ratiovariabelen.
o Niet gevoelig aan outliers
o In R: median
𝑛

( −𝑐)(𝑏−𝑎)
𝑎+ 2
𝑑
a: De ondergrens van de mediane klasse
b: De bovengrens van de mediane klasse
c: De cumulatieve absolute frequentie van de klasse net kleiner dan de
mediane klasse
 d: De absolute frequentie van de klasse net kleiner dan de mediane klasse
 d: De absolute frequentie van de mediane klasse (cumulatieve klasse van de
mediaan – de cumulatieve klasse net voor de mediaan)
 n: De steekproefgrootte
Modus (mo): De klasse of de waarde met de grootste frequentie.
o Modi: Als er meerdere dergelijke klassen of waarden zijn
o Unimodaal: 1 modus
o Bimodaal: twee modi
o Zinnig voor nominale, ordinale, interval- en ratiovariabelen.
o Niet gevoelig aan outliers.
o In R: via table kan je zien wie de grootste frequentie heeft
o
𝑚𝑑𝑥 =



Outliers/uitschieters: Waarden die ver verwijderd zijn van de overige waarden van een variabele. Uit
te rekenen door:
 𝑃25 − 1,5 ∙ 𝑄
 𝑃75 + 1,5 ∙ 𝑄
Spreidingsmaten: Maat voor de spreiding van een verdeling.
 Variatiebreedte (𝑣𝑥 ):
o De grootste min de kleinste waarde voor ongegroepeerde data
o De bovengrens van de laatste klasse min de ondergrens van de eerste klasse voor
gegroepeerde data
o Enkel zinnig voor interval- en ratiovariabelen.
o In R: min en max
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman


o Zeer gevoelig aan outliers.
Gemiddelde absolute afwijking(𝑔𝑎𝑥 ):
o Indien er spreiding is zullen er waarden zijn die verschillen van het gemiddelde. Hoe
groter de spreiding, hoe groter de gemiddelde absolute afwijkig.
o Enkel zinnig voor interval- of ratiovariabelen
o Nadeel: Er worden absolute warden gebruikt. Kan worden verholpen door de
absolute waarden te vervangen door kwadraten (variantie)
o In R: aad
o Gevoelig aan outliers.
1
o 𝑛 ∑𝑛𝑖=1 |𝑥𝑖 − 𝑥̅ |
Variantie:
o Enkel zinnig voor interval- of ratiovariabelen
o In R: var (alleen 𝑠²𝑥 ).
o Zee gevoelig aan outliers.
o Twee verschillende formules:
1
 𝑠𝑑²𝑥 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )²



𝑠²𝑥 =
− 𝑥̅ )²
Standaarddeviatie:
o Wortel van variantie
o In R: sd (Alleen 𝑠𝑥 )
o Gevoelig aan outliers.
o Twee verschillende formules:
 𝑠𝑑𝑥 = √𝑠𝑑²𝑥
 𝑠𝑥 = √𝑠²𝑥
Interkwartielafstand (Q):
o Interkwartiel (𝑃𝑘 ):
 𝑃25 = De waarde van een variabele waarvoor 25% van de waarden hetzelfde
of kleiner zijn.
 𝑃50 = 𝑚𝑑𝑥
 Kan worden afgelezen van de cumulatieve relatieve frequentiecurve. Om het
30e percentiel te berekenen, trek je bij een waarde van 30 op de verticale as
een horizontale lijn tot aan de curve, om vervolgens een verticale lijn te
trekken naarde horizontale as. De waarde op de horizontale as ter hoogte
van die lijn is het 30e percentiel.
 In R: Quantile
𝐹(𝑃 )

1
∑𝑛 (𝑥
𝑛−1 𝑖=1 𝑖
𝑘
𝑘

=
𝑛
100
o Q = 𝑃75 − 𝑃25
o Interkwartielinterval: [𝑃25 , 𝑃75 ]. Dit interval bevat 50% van alle waarden.
 Enkel zinnig voor ordinale, interval- en ratiovariabelen.
o Enkel zinnig voor interval- en ratiovariabelen.
o In R: IQR
o Niet gevoelig aan outliers.
Spreidingsmaat d
o Wordt vooral gebruikt met nominale variabelen.
o De letter p stelt het aantal unieke waarden voor dat een variabele aan kan nemen
(Bij geslacht p=2, want of man of vrouw).
o 𝑓𝑚𝑜 : Frequentie van de modus (een waarde of een klasse)
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman
o
𝐴𝑙𝑠 𝑓𝑚𝑜 = 𝑛 dan is er geen spreiding, alle waarden van de variabele zijn gelijk aan de
𝑛
modus. Als er geen spreiding is, dan d = 0. Bij maximale spreiding (𝑓𝑚𝑜 = 𝑝 , want
o
o
modus kan nooit kleiner zijn dan dit) dan d = 1.
Te gebruiken voor nominale, ordinale, interval- en ratiovariabelen.
Niet gevoelig aan outliers.
o
d=
𝑓
1− 𝑚𝑜
𝑛
1
𝑝
1−
Boxplot: Geeft een idee over de verdeling van de data en om outliers visueel vast te stellen.
 Stap 1: Verticale as tekenen
 Stap 2: Stippen zetten voor de waarde van de variabele van elke proefpersoon
 Stap 3: Outliers bepalen
 Stap 4: Outlier-stippen aangeven (rood kleuren)
 Stap 5: Horizontale lijn bij laagste stip die geen outlier is
 Stap 6: Horizontale lijn bij hoogste stip die geen outlier is
 Stap 7: Horizontale lijn ter hoogte van het eerste kwartiel
 Stap 8: Horizontale lijn ter hoogte van het derde kwartiel
 Stap 9: Horizontale lijnen van de kwartielen met elkaar verbinden, een rechthoek vormend
 Stap 10: Alle stippen behalve de outliers verwijderen
 Stap 11: Verticale stippellijn van de onderste horziontale lijn tot het eerste kwartiel
 Stap 12: Verticale stippellijn van het derde kwartiel tot de bovenste horizontale lijn
 Stap 13: Horizontale lijn in de rechthoek tekenen ter hoogte van de mediaan
Boxplot scheef naar rechts: Meeste outliers bevinden zich boven/links
Boxplot scheef naar links: Meeste outliers bevinden zich onder/rechts
Symmetrisch: Evenveel outliers aan beiden kanten
Hoofdstuk 4
Univariate statistiek: één variabele per keer bekijken. Toegepast op afzonderlijke variabelen.
Bivariate statistiek: twee variabelen per keer bekijken. Toegepast op gezamenlijke variabelen.
Univariate absolute frequentieverdeling: Tabel die enkel informatie bevat over één variabele.
Van de bivariate verdeling kan je de univariate verdeling afleiden.
Marginale verdelingen: Univariate verdelingen op basis van bivariate verdelingen.
Er zijn drie soorten samenhang:
 Positieve samenhang (eventueel perfect)
 Negatieve samenhang (eventueel perfect)
 Geen samenhang
Puntenwolk: Een spreidingsdiagram waarin geen patroon te zien is, de punten zijn willekeurig
verspreid.
In R: dim() = het aantal rijen (=het aantal personen) en het aantal kolommen (=aantal variabelen)
plot(): Een spreidingsdiagram, met de variabelen als argumenten, gescheiden door een komma.
Standaarddeviatie van X wordt weergegeven door 𝑠𝑥 en standaarddeviatie van Y wordt weergegeven
door 𝑠𝑦 .
Met maten van samenhang kan je de samenhang kwantificeren. Er zijn 3 maten:
 Covariantie
1
o 𝑐𝑜𝑣𝑋𝑌 = 𝑛−1 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
o Is enkel zinnig wanneer beide variabelen van tenminste intervalniveau zijn.
o Er geldt dat:
 𝑐𝑜𝑣𝑋𝑌 > 0 bij een positieve samenhang.
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman



𝑐𝑜𝑣𝑋𝑌 < 0 bij een negatieve samenhang.
𝑐𝑜𝑣𝑋𝑌 ≈ 0 indien er geen samenhang is.
Je kan een spreidingsdiagram opsplitsen in vier kwadranten op basis van de
gemiddelden.
 Positieve samenhang: Alle punten liggen linksonder en rechtsboven.
 Negatieve samenhang: Alle punten liggen linksboven en rechtsonder.
 Geen samenhang: Punten liggen in alle kwardranten.
o De covariantie is afhankelijk van de meeteenheid. Daarom kan je niet met alleen de
covariantie besluiten of er een sterke samenhang is.
o Lineaire samenhang.
o Gevoelig aan outliers.
o In R: cov()
Correlatiecoëfficiënt
𝑐𝑜𝑣
o 𝑟𝑥𝑦 = 𝑠 𝑠𝑋𝑌
𝑥 𝑦
o
o

De correlatiecoëfficiënt ligt tussen de -1 en 1
Er geldt dat:
 𝑟𝑥𝑦 = 1 bij een perfecte positieve samenhang.
 𝑟𝑥𝑦 = −1 bij een perfecte negatieve samenhang.
 𝑟𝑥𝑦≈0 indien er geen samenhang is.
o Gevoelig aan outliers.
o Lineaire samenhang.
Kendall’s τ
o Wordt berekend door concordante en disconcordante paren te tellen.
𝑦 −𝑦
 Concordant: een paar (𝑥𝑖 , 𝑦𝑖 ) en (𝑥𝑗 , 𝑦𝑗 ) indien 𝑥𝑗𝑗−𝑥𝑖𝑖 > 0. Dit is wanneer
(𝑥𝑖 < 𝑥𝑗 én 𝑦𝑖 <𝑦𝑗 ) of wanneer (𝑥𝑖 < 𝑥𝑗 én 𝑦𝑖 >𝑦𝑗 ).

Disconcordant: een paar (𝑥𝑖 , 𝑦𝑖 ) en (𝑥𝑗 , 𝑦𝑗 ) indien
𝑦𝑗 − 𝑦𝑖
𝑥𝑗 −𝑥𝑖
< 0. Dit is wanneer
o
(𝑥𝑖 < 𝑥𝑗 én 𝑦𝑖 > 𝑦𝑗 ) of wanneer (𝑥𝑖 > 𝑥𝑗 én 𝑦𝑖 < 𝑦𝑗 ).
Als er voor een paar 𝑥𝑖 = 𝑥𝑗 en 𝑦𝑖 = 𝑦𝑗 dan is het paar niet concordant en niet
disconcordant.
o
Kendall’s τ wordt gegeven door: τ =
o
o
o
Kendall’s τ ligt tussen de -1 en 1.
Is enkel zinnig als de variabelen minstens van het ordinale niveau zijn.
Kan ook visueel worden weergegeven door alle punten in het spreidingsdiagram
paarsgewijs te verbinden via rechten. De concordante paren zijn de rechten met een
positieve richtingscoëfficient. De didconcordante paren zijn de rechten met een
negatieve richtingscoëfficient.
Niet gevoelig aan outliers.
Monotone (niet-lineaire) functies.
In R: cor() method = “kendall”.
o
o
o
2(𝑎𝑎𝑛𝑡𝑎𝑙 𝑐𝑜𝑛𝑐𝑎𝑟𝑑𝑎𝑛𝑡𝑒 𝑝𝑎𝑟𝑒𝑛−𝑎𝑎𝑛𝑡𝑎𝑙 𝑑𝑖𝑠𝑐𝑜𝑟𝑑𝑎𝑛𝑡 𝑝𝑎𝑟𝑒𝑛)
𝑛(𝑛−1)
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman
Lineaire functies: Kan worden voorgeste;d door een rechte lijn.
Monotone functie: Bewaart de orde. De functie moet ofwel stijgen ofwel dalen, maar niet beiden.
Een lineaire functie is een monotone functie, maar er bestaan ook functies die monotoon zijn zonder
lineair te zijn.
De correlatiecoëfficient is enkel geschikt als de puntenwolk een lineaire trend vertoont, terwijl
Kendall’s τ geschikt is voor de puntenwolken die een monotone trend vertonen.
In de onderste voorbeelden zou je op basis van de maten besluiten dat er een zwakke samenhang is
(omdat de getallen klein zijn( terwijl er visueel een sterke niet-monotne samenhang is. Het is
belangrijk om data eerst te visualiseren door middel van een spreidingsdiagram en dan pas te
beslissen welke spreidingsmaat geschikt is.
Regressielijn: Het verband tussen Y en X beschreven door een rechte (𝑌 = 𝑏0 + 𝑏1 𝑋). Indien er een
perfect lineair verband is, gaat er precies één rechte door alle punten.
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman
Regressecoëfficiënt: Het getal 𝑏1 . 𝑏1 =
𝑦𝑗 − 𝑦𝑖
𝑥𝑗 −𝑥𝑖 .
𝑏0 kan worden gevonden door 𝑏0 = 𝑦𝑖 − 𝑏1 𝑥𝑖 .
Als de samenhang niet perfect is is het onmogelijk een rechte te tekenen door alle punten. Als
oplossing wordt er een rechte getelemd die het best door de puntenwolk gaat. Deze rechte kan
worden bekomen door de volgende uitdrukking: ∑𝑛𝑖=1(𝑦𝑖 − (𝑏0 + 𝑏1 𝑥𝑖 ))². Dit heet de kleinstekwadrantenmethode. De oplossing wordt gegeven door:
𝑆
𝑏1 = 𝑟𝑋𝑌 𝑆𝑌 en 𝑏0 = 𝑦̅ − 𝑏1 𝑥̅ .
𝑋
De vergelijking van de regressielijn maakt gebruik van gemiddelden en de correlatiecoëfficient en is
bijgevolg enkel zinnig als beide variabelen van tenminste intervalniveau zijn. Je kan de regressielijn
tekenen met behulp van de volgende stappen:
 Neem twee willekeurige waarden voor X.
 Vul voor elk van deze waarden de formule van de regressielijn in.
 Teken deze punten op het spreidingsdiagram.
 Als we deze twee punten verbinden met een rechte bekomen we de regressielijn.
Indien er een stijgende lijn is, is er een stijgende trend. Indien de punten sterk verspreid liggen is er
sprake van een zwakke samenhang.
Indien er een samenhang is tussen twee variabelen wil dit niet noodzakelijk zeggen dat er een
causaal verband is.
Hoofdstuk 5
Een populatie kan zeer groot zijn, we beschouwen zo’n populatie als oneindig groot.
Verdelingsfunctie van populatie (frequentieverdeling van steekproef): Aan de hand hiervan kan een
populatie worden beschreven. De beschrijving van deze functie verschilt per type variabele:
Discrete variabelen (Kansverdeling): Nemen een eindig aantal waarden aan.
p: het aantal waarden. De p verschillende waarden die de variabele X kan aannemen, duiden we aan
als 𝑥1 , 𝑥2 , … , 𝑥𝑝 .
𝑃(𝑋 = 𝑥𝑖 ) is de kans dat de variabele X de waarde 𝑥𝑖 aanneemt. Hangt nauw samen met de
frequentieverdeling in de steekproef. Wordt gedefinieerd als:
𝑓
 𝑃(𝑋 = 𝑥𝑖 ) = lim 𝑛𝑖.
𝑛→∞
Het is de limiet van de relatieve frequentie in de steekproef wanneer de steekproef oneindig groot
wordt. De kans 𝑃(𝑋 = 𝑥𝑖 ) kan worden geïnterpreteerd als de relatieve frequentie van 𝑥𝑖 in de
populatie.
De kansverdeling van een discreet variabele X: een tabel met twee kolommen waarbij de eerste
kolom de waarden 𝑥𝑖 weergeeft en de tweede kolom de overeenkomstige kansen 𝑃(𝑋 = 𝑥𝑖 ).
De cumulatieve verdelingsfunctie (𝐹𝑋 (𝑥)): de tegenhanger van de cumulatieve relatieve frequentie.
 𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥)
Deze kan worden bekomen door de kansen 𝑃(𝑋 = 𝑥𝑖 ) uit de kansverdeling waarvoor𝑥𝑖 ≤ 𝑥 op te
tellen
Continue variabele (Kansverdeling): Kan in theorie oneindig verschillende waarden aannemen.
Dit impliceert dat de kans 𝑃(𝑋 = 𝑥) = 0 voor elke waarde 𝑥.
Om kansen te berekenen bij continue variabelen gebruiken we de dichtheidsfunctie. Voor een
variabele X wordt de dichtheidsfunctie 𝑓𝑋 (𝑥), ook wel de kansdichtheid genoemd, gegeven door de
afgeleide van de verdelingsfunctie:

𝑓𝑋 (𝑥) = lim
𝑏→0
𝐹𝑥 (𝑥+𝑏)−𝐹𝑥 (𝑥)
𝑏
Het geeft de kans weer dat X binnen het interval [𝑥, 𝑥 + 𝑏] gedeeld door b.
b: Breedte van het interval, convergeert naar 0 (wordt kleiner en kleiner). 𝑓𝑋 (𝑥) heeft niet de
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman
interpretatie van een kans, omdat b zeer klein is, kan 𝑓𝑋 (𝑥) groter zijn dan 1, dus kan het geen kans
zijn.
De dichtheidsfunctie is een continue functie en wordt theoretisch bekomen door het histogram op te
delen in oneindig veel kansen. Via de dichtheidsfunctie kunnen we kansen van de vorm 𝑃(𝑥𝑖 ≤ 𝑋 ≤
𝑥2 ) berekenen. Om deze kansen te bekomen moeten we de dichtheidsfunctie integreren. Integralen
kunnen visueel worden voorgesteld door oppervlaktes. Algemeen kunnen we stellen dat:
𝑥
 𝑃(𝑥1 ≤ 𝑋 ≤ 𝑥2 ) = ∫𝑥 2 𝑓𝑥 (𝑥)𝑑𝑥
1
Deze kans is gelijk aan een oppervlakte. De kans dat een variabele X in het interval [𝑥1 , 𝑥2 ] is gelijk
aan de oppervlakte onder de dichtheidsfunctie 𝑓𝑋 (𝑥) tussen 𝑥1 en 𝑥2 waarvan de integraal de
bovengenoemde is. Kansen van de vorm 𝑃(𝑋 ≤ 𝑥) en 𝑃(𝑋 > 𝑥) kunnen worden bekomen door:
𝑥
 𝑃(𝑋 ≤ 𝑥) =∫∞ 𝑓𝑥 (𝑥)𝑑𝑥
+∞
 𝑃(𝑋 > 𝑥) =∫𝑥 𝑓𝑥 (𝑥)𝑑𝑥
Indien we beschikken over de verdelingsfunctie 𝐹𝑋 (𝑥), is het echter eenvoudig om de kans te
bekomen via de volgende eigenschap:
 𝑃(𝑥1 ≤ 𝑋 ≤ 𝑥2 ) = 𝑃(𝑋 ≤ 𝑥2 ) − 𝑃(𝑋 ≤ 𝑥1 ) = 𝐹𝑥 (𝑥2 ) − 𝐹𝑥 (𝑥1 )
De cumulatieve frequentieverdelingsfunctie geeft de kans dat de waarde van een variabele X kleiner
dan of gelijk is aan 𝑥.
 𝐹𝑋 (𝑥) = 𝑃(𝑋 ≤ 𝑥)
Opgelet: Bij continue variabelen maakt het niet uit of we < of ≤ gebruiken omdat 𝑃(𝑋 = 𝑥).
Een aantal interessante eigenschappen:
 De dichtheidsfunctie is een positieve functie: 𝑓𝑋 (𝑥) ≥ 0. Een functie die het negatieve ingaat
kan om die reden nooit een dichtheidsfunctie zijn.
+∞
 De volledige oppervlakte onder de dichtheidsfunctie is gelijk aan 1: ∫−∞ 𝑓𝑥 (𝑥)𝑑𝑥 = 1
 Er gelt dat: 𝑃(𝑋 > 𝑥) = 1 − 𝑃(𝑋 ≤ 𝑥)
Het gemiddelde en de variantie zijn populatieparameters. Afhankelijk van het type variabele zijn er
verschillende definities voor het populatiegemiddelde:
Discrete variabelen (Populatiegemiddelde)
Het gemiddelde (E(X)) van een discrete variabele X in een populatie wordt gegeven door:
𝑝
 𝐸(𝑋) = ∑𝑖=1 𝑃(𝑋 = 𝑥𝑖 )𝑥𝑖
Het populatiegemiddelde wordt ook wel de verwachtingswaarde genoemd en wordt aangeduid door
𝑓
𝐸(𝑋), 𝜇𝑥 of 𝜇. Het verschil met het steekproefgemiddelde is dat de relatieve frequenties 𝑛𝑖
vervangen zijn door de kansen 𝑃(𝑋 = 𝑥𝑖 ). Deze kansen vormen de tegenhanger van de relatieve
frequentie op populatieniveau. Verder is 𝑥𝑖𝑢 vervangen door 𝑥𝑖 .
Continue variabelen (Populatiegemiddelde)
Voor continue variabelen is 𝑃(𝑋 = 𝑥𝑖 ) = 0. We moeten integreren om het populatiegemdidelde te
definiëren. Het gemiddelde van een continue variabele X in een populatie wordt gegeven door:
+∞
 𝐸(𝑋) = ∫−∞ 𝑓𝑥 (𝑥)𝑑𝑥
Deze vergelijking lijkt op die van de discrete variabele, echter wordt de som vervangen door integraal
+∞
∫−∞ 𝑑𝑥 en de kansverdeling door de dichtheidsfunctie 𝑓𝑋 (𝑥).
Afhankelijk van het type variabele zijn er verschillende definities voor de populatievariantie:
Discrete variabelen (Populatievariantie)
De variantie (𝑉(𝑋)) van een discrete variabele X wordt gegeven door:
𝑝
 𝑉(𝑋) = ∑𝑖=1 𝑃(𝑋 = 𝑥𝑖 )(𝑥𝑖 − 𝐸(𝑋))²
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman
en wordt aangeduid door 𝑉(𝑋), 𝜎²𝑥 , 𝜎². De formule voor de populatievariantie lijkt sterk op die voor
1
de steekproefvariantie als je die van de steekproefvariantie omschrijft (𝑠𝑑²𝑥 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )² =
𝑓
𝑓
∑𝑝𝑖=1 𝑖 (𝑥𝑖𝑢 − 𝑥̅ )²). Vervolgens als je 𝑖 vervangt door 𝑃(𝑋 = 𝑥𝑖 ), 𝑥̅ door 𝐸(𝑋) en 𝑥𝑖𝑢 door 𝑥𝑖 .
𝑛
𝑛
De standaarddeviatie van een variabele X in een populatie (𝜎𝑥 ) wordt gegeven door:

𝑝
𝜎𝑥 = √∑𝑖=1 𝑃(𝑋 = 𝑥𝑖 )(𝑥𝑖 − 𝐸(𝑋))²
Continue variabelen (Populatievariantie)
De variantie van een continue variabele X in een populatie wordt gegeven door:
+∞
 𝑉(𝑋) = ∫−∞ 𝑓𝑥 (𝑥)(𝑥 − 𝐸(𝑋))²𝑑𝑥
Deze vergelijking lijkt op die van de discrete variabele, omdat de som wordt vervangen door een
integraal en de kansverdeling door de dichtheidsfunctie. De standaarddeviatie wordt opnieuw
bekomen door de vierkantswortel te nemen.
Bivariate kansverdelingen: Twee variabelen gezamenlijk bekeken op populatieniveau. Ook hier wordt
een onderscheid gemaakt tussen discrete en continue variabelen.
Discrete variabelen (Bivariate kansverdelingen)
De kans dat X de waarde 𝑥𝑖 aanneemt en Y de waarde 𝑦𝑖 wordt beschreven als:
 𝑃(𝑋 = 𝑥𝑖 𝑒𝑛 𝑌 = 𝑦𝑗 ).
p: het aantal mogelijke waarden dat X kan aannemen.
q: het aantal mogelijke waarden dat Y kan aannemen.
De univariate verdeling van X wordt bekomen via:
𝑞
 𝑃(𝑋 = 𝑥𝑖 ) = ∫𝑗=1 𝑃(𝑋 = 𝑥𝑖 𝑒𝑛 𝑌 = 𝑦𝑗 )
We nemen de som van de kansen waar X wordt vastgehouden bij de waarde 𝑥𝑖 en Y varieert over alle
mogelijke waarden. We kunenn op gelijkaardige wijze de univariate kansverdeling van Y afleiden uit
de bivariate kansverdeling via:
𝑝
 𝑃(𝑌 = 𝑦𝑗 ) = ∫𝑖=1 𝑃(𝑋 = 𝑥𝑖 𝑒𝑛 𝑌 = 𝑦𝑗 )
Statistische onafhankelijkheid: Een belangrijk begrip binnen bivariate kansverdelingen. Twee discrete
variabelen X en Y zijn onafhankelijk als de volgende gelijkheid geldt voor alle mogelijke combinaties 𝑖
en 𝑗.
 𝑃(𝑋 = 𝑥𝑖 en 𝑌 = 𝑦𝑗 ) = 𝑃(𝑋 = 𝑥𝑖 )𝑃(𝑌 = 𝑦𝑗 )
Covariantie voor twee discrete variabelen X en Y in een populatie (COV(X,Y)), wordt gegeven door:
𝑝
𝑞
 𝐶𝑂𝑉(𝑋, 𝑌) = ∑𝑖=1 ∑𝑗=1 𝑃(𝑋 = 𝑥𝑖 𝑒𝑛 𝑌 = 𝑦𝑗 )(𝑥𝑖 − 𝐸(𝑋))(𝑦𝑗 − 𝐸(𝑌))
Correlatiecoëffiënt wordt gegeven door

𝜌𝑋𝑌 =
𝐶𝑂𝑉(𝑋,𝑌)
𝜎𝑋 𝜎𝑌
Met 𝜎𝑋 de standaarddeviatie van X en 𝜎𝑌 de standaarddeviatie van Y.
Continue variabelen (Bivariate kansverdelingen)
Voor continue variabelen zijn de kansen 𝑃(𝑋 = 𝑥𝑖 en 𝑌 = 𝑦𝑗 ) = 0. De cumulatieve bivariate
verdelingsfunctie kan worden gedefiniëerd als:
 𝐹𝑋,𝑌 (𝑥, 𝑦) = 𝑃(𝑋 ≤ 𝑥 𝑒𝑛 𝑌 ≤ 𝑦)
De bivariate dichtheidsfunctie wordt bekomen door 𝐹𝑋,𝑌 (𝑥, 𝑦) af te leiden en wordt genoteerd als
𝑓𝑋,𝑌 (𝑥, 𝑦). Twee continue variabelen X en Y zijn onafhankelijk als geldt dat: 𝑃(𝑋 ≤ 𝑥 𝑒𝑛 𝑌 ≤ 𝑦) =
𝑃(𝑋 ≤ 𝑥)𝑃(𝑌 ≤ 𝑦) voor alle mogelijke waarden x en y.
Covariantie voor twee continue variabelen X en Y in een populatie wordt gegeven door:
+∞ +∞
 𝐶𝑂𝑉(𝑋, 𝑌) = ∫−∞ ∫−∞ 𝑓𝑋,𝑌 (𝑋, 𝑌) (𝑥 − 𝐸(𝑋))(𝑦 − 𝐸(𝑌))𝑑𝑥 𝑑𝑦
Correlatiecoëffiënt wordt gegeven door

𝜌𝑋𝑌 =
𝐶𝑂𝑉(𝑋,𝑌)
𝜎𝑋 𝜎𝑌
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman
Met 𝜎𝑋 de standaarddeviatie van X en 𝜎𝑌 de standaarddeviatie van Y.
Stellingen:
 Steekproefgemiddelde
2. Voor een variabele Y=X+a geldt dat E(Y)=E(X)+a, waarbij a een constante is
(voorbeeld €100 opslag, gemiddelde wordt €100 hoger).
3. Voor een variabele Y=aX geldt dat E(Y)=aE(X) waarbij a een constante is. (voorbeeld
inkomen uitgedrukt in euro en uitgedrukt in dollar)
4. Voor twee variabelen X en Y (die onafhankelijk of afhankelijk kunnen zijn) geldt dat:
 E(X+Y)=E(X)+E(Y)
 E(X-Y)=E(X)-E(Y)
(voorbeeld twee testen)
 Populatiegemiddelde
1. Als X en Y onafhankelijke variabelen zijn dan geldt dat 𝐶𝑂𝑉(𝑋, 𝑌) = 0. Een
covariantie van 0 impliceert echter niet dat de variabelen onafhankelijk zijn.
Populatiecovariantie is een maat voor lineaire samenhang.
5. Voor twee onafhankelijke variabelen X en Y geldt dat E(XY)=E(X)E(Y).
 Variantie
6. Voor een variabele Y=X+a geldt dat V(Y)=V(X) waarbij a een constante is (voorbeeld
€100 opslag, spreiding blijft gelijk)
7. Voor een variabele Y=aX geldt dat V(Y)=a²V(X) waarbij a een constante is (voorbeeld
euro naar dollar, spreiding verandert i.v.m. omzetting. €100 opslag, is $113 opslag).
8. Voor twee variabelen X en Y geldt dat V(X+Y)=V(X)+V(Y)+2COV(X,Y). (eerst per
persoon de scores optellen en dan de variantie (=V(X+Y)), eerst per test de variantie
en samen met de covariantie tellen we dit op (=V(X)+V(Y)+2COV(X,Y)). De variantie
van de som is gelijk aan de som van de varianties plus twee keer de covarianties.
(voorbeeld twee verschillende testen. Als de covariantie positief is impliceert dit dat
de variantie van de totale score groter is dan de som van de varianties van de
afzonderlijke scores. Dit komt doordat personen die een hoge score behalen op de
eerste test vaak ook een hoge score behalen op de tweede. Hierdoor zal de totale
score meer spreiding vertonen en is de variantie groter. Indien X en Y onafhankelijke
variabelen zijn dan volgt uit stelling 1 en 8 dat V(X+Y) = V(X)+V(Y).
9. Voor twee variabelen X en Y geldt dat V(X-Y)=V(X)+V(Y)-2COV(X,Y). De variantie van
het verschil is gelijk aan de som van de varianties min twee keer de covariantie. Als X
en Y onafhankelijke variabelen zijn volgt uit stelling 1 en 9 dat V(X-Y) = V(X)+V(Y). De
variantie van het verschil is gelijk aan de som van de varianties. De variantie van het
verschil is dus niet gelijk aan het verschil van de varianties. De variantie is altijd
groter dan of gelijk aan 0.
Binomale verdeling: Geeft de kansverdeling weer om k correcte antwoorden te hebben op een
examen met N vragen. Omdat alle studenten op willekeurige wijze een antwoord moeten aanduiden
en omdat er vier antwoordmogelijkheden zijn, zal elk antwoord worden gekozen door een kwart van
de populatie. Stel dat N=2, opnieuw op volledig willekeurige wijze. Omdat N=2 kan de variabele X
drie mogelijke waarden aannemen:
9
X=0 indien beide antwoorden foutief zijn. De kans P(X=0)=16.
6
X=1 indien één antwoord correct is en één foutief is. De kans P(X=1)=16.
1
X=2 indien beide antwoorden correct zijn. De kans P(X=2)= .
16
De binomale kansverdeling wordt gegeven door:
𝑁!
𝑃(𝑋 = 𝑘) =
𝑝𝑘 (1 − 𝑝)𝑁−𝑘
𝑘! (𝑁 − 𝑘)!
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman
N!: N faculteit² *N! = N∙ (N-1) ∙ (N-2) ∙... ∙2∙1. 0!=1. Bijvoorbeeld: 4!=4∙3∙2∙1=24.
p: kans op succes.
k: het aantal successen.
N: maximaal aantal successen.
𝑥 0 = 1 voor alle reële getallen.
Binomiale variabele (X~Binom(N,p)): Een variabele die een binomiale verdeling heeft.
Stel, een examen met 5 vragen met bij elke vraag 10 antwoordmogelijkheden, de kans op succes is
gelijk aan p=0,10. De kans om bijvoorbeeld alle vragen foutief te beantwoorden is veel groter dan de
kans om alle vragen correct te beantwoorden. Voor p=0,5 is de verdeling perfect om alle vragen
correct te beantwoorden, terwijl voor p=0,1 de verdeling scheef naar links is, en voor p=0,9 de
verdeling scheef naar rechts is.
De verwachtingswaarde van een binomiale variabele X~Binom(N,p) wordt gegeven door:
 𝐸(𝑋) = 𝑁𝑝
en de variantie door:
 𝑉(𝑋) = 𝑁𝑝 (1 − 𝑝)
De binomiale verdeling kan enkel gebruikt worden als N vast is en indien de kans op succes p
ongewijzigd blijft. Voor het meerkeuze-examen ligt het aantal vragen op voorhand vast en blijft de
kans p=0,25 omdat ze moeten gokken.
In R:
 Kansdichtheid P(X=k): dbinom(k, N, p)
 De cumulatieve verdelingsfunctie P(X≤k): pbinom (k, N, p)
Normaal verdeelde variabelen: De normale verdeling is een goede benadering voor verschillende
verdelingen in de praktijk en anderzijds is ze zeer nuttig omwille van de centrale limietstelling. Een
normaal verdeelde variabele is continu en de dichtheidsfunctie wordt gegeven door:

𝑓𝑥 (𝑥) =
−(𝑥−𝜇)²
1
𝑒 2𝜎²
𝜎√2𝜋
Een variabele die normaal verdeeld is noteren we als X~N(µ,σ²). De dichtheidsfunctie hangt af van
twee parameters, 𝜇(=populatiegemiddelde) en 𝜎²(=populatievariantie), waarvoor geldt dat 𝐸(𝑋) =
𝜇 en 𝑉(𝑋) = 𝜎². De dichtheidsfunctie bereikt haar hoogste punt in het gemiddelde. Bij een grotere
variantie 𝜎² (dus bij meer spreiding rond het gemiddelde) wordt de dichtheidsfunctie breder en
minder hoog. De dichtheidsfunctie wordt echter nergens 0 omdat 𝑓𝑥 (𝑥) > 0 voor alle waarden x. De
dichtheidsfunctie wordt gebruikt om kansen van de vorm 𝑃(𝑥1 ≤ 𝑋 ≤ 𝑥2 ) te berekenen. Voor de
normale verdeling moet de volgende integraal worden berekend:
𝑥2
−(𝑥−𝜇)²
1
𝑃(𝑥1 ≤ 𝑋 ≤ 𝑥2 ) = ∫
𝑒 2𝜎² 𝑑𝑥
𝑥1 𝜎√2𝜋
Deze integraal is echter niet analytisch op te lossen. Omdat µ en σ² oneindig veel verschillende
waarden kunnen aannemen hebben we oneindig veel tabellen nodig. Hert blijk echter dat een tabel
voor µ=0 en σ²=1 voldoende is om de kansen te berekenen voor elke normale verdeling, dus ook als
µ≠0 en/of σ²≠1).
Standaardnormale verdeling: De normale verdeling met µ=0 en σ²=1. Algemeen geldt voor de
standaardnormale verdeling dat 𝑃(𝑋 > 𝑥) = 𝑃(𝑋 ≤ −𝑥). Dit is nuttig, omdat ze impliceert dat we
een tabel meer beknopt kunnen schrijven door enkel de kansen 𝑃(𝑋 ≤ 𝑥) te geven waarvoor x
positief is.
Er is een verband tussen 𝑃(𝑋 ≤ −𝑥) en 𝑃(𝑋 ≤ 𝑥), namelijk: 𝑃(𝑋 ≤ −𝑥) = 1 − 𝑃(𝑋 ≤ 𝑥), voor alle
x.
Stelling:
10. Als X een normale verdeling heeft met gemiddelde µ en variantie σ², dus X~N(µ, σ²),
𝑋−µ
dan heeft de variabele 𝑍 = 𝜎 een standaardnormale verdeling, dus Z~N(0,1). Deze
stelling impliceert dat als X~N(µ, σ²) dan geldt dat:
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman
𝑋−µ
𝑥−µ
𝑥−µ
𝑃(𝑋 ≤ 𝑥) = 𝑃 (
≤
) = 𝑃 (𝑍 ≤
), waarbij Z~N(0,1). Dit heet het
𝜎
𝜎
𝜎
standaardiseren van X. Door gebruik te maken van deze formule kunnen we voor
elke normaalverdeelde variabele X~N(µ, σ²) de kansen 𝑃(𝑋 ≤ 𝑥) berekenen.
In R:

Voor een standaardnormale variabele X, kunnen we rechtstreeks de kansen 𝑃(𝑋 ≤ 𝑥):
pnorm(x).
Kansdichtheid 𝑓𝑥 (𝑥): dnorm(x)
Voor een variabele X~N(1,4) kunnen we de kans P(X≤3) in R ook direct berekenen: pnorm(3,
mean = 1, sd = sqrt(4)). Via mean=1 duiden we aan dat het gemiddelde van de normale
verdeling µ=1 is en via sd=sqrt(4) duiden we aan dat de standaarddeviatie 𝜎 = √4 = 2 is. De
standaarddeviatie moet worden ingegeven en de notatie N(1,4) staat voor een normale
verdeling met gemiddelde µ=1 en variantie σ²=4. De kans P(X≤3) kan ook worden bekomen
via de laatste formule:
o > z <- (3-1)/sqrt(4)
o > pnorm(z)


X~N(0,1) lees je als X heeft normale verdeling met gemiddelde 0 en variantie 1, dus
standaardnormale verdeling.
Laat 𝑋1 , 𝑋2 , … , 𝑋𝑘 onafhankelijke standaardnormale variabelen zijn (dus
𝑋1 ~𝑁(0,1), 𝑋2 ~𝑁(0,1), … , 𝑋𝑘 ~𝑁(0,1). De 𝑥𝑘2 -verdeling (chikwadraat) is de verdeling van de
variabele 𝑌 = 𝑋12 + 𝑋22 + ⋯ + 𝑋𝑘2 . De X²-verdeling is bijgevolg de verdeling van de som van k
gekwadrateerde standaardnormale variabelen.
k: het aantal vrijheidsgraden.
E(Y)=k
V(Y)=2k
Dit laat ons te intepreteren als het populatiegemiddelde. Voor de 𝑋𝑘2 -verdeling is de variantie steeds
gelijk aan twee maal het populatiegemiddelde. Een variabele Y die een 𝑋𝑘2 -verdeling heeft, noteren
we als Y~𝑋𝑘2 .
In R:
 De kansen P(Y ≤ y) voor een variabele Y~𝑋𝑘2 : Pchisq(y, k)
Laat X~N(0,1) en Y~𝑋𝑘2 onafhankelijke variabelen zijn. De 𝑡𝑘 -verdeling is de verdeling van de variabele
𝑋
𝑇=
.
1
𝑘
√ 𝑌
k: het aantal vrijheidsgraden.
De dichtheidsfunctie van de 𝑡𝑘 -verdeling gelijkt op die van een normale verdeling, maar is niet
volledig gelijk. Naarmate k toeneemt, gelijkt de 𝑡𝑘 -verdeling meer en meer op de dichtheid van een
standaardnormale (als k naar oneindig convergeert valt ze exact samen met de standaardnormale).
𝑘
Als T~𝑡𝑘 dan geldt dat E(T)=0 en V(T)=𝑘−2, voor k>2.
In R:
 P(T≤t) bekomen voor een variabele T~𝑡𝑘 : pt(t,k)
Hoofdstuk 6
Reproduceerbaarheid van de onderzoeksresultaten: We verwachten gelijkaardige conclusies
wanneer we het experiment opnieuw uitvoeren op basis van een nieuwe steekproef. Via de
steekproevenverdeling kunnen we de reproduceerbaarheid inschatten zonder dat we het experiment
opnieuw moeten uitvoeren.
Aselecte steekproeftrekking: Op volledig willekeurige wijze worden n elementen geselecteerd uit de
populatie. We veronderstellen dat deze n elementen onafhankelijk zijn van elkaar.
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman
De waarden van de variabelen voor één specifieke steekproef schrijven we met kleine letters. 𝑋𝑖 stelt
de variabele X voor van object i in e steekproef zonder dat we deze steekproef effectief getrokken
hebben, terwijl 𝑥𝑖 de waarde voorstelt van de variabele X bij object i voor een specifiek getrokken
steekproef.
P: Komt van probabilteit, dit komt omdat we een kansinterpretatie kunnen geven aan P(X=𝑥𝑖 ).
Voordat we dit kunnen doen moet je eerst weten wat er wordt bedoeld met een kans.
Frequentistische interpretatie van een kans: De kans op een gebeurtenis is dus gelijk aan de relatieve
frequentie van de gebeurtenis indien we het experiment een oneindig aantal keer herhalen. In de
praktijk kan dit niet een oneindig aantal keer, maar we kunnen dit wel benaderen. Als we een
geldstuk een groot aantal keer opwerpen, zullen we in ongeveer 50% van de gevallen munt gegooid
hebben. We schrijven de uitkomst van het opwerpen van een geldstuk symbolisch als Y. Dan
𝑓
bekomen we: 𝑃(𝑌 = 𝑚𝑢𝑛𝑡) = lim 𝑚𝑢𝑛𝑡
, waarbij 𝑓𝑚𝑢𝑛𝑡 staat voor de absolute frequentie van
𝑛
𝑛→∞
𝑓
‘munt’ (het aantal keer dat we munt hebben bij n opwerpingen), zodat 𝑚𝑢𝑛𝑡
de relatieve frequentie
𝑛
is. Aangezien n naar oneindig gaat, geeft P(Y=munt) inderdaad de relatieve frequentie weer.
Toevalsvariabele: Hiermee wordt een resultaat aangeduid van een toevallige trekking van een
element uit de populatie.
Het steekproefgemiddelde is variabel: de waarde hangt af van de frequentieverdeling van de scores
in de steekproef en verschillende steekproeven hebben verschillende frequentieverdelingen. Het
steekproefgemiddelde is daarom een variabele. 𝑋̅ stelt het steekproefgemiddelde voor van een
steekproef in het algemeen. Zodra we een steekproef hebben getrokken en waarden 𝑥1 , 𝑥2 , … , 𝑥𝑛
van de variabele observeren, schrijven we het steekproefgemiddelde met een kleine letter 𝑥̅ .
Steekproefgrootheid/statistiek: Een bewerking toegepast op de variabelen 𝑋1 , … , 𝑋𝑛 . Het
steekproefgemiddelde is een voorbeeld van een steekproefgrootheid.
Steekproevenverdeling van het gemiddelde: De dichtheidsfunctie van het gemiddelde, ze geeft de
verdeling weer in termen van een dichtheidsfunctie van het steekproefgemiddelde voor zeer veel
steekproeven (theoretisch gezien oneindig). De steekproevenverdeling kan worden bekomen voor
elke steekproefgrootheid. Let op: De frequentieverdeling geeft de verdeling van een variabele weer,
terwijl de steekproevenverdeling de verdeling van een steekproefgrootheid weergeeft.
Stelling:
11. De verwachtingswaarde van het steekproefgemiddelde 𝑋̅ is gelijk aan het
populatiegemiddelde van de variabele X: 𝐸(𝑋̅) = µ𝑥 . Voor één steekproef is het
steekproefgemiddelde over het algemeen niet gelijk aan het populatiegemiddelde.
Bij oneindig veel steekproeven garandeert stelling 11 dat het gemiddelde van deze
steekproefgemiddelden exact gelijk zal zijn aan het populatiegemiddelde.
12. De variantie van het steekproefgemiddelde is gelijk aan de populatievariantie van de
𝜎²
variabele gedeeld door de steekproefgrootte: 𝑉(𝑋̅) = 𝑥 . De variantie van het
𝑛
steekproefgemiddelde is dus niet gelijk aan de populatievariantie van de variabele.
De variantie van het steekproefgemiddelde zal altijd kleiner dan of gelijk zijn aan de
populatievariantie van de variabele omdat n≥1. Naarmate we grotere steekproeven
nemen om het gemiddelde te berekenen zal de variatie tussen de
steekproefgemiddelden afnemen (de variantie wordt dus kleiner). Bij grotere
steekproeven hebben we meer informatie over de populatie (omdat we meer
elementen in de steekproef hebben) en zal het steekproefgemiddelde ‘dichter’ bij
het populatiegemiddelde liggen en minder variëren. De variantie is dus kleiner.
13. Stel dat 𝑋1 , … , 𝑋𝑛 n onafhankelijke lukrake trekkingen zijn uit een populatie met een
normale verdeling 𝑁(µ𝑥 , 𝜎 2 𝑥 ), dan zal 𝑋̅ ook normaal verdeeld zijn: 𝑋̅~𝑁(µ𝑥 , 𝜎 2 𝑥 /
𝑛). Dit geldt voor elke keuze van de steekproefgrootte n. Let op: De normale
verdeling gaat enkel op voor continue variabelen.
14. Centrale limietstelling. Stel dat 𝑋1 , … , 𝑋𝑛 n onafhankelijke lukrake trekkingen zijn uit
een populatie met een gemiddelde µ𝑥 en variantie 𝜎 2 𝑥 /𝑛, dan wordt de verdeling
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman
van het steekproefgemiddelde 𝑋̅ naarmate n groter wordt, steeds beter benaderd
door de normale verdeling met gemiddelde µ𝑥 en variantie 𝜎 2 𝑥 /𝑛. Dus het
steekproefgemiddelde is bij benadering altijd normaal verdeeld, zolang de
steekproef maar groot genoeg is. Hoe groter de steekproef, hoe beter de verdeling
van het steekproefgemiddelde zal lijken op een normaalverdeling.
Stelling 14 is veel breder toepasbaar dan stelling 13 omdat ze opgaat voor elke verdeling van X, niet
noodzakelijk de normaalverdeling. Anderzijds gaat stelling 13 voor elke keuze van n, terwijl stelling
14 alleen maar opgaat voor een ‘grote’ n. Een vuistregel is dat wanneer n>30 de steekproef groot is.
Het steekproefgemiddelde kan net als normaal verdeelde variabelen ook gestandaardiseerd worden:
𝑥−µ
𝑃(𝑋̅ ≤ 𝑥) = 𝑃 (𝑍 ≤ 2 𝑋) , 𝑍~𝑁(0,1). Indien X uit een normale verdeling komt geldt deze
√𝜎 𝑥
𝑛
eigenschap voor alle keuzes van n. Indien X niet uit een normale verdeling komt, geldt deze
eigenschap enkel maar voor grote n. Stelling 13 en 14 zijn samen met de voorgaande eigenschap van
fundamenteel belang voor de statistiek omdat ze toelaten kansen te berekenen die weergeven wat
er zou gebeuren indien we een experiment blijven herhalen.
Voorbeeld: Een onderzoeker wenst te weten of het gemiddelde van de scores op deze 50 testen (𝑥̅ =
5,92) ongewoon hoog of ongewoon laag is. Dit kan door de kans 𝑃(𝑋̅ ≤ 5,92) te berekenen. Indien
deze kans zeer klein is weten we dat de gemiddelde score zeer laag is, indien deze kans zeer groot is
weten we dat de gemiddelde score zeer groot is. Er zijn twee mogelijkheden om deze kans te
berekenen:
 De onderzoeker zal het experiment vele malen herhalen, en berekent vervolgens de
proportie van gemiddelden dat kleiner dan of gelijk is aan 5,92.
 De onderzoeker voert het experiment maar 1 keer uit en maakt gebruik van stelling 14 en
eigenschap 6.2. We standaardiseren eerst het gemiddelde en vervolgens lezen we de kans af
uit de tabel van de normaalverdeling. Deze kans is ook slecht een benadering omdat we
beroep doen op de centrale limietstelling. Ze ligt echter dicht in de buurt van de kans
bekomen door het experiment 1000 keer te herhalen. Deze aanpak laat ons toe een
uitspraak te doen over wat er zou gebeuren indien we het experiment een oneindig aantal
keer zouden herhalen, zonder dat we dit effectief moeten uitvoeren. Aanpak B heeft echter
een nadeel, om de kans te kunnen berekenen moeten we µ𝑋 en 𝜎𝑋 invullen, terwijl deze
populatieparameters voor vele studies typisch ongekend zijn. In het vervolg van de cursus
zullen we methodes zien die deze tekortkoming omzeilen.
Steekproefvariantie: Een ander voorbeeld van een steekproefvariantie. Voor deze grootheid kunnen
we ook de steekproevenverdeling bepalen. We gebruiken ook hier hoofdletters om te benadrukken
dat de steekproefvariantie een variabele is: als we voor verschillende steekproeven de variantie
berekenen, zal deze variëren. We gebruiken opnieuw twee formules voor de steekproefvariantie:
1
1
𝑆𝐷²𝑋 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)² en 𝑆²𝑋 = 𝑛−1 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)². We kunnen voor deze steekrpoefgrootheden
𝑛−1
kunnen we ook de verwachtingswaarde bepalen. Er geldt dat 𝐸(𝑆 2𝑋 ) =
𝜎²𝑋 . De
𝑛
verwachtingswaarde van de steekproefvariantie is 𝑆𝐷²𝑋 is dus niet gelijk aan de populatievariantie.
Voor 𝑆 2𝑋 is dit echter wel zo: 𝐸(𝑆 2𝑋 ) = 𝜎²𝑋 . De verwachtingswaarde van de steekproefvariantie 𝑆 2𝑋
is gelijk aan de populatievariantie. Als we zeer veel steekproeven trekken en telkens de
steekproefvariantie berekenen via formule 𝑆 2𝑋 , dan zal het gemiddelde van de varianties gelijk zijn
aan de populatievariantie. Dit is een gunstige eigenschap en daarom zal men in de praktijk vaak de
variantie bereken 𝑆 2𝑋 in plaats van 𝑆𝐷 2𝑋 .
15. Stel dat 𝑋1 , … , 𝑋𝑛 n de onafhankelijke lukrake trekkingen zijn uit een populatie met
normale verdeling 𝑁(µ𝑋 , 𝜎 2𝑋 ), dan geldt:
(𝑛−1)𝑆 2 𝑋
𝜎2𝑋
~𝑋²𝑛−1 .
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman
Hoofdstuk 7
Een schatter voor populatieparameter θ, noteren we als θ̂, wat de steekproefgrootheid is. θ̂ is een
goede schatter indien:
 Ze zuiver is (de verwachtingswaarde van de schatter is gelijk aan de populatieparameter:
𝐸(θ̂) = θ. De populatieparameter wordt niet systematisch te klein of te groot geschat.
 De variantie van de schatter 𝑉(θ̂) wordt kleiner naarmate de steekproefgrootte toeneemt.
Dus de schatter wordt nauwkeuriger wanneer de steekproef groter wordt.
Standaardfout: √𝑉(θ̂) , dit is de standaarddeviatie van de schatter. De schatter met de kleinste
standaardfout is het efficiëntst.
Het steekproefgemiddelde is een zuivere schatter van het populatiegemiddelde omdat aan beide
voorwaarden van een goede schatter wordt voldoen
Schatting: De waarde van de schatter op basis van één steekproef. 𝑋̅ is de schatter en 𝑥̅ is de
schatting, die we bekomen op basis van één steekproef.
De populatievariantie kan niet zuiver worden geschat door 𝑆𝐷²𝑋 , maar wel door 𝑆²𝑋 omdat
𝐸(𝑆 2𝑋 ) = 𝜎².
Betrouwbaarheidsinterval: Stelt ons in staat om met een bepaalde zekerheid een uitspraak te doen
over het populatiegemiddelde. Bij een schatting is het populatiegemiddeld altijd ongekend, omdat
als ze wel gekend zou zijn er geen statistische methodes voor nodig zijn.
X-normaal verdeeld en gekende populatievariantie
𝑧𝛼 : De waarde van de standaardnormale verdeling, zodat de oppervlakte onder de curve rechts van
de waarde gelijk is aan α. 𝑃(𝑍 > 𝑧𝛼 ) = 𝛼 met Z ~ N(0,1).
Voorbeeld: 𝑃(𝑍 ≤ 𝑧0,025 ) = 1 − 0,025 = 0,975. In de tabel N(0,1) kan je vinden dat P(Z ≤ 1,64) =
0,9495 en P(Z ≤ 1,65)=0,9505. We pakken dan het gemiddelde tussen die twee waarden en komen
1,64+1,65
dan uit op 𝑧0,05 =
= 1,645.
2
𝑃 (−𝑧𝛼 ≤ 𝑍 ≤ 𝑧𝛼 ) = 1 − 𝛼. Deze formule is geldig voor elke standaardnormaal verdeelde variabele
2
2
Z en vormt de basis voor een betrouwbaarheidsinterval.
Voorbeeld: α=0,05. 𝑧0,05 = 𝑧0,025 = 1,96. De oppervlakte onder de kromme tussen de grenzen -1,96
2
en 1,96 is gelijk aan 1-α = 1-0,05=0,05. De kans dat een variabele een waarde aanneemt tussen -1,96
en 1,96 ligt is 95%.
𝑋̅−µ
Indien we het steekproefgemiddelde standaardiseren volgt dat: Z=𝜎/ 𝑛~N(0,1).
𝜎
√
2 𝑛
𝑃(𝑋̅ − 𝑧𝛼
𝜎
)=
√
2 𝑛
≤ µ ≤ 𝑋̅ + 𝑧𝛼
√
1-α. Dit is een zeer belangrijke formule en wordt geïnterpreteerd als
𝜎
, 𝑋̅
√
2 𝑛
de kans dat het populatiegemiddelde in het interval [𝑋̅ − 𝑧𝛼
𝜎
] valt
√
2 𝑛
+ 𝑧𝛼
interval wordt het 100% betrouwbaarheidsinterval (BI) genoemd.
𝜎
Voorbeeld: α=0,05. 𝑧𝛼 = 1,96. Het BI wordt dan [𝑋̅ − 1,96 𝑛 , 𝑋̅ + 1,96
√
𝜎
].
√𝑛
is gelijk aan 1-α. Dit
De kans dat µ in het
interval ligt is gelijk aan 95%. Er bestaat dus een kans dat onze conclusie fout is. Het
steekproefgemiddelde ligt bij constructie van een BI altijd exact in het midden van het interval.
Verschillende steekproeven zullen verschillende gemiddelden hebben, wat resulteert in verschillende
betrouwbaarheidsintervallen. De grenzen zullen verschillen per steekproef. De breedte van een
𝜎
interval [a,b] is gelijk aan b-a. De breedte van een betrouwbaarheidsinterval is 𝑋̅ + 𝑧𝛼 −
𝜎
2 √𝑛
𝑋̅ − 𝑧𝛼
𝜎
.
2 √𝑛
= 2 ⋅ 𝑧𝛼
2
√𝑛
De breedte hangt af van n, de waarde 𝑧𝛼 en de populatiestandaarddeviatie σ.
2
De standaarddeviatie σ is een populatieparameter en kunnen we niet wijzigen. Een smaller
betrouwbaarheidsinterval impliceert dat we een nauwkeurigere uitspraak kunnen doen over het
populatiegemiddelde. Als n toeneemt, verkrijgen we meer informatie over de populatie wat zal
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman
resulteren in een nauwkeurigere uitspraak over het populatiegemiddelde. Als α toeneemt zal de
breedte van het interval afnemen. Als 𝑧𝛼 verder naar links opschuift, zal de oppervlakte rechts
toenemen. Als α afneemt zal de breedte van het interval toenemen, omdat 1-α afneemt en daardoor
zal de kans dat het interval het populatiegemiddelde bevat afnemen. Hoe smaller de intervallen, hoe
kleiner de kans dat ze de populatieparameter zullen bevatten.
X normaal verdeeld en ongekende populatievariantie
De populatievariantie kan worden geschat door de steekproefvariantie 𝑆 2𝑋 . Echter kunnen we σ niet
zomaar vervangen door 𝑆𝑋 , omdat 𝑆𝑋 een variabele is terwijl σ een constante is. Door twee gekende
eigenschappen te combineren kunnen we een nieuw betrouwbaarheidsinterval opstellen:


Als X normaal verdeeld is dan volgt uit stelling 15 dat
Als X normaal verdeeld is dan volgt
(𝑛−1)𝑆 2 𝑋
σ2
𝑋̅−µ
~𝑁(0,1).
𝜎/√𝑛
~𝑋²𝑛−1
Door deze eigenschappen te combineren en te vereenvoudigen tonen we aan dat
𝑋̅−µ
~𝑡𝑛−1 .
𝑆𝑋 /√𝑛
Dus
wanneer σ vervangen door 𝑆𝑋 dan wijzigt de standaardnormale verdeling naar een 𝑡𝑛−1 -verdeling.
𝑡𝑛−1;𝛼/2 geeft de waarde van de 𝑡𝑛−1 -verdeling zodat de oppervlakte rechts gelijk is aan α/2. Dus
α
𝑃 (𝑇 > 𝑡𝑛−1;𝛼 ) = 2 , T~𝑡𝑛−1 . We kunnen aantonen dat 𝑃(𝑋̅ − 𝑡𝑛−1;𝛼 ≤ µ ≤ 𝑋̅ + 𝑡𝑛−1;𝛼 ), waardoor
2
2
2
𝑆
𝑆
het (1-α)100%-betrouwbaarheidsinterval gelijk is aan [𝑋̅ − 𝑡𝑛−1;𝛼 𝑋𝑛 , 𝑋̅ + 𝑡𝑛−1;𝛼 𝑋𝑛]. Indien we de
2
√
2
√
steekproefstandaarddeviatie gebruiken in plaats van de populatiestandaarddeviatie, moeten we de
𝑡𝑛−1 -verdeling gebruiken.
De dichtheidsfunctie van een standaardnormale verdeling en een t-verdeling lijken op elkaar, maar er
zijn toch enkele verschillen:
 De𝑡𝑛−1 -verdeling heeft een grotere variantie dan de standaardnormale verdeling.
 De 𝑡𝑛−1;𝛼 -waarde van een 𝑡𝑛−1 -verdeling is groter dan de 𝑧𝛼/2 -waarde van een
2
standaardnormale verdeling: 𝑡𝑛−1;𝛼 > 𝑧𝛼/2 .
2
Deze eigenschappen impliceren dat het betrouwbaarheidsinterval in het geval van een ongekende
populatievariantie en een normale X-verdeling breder is dan het betrouwbaarheidsinterval in het
geval van een gekende populatievariantie en een normale X-verdeling. Dit komt doordat we de
populatiestandaarddeviatie moeten schatten wat zal resulteren in extra variabiliteit. Echter,
naarmate n groter wordt zal de 𝑡𝑛−1 -verdeling steedsd beter de standaardnormale verdeling
benaderen.
X niet normaal verdeeld en ongekende populatievariantie
Als X niet normaal is verdeeld kunnen we voor een grote steekproef beroep doen op de centrale
𝑆
𝑆
limietstelling. Deze garandeert dat het interval [𝑋̅ − 𝑡𝑛−1;𝛼 𝑋 , 𝑋̅ + 𝑡𝑛−1;𝛼 𝑋 ] bij benadering een (12
√𝑛
2
√𝑛
α) betrouwbaarheidsinterval is voor het populatiegemiddelde µ.
De t-toets is een statistische toets.
Nulhypothese: 𝐻0 .
Alternatieve hypothese: 𝐻𝑎 .
Ofwel 𝐻0 is correct, ofwel 𝐻𝑎 . 𝐻0 : µ = µ0 en 𝐻𝑎 : µ ≠ µ0 , waar µ0 een gegeven waarde is. De
alternatieve hypothese.
De tweezijdig alternatieve hypothese: 𝐻𝑎 : µ ≠ µ0 .
De eenzijdige alternatieve hypotheses: 𝐻𝑎 : µ > µ0 en 𝐻𝑎 : µ < µ0 . Bij een statistische toets proberen
we 𝐻0 te verwerpen. Het bewijs tegen 𝐻0 zullen we samenvatten door middel van een
toetsingsgrootheid.
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman
Toetsingsgrootheid =
𝑋̅−µ0
𝑆𝑋 /√𝑛
= 𝐺, welke een 𝑡𝑛−1-verdeling volgt op voorwaarde dat 𝐻0 correct is. De
toetsingsgrootheid is een steekproefgrootheid. De waarde van G die we bekomen op basis van één
steekproef noteren we als g. De volgende conclusies kunnen worden getrokken:
 Als 𝐻0 waar is, verwachten we dat G warden aan zal nemen rond 0.
 Als 𝐻0 niet waar is, verwachten we dat G waarden zal aannemen die sterk verschillen van 0.
 Als g rond 0 ligt, aanvaarden we 𝐻0 .
 Als g sterk verschilt van 0, verwerpen we 𝐻0 .
Wanneer verschilt g sterk van 0? Dit wordt beslist met de volgende
beslissingsregels:
 Als −𝑡𝑛−1;𝛼 ≤ 𝑔 ≤ 𝑡𝑛−1;𝛼 aanvaarden we 𝐻0 .

2
2
Als 𝑔 < −𝑡𝑛−1;𝛼 of 𝑔 > 𝑡𝑛−1;𝛼 verwerpen we 𝐻0 .
2
2
Kritische waarden van de toets: De waarden −𝑡𝑛−1;𝛼 en 𝑡𝑛−1;𝛼 . Het
2
2
gebied tussen deze waarden heet het aanvaardingsgebied. Het
gebied buiten deze waarden heet het kritisch gebied. Door middel
van een statistische toets hebben we op basis van de steekproef een
besluit geformuleerd over de populatie.
De kans om een type I fout te maken noteren we als P(verwerp 𝐻0 |µ=µ0 . Dit is de kans om 𝐻0 te
verwerpen terwijl in werkelijkheid µ=µ0 .Deze kans is gelijk aan α. Als µ=µ0 en we herhalen het
experiment vele malen op basis van nieuwe steekproeven. De proportie van steekproeven waarvoor
we 𝐻0 verwerpen (en we een fout maken in dit geval) is gelijk aan α.
Significantieniveau: α.
Betrouwbaarheid: De kans dat we een correcte conclusie bekomen indien µ=µ0 : P(aanvaard
𝐻0 | µ=µ0 ) = 1-α. De kans op een type 1 fout is exact gelijk aan α als X uit een normale verdeling komt.
Indien X niet uit een normale verdeling komt garandeert de centrale limietstelling dat de kans op een
type I fout bij benadering gelijk is aan α, indien de steekproef groot is. Indien X niet uit een normale
verdeling komt en de steekproef klein is, kan de kans op een type I fout sterk verschillen van α en
zullen we de toets niet gebruiken.
De kans om een type II fout te maken noteren we als P(aanvaard 𝐻0 | µ≠µ0 = ß. Dit is de kans om 𝐻0
te aanvaarden terwijl in werkelijkheid µ≠µ0 . Deze hangt af van de volgende factoren:
 Het significantieniveau α: ß stijgt als α daalt.
 De steekproefgrootte n: ß daalt als n stijgt.
Onderscheidingskans/power: De kans dat we een correcte conclusie formuleren terwijl in
werkelijkheid µ=µ0 . Deze is gelijk aan 1-ß.
De kans op een type I fout is gelijk aan α, vaak 5%. We zetten deze niet lager omdat de kans op een
type I fout dan wel lager wordt, maar dit zal resulteren in een verhoogde kans op een type II fout. De
kans op een type II fout kan men inschatten via een poweranalyse, en als deze te groot is kan men
ervoor kiezen om een grotere steekproef te nemen.
Overzicht Syllabus Statistiek I
Schooljaar 2015-2016 Julia Saelman
 Als µ0 in het betrouwbaarheidsinterval ligt, aanvaarden we 𝐻0 .
 Als µ0 niet in het betrouwbaarheidsinterval ligt, verwerpen we 𝐻0 .
Als µ0 niet in het betrouwbaarheidsinterval ligt, dan zijn we 95% zeker dat µ≠µ0 . Er is een 5% kans
dat we foutief zeggen dat µ≠µ0 , dus dat er een type I fout wordt gemaakt. In dat geval wordt 𝐻0
verworpen op het 5% significantieniveau.
In R:
 t.test (mu= *getalµ0 ∗)
 df: vrijheidsgraden van de 𝑡𝑛−1 -verdeling.
 t: geeft toetsingsgrootheid g
 qt(): De oppervlakte links, dus de kansen van de vorm P(T≤t)
 lower.tail = FALSE: De oppervlakte rechts (in de vorm qt(0.025, 29, lower.tail = FALSE)).
De waarde t moet worden vergeleken met de kritische waarde 𝑡𝑛−1;𝛼 , welke staat voor de
𝛼
oppervlakte rechts van 2 .
2
Download