Samenvatting Statistiek door Joris Van Houtven

advertisement
Samenvatting Statistiek door Joris Van Houtven
1. Inleiding
p4
• TOEVALSVARIABELEN IN HOOFDLETTERS, steekproefwaarden in kleine letters.
• Onderzoekseenheden: steden, mensen, objecten, …
• Steekproefgemiddelde = benadering van het populatiegemiddelde
• Soorten variabelen:
o Kwalitatief:
Nominale: Noord (N), Zuid (Z), Jan, Peter, … [puur identificatie, geen ordening ]
Ordinale: 4 niveaus: 1, 2, 3 en 4. (‘vage’ ordening: groter, kleiner, beter, slechter, … )
o Kwantitatief of Metrisch: deelverzameling van ℝ (‘totale’ ordening mogelijk)
Continue: uitkomstenverzameling niet aftelbaar oneindig (tussen 2 uitkomsten ligt
altijd een derde)
Discrete: uitkomstenverzameling eindig of aftelbaar oneindig (tussen 2 uitkomsten
ligt nooit een derde)
2. Beschrijvende statistiek
p24
• Frequenties
o Frequentietabel:
o Uitkomst:
element (kwalitatieve variabelen) uit de uitkomstenverzameling.
deelverzameling (kwantitatieve variabelen): “klasse” met klassebreedte Δ en een
klassemidden.
o Absolute frequentie fj : aantal uitkomsten in de steekproef gelijk aan oplossing mj .
o Relatieve frequentie fj/n : absolute frequentie gedeeld door steekproefgrootte.
࢐
Er geldt dus ALTIJD: ∑ = .
o Staafdiagram: alle uitkomsten (meestal voor nominale of ordinale variabelen dus) op
horizontale as, absolute of relatieve frequenties loodrecht daarop getekend als staafjes of
balkjes (oppervlakte ervan heeft hier GEEN betekenis).
o Taartdiagram: taart verdelen volgens relatieve frquenties (self-explanatory).
o Klassiek histogram: “continue tegenhanger van het staafdiagram” (kan eigenlijk zowel voor
discrete als continue metrische variabelen). In plaats van een staafje wordt nu een balk
geplaatst met als basis de klassebreedte Δ en als hoogte hj de overeenkomstige relatieve
frequentie. [de verschillende keuzen voor de klassebreedte kunnen erg verschillende
∆
indrukken geven! (totale oppervlakte = ∑ ∆ ℎ = ∑ ೕ ೕ ≥ 1 ) →oplossen met
dichtheidshistogram]
o Dichtheidshistogram: klassiek histogram, maar met hoogte nog eens gedeeld door
࢐
klassebreedte: = ∆ i.p.v. ℎ =
࢐
ೕ
zodat een verschil in klassebreedten geen ‘verkeerde’
indruk geeft. [zie p.29: de totale oppervlakte is nu ∑ ∆ = ∑
o Average Shifted Histogram: zie slides.
•
࢐ ∆࢐
∆࢐ = ].
Soorten verdelingen
o Symmetrische verdelingen: de verdelingen gedragen zich op dezelfde wijze aan de linkse en
rechts zijde van de figuur.
o Normale/Gaussische verdeling: “klokcurve”, indien steekproefgrootte → ∞ en de
klassenbreedte ∆→ 0 krijgen we een ideale klokvorm [zie p.33 figuur 2.7d]. Dit is een zeer
belangrijke verdeling binnen de statistiek.
o Andere verdelingsvormen: scheve (niet-symmetrische) verdelingen (links- en rechtsscheef),
verdelingen met lange/korte staarten [dit komt vrij vaak voor], bimodale verdelingen
(verdelingen met twee “maxima”) [komt vaak voor bij aanwezigheid van 2 deelgroepen, bv.
mannen en vrouwen].
o Uitschieters: in elke verdeling kunnen wel eens uitschieters zitten, letterlijk uitzonderingen
op de rest. Indien men deze waarden verwijdert (zij zijn immers uitzonderingen) is vaak een
mooie verdeling waarneembaar. [Let echter op dat je ze niet nodeloos verwijdert: soms zijn
er methodes voor statistische analyse beschikbaar die minder gevoelig zijn voor uitschieters,
en zou je dus waardevolle data verliezen!]
•
Cumulatieve frequenties
o Cumulatieve/empirische verdelingsfunctie (): geeft het aantal steekproefuitslagen die
kleiner of gelijk aan zijn, gedeeld door de steekproefgrootte n, dus het percentage p. [Dus
(
) = zie p.39 figuur 2.12 en 2.13. Merk ook op dat dit alleen nuttig is waar
altijd: ordening mogelijk is. Niet bij nominale of ordinale variabelen dus!]
() =
o Kwantielfunctie (): “de inverse van de cumulatieve verdelingsfunctie”. (
) = . [Merk op dat voor een bepaalde p soms geen x bestaat. Neem dan de
() = als
kleinste x-waarde waarvoor ′ ≥ , zoals op p.42 afb 2.18] [Merk ook op: < ≤ ].
•
Centrumkenmerken [meestal niet zinvol bij nominale en ordinale gegevens]
= ∑
.
o Steekproefgemiddelde ̅ : wordt vaak gebruikt, en is gegeven door: Ofwel, in geval van discrete variabelen, adhv. mj , de k mogelijke uitkomsten en fj , de k
= ∑
[opgelet: het steekproefgemiddelde is
bijbehorende absolute frequenties: vrij gevoelig voor uitschieters].
o Mediaan med(x): de steekproefmediaan wordt gegeven door een functie met 2
(
)/ ( )
voorschriften: (
) = .
(
/ + (/)
)/ ( )
o Getrimd gemiddelde: Om de invloed van uitschieters te vermijden, gebruikt men soms een
getrimd gemiddelde waarbij men een vast percentage van de extreme gegevens uit de
gegevensverzameling verwijdert.
o Modus: het element uit de uitkomstenverzameling dat het meest voorkomt.
o Lineaire transformaties van centrumkenmerken: alle bovenvermelde centrumkenmerken
zijn “translatie- en schaalequivariant“ i.e. zij volgen de lineaire transformaties van de
dataset.
(vb: als = (
) dan is () = ((
)) ).
•
Spreidingskenmerken
o Standaardafwijking s: “Average Distance to the Mean”
∑ | − ̅ | maar de absolute waarden zijn niet zo praktisch. [Merk op dat
=
∑ − ̅ ! = 0] Daarom gebruikt men bijna altijd de (steekproef)standaarddeviatie
! ².
aka. standaardafwijking " = #
∑
− In geval van discrete variabelen of continue gegroepeerd in klasse, kan men ook de formule
% ² gebruiken. [N.B. bij normaal verdeelde gegevens ligt ongeveer
" = #
∑
$ − 2/3 van de gegevens binnen één standaarddeviatie s aan weerszijden van het gemiddelde,
en 95% binnen rwéé standaarddeviaties.]
o Variantie s²: s² is dan de (steekproef)variantie. [dus "(
) = &'()(
)].
o Bereik R: de afstand tussen de grootste en de kleinste waarneming: * = − .
o Interkwartielafstand IQR: gebied dat ongeveer de helft van de waarnemingen bevat, met de
(-. ./) − (-. /) .
steekproefmediaan als eigen mediaan: +, = o Median Absolute Deviation MAD: robuuster nog dan de IQR, kan de
= 01| − 01( )| wel 50% uitschieters verdragen tov. 25% van de IQR.
o Lineaire transformaties van spreidingskenmerken: de hierboven vermelde
spreidingskenmerken zijn “translatie-invariant en schaalequivariant” i.e. het verschuiven
van gegevens heeft geen effect, maar herschaling wel.
(vb: als ' = "(
) dan is (' = "((
+ 2) = 3(4) = 43()).
[Merk op dat 546(4) = 4²546()]
•
Boxplot [zie p.56]
o De box beslaat alles tussen het eerste en derde kwartiel ( (0.25) en (0.75) ) met
ertussenin de mediaan (streep) en eventueel het gemiddelde (diamant). Naargelang de
positie van de mediaan is de verdeling symmetrisch (in het midden van de box), links(dichter bij het derde kwartiel) of rechtsscheef (dichter bij het eerste kwartiel).
o Respectievelijk is ook de eerste of tweede whisker langer. Deze eindigen bij resp. De kleinste
of grootste waarneming die geen uitschieter is.
o Uitschieters zijn waarden die buiten ±1.5 IQR aan weerszijden van de uiteinden van de box
liggen.
Nadeel van de boxplot: deelgroepen van bimodale verdelingen worden niet herkend.
•
Verbanden tussen twee variabelen
o Kruistabel: (voor nominale en ordinale variabelen) Men stelt een tabel op en telt hoe vaak
elke combinatie van 2 uitkomsten voorkomt. [zie p.70 tabel 2.9 en 2.10] De verwachte
∗ waarde in elk hokje van de tabel is
. [Men kan ook de relatieve ipv.
absolute frequenties gebruiken].
o Tweedimensionaal histogram: Het tweedimensionaal histogram is in feite een grafische
voorstelling van de kruistabel voor metrische variabelen, waarbij men het (semi-)continuum
van elke variabele opgedeeld heeft in klassen. [zie p.59 afb 2.24.]
o Scatterplot: twee metrische variabelen kunnen we ook voorstellen in een scatterplot: men
neemt gewoon een cartesisch assenstelsel met de variabelen op de assen, en duidt de
waarnemingen met stipjes aan in het veld [zie p.61 afb 2.27].
L Associatie: In zo’n scatterplot kan de puntenwolk soms globaal stijgen (positieve
associatie) of dalen (negatieve associatie) naargelang men langs één van de assen
verdergaat. Hoe groter de wolk, hoe zwakker de associatie, en vice-versa. Een sterke
asociatie betekent dat men de ene variabele goed kan voorspellen adhv. de andere.
[Associatie betekent dus afhankelijkheid tussen de variabelen.]
L Covariantie 7(, 8): indien die associatie lineair is, kunnen we die afhankelijkheid
uitdrukken adhv de score ( − ̅ )(8 − 89). Deze is positief voor punten rechtsboven
en linksonder het gemiddelde, en negatief voor de punten linksboven en
rechtsonder het gemiddelde [zie p.62 afb 2.28]. Als we deze scores optellen voor alle
metingen en delen door − 1, bekomen we de (steekproef)covariantie :;'(
, <) =
∑(
− )(< − <
).
[Merk op: 7(, ) = 3 ²] De covariantie is, net als de variantie, translatie-invariant
en schaalequivariant.
L Pearson Correlatiecoëfficiënt 6(, 8): omdat de covariantie nog meeteenheden
bevat, zal men een dimensieloze herschaling tot een standaardwaarde bepalen, de
(,)
correlatiecoëfficiënt ) = )(
, <) =
. Deze r ligt altijd tussen -1 (neg.
࢞ ࢟
assoc.→dalende rechte) en 1 (pos. assoc.→stijgende rechte). Als er geen associatie
is, ligt r bij 0. [Pas op! Dat 6 ≈ 0 wil niet zeggen dat er geen enkele associatie is! Er
kan nog een niet-lineaire vorm van associatie zijn!] [Merk op: dit kan alleen als
3 , 3 > 0 maar dat is in praktijk nooit een probleem.] Vanuit de definitie zien we dat
r translatie-invariant is, en schaalvariant maar niet equivariant. (vb: als 6(, 8) =
!(,)
!(,#)
# !(,)
dan is )(
, (<) =
=
= =>?(())(
, <) ).
|#|"
"
"ೣ ೤
"ೣ $#²"೤
"ೣ
L Spearman Correlatiecoëfficiënt 6" : omdat de Pearson correlatiecoëfficiënt zeer
gevoelig is aan uitschieters owv de gevoelige gemiddeldes en standaarddeviaties in
haar formule, heeft men een nieuwe, robuustere maat van associatie bedacht. Men
vervangt elke geobserveerde waarde x en y door hun rangnummer (van klein naar
groot. In geval van dezelfde waarden gebruikt men voor meerdere waarden het
gemiddelde tussen de opeenvolgende rangnummers. Dit is een knoop) [zie p.67
tabel 2.8]. Bereken nu de Spearman correlatiecoëfficiënt op dezelfde manier als de
Pearson correlatiecoëfficiënt, maar adhv de rangnummers.
೤
&∑( ²
࢏
met di het verschil tussen de
Als er weinig of geen knopen zijn is ) = − (²
)
rangnummers voor x en y van de i-de waarneming.
Onze rs ligt ook altijd tussen -1 en 1 maar de interpretatie is anders: men kan alleen
zeggen dat de variabelen een monotoon dalende of stijgendecurve vertonen. Als r
dichtbij 1 ligt zal dat voor rs ook gelden, maar het omgekeerde is niet waar. [Merk
op: rs is transformatie-invariant want men werkt met rangnummers ipv. De eigenlijke
waardes!]
3. Kansen en univariate kansmodellen
p84
• Kansen en kansregels:
o Kansmaat, @-algebra: zie slides.
o De kans op de gebeurtenis G dat X waarden in A aanneemt, noteren we met A(B) = A(C ∈
D). “De relatieve frequentie van een gebeurtenis G onder een groot aantal proeven
stabiliseert naar een getal, de kans op die gebeurtenis.”
Er bestaat ook een complementaire gebeurtenis GC die bestaat uit alle andere
mogelijkheden.
o Een kruistabel is een tabel met mogelijke gebeurtenissen, en hun kansen. [zie p.86 tabel
3.1].
o De som van alle kansen is altijd één. Daarom geldt: A(B) ) = − A(B) .
o Enkele regels:
L A(B
∪ B ) = A(B
) + A(B ) − A(B
∩ B )
L A(B
\B ) = A(B
) − A(B
∩ B )
•
Onafhankelijkheid van gebeurtenissen
o Voorwaardelijke kans: wanneer de kans op een bepaalde gebeurtenis G1 afhangt van een
andere gebeurtenis G2 kunnen we een voorwaardelijke kans berekenen die zegt wat de kans
is op G1 indien G2 waar is:
*(+૚ ∩+૛ )
A(B
|B ) =
indien E(F, ) ≠ 0.
*(+૛ )
o Onafhankelijkheid: G1 is onafhankelijk van G2 als A(B
|B ) = A(B
) .
Equivalent hiermee is A(B
∩ B ) = A(B
)A(B ) .
o Regel van Bayes: volgt uit de definitie van voorwaardelijke kans:
*(+૛ |+૚ )*(+૚ )
A(B
|B ) =
*(+ )
o Wet van de totale kans: E(F) = A(B ∩ B
) + ⋯ + A(B ∩ B ) als
(F ∩ F ) = 0. Deze wet kan men nog herschrijven mbv. de regel van Bayes.
Dichtheidsfuncties
o Discrete variabelen: De kans dat een variabele een waarde aanneemt in deelverzameling A
van de oplossingsverzameling S, met mj een oplossing, wordt gegeven adhv. de
૛
•
dichtheidsfunctie f: A(C ∈ D) = ∑࢐ ∈- ( ) .
f(mj) is dus de relatieve frequentie die stabiliseert naar de kans dat x=mj. G(0 ) ≥ 0 voor
alle j en ∑ G(0 ) = 1. [“het staafjesdiagram stabiliseert naar een grafiek”]
o Continue variabelen: hetzelfde verhaal, maar nu met een frequentiedichtheidshistogram
[zie p.100 afb 3.9] waarbij de oppervlakte boven deelverzameling A op de as gegeven is door
H- (
)
met h(x) de hoogte van het histogram. [“het dichtheidshistogram stabiliseert
naar een vloeiende integreerbare functie”].
Deze functie is f, en dus: A(C ∈ D) = H- (
)
. Ook hier geldt:G() ≥ 0 voor elke ∈ I
en H. G()1 = 1. [opgelet! Dichtheid G() voor een continue variabele is NIET gelijk aan
E(J = ) want H G()1 = 0]
•
•
Verdelings- en kwantielfunctie: Herinner de empirische verdelingsfunctie () die ons het
percentage aan waarden geeft dat kleiner is dan die van . In feite telt men daarbij telkens de
relatieve frequentie van de gebeurtenis dat een waarneming kleiner is dan , en dus zal deze
functie voor toenemende steekproefgrootte stabiliseren naar de kans (
) = A(C ≤ ) (of
E(J ∈ ) met =] − ∞, ] ) .
Men kan deze kans goed berekenen adhv. de kansdichtheid, zowel voor discrete als continue
variabelen.
o Discreet: (
) = ∑࢐/ ( ). De populatiekwantielfunctie () is dan de kleinste waarde
waarvoor () ≥ met 0 < < 1. Dit wordt het 100p%-kwantiel genoemd.
12()
o Continue: (
) = H0 ( <)<. [Merk op: dit betekent dat 1 = G().]
Omdat de kwantielfunctie Q(p) in het continue geval geen sprongen maakt, wordt de
definitie: () is de x-waarde waarvoor () = met 0 < < 1, ofwel A(C ≤ ()) = .
Kenmerken van populatieverdelingen
o Centrumkenmerken:
L Verwachtingswaarde E(X): Herneem de definitie voor het gemiddelde ̅ =
௙
ଵ ௞
∑ ௡ ௝ୀଵ ௝ ௝
௙
= ∑௞௝ୀଵ ௝ ௡ೕ . De relatieve frequenties ௡ೕ zullen bij grote n ook stabiliseren naar
de kans op mj en zo definiëren we de dus voor discrete variabelen de verwachtingswaarde of
het populatiegemiddelde:
= () = ∑࢑࢐ୀ૚ ࢐ (࢐ ) met f de dichtheidsfunctie. Het continue equivalent luidt
= () = ࡿ () [Merk op: “dx” is de klassebreedte die infinitesimaal wordt: cfr.
histogram: ̅ = ∆ ∑ ௝ ℎ(௝ )]
L Mediaan Med(X): er is ook een populatiemediaan, gedefinieerd als K(C) =
(-. /).
o Spreidingskenmerken:
L Variantie @²: Herinner de steekproefvariantie bij discrete variabelen
3² =
1
݊−1
∑݆݇=1$݆ − 9 % ݆ =
2
: ² = () =
∑࢑࢐ୀ૚࢐
݊
݊−1
2 ݂݆
∑݆݇=1$݆ − 9 %
૛
݊
die wordt voor n groot de variantie van
− (࢐ ). De standaarddeviatie wordt dan =
().
Voor continue variabelen wordt dit () = ࡿ − ૛ () .
[Merk op: () = (²) − ()²]
L De Interkwartielafstand IQR is gewoon L* = (0.75) − (0.25).
•
Normale verdeling (61MNO Φ en dichtheid P)
o De normale verdeling heeft als dichtheidsfunctie de Gauss- of klokcurve:
(
) =
√45
6
૚ ࢞షࣆ ૛
7
૛ ࣌
. Een toevalsvariabele die deze verdeling volgt noteren we met
J~Q(R, @²). Als men µ (populatiegemiddelde) varieert verplaatst men de curve (die rond µ
gecentraliseerd is) en als men @ varieert rekt men de curve uit. Indien μ = 0 en @ = 1
૛
noemt men dit de standaard normale verdeling S: T~U(-, ) ↔ V(W) = 8 (W) =
9 .
√4
o Om kansen te berekenen van de vorm E(S ∈ ) met S~Q(0,1) moeten we telkens een
moeilijke integraal uitrekenen. Daarom is er een geijkte tabel [zie p.333] opgemaakt met de
kans X(W) = A(T ≤ W) voor bepaalde z. Er geldt:
L X(−W) = − X(W)
L A(−W ≤ T ≤ W) = X(W) − o Om nu een kans van de vorm J~Q(R, @²) te berekenen, kunnen we gewoon een
eenvoudige transformatie S =
E(S ≤
=>
;
<
:;
<
gebruiken om de kans E(J ≤ ) = E Y
:;
<
≤
). [Merk op: de ongelijkheden blijven behouden omdat @ > 0.] M.a.w.
;
<
Z=
~U(-, ).
De verdelingsfunctie is Φ([) = F? ([) = [email protected] (μ + σ[) en dus is de verdelingsfunctie van J:
5
>
= (\) = X Y
5
Z [zie p. 116 voor verduidelijking].
o Ook de kwantielen kunnen zo berekend worden: = () = ] + ^X (_).
o Uniforme kwantielplot: de kwantielen op de x-as, de geordende waarden op de y-as: om de
verdeling van de waarden te bekijken, zegt niet zo veel.
o Normale kwantielplot: de histogram ligt te veel onder invloed van de klassebreedte en het
startpunt. Om een normale verdeling te herkennen gaan we dus de normale kwantielplot
gebruiken: [zie p.120 voor meer instructies]
1. Maak een rechthoekig assenkruis met () en Φ (p) op de assen. Omdat en Φ een
lineair verband hebben in geval van normaliteit, verwachten we dus een mooie rechte.
2. We mogen echter niet gebruiken omdat we niet weten of het lineair verband wel geldt!
Gebruik daarom de empirische kwantielfunctie , want die zal toch op Q beginnen lijken,
welke vorm die ook heeft.
3. We weten van bij de definitie dat Y Z = met xi het i-de kleinste getal. Om de
kwantielplot te maken zullen we dus telkens de waarden van het -de kwantiel plotten (dus
A
ook voor de as van Φ!).→plot`Φ YBZ , a.
4. Omdat Φ (1) = ∞ zullen we een continuïteitscorrectie uitvoeren en telkens
zijn Blomscores) gebruiken.
C.D
EF.G
Z = !] →plot`X Y
Z , a
[Merk op dat ook Y
C.D
(dit
H
Als men in de normale kwantielplot een andere functie g herkent ipv. een mooie rechte, kan
men de functie O toepassen op de gegevens, die daarna wel een mooie rechte zal geven
op de normale kwantieplot. [vb: men herkent in de plot, voer dan de transformatie ln()
uit om een mooie rechte te bekomen. De variabele is dan lognormaal verdeeld. zie
formularium!]
•
Andere continue verdelingen [zie p.126 of formularium]
o Exponentiële verdeling: (positieve, continue gegevens: I =]0, ∞[ )
L Dichtheidsfunctie: (
) = bI
L Verdeling: (
) = − I → () = − I c? − !
L d(C) = /b en e()(C) = /b²
L Voor f = 1 noemen we dit de standaardexponentiële verdeling.
o gJ, -verdeling: beschrijft relatie tussen variabelen in kruistabel. Ze is rechtsscheef verdeeld
en positief. r is het aantal vrijheidsgraden. Men bekomt deze verdeling wanneer men de
som neemt van de kwadraten van r onafhankelijke standaardnormale variabelen:
∑J h, ~i .
=
o jJ -verdeling: als J~Q(R, @²), h~gJ, en X en Y onafhankelijk, dan is
~k .
$K/
=/
•
•
,
o ,L -verdeling: als J~g, en h~gL
en X en Y onafhankelijk, dan is K/ ~, .
Karakteristieke functie l: is gedefinieerd als l= (k) = d(= ) = H = = (
)
. Enkele
eigenschappen:
o bestaat ALTIJD
o l= (-) = o G() is even, d.w.z. G(−) = G() als en slechts als m: (j) is reëel.
o Twee variabelen X en Y hebben dezelfde verdeling ↔ m: (j) = mM (j) .
()
o l= (-) = n oN met αO = E(X O ) [het k-de moment] handig om momenten te berekenen.
Discrete verdelingen [indien men dichtheid G heeft is de verdeling volledig gekend]
o Uniforme verdeling: Een willekeurige uniforme verdeling V op [a, b] voldoet aan: P (') =
en P (') = Q. Hieruit volgt: P () = ( + (2 − ().
(Q )
o Bernouilli verdeling: Wanneer er maar 2 mogelijke waarden voor een variabele zijn.[vb. kop
of munt] Vaak worden ze I = p0,1q (onwaar, waar of mislukking, succes) gecodeerd. Als p
de kans is op G(1), is 1-p de kans op G(0). p bepaalt dus de hele verdeling. Volgens de
definitie van E en Var is:
L d(C) = e()(C) = ( − ).
o Binomiaalverdeling: voor een identieke en onafhankelijke reeks Bernouilli experimenten is
het aantal keer dat uitkomst 1 wordt geobserveerd, binomiaal verdeeld. h = J + J, +
⋯ + J ofwel r~s(, ) met n het aantal herhalingen. [Merk op: Y is eigenlijk de absolute
frequentie van successen].
L De dichtheidsfunctie is dan: (t) = E(h = u) = $% ( − ) .
[met k het aantal successen].
o Poisson verdeling: de limiet van de binomiaalverdeling (dus in de praktijk een benadering)
voor → ∞ en → 0 zodat → f.
Rషࣅ I࢑
L (t) = A(r = t) =
en d(C) = e()(C) = b met f = .
!
We kunnen de poisson verdeling o.a. gebruiken als we het gemiddelde aantal
gebeurtenissen in een gegeven tijdsinterval willen berekenen, indien we het interval indelen
in zeer veel deelintervallen [zie p.140].
o Geometrische verdeling: het aantal herhalingen in een Bernouilli-reeks dat nodig is
vooraleer de eerste keer uitkomst 1 wordt geobserveerd.
L ( = ) = ( − )࢑ି૚ ૚
૚ି࢖
L () = ࢖ en () = ࢖² .
o Negatief binomiaalverdeling: veralgemening van de geometrische verdeling: het aantal
pogingen nodig tot het r-de succes.
L ( = ) = − ( − )࢑ି࢘ ࢘
−
L d(C) = S en e()(C) =
(
S)
S²
[Merk op: dit is de inverse van de binomiaalverdeling: nu zoekt men het aantal pogingen k bij
een vast aantal successen r, ipv. het aantal successen r bij een vast aantal pogingen n].
o Hypergeometrische verdeling: een eindige populatie van Bernouilli experimenten, met
grootte N, en aantal successen (dus uitkomst is 1) r. Als we hieruit een steekproef met
grootte n trekken zonder teruglegging, zijn de opeenvolgende Bernouilli experimenten NIET
meer onafhankelijk! [zie p.144].
•
Transformaties van toevalsvariabelen
o Verwachtingswaarde en variantie bij een algemene transformatie:
beschouw toevalsvariabele h = O(J). Dan is bv. d(r) = d(v(C)) in het algemeen NIET
gelijk aan O(w(J)). Alle definities blijven wel gelden, indien men simpelweg Y vervangt door
g(X). [zie p. 145-146].
o Verwachtingswaarde en variantie bij een lineaire transformatie:
we hebben dit in feite al kort gezien bij de definities ervan. De verwachtingswaarde is
translatie- en schaalequivariant terwijl de variantie translatie-invariant en schaalvariant is
(maar niet equivariant). Meer bepaald:
L d((C + 2) = (d(C) + 2
L e()((C + 2) = (²e()(C).
Verder vinden we nog enkele merkwaardigheden [zie p. 150]:
L e()(C) = d(C²) − (d(C))²
L e() x
=T=
y=
$P(=)
o Benaderende methode voor algemene transformaties:
Indien functie g “voldoende lineair” is kunnen we de Taylor-expansie gebruiken om bv.
w(h) = w(O(J)) te berekenen [zie p.151]. We vinden dan:
L dr = d(v(C)) = v(dC) [in de 2e orde: v(dC) + e()(C)v"(dC)]
L e()(v(C)) = (v’(dC))²e()(C) (dit is de deltamethode)
o Kwantielen bij monotone transformatie: [g monotoon: als x<y dan g(x)<g(y)]
De inverse O van een monotoon stijgende O is uniek. Dan geldt als h = O(J) dat
K () = v(= ()). [zie p. 152].
4. Multivariate kansmodellen
p166
• Gezamenlijke verdeling van twee toevalsvariabelen
o Discrete variabelen: een kruistabel kan absolute frequenties bevatten, maar ook relatieve
frequenties, die naarmate n groter wordt stabiliseren naar de kans op die combinatie
E((J = 0 ) ∩ (h = 0 )) ofwel:
( , ) = A(C = , r = ). Dit is een bivariate of gezamenlijke discrete dichtheid f.
Ook hier geldt:
( , ) ≥ - voor alle (0 , 0 ) in S.
∑࢓࢞ ∈ࡿ࢞ ∑࢓࢟ ∈ࡿ࢟ ( , ) = .
Nu kan men kansen als E(J ≤ 3, h = 1) en E(h = 1) makkelijk bepalen adhv. G [zie
voorbeeld 1 en 2 p. 168].
L Voor het tweede geval kunnen we de marginale dichtheid GM van Y gebruiken [geval
voor J is analoog]:
K ( ) = ∑࢞ ∈ࡿ࢞ A(C = , r = ) = ∑࢞ ∈ࡿ࢞ ( , ). Ook deze dichtheid
voldoet aan de voorwaarden van univariate dichtheid. [Merk op: de marginale
dichtheid van Y komt eigenlijk gewoon overeen met de dichtheidsfunctie van Y apart]
L Verder zien we dat de bivariate en marginale dichtheid ook de voorwaardelijke
dichtheden geven: =|K ( | ) =
(࢞ ,࢟ )
ࢅ (࢟ )
. [zie p.169 voor verduidelijking].
Opnieuw goed gedefinieerd, want ∑࢞ ∈ࡿ࢞ =|K ( | ) = .
L De verwachtingwaarde wordt als logische vervolg uit de definitie:
d(v(C, r)) = ∑࢓࢞ ∑࢓࢟ v( , )( , ) waarbij g een willekeurige functie is
van een koppel toevalsvariabelen (J, h).
[Let op: hiermee bedoelen we niet per se een transformatie g, voor X en Y identiek,
maar algemener iets als: O(J, h) = 4 + u(J) + M(h) met k en l opnieuw willekeurige
reële transformaties/functies. Verwachtingswaarde E hiervan gaat gewoon lineair
door g naar k en l].
o Continue variabelen: volledig analoog, maar met (dubbele) integralen en (, 8) ipv.
(0 , 0 ). Bv: A((C, r) ∈ D) = ∬- (
, <)
<. [aangeraden: voor de andere formules zie
p.173].
o Bivariate normale verdeling: bepaald door twee sets van parameters:
L R = (R: RM )
@,
L {=| :
}@: @M
}@: @M
~ met } de populatiecorrelatiecoëfficiënt [zie verder].
@M,
De dichtheidsfunctie is dan: (
, <) =
4$(R(U)
૛∗9 ∗ࢳ
૚
࢚ ࢠ
met [ = ( − R: , 8 − RM )V . Door de marginale dichtheden te berekenen kan men aantonen
dat JQ(R: , @:, ) en h~Q(RM , @M, ). Ook de voorwaardelijke dichtheden zijn normaal verdeeld
[zie p.174].
[Merk op: als } = 0 dan G(, 8) = G: ()GM (8).]
•
•
Onafhankelijkheid van twee toevalsvariabelen
Herinner: twee discrete variabelen X en Y zijn onafhankelijk als A( | ) = A( ).
Uit de definitie van voorwaardelijk kans volgt dan: A( , ) = A( )A( ).
Voor onafhankelijke continue variabelen: (
, <) = = (
)K (<). [want } = 0].
[opmerking: als X en Y onafhankelijk, kunnen we de gezamenlijke dichtheid berekenen uit de
marginale dichtheden. Dit is niet het geval als X en Y afhankelijk, want dan zegt de gezamenlijke
dichtheid “iets meer” i.e. de afhankelijkheid is er dan in vervat].
Ook blijkt te gelden dat d(v(C)(r)) = d(v(C))d((<)) en in het bijzonder d(Cr) =
d(C)d(r), indien X en Y onafhankelijk. [zie p.176]
i -maat: (on)afhankelijkheid in een kruistabel
Volgens de definitie van onafhankelijkheid zal in een kruistabel ongeveer [relatieve frequentie ≈
kans] gelden dat
ೣ,೤
=
ೣ ೤
met f de absolute frequenties: dus , =
J" L∗ W L" L
࢞ ࢟
wat overeen komt met
ons eerder bevonden 647ℎj 4461 =
al zal dit nooit exact zo zijn voor een
steekproef. Om de onafhankelijkheid van de twee variabelen te testen gaat men nu ook een
kruistabel opstellen met de verwachte waarden, en berekent men de g , -statistiek zo:
(XYZ[\Y]^YY]_Y `aa]_Y^Y]`abcdY `aa]_Y)²
i = ∑fܑ ∑eܑ
. Dus als g , klein is zijn de variabelen
^Y]`abcdY `aa]_Y
waarschijnlijk onafhankelijk, een grote g , duidt aan dat ze afhankelijk zijn.
•
Correlatieanalyse: (on)afhankelijkheid bij twee metrische variabelen
We zullen nu de eerder vermelde populatiecorrelatiecoëfficiënt } [zie bivariaat normale verdeling]
berekenen adhv. De populatiecovariantie €(J, h):
;'(C, r) = d (C − d(C))(r − d(r))! = d(Cr) − d(C)d(r). [zie p. 180]. Dan is ‚ =
)(=,K)
analoog met de reeds gekende steekproefcorrelatiecoëfficiënt.
$P(=)P(K)
[Merk op: Als X en Y onafhankelijk, volgt €(J, h) = 0 en dus } = 0 zie p.181. Voor de bivariaat
normale verdeling geldt ook het omgekeerde.]
o Bivariaat normale verdeling bis: zie extra slide!
•
Lineaire combinaties van twee variabelen [ALTIJD (bivariaat) normaal verdeeld!]
Beschouw de lineaire combinatie 5 = 4J + ƒh + 7. Dan geldt:
d(e) = d((C + 2r + :) = (d(C) + 2d(r) + :. [volgt uit lineariteit van E, of de definitie]. Voor
de variantie vinden we e()((C + 2r + :) = (²e()(C) + 2²e()(r) + (2;'(C, r). [zie p.
182]. [Merk op: als X en Y onafhankelijk, valt de term met €(J, h) weg]. Men kan ook aantonen
dat indien X en Y normaal verdeeld on onafhankelijk zijn, (C + 2r + : ~ U((]= + 2]K +
: , (²^= + 2²^K ) opnieuw normaal verdeeld is. [Merk op: beschouw nu voor R: = RM en @:, = @M,
de verdeling
=K
~U Y
> ࢄ >ࢅ
,
5૛ࢄ 5૛ࢅ
g
Z = U Y]= ,
5૛ࢄ
Z dit is het gemiddelde van de twee dat opnieuw
verdeeld is met dezelfde verwachtingswaarde en de helft van de variantie!].
5. De verdeling van het steekproefgemiddelde
p188
•
•
Het steeproefgemiddelde als toevalsvariabele [noteren met J9].
Wanneer we m identieke steekproeven van grootte n uitvoeren en daar de m gemiddeldes van
berekenen, hebben we in feite een steekproef van grootte m voor het steekproefgemiddelde ter
beschikking.
= ૚ ∑࢔࢏=૚ ࢏ met ௜ onafhankelijke toevalsvariabelen met eenzelfde verdeling.
C
࢔
Op afb. 5.1d p.189 zien we dat J9 normaal verdeeld is met relatief kleine spreiding!
Verdeling van het steekproefgemiddelde
o Verwachtingswaarde: indien alle ௜ dezelfde verdeling bezitten, volgt in het algemeen dat
) = d(C
) uit de lineariteit van w [zie p.191].
(C
[Merk op: onafhankelijkheid is NIET nodig voor deze eigenschap!].
o Variantie: indien alle ௜ dezelfde verdeling bezitten én onafhankelijk zijn, volgt in het algemeen dat
) = e()(C
) [zie p.192].
(C
o Als alle n J onafhankelijk en identiek normaal verdeeld zijn (met R en @²), dan is J9 ook
<²
normaal verdeeld en geldt: J9~Q YR, Z.
•
Centrale limietstelling
Wat met de verdeling van J9 als we nu J identiek verdeelde, onafhankelijke variabelen hebben die
niet normaal verdeeld zijn? [zie voorbeelden p.194-195].
Dan geldt blijkbaar dat als → ∞: A „|
h T=૚
=
i
~ ≤ … → X(\) [x speelt hier even voor z-score].
ࢂࢇ࢘(ࢄ૚ )
࢔
5²
≈ U Y], Z. Opmerkelijk! Zelfs het
Met andere woorden, voor n voldoende groot: C
steekproefgemiddelde van niet-normaal verdeelde steekproeven is (bij benadering) normaal
verdeeld! Enkele opmerkingen:
L De verdeling van J hoeft niet continu te zijn!
L De verdeling van J hoeft niet symmetrisch te zijn, maar hoe schever de verdeling,
hoe groter n moet zijn om een nauwkeurige benadering te hebben.
•
Normale benadering voor binomiaalkansen
Herinner u: een binomiaal verdeelde variabele Y staat voor het aantal successen in een rij van n
onafhankelijke, identieke bernouilli-experimenten met kans p op succes.
o Voor een steekproef van n Bernouilli-experimenten wordt J9 de relatieve frequentie van het
= ∑
C = C
genoemd.
aantal successen of de proportie successen A
De geobserveerde steeproefproportie is dan ̂ , en de parameter in de binomiaalverdeling
(populatieproportie) is . Er volgt dus:
) = L d(A
) = S(
S)
L e()(A
Als → ∞ luidt de centrale limietstelling voor binomiaalkansen als volgt:
j S
*
L A | ࢖(૚ష࢖) ≤ ~ → X(\)
i
[Merk op: de CLS is een uitbreiding op de wet van de grote aantallen, aangezien wE naar convergeert als n→oneindig. De CLS gaat zelfs verder door te zeggen hoe snel dit gebeurt.]
o Nu gaan we kijken naar h~‡(, ): h geeft gewoon de absolute frequentie ipv. de relatieve:
L d(r) = L e()(r) = ( − )
KS
L AY
≤ Z → X(\) voor → ∞.
࢔
$S(
S)
En zo kunnen we dus concluderen dat voor grote : s(, ) ≈ U(, ( − )).
o Continuïteitscorrectie: we zien op afb. 5.7 p.202 dat de benadering van de CLS voor discrete
variabelen minder accuraat is. Hierom voeren we de volgende continuïteitscorrectie ε door
in de CLS:
A(r ≤ 2) ≈ ˆ x
QF.GS
$S(
S)
y. [Opgelet: dit kan ook −0.5 zijn! zie p. 202]. In feite moet ε de
k
helft van de klassebreedte zijn, en indien we werken met de verdeling van gebruiken we .
Opgelet! Voor n zeer klein of zeer groot is de binomiaalverdeling duidelijk scheef! moet dan groot
genoeg zijn opdat de CLS een goede benadering geeft. Een vuistregel is: ≥ 5 en (1 − ) ≥ 5.
Indien dit niet zo is, maar wel groot is, gebruikt men de Poisson-benadering.
6. Het schatten van parameters
p208
• Puntschatters
o Vooraleer we kansen kunnen bepalen mbv. de normale verdeling, moeten we de
parameters R (de verwachtingswaarde of populatiegemiddelde) en @ (de
populatiestandaarddeviatie) kennen. w(J) werd afgeleid als de limiet van een rij
steekproefgemiddelden ̅ voor → ∞. Daarom is J9 een voor de hand liggende keuze als
schatting of puntschatting voor R. [meestal gebruikt men het steekproefequivalent van een
waarde om die waarde te schatten]. De steekproefmediaan is zo ook een schatter voor de
populatiemediaan, maar ook voor R indien de verdeling symmetrisch is!
o Omdat men natuurlijk de waarde zoekt die globaal het beste past, zal men de variabelen in
kwestie als toevalsvariabelen beschouwen, zoals gezien in hoofdstuk 5. De gezochte
parameter noteren we in het algemeen met ‰, de schatter met ‰ [dus bv. als R gezocht dan
J9 = R̂ ]. Om te kijken of een schatter wel onvertekend of zuiver is, voeren we de volgende
− Š) = -. De gevonden waarde (al dan niet gelijk aan nul)
test uit: w(‰ ) = ‰ of d(Š
noemen we de vertekening van de schatter.
o Natuurlijk willen we ook dat er op de schatter varia(n)tie zit. Recht uit de definitie:
) = d$(Š
− d(Š
))²%. Voor een onvertekende schatter wordt dit de Mean Squared
e()(Š
− Š)²). Als die klein is, betekent dit dat de schatting niet sterk zal
Error K‹d = d((Š
afwijken van ‰ voor een andere steekproef.
) = e()(Š
) + d(Š
− Š).
Men kan aantonen dat K‹d(Š
o Schatten van R voor een normale populatie:
We kiezen uiteraard J9 als schatter, en ja de schatter is onvertekend want w(J9) = R per
<²
definitie [en omdat w(J9) = w(J )] . De variantie is zoals bekend gelijk aan . Men kan
aantonen dat onder onafhankelijkheid en normaliteit, geen enkele schatter gevonden kan
worden die onvertekend is en een kleinere variantie heeft. Daarom noemt men in dit geval
J9 een uniform minimumvariantie onvertekende schatter. J9 is dus aangewezen als schatter
voor R, tenzij er uitschieters in de gegevens aanwezig zijn: dan is de steekproefmediaan
eerder aangewezen.
o Schatten van @² voor een normale populatie:
Logischerwijs gebruiken we de steekproefvariantie I² als schatter. Ook I² is onvertekend
want uit de vereenvoudigde definitie van @² volgt dat w(J, ) = @² + R² [Aangeraden: zie p.
211: de noemer − 1 ipv. in de definitie van S² dient dus om een onvertekende schatter te
bekomen!]. Dit betekent dus dat
$().²
<²
onafhankelijkheid) is om te zeggen dat
volledige verdeling van I² exact!
~Q(0,1) wat de voorwaarde (naast
(
)l²
5²
~i
en dus kennen we in dat geval de
o Schatten van proporties of kansen:
De meest voor de hand liggende schatter voor een kans op een gebeurtenis G = E(F) is
de relatieve frequentie E = ∑ J zoals in hoofdstuk 5 gedefinieerd. We leidden toen ook af
dat w(E ) = zodat E onvertekend is, en 546(E ) =
verdeling bij benadering bekend [zie H5 of p.213].
m(m)
. Omwille van de CLS is ook de
•
Maximum Likelihood Estimator MLE: Zie extra slides+oefenzitting. [product maximaliseren, ofwel
min de logaritme van de som minimaliseren, afleiden naar ‰ en gelijkstellen aan 0, en puzzelen.]
•
Betrouwbaarheidsinterval voor het gemiddelde van een normale populatie
Omdat een schatter altijd slechts een schatting is, willen we de grootteorde van die
benaderingsfout kennen, bovenop de variantie van de schatting. We moeten dus de verdeling
‰ − ‰ eens goed bekijken. We doen dit voor R in geval van gekende en ongekende variantie.
:n ;
o De variantie @² is gekend: uit H5 weten we dat S = </
√
~Q(0,1) en dus geldt met 95%
kans dat Z tussen -1.96 en 1.96 gelegen is:
:n;
− . Œ^/√ ≤ ] ≤ C
+ . Œ^/√%.
E Y−1.96 ≤
≤ 1.96Z = -. Œ/ = A$C
</√
− . Œ^/√ ; + . Œ^/√] het 95%-betrouwbaarheidsinterval
We noemen dan [
voor R. [Merk op dat J9 vervangen is door ̅ : Het interval is afhankelijk van de steekproef!].
De interpretatie van het BI is als volgt: “Indien we 100 maal eenzelfde steekproef zouden
trekken, zouden gemiddeld 95 van de 100 gevonden BI’s de onbekende R bevatten.”
o
Voor elk 100(1 − )%-betrouwbaarheidsinterval moeten we in feite het Y1 − , Z-kwantiel
o
bepalen, dat we noteren met [o/, , want E(S ≥ [o/, ) = , . [zie p. 218]. Het 100(1 − )%-BI
− Wp/ ^/√ ; + Wp/ ^/√] ook wel genoteerd met [
± Wp/ ^/√]. Enkele
is dan [
eigenschappen:
L Het BI is symmetrisch rond ̅ .
L  ↑ => BI breder.
L @ ↑ => BI breder.
L ↑ => BI smaller.
Hoe groot moeten we kiezen opdat met 100(1 − )% kans de afwijking |J9 − R| maximaal
een zekere foutenmarge bedraagt? We willen dus: E(− ≤ J9 − R ≤ ) = 1 − . Dan is de
breedte van het BI gelijk aan 2 en dus moet = Wp/ ^/√, wat betekent dat = Y
9ࢻ/૛ 5 R
Z .
o De variantie @² is niet gekend: we zullen die dan afschatten mbv. I² = ∑ J − J9!, .
:n ;
Echter indien de J onafhankelijk en Q(R, @²) verdeeld zijn, is ./
√
,
I²/@²~g
/(
niet meer standaard
normaal verdeeld, maar wel j verdeeld [Omdat
− 1) zie p.220 en
definitie voor t-verdeling]. Omdat S een schatter is voor @ zal deze verdeling wel op de
normale verdeling lijken. Behalve dat men voor de t-verdeling alleen kansen van de vorm
E( ≥ j,o ) =  kan berekenen, loop alles vrij analoog met het betrouwbaarheidsinterval
voor normale verdeling; we nemen gewoon /2 langs beide kanten: --( − ‘)%-BI
± k
,p/ a. [Merk op: j,o/, ≥ [o/, zodat we bredere intervallen krijgen dan
= `
√
wanneer @ gekend is].
Opmerking: de bovenstaande BI’s zijn tweezijdig, maar men kan even goed eenzijdige BI’s
opstellen: neem gewoon  langs één kant ipv. /2 langs twee kanten!
•
Betrouwbaarheidsinterval voor het centrum van een niet-normale populatie
o Dankzij de CLS is
:n ;
</√
benaderend normaal verdeeld, maar dan moet n voldoende groot zijn,
mogen er geen uitschieters aanwezig zijn moet mag de verdeling niet té a-normaal zijn.
o Men kan een (log-)transformatie uitvoeren indien men bv. een exponentiële verdeling
herkent: M(J) = h~Q(R, @²). En dan is qr(>ࢅ ૛ ) = s+(]= ). [zie p. 224. Merk op: er geldt
dus niet zomaar R: = ;ೊ . Voor de mediaan is dit WEL het geval: 01(J) = Ls1(M) en dus
01(J) = ;ೊ want Y is normaal verdeeld!].
o Als men geen transformatie kan vinden, kan men een niet-parametrisch BI opstellen: men
stelt dan een BI op voor de mediaan (0.5) mbv. de tabel voor BI’s van de mediaan: orden
de observaties ≤ ⋯ ≤ . Een 95%-BI is dan: [
; ] [zie tabel formularium].
࣌૛
ࢅ
•
Betrouwbaarheidsinterval voor een proportie
We kunnen gebruik maken van de normale benadering voor binomiaalkansen om een verdeling van
de relatieve frequentieschatter E voor te vinden. Voor grote n geldt immers dat E bij benadering
standaardnormaal verdeeld is en dus (als we in de noemer afschatten door ̂ ) :
tu m
E x−[o/, ≤
≤ [o/, y ≈ 1 −  zodat het BI voor wordt (we vervangen de ene E weer
$mv(mv)/
“ ± Wp/ &
“ ( − “ )/”.
door ̂ ): ’
7. Het testen van hypothesen
p232
• Testen omtrent het gemiddelde van een normale populatie
o Aanvaardingsgebied en verwerpingsgebied: op een basis van steekproeven J ~Q(R, @²)
zullen we testen of de onbekende parameter R gelijk kan zijn aan een vast gekozen getal RC .
De hypothese dat R = RC , noemen we de nulhypothese •C [meestal stoppen we hierin de
hypothese die “behoud” uitdrukt]. Het alternatief R ≠ RC noemen we de alternatieve
hypothese • . [Merk op: dit is een tweezijdig testprobleem. Voor een eenzijdig nemen we
ongelijkheden ≤, > of ≥, <.] We gaan altijd uit van de nulhypothese, en kijken of de
steekproef daarmee in overeenstemming is, aan de hand van een teststatistiek, die in dit
geval  =
:n ;బ
./√
is. Als •C waar is, en dus R = RC , dan is deze j verdeeld en geldt dat
A(−k
,p/ ≤ – ≤ k
,p/ ) = − ‘. Onze steekproef kan ons nu eengeobserveerde
testwaarde j =
̅ ;బ
"/√
. Als de nulhypothese waar is, is het onwaarschijnlijk dat j niet in het
interval ’−j,o/, ; j,o/, ” ligt [Dit is het aanvaardingsgebied. Alles daarbuiten wordt het
verwerpengsebied genoemd. De grenzen zijn de kritieke waarden. Zie afb. 7.1 p.233]. De
kans daarop is immers , en indien dat het geval is zeggen we dat ̅ significant verschilt van
RC op significantieniveau , en besluiten we dat de alternatieve hypothese geldt. [Men
noemt bovenstaande procedure ook wel de t-test]. Enkele feiten:
Hoe groter , hoe kleiner het aanvaardingsgebied en hoe sneller we •C verwerpen.
Hoe groter , hoe kleiner het aanvaardingsgebied en hoe sneller we •C verwerpen.
Hoe groter 3, hoe groter het aanvaardingsgebied en verwerpen we •C minder snel.
o Tweezijdig of eenzijdig probleem: het tweezijdig probleem werd hierboven uitgelegd. Voor
het eenzijdig probleem wordt als •C : “R ≥ RC ” de kans hierop A(– ≥ k
,p ) = − ‘ en
logischerwijs het aanvaardingsgebied: ’−j,o/, ; +∞” [Zie afb. 7.2 p.235].
o Type I- en II-fout:
Type I-fout: we verwerpen •C terwijl die geldig is: de kans hierop is  [zie p. 237].
Omdat we  kunnen kiezen is het belangrijk om voor •C de behoudende hypothese
te kiezen.
Type II-fout: we verwerpen •C niet terwijl die niet geldig is (en dus R = R , een
> ૚ >૙
> ૚ >૙
andere waarde): die kans is — = A Y−k
,p/ − l/
≤ – ≤ k
,p/ − l/
Z [zie
√
√
p. 238]. We kunnen dus ˜ willekeurig klein maken door op te drijven. [illustratie
van ˜ zie afb 7.4 p.239].
De kans dat •C waar is en we die niet verwerpen, is dus 1 −  (betrouwbaarheidsniveau) en
de kans dat •C niet waar is en we die verwerpen, is 1 − ˜ (power of
onderscheidingsvermogen).
[Merk op: het aanvaardingsgebied is gewoon hetzelfde als het betrouwbaarheidsinterval!].
o P-waarde: Om niet telkens het betrouwbaarheidsinterval etc. te moeten berekenen voor
verschillende significantieniveaus, berekenen we rechtstreeks de kans dat de teststatistiek
(bv. T) buiten het aanvaardingsgebied ligt. Dit noemen we de P-waarde.
Voor de eenzijdige test met •C : “R ≥ Rx ” is dit A – ≤ k|] = ]y ! met – =
h >૙
=
l/√
~k
. Die
kans is in de tabel zogezegd een -waarde, en we besluiten dan ook dat we •C verwerpen
indien de p-waarde kleiner is dan het op voorhand gekozen significantieniveau , dus als .
We kijken dus hoe groot de kans is dat de testwaarde T nog kleiner is dan de geobserveerde
t-waarde. [zie p. 241 en definitie + afb. 7.5 p.242].
Voor de tweezijdige test doen we ongeveer hetzelfde; we kijken naar de kans dat de Tstatistiek nog verder van 0 ligt dan de geobserveerde t-waarde, dus A – ≤ k|] = ]y ! +
A – ≥ k|] = ]y ! en omdat de t-verdeling symmetrisch is wordt dit A – ≥ k|] = ]y ! en
p
we verwerpen dus weer •C als de p-waarde kleiner is dan , dus als A – ≥ k! < .
o Testen omtrent het gemiddelde van een normale populatie met gekende variantie:
Als de variantie gekend is (hoewel dit niet vaak voorkomt) kan men met de standaard
normale verdeling werken ipv. de t-verdeling: de teststatistiek is nu: T =
h > ૙
=
5/√
en de rest is analoog.
o Het testen van de normaliteitsassumptie: Merk op dat alle bovenstaande testprocedures
enkel geldig zijn voor normale populaties! Dankzij de CLS kunnen we natuurlijk een normale
benadering maken en de t-verdeling is vrij robuust tegen afwijkingen, maar zeker voor
kleine steekproeven is het nuttig om de normaliteitsassumptie na te gaan.
In H3 zagen we al dat een normale kwantielplot daarvoor goed is. Dit is echter slechts een
visuele indruk, daarom gaat men de (Pearson) correlatiecoëfficiënt van de steekproef- en
normale kwantielen berekenen. De nulhypothese •C : “de gegevens zijn normaal verdeeld”.
Men verwerpt de nulhypothese indien kleiner is dan de overeenkomstige waarde in tabel
7.2 p.245. Deze procedure noemt men de Shapiro-Wilk-test. Er zijn nu 2 mogelijkheden:
•C niet verworpen: de gegevens zijn normaal verdeeld. We kunnen nu de t-test
doen. [want, let’s face it, de populatievariantie @² is bijna nooit gekend en dus
moeten we S² gebruiken].
•C verworpen: de gegevens zijn niet normaal verdeeld. Zoals eerder vermeld kan
men dan een transformatie proberen te zoeken die wel normaal verdeeld is.
Ook kan men de Wilcoxon-test doen, die we later nog zullen bespreken.
[Opgelet: is niet altijd zeer accuraat: kijk dus zeker ook goed naar de Q-Q plot!]
o Mediaantest voor niet-normale populaties: [ENKEL wanneer de mediaan als locatiekenmerk
te verkiezen is boven het steekproefgemiddelde]. Beschouw de test:
•C : 1 ≥ 15 versus • : 1 < 15 . We volgen dan deze procedure:
De nulhypothese is plausibel indien de steekproefmediaan “niet te veel” kleiner is
dan 15. Dit is wel het geval indien het aantal observaties kleiner dan 15 “te veel”
groter is dan /2 (in dit geval 30).
Het aantal observaties kleiner dan 15, A genoteerd, is verdeeld volgens ‡ , !.
Onder •C is p gekend, want de kans dat een observatie kleiner dan 15 is, is dan 0.5 .
(in dit geval zijn er 40 observaties kleiner: a=40).
De P-waarde is nu gegeven door E ≥ 40! met ~‡ 60,0.5!. Dit kunnen we
normaliseren met behulp van de CLS en de continuïteitscorrectie: − A x
Dit wordt ook wel de tekentest genoemd.
• Algemene procedure en begrippen bij hypothesetesten [zie p. 249 en slides].
F.GS
y.
$S(
S)
• Het vergelijken van twee normaal verdeelde groepen waarnemingen
o Grafische vergelijking: dit wordt het meest frequent gedaan met twee boxplots [zie p.249].
Wanneer het gemiddelde van de ene groep niet binnen de box [i.e. het 50%-gebied] van de
andere groep ligt, is dit een aanwijzing dat de populatiegemiddeldes duidelijk verschillen.
o Gepaarde of ongepaarde gegevens: we kunnen dus de gemiddeldes van 2 populaties en
beschouwen. Een tweezijdige hypothesetest zal dan bijvoorbeeld R = Rx versus R ≠ Rx zijn.
Maar er wordt een onderscheid gemaakt tussen ongepaarde (vb. 1 p.251) en gepaarde (vb.
2 p.251) gegevens. Bij gepaarde heeft men voor elke x-waarde een gerelateerde y-waarde
[bv. 2 verschillende waarden voor éénzelfde stad. Merk op dat dan = = , ]. [opm:
ongepaarde gegevens zijn altijd onafhankelijk].
o Testen omtrent gemiddelden bij ongepaarde waarnemingen: Om de testen of R = Rx
gebruiken we de schatter J9 − h9 die duidelijk onvertekend is. Omdat X en Y onafhankelijk
<
<
zijn geldt volgens formule 4.17 p.182 dat 546 J9 − h9! = భ + మ . [Het minteken valt weg
భ
మ
<
<
door het kwadraat in de afleiding]. Zodus: J9 − h9~Q YR − R, , భ + మ Z en bijgevolg geldt
onder •C dat T =
h K
h
=
భ
࣌
࣌
z ૚ ૛
૛
૛
మ
~U(-, ). Als @, en @,, gekend zijn kunnen we Z als teststatistiek
࢔૚ ࢔૛
gebruiken. Meestal is dit niet zo, en onderscheiden we 2 gevallen:
@ = @, : men zal de populatievariantie dan afschatten mbv. de gepoolde variantie
‹S =
{૚ |l૛૚ {૛ |l૛૛
૚ ૛ ,
, want nu geldt dat d$‹S % = ^² omdat I,,
onvertekende
,
schatters zijn voor @,,
. [zie p.253]. ( + , − 2)Im, /@² is dan g²-verdeeld en dus is
–=
h K
h
=
l૛࢖ $
/૚ /૛ ~k૚ ૛ omdat R − R, = 0 onder •C . Nu we de verdeling
kennen, kunnen we dus alles (P-waarde etc.) bepalen.
@ ≠ @, : men kan dan aantonen dat – =
z
h K
h
=
૛
࣌૛
૚ ࣌૛
~k met r een ingewikkelde formule
࢔૚ ࢔૛
[zie formularium of p. 254].
o Testen omtrent varianties: Om tot één van de bovenstaande 2 gevallen te komen moeten
<
we natuurlijk kunnen testen of @ = @, of niet (maw. : <భ = 1 ).
l૛૚ /5૛૚
మ
We zien dat = l૛/5૛ ~૚ ,૛ [zie definitie van F en afleiding p.258] . De P-waarde voor
૛
૛
deze F-statistiek wordt gegeven door: ??? [zie boek p.258. het is voor mij onduidelijk].
o Testen omtrent gemiddelden bij gepaarde waarnemingen: er is nu meestal een
afhankelijkheid tussen X en Y. De gegevens op verschillende onderzoekseenheden [=bv.
verschillende steden] kunnen wél onafhankelijk beschouwd worden, en dus ook de
verschillen 5 voor alle J − h . [Merk op: w 5 ! = R − R, ] . Omdat •C zegt dat R − R, = 0
kunnen we de nulhypothese ook formuleren als R} = 0.We hebben het probleem nu
| > k
,p/ "P /√ als
herleid tot één variabele. Als V normaal verdeeld is, gebruiken we |'
teststatistiek is verwerpen we als . De P-waarde is dan gegeven door: A Y– ≥ ™
h
ࢂ /√
™Z.
[merk op onder •C valt R} weer weg]. Als V niet normaal verdeeld is, probeert men een
transformatie, en anders een niet-parametrische test.
• Het vergelijken van twee niet-normaal verdeelde groepen waarnemingen
o Wilcoxon-rangsomtest: dit is een niet-parametrisch t-test-alternatief voor ongepaarde, nietnormaal verdeelde groepen, waarbij men gebruik maakt van dezelfde rangen als bij de
Spearman-correlaticoëfficiënt. [meer uitleg op p.262]. Noem en , de verdelingen van
resp. J en h [is niet de F-verdeling!], dan is •C : = , de verdelingen zijn dezelfde. Voor
deze teststatistiek W (=som van de rangen in groep 1) kan men aantonen dat
࢔ (࢔ శ࢔ శ૚)
~ ૚ ૚ ૛
$૚ ૛ (૚ ૛ )/
૛
≈ U(-, ). De Wilcoxon-test is heel goed in staat •C te verwerpen
wanneer (j) en , (j) dezelfde vorm hebben, maar tov. elkaar verschoven zijn. [zie p.265].
Voor verschillende verdelingen is de Wilcoxon test echter niet zo geschikt, vooral wanneer
verdelingen elkaar kruisen [dus wanneer (j) ≤ , (j) of vice versa, niet geldt voor alle
j ∈ ℝ. zie afb. 7.17 p.267]. Daarom zal men de tweezijdige alternatieve hypothese,
waarvoor de Wilcoxon-test aangewezen is, noteren als š
: ≠ met (k) ≤ (k) of
(k) ≥ (k) voor alle j ∈ ℝ. Het linkseenzijdig alternatief is enkel “≤”, het
rechtseenzijdig enkel “≥”. [Merk op: dit is • ! Voor •C is het net andersom]. De P-waarde
(voor een rechtseenzijdige test) kan benaderd worden mbv. de bovenvermelde normale
benadering plus continuïteitscorrectie A |T ≥
࢔ (࢔ శ࢔ శ૚)
~F.G ૚ ૚ ૛
$૚ ૛ (૚ ૛ )/
૛
~.
o Mediaantest voor gepaarde waarnemingen: Men zal het verschil 5 = J − h definiëren en
testen of die populatiemediaan gelijk aan of verschillend van nul is. De rechtseenzijdige test
luidt •C : 1(5) ≤ 0 versus • : 1(5) > 0. De linkseenzijdige is analoog. Hierna kunnen
we dan de mediaantest gebruiken zoals gedefinieerd enkele secties terug.
•
Testen omtrent een proportie
o Benaderende test bij voldoende groot: om het testprobleem šF : ≤ F vs. š
: > F
op te lossen, kunnen we p inschatten met parameter E (want die is onvertekend) en dan
werken via de normale benadering zoals in H5, die onder •C geldt: T =
De P-waarde is dan vanzelfsprekend E |S ≥
j S૙
*
i
j S૙
*
i
࢖(૚ష࢖)
࢔
.
~. [zie p.273 voor alle mogelijke •C ].
࢖(૚ష࢖)
࢔
want die is natuurlijk s , F !
o Exacte test bij klein: we nemen nu als teststatistiek A
binomiaal verdeeld onder •C , en zo kunnen we de P-waarde ook exact berekenen [maar
hoe dan? Toch ook weer normaal benaderend?] [zie vb pollutie dataset p.273].
•
Testen omtrent twee onbekende proporties
Om te weten of de kans op twee verschillende gebeurtenissen verschillen, zal men de kans
E(F ) − E(F, ) = − , proberen te schatten mbv het verschil van de relatieve frequenties van
− A
. Natuurlijk is dit een onvertekende
twee onafhankelijke reeksen bernouilli-experimenten A
%. Als en , ook nog voldoende
schatter, en volgens H4 is e()(A
− A ) = e()$A
% + e()$A
groot zijn, is volgens de CLS:
j ૚ *
j ૛ €{S૚ S૛ |
*
࢖ (૚ష࢖ ) ࢖ (૚ష࢖ )
i ૚ ࢔ ૚ ૛ ࢔ ૛
૚
૛
~U(-, ). Vervangen we nu E door ̂ en benaderen
“
− “ ± Wp/ #
we p door ̂ dan bekomen we het betrouwbaarheidsinterval ›
[zie p. 276]. De P-waarde is (voor •C : − , = 0) A |T >
•
|S
 ૚ S
૛ |
ෝ ૚(૚ష࢖
ෝ૚ ) ࢖
ෝ (૚ష࢖
ෝ૛ )
࢖
૛
i ࢔
࢔૛
૚
~.
 ૚ (
S
૚ )
S
૚
+
 ૛ (
S
૛ )
S
૛
Testen omtrent onafhankelijkheid tussen twee variabelen
o Correlatietest voor kwantitatieve variabelen: we vragen ons bijvoorbeeld af of •C : } = 0
want dat zou betekenen dat variabelen X en Y onafhankelijk zijn. [Merk op: •C verwerpen
œ.
betekent dat X en Y afhankelijk zijn, maar •C niet verwerpen wil niet per se zeggen dat X en
Y onafhankelijk zijn!] Men kan aantonen dat indien X en Y (bivariaat!) normaal verdeeld zijn,
onder •C geldt dat
‚√
$
‚²
~k , met R de steekproefcorrelatie als toevalsvariabele. De P-
waarde is dus A k ≥ ||! met  =
√
$
²
. [geldt hier dan T=j, ? anders begrijp ik het
niet]. Indien X en Y niet (bivariaat) normaal verdeeld zijn kan men testen adhv. de
Spearman-correlatiecoëfficiënt, •C : }" = 0. Noem F en G de verdelingsfuncties van X en Y .
)(ƒ,P)
Stel ž = (J) en 5 = F(h), dan is ‚ =
. Software levert de P-waarde.
$P(ƒ)P(P)
o g²-test voor kwalitative variabelen: hetgeen we al gezien hadden, maar ietsje uitgewerkt:
•C : X en Y onafhankelijk versus • : … afhankelijk. Hiervoor gebruiken we de g²-maat zoals
gedefinieerd in H4. Onder de nulhypothese volgdt dit getal g² benaderend een g²-verdeling
met het aantal vrijheidsgraden 0 = (#6NŸ − 1)(#uM00 − 1). [Merk op: deze
verdeling is accuraat wanneer de frequentie in elke cel in de kruistabel minstens 5 is, anders
moet men cellen bijeenvoegen]. Hoe sterker de afhankelijkheid, hoe groter g², dus we
,
verwerpen •C als i² > i,p waarbij gL,o
het 100(1- )%-kwantiel voorstelt van de g²verdeling met m vrijheidsgraden. De P-waarde is dus: A i ≥ i²!.
8. Lineaire regressie
p296
• Kleinstekwadratenmethode
o Herinner de scatterplot. We willen nu een rechte vinden doorheen de puntenwolk ( , 8 )
met vergelijking 8 = 4 + ƒ. We noemen de verklarende of onafhankelijke variabele (of
predictor, regressor) en 8 de responsvariabele. Parameter 4 is het intercept, ƒ de
richtingscoëfficiënt. Merk nu al op dat wanneer de correlatiecoëfficiënt van de twee
toevalsvariabelen J en h nul is, de rico ƒ nul zal zijn [verschillende x-waarden beschouwen
heeft dan nl. geen effect op de gemiddelde y-waarde].
Beschouw nu zomaar een zekere rechte 8 = 4 + ƒ en bekijk voor elk punt ( , 8 ) het
residu ) = < − (( − 2
). Dit is telkens het verschil tussen de “echte” y-waarde en de
“voorspelde” [zie p. 297 afb. 8.2].
o De kleinstekwadratenmethode (least squares method) zoekt de rechte waarvoor de som
van alle gekwadrateerde residu’s ∑
) = ∑
< − (( − 2
)! minimaal is. Die
specifieke regressierechte zullen we noteren met 8 = 4 + ƒ. Voor elke observatie levert
dit de gefitte waarde 8 = 4 + ƒ . De kleinstekwadratenmethode bekomen we door het
"೤
!(,)
ƒ = "మ = 6 " ೣ . Daaruit volgt ook dat het punt (̅ , 8
ೣ
minimalisatieprobleem ¡
9) op de
4 = 89 − ƒ ̅
regressierechte ligt en dat de som van de residu’s ∑ 6 nul is [zie p.299 bewijs].
•
ANOVA-tabel en determinatiecoëfficiënt
Na het fitten van de regressierechte kan het verschil van elke responswaarde met het gemiddelde
geschreven worden adhv. de voorspelde waarden: 8 − 89 = (8 − 89) + (8 − 8 ). Omdat men
verder kan aantonen dat ∑(8 − 89) (8 − 8 ) = 0 valt de etra term in het merkwaardig product
! = ∑ <
“ − <
! + ∑ < − <
“ ! . Dit wordt
weg en geldt voor de kwadraten hetzelfde: ∑ < − <
ook wel zo uitgedrukt: II = II + IIw [Sum of Squares Total/Model/Error]. Afhankelijk van het
feit dat de totale som meer wordt bepaald door het model of de residu’s, kunnen we besluiten of
de regressierechte al dan niet goed aansluit bij de puntenwolk [goed=SSM groot, slecht=SSE groot].
ll„
..†
Zo bekomen we de determinatiecoëfficiënt ,² =
[Merk op: dan is ook *² = 1 −
]. Men kan
ll…
..‡
aantonen dat ,² = )², wat meteen de notatie verklaart. [merk op: indien dus bv. de geobserveerde
"೤
punten ver van de regressierechte ligge, is SSE groot, zodat *² en dus ook ƒ = 6 " dichtbij nul zullen
ೣ
liggen. Dit strookt met onze eerdere bevindingen]. We kunnen de invloed van SSM en SSE ook
ll„
llT
ll„
berekenen adhv. de F-statistiek, want: =
/
=
met MSE de Mean Squared Error. 1 en
„lT
− 2 zijn de vrijheidsgraden van SSM en SSE. Ook hier geldt: als F dicht bij 0 ligt, is SSM klein tov.
SSE. Deze begrippen worden samengevat in de zogenaamde ANOVA-tabel [zie tabel 8.1 p. 303].
•
Lineair regressiemodel
Men kan de kleinste kwadratenmethode goed toepassen wanneer de responsvariabelen h steeds
normaal verdeeld zijn met gemiddelde 4 + ƒ . In formulevorm: r = ( + 2
+ ¢ waarbij de
fouten of theoretische residu’s £ normaal verdeeld zijn met gemiddelde nul en identieke variantie
@² voor alle N = 1, … , . Dus ¢ ~U -, ^²! [“de verticale fluctuaties van de geobserveerde waarden
rond de regressierechte”] en w(h) = 4 + ƒ [zie p.305 afb.8.7]. Men kan aantonen dat indien dit
model van toepassing is, 4 en ƒ onvertekende schatters zijn voor 4 en ƒ, dus nu rest ons enkel nog
een schatting voor Var(£ )= @² te maken, waarbij onze residu’s goed van pas komen, want:
"² = ∑
) = K‹d wat een onvertekende schatter is! [wederom hierom n-2 in de noemer].
•
Nagaan van de modelonderstellingen
o De residu’s zouden zich dus moeten gedragen als een lukrake steekrpoef van een normaal
verdeelde variabele. Nadat we dus een kleinstekwadratenfit hebben gemaakt kunnen we
een normale kwantielplot maken van de residu’s [zie p.310 afb. 8.12].
o Een andere manier is de residuplot waarbij in een scatterplot de residu’s uitgezet worden
tegenover bv. de verklarende waarden (ook soms tegenover 8 ). Aangezien de fouten
onafhankelijk zijn en met gelijke variantie, moet deze figuur eruit zien als een zuiver lukraak
puntenpatroon van gelijke breedte langs de verticale as [zie p.311 afb. 8.13a].
o Ten slotte kunnen we nagaan of er waarnemingen zijn met een ongewoon groot of klein
residu: uitschieters. Om dit te testen moeten we de waarde eerst standaardiseren. Niet zo
ˆ
moeilijk: als £ ~Q 0, @²! dan is <೔ ~Q 0,1!, en bekomen we de gestandaardiseerde residu’s
࢏
ࡾ࢏
met 3‰೔ de geschatte standaarddeviaties van het residu * . Men kan aantonen dat
h)૛
( ࢏
"‚࢏ = "# − − {
|
૛ .[welke s is dan die ene s voor de wortel?] Als de geobserveerde
࢞
waarde van zo’n gestandaardiseerd residu groter is dan 2.5, is dit mogelijk een uitschieter
[die kans is zowaar 99%]. Op p.312 afb. 8.14 enkele voorbeelden van residuplots:
a) is duidelijk willekeurig verdeeld met identieke variantie langs de horizontale as
[=identieke breedtie langs de verticale as], maar jammer genoeg zit er een uitschieter
tussen! NIET OK (maar wel bijna ☺)
b) duidelijk een niet-lineair verband aanwezig. NIET OK
c) geen verband, maar de variantie/spreiding is niet overal identiek! NIET OK
d) er is duidelijk correlatie (en dus afhankelijkheid) aanwezig. NIET OK
•
Betrouwbaarheidsintervallen en testen omtrent de parameters
Indien de diagnostische grafieken geen afwijkingen onthullen, kunnen we dit model gebruiken om
meer info te bekomen over parameters 4 en ƒ. Men kan aantonen dat:
૛
) = ^² Y
+ h ૛Z
o e()(D
) =
o e()(s
, s
)
o ;'(D
{
|࢞
5²
{
|૛࢞
h5²
= − {
|૛
࢞
Conclusie: variantie van de punten rondom de rechte ² best zo klein mogelijk, best zo groot
mogelijk; allemaal zeer logisch. Als de waarden zo gelijkmatig mogelijk verspreid liggen,
dus gecorreleerd! [tenzij 9 = 0].
verhogen we ook nog !2‫ ݔ‬. Uit de covariantie: blijkbaar zijn "# en $
Merk op: σ² is ongekend, dus vervangen we die door s² uit de formule van de vorige sectie. Zo verkrijgen we
. De standaardfout is gegeven door de wortel van deze schatting:
een schatting voor "# en $
) = &# ૚ + ࢞n ૛ en ". . ('
) = &# ૚ ૛ . Tenslotte kan men ook aantonen dat ࡭ିࢇ෡ ~(࢔ି૛ en
". . (%
{࢔−૚|࢙
{࢔−૚|࢙
.R.(࡭)
࢔
෡
૛
࢞
࢞
voor $) analoog. Hieruit kunnen we makkelijk de Betrouwbaarheidsintervallen uit berekenen:
- ).
, ± (࢔ି૛,ࢻ/૛ ". . (%
Voor intercept *: +
Voor rico /: +0 ± (࢔ି૛,ࢻ/૛ ". . (').
Hiermee kan men uiteindelijk de hypothesetest šF : 2 = - versus • : ƒ ≠ 0 uitvoeren zoals in H7.
Deze test is zeer belangrijk: als b gelijk is aan nul, is het namelijk niet zinvol om het regressiemodel
nog verder te gebruiken!
•
Het maken van voorspellingen
o Puntschatting: simpel: de regressierechte voorspelt adhv een x-waarde C voor ons een ywaarde 8C via 8 = 4 + ƒ .
o Betrouwbaarheidsinterval voor de gemiddelde respons bij een gegeven C : omdat "# en $
+$
C ). Na de bepaling van Var("# + $)0 ) [zie p.317]
onvertekend zijn, geldt: w(h) = w("
vinden we
෡ ା࡮
෡ ૙ ൯ିሺࢇା࢈૙ ሻ
൫࡭
ഥ൯
૚ ൫࢞ − ࢞
ࡿඨ࢔ା ૙ ૛
૛
F ± (࢔−૛,ࢻ/૛ &# +
“+2
~(࢔ି૛ zodat het 100(1-1)%-BI: ¤(
૚
࢔
ሺ࢔ష૚ሻ࢙࢞
{૙ ࢞n |૛
{࢔−૚|࢙૛࢞
¥.
o Predictie-interval voor de (individuele) respons bij gegeven C : nu gaan we kijken of we een
individuele respons 8C kunnen voorspellen adhv. een gegeven C .
en I², en dat
Er geldt: rF ~U(( + 2
F , ^²). Merk op dat hC onafhankelijk is van "#, $
C ) normaal verdeeld is met gemiddelde nul en een bepaalde variantie [zie
hC − (" + $
p.319] zodat
j+࡮
j ૙ )
K૙ (࡭
૛
ത൯
૚ ൫࢞ ష࢞
ࡿz૚+ + ૙ ૛
࢔ ሺ࢔−૚ሻ࢙ ࢞
~(࢔−૛ . Dit leidt tot het predictie-interval
{ ࢞n |૛
F ± (࢔−૛,ࢻ/૛ &# + + ૙ ૛ ¥. [Merk op: dit is breder dan het
“+2
¤(
{࢔−૚|࢙
࢔
૚
࢞
betrouwbaarheidsinterval voor gemiddelde respons, door de extra +1 onder de wortel].
VERGEET NIET: R-OUTPUT KENNEN! [zie slides].
Download