1 Statistiek deel 1: Theorie: 1. Inleiding Statistiek heeft drie

advertisement
Statistiek deel 1: Theorie:
1. Inleiding
Statistiek heeft drie objectieven:



Verzamelen van gegevens d.m.v. proefopzetten
Gegevens beschrijven;
methode ontwerpen om aspecten van gegevens te beschrijven
= beschrijvende statistiek = exploratory data analysis (Tukey)
Inductieve statistiek:
methoden ontwerpen om vanuit gegevens algemenere informatie te induceren
1.2 verzamelen van gegevens
om - vragen te beantwoorden
- gegevens verzamelen om een efficiënt antwoord te vinden
- geschikt onderzoeksplan of proefopzet (experimental design) kiezen
 experimenteel onderzoek:
manipuleren van de onafhankelijke variabelen om het effect te meten op de afhankelijke
variabelen.
 Correlationeel onderzoek:
verband nagaan tussen variabelen die van nature variëren zonder manipulatie
Niet noodzakelijk correlatie berekenen
1.3 Beschrijven van gegevens
Taken/vragen van de beschrijvende statistiek:
-
Kloppen de gegevens?
Gegevens inzichtelijk maken (methodische wijze ordenen en presenteren)
Reveleren van ongewone observaties en patronen en relaties.
Gegevens samenvatten, communiceerbaar maken
Grafische representatie! Die correct wordt afgebeeld
1.4 Induceren van algemenere informatie
-
Gegevens waarmee een onderzoeker werkt en waarover hij conclusie trekt zijn altijd
specifiek (n aantal specifieke metingen); personen, situaties, …
Algemenere conclusies trekken
naar mensen, naar situaties,…
= overstijgen van de gegevens = inductie
 kanstheorie voor het formaliseren
Inductie: van het bijzondere naar het algemene
(x, y, s hebben een bril en zijn mannen, alle mannen hebben brillen)
Deductie: van het algemene naar het bijzondere
(mannen hebben brillen, x heeft een bril, x is dus een man)
1


Deductieve afleidingen zijn doorgaans zeker. Voor inductieve afleidingen is dat meestal niet
het geval en speelt het begrip kans/waarschijnlijkheid een belangrijke rol
De inductieve statistiek verschaft hulpmiddelen om op basis van gegevens inductieve
redeneringen te maken
Opmerkingen:
1) Bij het realiseren van de 3 objectieven worden vragen gesteld
a. Hoe en welke gegevens worden verzameld
b. Welke aspecten van de observaties worden geregistreerd
c. Hoe worden de gegevens beschreven
d. Welke grafieken en samenvattingen worden gekozen
e. …
f. Inspiratie om het proces te beïnvloeden?
2) De 3 objectieven hangen inherent samen
a. Problemen indien de statisticus pas na gegevensverzameling wordt geconsulteert
b. Problemen bij gegevensverzameling zonder vragen
c. De problemen:
i. Gegevensbijschrijving
ii. Inductie
iii. Manier van gegevensverzameling
2. Noties uit de verzamelingenleer
Verzameling: geheel van objecten (entiteiten) die tot een verzameling behoren.
Object: algemene term, bv personen, getallen, vormen van psychotherapie, …
Voor elk object kan bepaald worden of het een element is van een verzameling (bv A)
x A, x A
Een verzameling kan op twee manieren gedefinieerd worden:



Door opsomming van de elementen ervan
Door een regel te geven die de kenmerkende eigenschappen van de elementen omschrijft.
Grafische voorstelling (Venn diagram)
Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool #
Een verzameling bestaat uit deelverzamelingen ( ). De lege verzameling en de verzameling zelf is
altijd een deelverzameling van een verzameling. Indien je alle mogelijke deelverzamelingen
verzamelt krijg je een machtsverzameling van een verzameling (bv. 2A). Indien je het kardinaalgetal
van een macht wilt weten verhef je het kardinaalgetal van de verzameling tot de macht.
Bewerkingen op verzamelingen:

Doorsnede:



Unie: : A
B= {x | x A of x B} (met of in de betekenis van en/of)
Verschil: \ : A \ B = {x| x A en x B}
Complement: c : Ac = \A
:A
B= {x | x
A en x B}
2
Enkele eigenschappen:
A
A
A
A
(A
B=B A
B=B A
Ø=Ø
Ø=A
B)c = Ac Bc


A
A
A
A
(A
(B C) = (A
(B C) = (A
(B C) = (A
(B C) = (A
B)c = Ac Bc
B)
B)
B)
B)
C
C
(A
(A
C)
C)
Partitie: opsplitsing van een verzameling in een stel niet-lege en niet-overlappende
deelverzamelingen
Cartesiaans product: productverzameling: verzameling van alle geordende koppels
LET OP: een verzameling wordt aangeduid met {}, een geordend koppel met ()
Bij geordende koppels is de volgorde binnen de haakjes van belang.
Kardinaal getal van zulk een verzameling:
#(A1 x A2) = #A1 x #A2
Relatie tussen twee verzamelingen: R A1 x A2
= de relatie tussen de elementen van de twee verzamelingen, kan je grafisch voorstellen a.d.h.v. een
pijlendiagram (en venn diagrammen)
Functie (f) is dan het beeldpunt van een van die elementen. Bv. Element x is 2, de relatie tot het
element van verzameling twee is x², dan is het beeldpunt 4. Bij een functie heeft elk element van de
eerste verzameling slechts één beeldpunt in de tweede verzameling. Andersom is het wel mogelijk
dat de tweede verzameling tot meerdere punten van de eerste verzameling in verband staat.
Notatie= f: A1  A2
a1
f(a1)
Indien andersom toch elk element van de tweede verzameling het beeldpunt is van slechts één
element uit de eerste verzameling spreken we over een bijectie.
A1 is het domein van de functie, f(A1) A2 is het bereik van de functie.
f(a1) is het beeldpunt of functiewaarde van a1.
Dit kan je grafisch voorstellen op een assenstelsel.
We spreken van een domein (waar je naar toe gaat), het bereik (waar je vertrekt) en het beeldpunt
of functiewaarde
Inversie van een functie: het inverse van een functie f van A1 naar A2 = f-1,
is de relatie R A2 x A1, dus van verzameling twee naar verzameling één. De inverse van een functie
hoeft niet noodzakelijk een functie te zijn.
Kardinaalgetal van een oneindig grote verzameling A:
A is aftelbaar ∞ 
bijectie f: A 
Bv.: {0, 1, ½, 1/3, ¼, …}, maar ook
, zelfs
 volgnummer kunnen geven
² en
zijn aftelbaar ∞(zonder bewijs)
3
Deel 1: beschrijvende statistiek
Gegevens of data komen tot stand als resultaat van een proef experiment. Slechts een gedeelte van
de informatie de de proef of het experiment oplevert wordt geregistreerd. Dit gedeelte is de
uitkomst van de proef en noteren we als ω . de verzameling van alle mogelijke uitkomsten noteren
we als Ω. Welk gedeelte van de informatie geregistreerd wordt hangt af van de vragen, theorieën of
hypothesen van de onderzoeker.
Meestal zijn de gegevens beschikbaar van verschillende ‘objecten’ of ‘(experimentele) eenheden’.
Dit gaat over elke situatie, elke meting, elk persoon, …
Het totaal aantal objecten of experimentele eenheden duiden we aan met de letter n. indien deze
eenheden geordend zijn kunnen we de opeenvolgende uitkomsten ordenen als ω1, ω2, ω3 …, ωn.
Een willekeurige uitkomst duiden we aan met de lopende of stomme index: ωi. I kan de waarden
aannemen van i tot en met n.
Gegevens kunnen gestructureerd worden door er variabelen op te definiëren.
X: Ω  V
ω
X(ω)
In het geval van n geordende uitkomsten noteren we de opeenvolgende x-beeldpunten X(ω1),
x(ω2),… x(ωn) respectievelijk als x1, x2, x3,…, xn Een willekeurig beeldpunt is dan xi
Het bereik van een variabele X(Ω) kan een deel zijn van
maar dit moet niet. We kunnen ook nietnumerieke waarden in getallen zetten. Echter, een aantal relaties tussen getallen en bewerkingen
ermee hebben dan niet altijd een betekenis. (denk aan meetniveau variabele).
Kwalitatieve variabele: het bereik bestaat uit een aantal waarden (categorieën) waarover geen
verdere claims worden gemaakt.
Kwantitatieve variabele: het bereik bestaat uit numerieke waarden waarvoor ordening, optellen en
aftrekken zinvol is.
1. Beschrijvende statistiek met 1 variabele
1.1 Frequentiefuncties
Kwalitatieve variabele:
Stel je hebt drie kwalitatieve woorden (m = 30) en 20 observaties (n = 20). We gebruiken hier bij x de
stomme index ‘j’. Dus:
Opeenvolgende observaties: x met i lopende van 1 tot n
Verschillende mogelijke X-waarden: x met j lopende van 1 tot m.
Voor elke waarde x van de variabele X kunnen we de frequentie bereken waarmee x in de gegevens
voorkomt. Genoteerd als freqx(x) of indien het duidelijk is om welke variabele het gaat gewoon
freq(x). freq(x1) + freq(x2) + … + freq(xm) = n. freq(x) is altijd een
Deze bovenste som zullen we verkort noteren als ∑
van
.
4
Ook kunnen we voor elke X-waarde zijn relatieve frequentie berekenen t.o.v. het aantal observaties
(n). Dit is de proportie (pX(x) of p(x)). Frequentie en proportie kunnen allebei als functies worden
opgevat.
De frequentie- en proportiefunctie kunnen worden voorgesteld op volgende manieren:
Lijndiagram:
Op de horizontale as (abscis) de waarden van de
variabele X en op de verticale as (ordinaat) de
waarden van freq(x) of p(x).
20
15
10
5
0
Staafdiagram
Lijnen vervangen door staven van gelijke breedte.
Belang van oppervlakte!
Tussen de staven wordt ruimte gelaten om
duidelijk te maken dat X een kwalitatieve
variabele is.
buitenshuis
thuis
werk
buitenshuis
thuis
werk
20
15
10
5
0
Taartdiagram:
Enkel voor proportiefunctie
buitenshuis
thuis
werk
Kwantitatieve variabelen
Hiervoor kunnen ook frequentiefuctie freq(x) en proportiefunctie p(x) berekend worden. Ze kunnen
ook grafisch voorgesteld worden via een lijndiagram en enkele andere opties;
Histogram:
Een diagram met aansluitende even brede
staven. Elke staaf is 1 x-waarde, deze wordt in
het midden van de staaf aangedid. De
oppervlakte van de staven is ook hier recht
eenvredig met freq(x) of p(x). indien men werkt
met klassen moet men het middelpunt van deze
klassen kiezen.
Zet getalwaarden altijd in het midden!
5
Veelhoek of polygoon:
Door middelpunten van de bovenste lijnstukken
van de histogramstaven met elkaar te verbinden.
Interessant bij verband beschrijvende en
inductieve statistiek
Uitbijters: observaties die ver afwijken van de andere observaties. Het optreden van een uitbijter kan
veroorzaakt worden door bv fout in gegevensinvoer, fout bij meten, ongewone gebeurtenis, enz.
Uitbjters kunnen in een aantal gevallen de gevensanalyse verstoren.
Verder kunnen we ons nog andere vragen stellen:




Welke vorm nemen de functies aan?
Hebben ze één of meerdere toppen (modi)?
Zijn de functies sterk gepiekt rond de modi?
Zijn de functiesymmetrisch tov een middelpunt of zijn ze scheef?
Zijn ze negatief scheef (schuin naar boven en dan recht naar beneden) of
positief scheef (recht naar boven en dan schuin naar beneden)
Voor elke waarde van xj van X kan ook de cumulatieve frequentie (cfreq) worden bepaald: het aantal
observaties dat kleiner of gelijk is aan xj. Cfreqx(xj) = cfreq (xj) = ∑
.
Voor cumulatieve proportie-functie (F) noteren we het als volgt:
Fx(xj) = F (xj) = ∑
= p(X ≤ xj)
De laatste cfreq(xj) is altijd n. de laatste F(xj) is altijd 1.
Deze cumulatieve kan je ook grafisch weergeven:
Dit is ALTIJD stijgend.
F is een (niet strikt) stijgende
stapfunctie die loopt van 0 tot 1 en
cfreq is een (niet-strikt) stijgende
stapfunctie die loop van 1 tot n.
Bij 1 of n staat altijd een gesloten
bolletje die verder gaat met een lijn
zonder bolletje. Bij 0 staat altijd een
open bolletje die langs links verder
gaat met een lijn zonder bolletje.
De effectieve waarde is altijd een
gesloten bolletje.
6
Kwantielen
Als r
Geval 1
Geval 2
Geval 3
met 0≤ r ≤ 1 dan is het r-de kwantiel (notatie xr) van variabele X gedefinieerd als volgt:
Er is geen xj geobserveerd met F(xj) = r, dan is het r-de kwantiel gelijk aan de kleinste
geobserveerde xj met F(xj) > r
 kijken naar de x-waarde waarbij we voor het eerst over het kwantiel heen gaan
Er is een xj geobserveerd met F(xj) = r, dan is het r-de kwantiel gelijk aan het
gemiddelde van de kleinste geobserveerde X-waarde xj met F(xj) = r en de kleinste Xwaarde xj met F(xj) > r
 gemiddelde van de x-waarde zelf en de x-waarde van de eerste overschrijding
Er is zijn meerdere xj geobserveerd met F(xj) = r, dan is het r-de kwantiel gelijk aan
het gemiddelde van de kleinste geobserveerde X-waarde xj met F(xj) = r en de
kleinste X-waarde xj met F(xj) > r
 gemiddelde van de eerste x-waarde zelf en de x-waarde van de eerste
overschrijding
Bijzondere kwantielen:



Percentielen: Pc1, … Pc99. Bv x.05
Decielen: D1, … D9. Bv x.9
Kwartielen: Q1, Q2, Q3. Bv x.25, x.50, x.75
Xr kan bepaald worden via een tabel of een grafiek van de functie F:
Tabel
Grafiek
Soms moeten we de gegevens in klasse-intervallen indelen omdat dit overzichtelijker is. Deze
moeten even breed zijn en niet overlappen. De klassegrenzen (xI en xh) zijn de laagste en hoogste
waarden van een interval, hun gemiddelde (xI en xh) /2 is het klassemiddelpunt.
definitie klassefrequentie: ∑
. Op dezelfde manier kunnen we ook
klasseproportiefuncties en cumulatieve functies bepalen
7
Grafieken kunnen misleidend zijn:





Meestal kiest men om de lengte van de ordinaat op 2/3 van die van de abscis te zetten. Dit is
echter niet noodzakelijk maar indien men de ordinaat groter maakt kan de indruk gewekt
worden van grotere verschillen tussen functie waarden
Het nulpunt van de ordinaat moet altijd 0 zijn
Gegroepeerde grafieken kunnen misleidend gemaakt worden door de keuze van intervallen
van ongelijke breedte, of staven van ongelijke breedte.
 schending proportionaliteitsregel
Vaak snijden ze ook stuk af vanonder, dit mag ook niet
Ook bij fantasiegrafieken wordt de proportionaliteitsregel soms geschonden
Een gegroepeerde frequentietabel kan ook
voorgesteld worden door een stam-en loof
diagram (Tukey). Deze bestaat uit de stam van
een klasse en de variaties er achter.
Verschillende lijnen van een stam en loof
diagram kunnen eenzelfde stam hebben (bv
klasse 1-4 en 5-9 hebben beiden stam 0)
Indien het loof uit meerdere cijfers bestaat
worden ze gescheiden door komma’s.
Je kan ook een legende bij de stam en
loofdiagram zetten. Deze legende kan opgaan
voor stam en/of loof. Dit zet men in een noot
erbij.
Voordelen: proportionaliteitsregel gaat op, alle
informatie uit oorspronkelijke frequentietabel
aanwezig
Stam = klassen
1.2 Samenvattende maten
Bij het samenvatten van gegevens is men geïnteresseerd in de informatie over


Iets als ‘het middelpunt’ van de frequentiefunctie
= centrale tendensmaten
Mate waarin gegevens globaal genomen van dit middelpunt en elkaar verwijderd zijn
= spreidingsmaten
Centrale tendensmaten:
Modus
Elke waarde x waarvoor freq(x) maximaal is.
Een functie kan unimodaal (één modus) of bimodaal zijn (meerdere modi).
bij extreem scheve verdelingen ligt de modus vaak verder van het centrum²
Mediaan
Mex : Pc50 = D5 = Q2
Je kan de mediaan berekenen door gebruik te maken van kwantielen of door de
observaties te ordenen en hernummeren (bv x1 ≤x2 ≤… ≤xn).
8
indien het aantal observaties (n) oneven is: Mex = xn+1 / 2
Indien het aantal observaties (n) even is: Mex = ( xn/2 + x(n/2)+1 ) 2
Bewijs in kader van Pc50 : pagina 35 geen leerstof
Rekenkundig
gemiddelde
̅
∑
∑
∑
De mediaan is robuuster dan het gemiddelde aangezien dat het gemiddelde gevoeliger is voor
uitbijters, anderzijds houdt het gemiddelde wel meer rekening met alle observaties. Vaak (niet altijd)
geldt voor een negatieve scheve frequentiefunctie dat het gemiddelde kleiner is dan de mediaan en
omgekeerd voor een positief scheve dat de mediaan kleiner is dan het gemiddelde. Bij symmetrische
zijn ze vaak gelijk.
Enkele belangrijke eigenschappen van het gemiddelde (+ bewijzen pagina 37-38)=
∑
̅
 sommatie van het verschil tussen elke observatie min het gemiddelde is nul
Regel van Steiner (bewijs niet kennen, gebruikt trucje):
∑
∑
̅
̅
Dit wijst op het feit dat het gemiddelde de ideale maat is. Voor elk getal c dat niet het gemiddelde is
zal deze verder van elke observatie liggen dan het gemiddelde:
∑
̅
∑
Voor mediaan geld een analoge eigenschap:
∑
Mex is dus de waarde van a waarvoor ∑
∑
minimaal is.
Uitbijters:


Mediaan blijft hetzelfde (middelste blijft)
Gemiddelde verandert
9
Spreidingsmaten
Bereik
Interkwartielbereik
Max(X) – min(X)
gevoelig voor uitbijters
Q3 – Q1 (bereik van de middelste 50%)
Minder gevoelig voor uitbijters
Variantie
∑
̅
= gemiddelde kwadratische afstand van de observaties (xi) tov hun
gemiddelde (denk aan eerste eigenschap gemiddelde)
∑
̅
Standdaarddeviatie
√ ∑
̅
 Aangezien variantie niet uitgedrukt is op de schaal van de
oorspronkelijke gegevens, terug zelfde meeteenheid
√
∑
̅
Berekening van variantie en standaarddeviatie:
Bereken per observatie
̅ en maak direct gebruik van de bovenstaande
definities
Gebruik maken van volgende gelijkheid (bewijs p40!)
Methode 1
Methode 2
∑
̅
∑
̅
Bereken daartoe per observatie
Vertrek van de frequentie of proportietabel en maak gebruik van de formules:
Methode 3
∑
( )
̅
∑
∑ ( )
̅
∑ ( )
̅
( )
̅
Eigenschappen van variantie:

Dus
∑
∑
= hoe ver wijken observaties van elkaar af
is gelijk aan het gemiddelde kwadratische verschil tussen alle paren observaties. Bewijs p41!
10
 Ongelijkheid van Tchebyhev (bewijs p44, niet kennen)
̅
De proportie van de observaties die meer dan k standaarddeviaties afwijken van het gemiddelde
bedraagt hoogstens .
̅
Men kan de centrale tendens en spreidingsinformatie grafisch voorstellen in een boxplot (of box and
whisker) diagram van Tukey.
Met minimum en maximum
Q3 + 1.5 en Q1 – 1.5
Mag niet verder reiken dan maximum en minimum
1.3 Transformaties van variabelen
De scores op variabelen die men registreert zijn ruwe scores. Soms is een transformatie van deze
gegevens gewenst of simpel weg noodzakelijk. Enkele redenen:


Arbitraire redenen:
o Indien je de gemeten variabele in een andere eenheid zou willen
Bv kg  g
of
°F  °C
Noodzakelijke redenen:
o Indien men geïnteresseerd is in de afwijking van een ideale score
o Indien de warde de betekenis niet duidelijk vertegenwoordigd.
= inhoudelijke redenen
Behalve voor geluid kan men daar een fysische formule op plakken,
maar indien men geïnteresseerd is in de beleving van geluid moet men bv een
logaritme hiervan pakken
o De ruwe scores op zich zijn niet of niet goed interpreteerbaar.
Hierbij wordt de Z-transformatie gebruikt:
̅
11
Z-getransformeerde scores worden kortweg ook Z-scores of standaardscores genoemd. Deze scores
zijn enkel gedefinieerd als
.
o
Uitbijters kunne de verwerking van gegevens verstoren. Je kan dan deze uitbijters
elimineren, dit is best aanvaardbaar in extreme gevallen maar in minder extreme
gevallen kan men de gegevens transformeren. Men kan hiervoor de logtransformatie gebruiken.
In het algemeen beschouwen we transformaties f van variabelen:

f:
x
f(x)
Enkele bijzondere gevallen:


f(x) = ax + b
= lineaire transformatie
f(x) = log(x)
bv.: F(x) = Z(x)
Als Y = f(x) dan freqy(y) = freqx (f-1(y)) = ∑
Of in woorden: de frequentie van y is de som van alle frequenties van x-waarden die door de functie f
op y worden afgebeeld.
Een transformatie kan een frequentiefunctie op verschillende manieren vervormen, het kan het bv
samendrukken of uitrekken (bv log). Ook zullen bijvoorbeeld kwantielen onder een aantal
transformaties veranderen. Het heeft ook invloed op centrale tendensmaten:
̅̅̅̅̅̅
̅
Met als bijzonder geval: ̅̅̅
̅
bewijs pagina 51-52
Invloed van transformaties op spreidingsmaten:
Stel Y = f(x) met f(x) = ax + b
dan ̅̅̅̅̅̅
̅
̅
 bewijs pagina 52
Bijzonder geval:
Gevolg:
{
Beschrijvende statistiek met twee variabelen:
Per koppel variabelen kan frequentie en/of proportie berekend worden.
j kan hierbij alle waarden aannemen van 1 tot m (maximaal aantal mogelijke waarden van x) en j’ alle
waarden van 1 tot m’ (max aantal waarden van Y).
12
Bivariate frequentiefuncties kunnen worden samengevat in een contingentietabel (bivariate
frequentietabel. Met X vanboven in de tabel en Y links in de tabel. Hierbij heb je ook rij- en
kolomtotalen, deze zijn de marginale frequentiefuncties. Op dezelfde manier kunnen bivariate
proportiefuncties worden samengevat in een bivariate proportietabel.
Om deze gegevens grafisch voor te stellen kunnen we lijndiagrammen naast elkaar leggen, een (rugaan-rug)stam-en-loofdiagram gebruiken,…
Bivariate frequentie- of proportietabellen worden soms getransformeerd door elk element van de
tabel te vervangen door zijn verhouding t.o.v. de marginale waarde van de overeenkomstige rij; de
resulterende gegevens worden dan (rij-)conditionele proporties genoemd. Definitie:
(
)
( )
( )
Op dezelfde manier kan men (kolom)conditionele proporties berekenen. Gebruikmakend van de
marginale kolomtotalen. Definitie:
( )
(
)
(
)
Bivariate grafische voorstellingen:
Eventueel nodig om waarden te groepen, dan kan je het in een korte tabel zetten en grafisch
weergeven d.m.v. een perspectieftekening of een scatterdiagram. In een scatterdiagram kunnen
sommige verwijzen naar waardenkoppels die meer als 1x voorkomen. In sommige soorten
scatterdiagrammen worden deze koppels aangeduid met een dikkere punt (of ander symbool).
1.4 Samenvattende maten:
1. centrale tendensmaten
conditionele centrale tendensmaten, bv conditionele gemiddelde:
̅̅̅̅̅̅̅̅̅̅̅̅
∑
(
∑
)
Dus je kijkt bijvoorbeeld per rij wat het gemiddelde, de proportie is. Analoog kan je dit ook doen voor
. Dan kijk je naar de kolommen.
2. spreidingsmaten
∑
(
)
̅̅̅̅̅̅̅̅̅̅̅̅̅̅
|
)
In woorden: alle y-waarden tot de tweede min het gemiddelde tot de tweede, gedeeld door
frequentie xj.
13
∑
(
̅̅̅̅̅̅̅̅̅̅̅̅̅̅
|
)
)
Op dezelfde manier kunnen we dit bereken voor X (x en y omwisselen).
1.5 Samenhang of associatiematen
Kwalitatieve variabelen
Proportie overeenstemming: frequentie van de variabelen waarbij twee waarden gelijk zijn.
Bijvoorbeeld aantal mannelijke patiënten die gebaat zijn bij therapie 1 en 2.
indien je deze frequentie deelt door n heb je proportie overeenstemming.
Kwantitatieve variabelen
Associatiematen
Covariantie:
(
)
∑
̅
̅
A: xi <
B: xi >
C: xi <
A: xi >
̅ en yi < ̅
̅ en yi < ̅
̅ en yi > ̅
̅ en yi > ̅
A en D in meerderheid: positief verband
 B en C in meerderheid: negatief
verband
Eigenschappen:
(
∑
)
̅ ̅
 chiastische kruisbeweging
(
)
∑∑
(
)
(
∑∑
)(
(
)
)(
̅ ̅
)
̅ ̅
 chiastische formule, optellen over rooster; proportie bivariaat koppel,
14
(
)
( commutativiteit) meeteenheid gevoelig
(
)
Correlatie (productmoment)
 Lineair verband, onafhankelijk van meeteenheid (z transformatie)
(
)
∑
(symmetrisch)
--> Niet lineaire transformaties blijft r onveranderd
Bewijzen pagina 70 + 71 met truc
2. Optimale voorspelling
1. Algemene optimale voorspelling
Men wil een criterium voorspellen op basis van een voorspeller of predictor.
We kunnen voor 1 x-waarde slechts 1 yest waarde voorspellen.
Yjest = f(x) waarbij yjest buiten het waardengebied van y kan vallen.
Indien elke x-waarde slechts één beeld heeft, kunnen we grafisch een perfecte voorspelling maken,
anders moeten we het conditioneel gemiddelde pakken als voorspelling.
Dan hebben we een globale voorspellingsfout: de gekwadrateerde standaardfout van estimatie s²y.x :
∑
 Grillig grafisch verloop
2. Lineaire optimale voorspelling
Om het eenvoudiger te maken zoeken we een lineaire functie van x. hierdoor krijgen we een grote
voorspellingsfout s²y.x , in dit geval geldt dat : yjest = b0 + b1 xj
Dit is een regressievergelijking met b0 als regressieconstante en b1 het regressiegewicht van X.
̅
̅
15
dus
̅
(
̅
)
+
Totale variantie
∑
̅
Foutenvariantie
De variantie in Y die verklaard
(voorspeld) wordt door X
Gekwadrateerde standaardfout
Verklaarde variantie
∑
∑
̅
Determinatiecoëfficiënt:
Dus r² = welk stuk wordt ingenomen door VF? Hoeveel % je kan vatten met predictor?
Of indien we xjest willen voorspellen:: xjest = b0 + b1 yj
Dit is een regressievergelijking met b0 als regressieconstante en b1 het regressiegewicht van X.
̅
̅ = constante
= hellingscoëfficiënt
16
Bij optimale lineaire voorspelling van y op basis van x (of omgekeerd):


Legt rxy het verband tussen de Z-scores op X (y) en de voorspelde z-scores op Y(X)
Geeft r²xy de proportie variantie aan in Y(X die verklaard wordt bij voorspelling van y(x) op
basis van x(y)
17
18
Drie opmerkingen:
1) De correlatie rxy legt een verband tussen z-scores. De correlatie bevat op zichzelf geen
informatie over het gemiddelde en de spreiding van X en Y.
2) De correlatie heeft alleen betrekking op de lineaire band tussen X en Y.
Er kan dus nog een algemene perfecte voorspelling mogelijk zijn. Kwaliteit van voorspelling
bv hardlopen met of zonder korset
r²xy ≠ 1: geen perfecte lineaire voorspelling mogelijk maar misschien wel algemene optimale
voorspelling
r²xy =0 : fiasco, je kan niets voorspellen
3) Aan de correlatie kunnen verschillende inhoudelijke verhalen worden gekoppeld waartussen
niet zonder meer op wiskundige basis kan worden gekozen:
a. Geen inhoudelijke wetmatigheid achter de correlatie. = spurious correlation
ooievaars en geboorte: niet noodzakelijk in populatie zo, enkel toeval
b. Er gaat een causaal verband schuil achter de correlatie:
i. Direct causaal pad (van x naar y of omgekeerd)
ii. Causaal pad van x naar y (of visa versa) via mediatorvariabele W
iii. Een derde variabele W direct of indirect zowel x als Y veroorzaakt
Als er geen perfecte lineaire voorspelling mogelijk is, kunnen hiervoor twee redenen zijn:
1) Minstens één waarde xj van x er meerdere y-waarden voorkomen
2) Het feit dat alle conditionele gemiddelden niet op een rechte liggen
19
In het tweede geval kunnen we een optimale lineaire voorspelling overwegen met een
getransformeerde X en/of een getransformeerde Y. bv (niet heel belangrijk)
(
)
(
)
̃
̃
2.2 Somvariabelen
̅̅̅̅̅̅̅
̅
̅
: Z is criteriumvariabel en x+y is de predictor
Niet rx+y z = rxz + ryz (denk aan eigenschap rxy, is niet gewoon covariantie)
Bewijs pagina89
Gewogen sommen:
∑
̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅
∑
∑
∑
∑
∑
∑
̅̅̅
∑
∑
Vb van het laatste:
S -2 + x – 1.5 y
6+2u+3v+4w
=
2sxu + 3sxv + 4sxw – 3syu – 4.5syv – 6syw
A0 = 2
b0 = 6
k = 1 – 2 (twee variabelen)
j’ = 1 – 3 (3 variabelen)
3. Beschrijvende statistiek met meer dan twee variabelen
Methode van conditioneel werken
Men houdt de waarden van alle variabelen op één of twee na vast, en vervolgens gebruik je de
methoden uit univariatie of bivariate statistiek.
20
Optimale lineaire voorspelling van een criteriumvariabele
3.2 Algemeen geval:
yjest = b0 + b1 x1j + b2x2j waarbij de b’s zodanig gekozen worden dat de gekwadrateerde standaardfout
van estimatie zo klein mogelijk is. Dit wordt ook het probleem van meervoudige regressie genoemd.
Daarom hebben we de gekwadrateerde meervoudige correlatiecoëfficiënt (R²), die de kwaliteit van
de optimale linaire voorspelling uitdrukt in een getal tussen 0 en1. R² is daarbij de proportie van
variantie in Y die verklaard wordt door X1 en X2.
Voorspelling op basis van twee kwalitatieve predictorvariabelen
Tabellen met conditionele prestatiegemiddelden, waarbij (bij optelling) rechtsonderaan het globale
gemiddelde ̅ is weergeven. Indien de rijgemiddelden van mekaar verschillen zegt men dat er een
hoofdeffect is van bv X1, indien kolomgemiddelden verschillen is er een hoofdeffect van X2.
X2
X1
+1
-1
-1
b0 + b1 – b2
b0 - b1 – b2
b0 – b2
b2 = b0 – (b0 – b2)
+1
b0 + b1 + b2
b0 - b1 + b2
b0 + b2
b2 = (b0 +b2) - b0
b0 + b1
b0 - b1
b0
b1 = (b0 + b1) - b0
b1 = b0 (b0 – b1)
Dus 2b1 geeft de grootte van het hoofdeffect van X1 weer en 2b2 geeft de grootte van het
hoofdeffect van X2 weer. Bovendien is de optimale waarde van b0 het globale gemiddelde.
Let op interactie!
Er is geen interactie indien bij X1 enX2 bij de voorspelling van y:
1) Het verschil tussen de celgemiddelden in twee kolommen is gelijk over de rijen
2) Het verschil tussen de celgemiddelden in twee rijen is gelijk over de kolommen
3) De celgemiddelden kunnen worden bekomen als een eenvoudige optelsom van een
afzonderlijke X1 en een afzonderlijke X2 effect
4) In een grafiek met X1 als horizontale as en Y als verticale as zijn de lijnstukken voor de
verschillende waarden van X2 evenwijdig
5) In een grafiek met X2 als horizontale as en Y als verticale as zijn de lijnstukken voor de
verschillende waarden van X1 evenwijdig
Vier opmerkingen:
1) Alle 8 combinaties van aan en afwezigheden van hoofdeffecten en interactie kunnen
optreden bij de voorspelling van een kwantitatieve criteriumvariabele y op basis van twee
kwalitatieve predictorvariabele x1 en X2.
De aanwezigheid van interactie kan de hoofdeffecten kwalificeren
2) Bij het optreden van interacties wordt soms nog een onderscheid gemaakt tussen disordinale
en ordinale interacties, naar gelang in een grafische voorstelling de twee lijnstukken elkaar
wel al dan niet snijden (inbegrip gemeensch hoekpunt). Snijden = disordinaal
21
3) Bij interactie hebben we een interactieterm nodig om een lineaire vergelijking te maken:
yjest = b0 + b1 x1j + b2x2j + b3 x1j + x2j = interactieterm
b1 , b2 en b3 = gemiddelde y
4) Indien het gaat om meer dan twee verschillende waarden is er sprake van een hoofdeffect
van een predictorvariabele op y zodra minstens twee van de marginale y gemiddelden voor
die variabele verschillen. Verder spreekt men van interactie zodra voor minstens één 2x2
deeltabel van celgemiddelden de eigenschappen van de bovenstaande stelling niet opgaan.
22
Download