sheets HC 1

advertisement
Sheets hoorcollege 1: hoofdstuk 1
Populatie: groep van individuen
Variabele: eigenschap van individu
 Kwalitatieve variabele: mogelijke
waarden zijn categorieën of niveaus.
We onderscheiden 2 meetniveaus:
Nominaal: de waarden van de variabele
zijn ongeordend, bijv. kleuren.
Ordinaal: de waarden zijn geordend,
bijv. zeer mee eens t/m zeer mee oneens.
 Kwantitatieve variabele: mogelijke
waarden zijn numeriek/meetbaar.
We spreken van intervalvariabelen of
(als er een “nulpunt” is) ratiovariabelen.
Informatie over een variabele: vaak m.b.v.
een steekproef van n waargenomen
waarden x1, x2, …, xn van die variabele.
Meetgegevens beschrijven:
Exploratieve Data Analyse (EDA)
1
EDA-technieken:
 Samenvatten van meetgegevens:
maten voor midden en spreiding e.d.
(M.n. voor kwantitatieve variabelen)
 Grafische presentatie
Maten voor het centrum (midden):
1. Het steekproefgemiddelde:
n
x
1  ......  x n
1
x
 n  xi
i 1
n
2. De Mediaan M: middelste waarneming
in grootte. Bij een even aantal het
gemiddelde van de middelste twee.
3. De modus: meest voorkomende
waarneming.
Percentielen en kwartielen:
Voorbeeld: het 20ste percentiel is de
waarde die de “grens” vormt tussen de
kleinste 20 % en de grootste 80% van n
gerangschikte waarnemingen.
2
 n = 48: 20% van 48 is 9.6
Dus de 10de waarneming in grootte is het
20ste percentiel.
Rangnummers →
Waarnemingen→
1
•
2 …..…..18 19 20 ….…..……89 90
•………...• • • ……………..• •
20%
↓
80%
ste
20 percentiel
 n = 90: 20% van 90 is (precies) 18:
de “grens” ligt tussen de 18de en 19de
waarneming in grootte. Het 20ste
percentiel is het gemiddelde van de
waarnemingen met rangnummers 18 en
19.
Bepalen p-de percentiel gaat analoog:
bepaal eerst p% van n
De kwartielen Q1, Q2 en Q3 zijn het 25ste,
50ste en 75ste percentiel en delen de dataset
op in vier (grofweg) gelijke kwarten.
(Q2 is de mediaan M!)
25%
25%
25%
25%
•
•……….• •….• •……….• • ……….• •
Q1
M
Q3
3
Maten voor de spreiding
1. Interkwartielafstand IKA= Q3 – Q1
2. Steekproefvariantie s2:
2 1
 x i  x 2
s
n 1
n-1 is het aantal vrijheidsgraden
3. Steekproefstandaardafwijking s:
s  s2
Eigenschappen s en s2 :
 s ≥ 0 en s2 ≥ 0
 Als s = 0, zijn alle waarnemingen gelijk
Uitschieters (uitbijters, outliers):
ongewone waarnemingen.
De 1.5×IKA-regel: waarnemingen groter
dan Q3 + 1.5×IKA of kleiner dan
Q1 - 1.5×IKA zijn uitschieters
Resistente maten: niet gevoelig voor
uitschieters
 Resistent: Mediaan en IKA
4
 Niet-resistent: steekproefgemiddelde en
steekproefvariantie
Bij steekproeven met n waarnemingen:
 Frequenties: het aantal waarnemingen
met een bepaalde numerieke waarde of
in een bepaalde categorie
 Relatieve frequenties: frequenties
gedeeld door n
De verdeling van een variabele: alle
mogelijke waarden (eventueel in klassen)
en de bijbehorende (relatieve) frequenties.
De 5-getallen-samenvatting:
kleinste, Q1, M ,Q3 en grootste
waarneming.
Grafieken en diagrammen:
1. Staafdiagram (bar graph):
-Op x-as: categorieën of waarden
-Staven ter grootte van frequenties of
relatieve frequenties
5
2. Taartdiagram (cirkel- / sectordiagram):
-vooral voor kwalitatieve variabelen
-opdeling cirkel in categorieën naar rato.
3. Stamdiagram (Stem-leaf diagram)
Voorbeeld:
stam blad
31 waarnemingen: 15
1 5556668
is de kleinste en 42 de
2 01334
2 55678999 grootste. 42 kwam dus
twee keer voor in de
3 00123
dataset. Kleinste blad
3 579
het dichtst bij de stam
4 022
 Splits de stam bij veel waarnemingen
per stam (voorb: tientallen gesplitst)
 Rug-aan-rug stamdiagram voor
vergelijken van twee steekproeven: geef
ze in één diagram dezelfde stam.
4. Doosdiagram (boxplot)
Geeft de 5 getallensamenvatting weer.
Bij uitschieters deze apart weergeven en
vervolgens voor de overige
waarnemingen het doosdiagram.
6
5. Histogram
 Histogram van (relatieve) frequenties:
Maak eerst een frequentietabel:
Kies klassen (intervallen) van gelijke
breedte en bepaal de frequenties.
Het histogram bestaat uit rechthoeken
boven de klassen op de x-as, met op de
y-as frequenties of relatieve frequenties.
 Histogram bij ongelijke klassebreedte:
de rechthoeken hebben een oppervlakte
gelijk aan de relatieve frequentie.
Noteer in de tabel per klasse de relatieve
rel . freq.
frequentie en hoogte 
breedte
De hoogte is de frequentiedichtheid.
------------------------------------------------------------------------------------------------------------------------
7
Let bij het geven van commentaar bij
grafieken (m.n. histogrammen) op:
 de globale vorm van de verdeling:
symmetrisch of scheef, 1 of meer pieken
 de ligging van het midden en de
spreiding.
 Hiaten en mogelijke uitschieters
Normale verdeling als model voor
populatieverdeling
(Relatieve) frekwentieverdeling van
scores in populatie:
populatieverdeling
120
100
80
60
40
Std. Dev = 6.18
20
Mean = 35.1
N = 1398.00
0
9.0 13.0 17.0 21.0 25.0 29.0 33.0 37.0 41.0 45.0 49.0
11.0 15.0 19.0 23.0 27.0 31.0 35.0 39.0 43.0 47.0
TOTSCORE
8
Grootheden die je kunt berekenen bij
populatieverdeling: parameters
 Enkele parameters:
 =populatiegemiddelde ,
= (populatie)standaardafwijking
Normale verdelingen als benadering
van een populatieverdeling
120
100
80
60
40
Std. Dev = 6.18
20
Mean = 35.1
N = 1398.00
0
9.0 13.0 17.0 21.0 25.0 29.0 33.0 37.0 41.0 45.0 49.0
11.0 15.0 19.0 23.0 27.0 31.0 35.0 39.0 43.0 47.0
TOTSCORE
9
Als we relatieve frekwenties gebruiken,
is het totale oppervlak van het
histogram gelijk aan 1.
Idem voor oppervlak onder
1 x  2
 (
)
1
e 2 
"normale curve":
2 2
1. Tussen    en    ligt 68% van
de waarnemingen.
2. Tussen   2 en   2 ligt 95%
van de waarnemingen.
3. Tussen   3 en   3 ligt 99.7%
van de waarnemingen.
10
Het standaardiseren van de normale
verdeling:
X 
X is N (  ,  )  Z 
is N(0,1)

Z is standaardnormaal verdeeld
Kansen P(Z≤ z) zijn getabelleerd in de
standaardnormale tabel.
Toepassen in een voorbeeld:
De IQ’s van mensen in een populatie
zijn normaal verdeeld met
populatiegemiddelde µ = 120 en
standaardafwijking σ = 10.
Hoe groot is de kans dat een persoon
uit die populatie een IQ kleiner dan 110
heeft?
11
Ofwel: wat is het percentage IQ’s <110
Oplossing:
X, het IQ van een persoon, is
X  120
N(120, 10) , dus Z 
is N(0,1)
10
X  120 110120
P ( X  110)  P (
 10 )
10
 P ( Z  1.00)  0.1587  15.87%
Andere toepassingen van normale
verdelingen:
Later leren we dat het
steekproefgemiddelde X (onder zekere
voorwaarden) normaal verdeeld is of
bij benadering normaal verdeeld is.
Idem voor allerlei andere
steekproefgrootheden.
12
Download