Beschrijvende Statistiek

advertisement
Inleiding Applicatie Software
Statgraphics
Beschrijvende Statistiek
OPDRACHT OVER BESCHRIJVENDE STATISTIEK
Beleggen
Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje en hij wil
dat gaan beleggen. Omdat u lid bent van een beleggingsclub vraagt hij u om advies. U bent bekend
met twee beleggingsstrategieën. Van beide strategieën heeft u in een bepaalde periode data verzameld
(dat wil zeggen: winstpercentages die met deze strategieën zijn behaald). Geef op grond van deze data
advies en leg de voor- en nadelen uit van beide strategieën uit.
Populatie en steekproef
KANSREKENING !
Populatie
'
$
Steekproef
Aselect
'$
1
&%
Beschrijvende
statistiek
&
%
Inferentiële statistiek
Beschrijvende statistiek (numeriek)
• Locatiematen
–
–
–
–
Gemiddelde
Mediaan
Modus
Percentielen, kwartielen
• Spreidingsmaten
–
–
–
–
Spreidingsbreedte, bereik, range
Interkwartielafstand
Variantie
Standaardafwijking
1
Populatie-gemiddelde en steekproefgemiddelde
• Als de populatie eindig is (neem aan dat hij N elementen bevat), kan men spreken over het
gemiddelde van de populatie
PN
xi
x1 + x2 + · · · + x N
µ=
= i=1
N
N
• Bedenk dat een populatie ook oneindig kan zijn.
• Voorbeeld: men doet onderzoek naar een etsproces. Er wordt een steekproef genomen en er
worden waarnemingen gedaan. In dit geval bestaat de populatie niet alleen uit het etsproces nu
maar ook in de toekomst. Deze populatie bestaat dus niet echt.
Het heet een HYPOTHETISCHE populatie.
• Ook als de populatie eindig is maar heel groot, wordt vaak gedaan als of het een oneindig grote
populatie is.
Populatie-gemiddelde en steekproef-gemiddelde
• Om
zo’n
hypothetische
populatie
te
beschrijven
wordt
een
KANSMODEL gebruikt. Er wordt aangenomen dat de waarnemingen van de populatie zich
gedragen volgens een bepaalde kansverdeling (bijvoorbeeld de normale verdeling).
• De verwachting van die kansverdeling heet dan de verwachte (gemiddelde) waarde van de populatie.
• Voor de verwachting wordt veel de Griekse letter µ gebruikt.
Populatiegemiddelde of verwachting (mean; expected value) bij een discrete verdeling
• Voorbeeld: geometrische verdeling. Je doet een experiment met kans p op succes en je haalt het
experiment net zo lang tot je succes hebt. De kans dat je de na i keer experimenteren succes
hebt is gelijk aan
P(i) = p ∗ (1 − p)i−1 .
• De verwachting of gemiddeld aantal dat je nodig zal hebben is dan gelijk aan
E(X ) =
∞
X
i ∗ P(i) .
i=1
• Opmerking: de uitkomst hiervan is 1/ p. Als je bij een zuivere dobbelsteen dus net zo lang
doorgooit tot je een 4 gooit is het verwachte aantal dat je nodig hebt 6.
Populatiegemiddelde of verwachting (mean; expected value) bij een continue verdeling
• Voorbeeld: de temperatuur bij een chemisch proces kan zich gedragen volgens een bepaalde
kansverdeling. Deze kansverdeling heet continu omdat de temperatuur alle waarden kan aannemen op een bepaald interval. Zo’n kansverdeling wordt gemodelleerd met een kansdichtheid
en de verwachting wordt uitgerekend met behulp van een integraal
Z ∞
µ = E(X ) =
x f (x)d x .
−∞
waarin f (x) de kansdichtheid is.
• Een veel gebruikte verdeling is de normale verdeling.
2
Populatie-variantie
• Als de populatie discreet is, wordt de variantie van de populatie (dat is een maat voor de spreiding) gedefinieerd als
σ2 =
∞
X
(i − µ)2 P(i).
i=1
• Als de populatie continu is, wordt de variantie van de populatie (dat is een maat voor de spreiding) gedefinieerd als
Z ∞
σ2 =
(x − µ)2 f (x)d x .
−∞
Normale verdeling
• De kansdichtheid van een normaal verdeelde stochast X is
f X (x) =
2
1
− (x−µ)
√ e 2σ 2 .
σ 2π
• Voor de verwachting geldt
E(X ) = µ .
• De variantie is gelijk aan
V (X ) = σ 2 .
• Notatie
X ∼ N (µ, σ 2 ) .
Standaard normale verdeling
• Een standaard normale verdeling is een normale verdeling met µ = 0 en σ = 1 .
• Voor de kansdichtheid geldt dus
z2
1
f Z (z) = √ e− 2 .
2π
• Een stochast die standaard normaal verdeeld is wordt meestal aangeduid met de letter Z
• De kansdichtheid van een standaard normaal verdeelde stochast wordt genoteerd met de griekse
letter φ: φ(z) = f Z (z).
Standaardisatie
• Kansen met betrekking tot een normaal verdeelde stochast kunnen worden uitgerekend met
behulp van de standaard normale verdeling.
• Laat X ∼ N (µ, σ 2 ) . Dan geldt voor de kans P(X ≤ x)
x −µ
P(X ≤ x) = 8
.
σ
3
• Laat de stochast X normaal verdeeld zijn met µ = 10 en σ 2 = 16, X ∼ N (10, 16) .
• Er geldt bijvoorbeeld
17.4 − 10
17.4 − 10
X − 10
=P Z≤
≤
4
4
4
= P(Z ≤ 1.85) = 8(1.85) = 0.9678.
P (X ≤ 17.4) = P
Symmetrie
• De normale kansdichtheid is symmetrisch rond µ. Er geldt voor alle a
P(X ≤ µ − a) = P(X ≥ µ + a).
• Meer in het bijzonder geldt dit ook voor de standaardnormale verdeling. Er geldt voor alle z
P(Z ≤ −z) = P(Z ≥ z).
Of anders gezegd
8(−z) = 1 − 8(z).
Schatten van populatiegemiddelde met steekproef-gemiddelde
• Om de populatie te onderzoeken wordt een steekproef genomen.
• Als de waarnemingen uit de steekproef genoteerd worden met
x1 , x2 , · · · , xn , dan wordt
Pn
xi
x1 + x2 + · · · + xn
x=
= i=1
n
n
het steekproef-gemiddelde genoemd.
• Dit steekproef-gemiddelde zal gebruikt worden als schatting voor µ .
• Op grond van het steekproefgemiddelde kan men ook een intervalschatting geven voor het populatiegemiddelde. Zo’n interval heet een betrouwbaarheidsinterval. Als men een 95% betrouwbaarheidsinterval voor het populatiegemiddelde geeft betekent het dat men in de 95% van de
gevallen op deze manier een goede uitspraak doet (de echte waarde ligt in het interval).
Schatten van populatie-variantie met steekproefvariantie
• De steekproef-variantie s 2 is gedefinieerd als
Pn
(xi − x)2
.
s 2 = i=1
n−1
Andere maten van spreiding
• Een andere maat voor de spreiding is het bereik
r = max(xi ) − min(xi ) .
• Ook een maat is de InterKwartielRange (zie verder)
4
Beschrijvende statistiek (grafisch)
• Stengel-en-bladdiagram
• Histogram
• Boxplot
• Tijdreeksplot
• Normal Probability Plot
Stengel-en-bladdiagram
• Bij een stengel en blad diagram probeert men de data weer te geven met een stengel en bladeren.
1. Knip elk getal in twee stukken: de stengel (de eerste cijfers van getal) en het blad (de overige
cijfers van het getal).
2. Geef de stengel in een verticale kolom weer.
3. Geef elk blad weer naast de stengel.
4. Geef de eenheden.
5. Geef de aantallen bladeren
Stengel-en-bladdiagram
• Data
140,
160,
145,
155,
160,
153,
190,
145,
155,
170,
165,
175,
150,
175,
190,
170,
195,
180,
138,
135
• Het diagram wordt dan
13
14
15
16
17
18
19
58
055
0355
005
0055
0
005
Steekproef mediaan, percentielen, kwartielen, IQR
• De mediaan is die waarneming van de steekproef waarvoor geldt dat de helft van de waarnemingen groter is en de helft van de waarnemingen kleiner.
• Zet de getallen op volgorde van grootte. Deze worden genoteerd met
x(1) , x(2) , · · · , x(n) ,
dus
x(1) < x(2) < · · · < x(n) .
• Er geldt dus
x(1) = min{x1 , x2 , · · · , xn },
x(n) = max{x1 , x2 , · · · , xn }.
5
Steekproef mediaan, percentielen, kwartielen, IQR
• Zet de getallen op volgorde van grootte. Deze worden genoteerd met
x(1) < x(2) < · · · < x(n) .
• De mediaan is gelijk aan
[x(n/2) + x(n/2+1) ]/2 als n even is .
x((n+1)/2)
als
n
oneven
is
en
gelijk
aan
• Zo kunnen ook kwartielen gedefinieerd worden. Het eerste kwartiel is die waarneming van
de steekproef waarvoor geldt dat een kwart van de waarnemingen kleiner is dan die waarde en
driekwart van de waarnemingen groter. Het is dus waarneming x((n+1)/4) . Interpoleer weer
indien (n + 1)/4 niet geheel is.
Steekproef mediaan, percentielen, kwartielen, IQR
• Het eerste kwartiel (q1 ) is die waarneming van de steekproef waarvoor geldt dat een kwart van
de waarnemingen kleiner is dan die waarde en driekwart van de waarnemingen groter. Het is
dus waarneming x((n+1)/4) . Interpoleer weer indien (n + 1)/4 niet geheel is.
• Het derde kwartiel (q3 ) is die waarneming van de steekproef waarvoor geldt dat driekwart van de
waarnemingen kleiner dan die waarde is en een kwart van de waarnemingen groter. Het is dus
waarneming x(3(n+1)/4) . Interpoleer weer indien 3(n + 1)/4 niet geheel is.
• In het algemeen kan men spreken van het 100k-e percentiel. Hiervoor geldt dat 100k% van de
data
kleiner
dan
die
waarde
is
en
100(1 − k)% groter.
• De interkwartiel range (IQR) is gelijk aan q3 − q1 .
Frequentie verdeling
• Een frequentie verdeling is een meer compacte samenvatting van de data dan een blad en stengel
diagram. Het bereik van de data wordt verdeeld in intervallen (liefst van gelijke breedte), ook
wel cellen genoemd.
• Per cel wordt het aantal waarnemingen (de frequentie) gegeven.
• Het is ook inzichtelijk om de cumulatieve frequentie te geven.
√
• Een vuistregel voor het aantal cellen is n.
• Zoek naar het aantal cellen dat het meest inzichtelijke plaatje geeft.
• Soms zijn er intervallen van ongelijke breedte nodig.
• Voorbeeld: statgraphics
Histogram
• Een histogram is een plaatje dat gekoppeld is aan de frequentie verdeling.
• Het wordt als volgt gemaakt
1. Zet horizontaal de cellen uit.
2. Zet verticaal de frequentie uit.
3. Teken een rechthoek boven de cel met als hoogte de betreffende frequentie.
4. Voorbeeld: statgraphics.
6
• Ook een handig plaatje is de ’density trace. Zie statgraphics. Dit staat niet in het boek. De
’density trace’ is een functie die met behulp van de frequentie verdeling gemaakt is. Deze functie
geeft een idee van de onderliggende kansdichtheid.
Box-plots
• De doos bevat de helft van de waarnemingen (tussen het eerste kwartiel en het derde kwartiel).
• Bij de mediaan is een verticale lijn getekend.
• Aan de zijkanten van de doos zijn twee horizontale lijnen getekend. Aan de linkerkant is een lijn
die van het eerste kwartiel loopt naar de kleinste waarde van de waarnemingen die nog binnen
1.5 keer de I Q R ligt.
• Aan de rechterkant is een lijn die van het derde kwartiel loopt naar de grootste waarneming die
nog binnen 1.5 keer de I Q R ligt.
• Punten die nog kleiner zijn aan de linkerkant (of groter aan de rechterkant) maar wel binnen 3
maal de I Q R liggen heten uitschieters (outliers) en worden apart getekend in een Box-plot.
• Punten die NOG kleiner zijn aan de linkerkant (of groter aan de rechterkant) heten extreme
uitschieters (outliers) en worden liefst met een ander symbool apart getekend in een Box-plot.
Waarnemingen tegen de tijd
• Het kan nuttig zijn om de waarnemingen uit te zetten tegen de tijd (het tijdstip waarop de
waarnemingen zijn gedaan moet dan wel bekend zijn uiteraard).
• Op de x-as staat tegen de tijd uitgezet.
• Op de y-as staat de waarde van de waarneming uitgezet.
• Zo kan een trend ontdekt worden (of seizoensinvloeden).
• Voorbeeld: statgraphics.
Probability plot
• ’Probability plots’ zijn geschikt om te kijken of de waarnemingen uit een bepaalde kansverdeling
komen.
• Een histogram kan al een idee geven, maar probability plots geven een beter beeld.
• De waarnemingen worden uitgezet tegen een speciale schaal.
• De schaal is zodanig dat de waarnemingen bij de betreffende verdeling op een rechte lijn moeten
liggen.
7
Download