Inleiding Applicatie Software Statgraphics Beschrijvende Statistiek OPDRACHT OVER BESCHRIJVENDE STATISTIEK Beleggen Door een erfenis heeft een vriend van u onverwacht de beschikking over een klein kapitaaltje en hij wil dat gaan beleggen. Omdat u lid bent van een beleggingsclub vraagt hij u om advies. U bent bekend met twee beleggingsstrategieën. Van beide strategieën heeft u in een bepaalde periode data verzameld (dat wil zeggen: winstpercentages die met deze strategieën zijn behaald). Geef op grond van deze data advies en leg de voor- en nadelen uit van beide strategieën uit. Populatie en steekproef KANSREKENING ! Populatie ' $ Steekproef Aselect '$ 1 &% Beschrijvende statistiek & % Inferentiële statistiek Beschrijvende statistiek (numeriek) • Locatiematen – – – – Gemiddelde Mediaan Modus Percentielen, kwartielen • Spreidingsmaten – – – – Spreidingsbreedte, bereik, range Interkwartielafstand Variantie Standaardafwijking 1 Populatie-gemiddelde en steekproefgemiddelde • Als de populatie eindig is (neem aan dat hij N elementen bevat), kan men spreken over het gemiddelde van de populatie PN xi x1 + x2 + · · · + x N µ= = i=1 N N • Bedenk dat een populatie ook oneindig kan zijn. • Voorbeeld: men doet onderzoek naar een etsproces. Er wordt een steekproef genomen en er worden waarnemingen gedaan. In dit geval bestaat de populatie niet alleen uit het etsproces nu maar ook in de toekomst. Deze populatie bestaat dus niet echt. Het heet een HYPOTHETISCHE populatie. • Ook als de populatie eindig is maar heel groot, wordt vaak gedaan als of het een oneindig grote populatie is. Populatie-gemiddelde en steekproef-gemiddelde • Om zo’n hypothetische populatie te beschrijven wordt een KANSMODEL gebruikt. Er wordt aangenomen dat de waarnemingen van de populatie zich gedragen volgens een bepaalde kansverdeling (bijvoorbeeld de normale verdeling). • De verwachting van die kansverdeling heet dan de verwachte (gemiddelde) waarde van de populatie. • Voor de verwachting wordt veel de Griekse letter µ gebruikt. Populatiegemiddelde of verwachting (mean; expected value) bij een discrete verdeling • Voorbeeld: geometrische verdeling. Je doet een experiment met kans p op succes en je haalt het experiment net zo lang tot je succes hebt. De kans dat je de na i keer experimenteren succes hebt is gelijk aan P(i) = p ∗ (1 − p)i−1 . • De verwachting of gemiddeld aantal dat je nodig zal hebben is dan gelijk aan E(X ) = ∞ X i ∗ P(i) . i=1 • Opmerking: de uitkomst hiervan is 1/ p. Als je bij een zuivere dobbelsteen dus net zo lang doorgooit tot je een 4 gooit is het verwachte aantal dat je nodig hebt 6. Populatiegemiddelde of verwachting (mean; expected value) bij een continue verdeling • Voorbeeld: de temperatuur bij een chemisch proces kan zich gedragen volgens een bepaalde kansverdeling. Deze kansverdeling heet continu omdat de temperatuur alle waarden kan aannemen op een bepaald interval. Zo’n kansverdeling wordt gemodelleerd met een kansdichtheid en de verwachting wordt uitgerekend met behulp van een integraal Z ∞ µ = E(X ) = x f (x)d x . −∞ waarin f (x) de kansdichtheid is. • Een veel gebruikte verdeling is de normale verdeling. 2 Populatie-variantie • Als de populatie discreet is, wordt de variantie van de populatie (dat is een maat voor de spreiding) gedefinieerd als σ2 = ∞ X (i − µ)2 P(i). i=1 • Als de populatie continu is, wordt de variantie van de populatie (dat is een maat voor de spreiding) gedefinieerd als Z ∞ σ2 = (x − µ)2 f (x)d x . −∞ Normale verdeling • De kansdichtheid van een normaal verdeelde stochast X is f X (x) = 2 1 − (x−µ) √ e 2σ 2 . σ 2π • Voor de verwachting geldt E(X ) = µ . • De variantie is gelijk aan V (X ) = σ 2 . • Notatie X ∼ N (µ, σ 2 ) . Standaard normale verdeling • Een standaard normale verdeling is een normale verdeling met µ = 0 en σ = 1 . • Voor de kansdichtheid geldt dus z2 1 f Z (z) = √ e− 2 . 2π • Een stochast die standaard normaal verdeeld is wordt meestal aangeduid met de letter Z • De kansdichtheid van een standaard normaal verdeelde stochast wordt genoteerd met de griekse letter φ: φ(z) = f Z (z). Standaardisatie • Kansen met betrekking tot een normaal verdeelde stochast kunnen worden uitgerekend met behulp van de standaard normale verdeling. • Laat X ∼ N (µ, σ 2 ) . Dan geldt voor de kans P(X ≤ x) x −µ P(X ≤ x) = 8 . σ 3 • Laat de stochast X normaal verdeeld zijn met µ = 10 en σ 2 = 16, X ∼ N (10, 16) . • Er geldt bijvoorbeeld 17.4 − 10 17.4 − 10 X − 10 =P Z≤ ≤ 4 4 4 = P(Z ≤ 1.85) = 8(1.85) = 0.9678. P (X ≤ 17.4) = P Symmetrie • De normale kansdichtheid is symmetrisch rond µ. Er geldt voor alle a P(X ≤ µ − a) = P(X ≥ µ + a). • Meer in het bijzonder geldt dit ook voor de standaardnormale verdeling. Er geldt voor alle z P(Z ≤ −z) = P(Z ≥ z). Of anders gezegd 8(−z) = 1 − 8(z). Schatten van populatiegemiddelde met steekproef-gemiddelde • Om de populatie te onderzoeken wordt een steekproef genomen. • Als de waarnemingen uit de steekproef genoteerd worden met x1 , x2 , · · · , xn , dan wordt Pn xi x1 + x2 + · · · + xn x= = i=1 n n het steekproef-gemiddelde genoemd. • Dit steekproef-gemiddelde zal gebruikt worden als schatting voor µ . • Op grond van het steekproefgemiddelde kan men ook een intervalschatting geven voor het populatiegemiddelde. Zo’n interval heet een betrouwbaarheidsinterval. Als men een 95% betrouwbaarheidsinterval voor het populatiegemiddelde geeft betekent het dat men in de 95% van de gevallen op deze manier een goede uitspraak doet (de echte waarde ligt in het interval). Schatten van populatie-variantie met steekproefvariantie • De steekproef-variantie s 2 is gedefinieerd als Pn (xi − x)2 . s 2 = i=1 n−1 Andere maten van spreiding • Een andere maat voor de spreiding is het bereik r = max(xi ) − min(xi ) . • Ook een maat is de InterKwartielRange (zie verder) 4 Beschrijvende statistiek (grafisch) • Stengel-en-bladdiagram • Histogram • Boxplot • Tijdreeksplot • Normal Probability Plot Stengel-en-bladdiagram • Bij een stengel en blad diagram probeert men de data weer te geven met een stengel en bladeren. 1. Knip elk getal in twee stukken: de stengel (de eerste cijfers van getal) en het blad (de overige cijfers van het getal). 2. Geef de stengel in een verticale kolom weer. 3. Geef elk blad weer naast de stengel. 4. Geef de eenheden. 5. Geef de aantallen bladeren Stengel-en-bladdiagram • Data 140, 160, 145, 155, 160, 153, 190, 145, 155, 170, 165, 175, 150, 175, 190, 170, 195, 180, 138, 135 • Het diagram wordt dan 13 14 15 16 17 18 19 58 055 0355 005 0055 0 005 Steekproef mediaan, percentielen, kwartielen, IQR • De mediaan is die waarneming van de steekproef waarvoor geldt dat de helft van de waarnemingen groter is en de helft van de waarnemingen kleiner. • Zet de getallen op volgorde van grootte. Deze worden genoteerd met x(1) , x(2) , · · · , x(n) , dus x(1) < x(2) < · · · < x(n) . • Er geldt dus x(1) = min{x1 , x2 , · · · , xn }, x(n) = max{x1 , x2 , · · · , xn }. 5 Steekproef mediaan, percentielen, kwartielen, IQR • Zet de getallen op volgorde van grootte. Deze worden genoteerd met x(1) < x(2) < · · · < x(n) . • De mediaan is gelijk aan [x(n/2) + x(n/2+1) ]/2 als n even is . x((n+1)/2) als n oneven is en gelijk aan • Zo kunnen ook kwartielen gedefinieerd worden. Het eerste kwartiel is die waarneming van de steekproef waarvoor geldt dat een kwart van de waarnemingen kleiner is dan die waarde en driekwart van de waarnemingen groter. Het is dus waarneming x((n+1)/4) . Interpoleer weer indien (n + 1)/4 niet geheel is. Steekproef mediaan, percentielen, kwartielen, IQR • Het eerste kwartiel (q1 ) is die waarneming van de steekproef waarvoor geldt dat een kwart van de waarnemingen kleiner is dan die waarde en driekwart van de waarnemingen groter. Het is dus waarneming x((n+1)/4) . Interpoleer weer indien (n + 1)/4 niet geheel is. • Het derde kwartiel (q3 ) is die waarneming van de steekproef waarvoor geldt dat driekwart van de waarnemingen kleiner dan die waarde is en een kwart van de waarnemingen groter. Het is dus waarneming x(3(n+1)/4) . Interpoleer weer indien 3(n + 1)/4 niet geheel is. • In het algemeen kan men spreken van het 100k-e percentiel. Hiervoor geldt dat 100k% van de data kleiner dan die waarde is en 100(1 − k)% groter. • De interkwartiel range (IQR) is gelijk aan q3 − q1 . Frequentie verdeling • Een frequentie verdeling is een meer compacte samenvatting van de data dan een blad en stengel diagram. Het bereik van de data wordt verdeeld in intervallen (liefst van gelijke breedte), ook wel cellen genoemd. • Per cel wordt het aantal waarnemingen (de frequentie) gegeven. • Het is ook inzichtelijk om de cumulatieve frequentie te geven. √ • Een vuistregel voor het aantal cellen is n. • Zoek naar het aantal cellen dat het meest inzichtelijke plaatje geeft. • Soms zijn er intervallen van ongelijke breedte nodig. • Voorbeeld: statgraphics Histogram • Een histogram is een plaatje dat gekoppeld is aan de frequentie verdeling. • Het wordt als volgt gemaakt 1. Zet horizontaal de cellen uit. 2. Zet verticaal de frequentie uit. 3. Teken een rechthoek boven de cel met als hoogte de betreffende frequentie. 4. Voorbeeld: statgraphics. 6 • Ook een handig plaatje is de ’density trace. Zie statgraphics. Dit staat niet in het boek. De ’density trace’ is een functie die met behulp van de frequentie verdeling gemaakt is. Deze functie geeft een idee van de onderliggende kansdichtheid. Box-plots • De doos bevat de helft van de waarnemingen (tussen het eerste kwartiel en het derde kwartiel). • Bij de mediaan is een verticale lijn getekend. • Aan de zijkanten van de doos zijn twee horizontale lijnen getekend. Aan de linkerkant is een lijn die van het eerste kwartiel loopt naar de kleinste waarde van de waarnemingen die nog binnen 1.5 keer de I Q R ligt. • Aan de rechterkant is een lijn die van het derde kwartiel loopt naar de grootste waarneming die nog binnen 1.5 keer de I Q R ligt. • Punten die nog kleiner zijn aan de linkerkant (of groter aan de rechterkant) maar wel binnen 3 maal de I Q R liggen heten uitschieters (outliers) en worden apart getekend in een Box-plot. • Punten die NOG kleiner zijn aan de linkerkant (of groter aan de rechterkant) heten extreme uitschieters (outliers) en worden liefst met een ander symbool apart getekend in een Box-plot. Waarnemingen tegen de tijd • Het kan nuttig zijn om de waarnemingen uit te zetten tegen de tijd (het tijdstip waarop de waarnemingen zijn gedaan moet dan wel bekend zijn uiteraard). • Op de x-as staat tegen de tijd uitgezet. • Op de y-as staat de waarde van de waarneming uitgezet. • Zo kan een trend ontdekt worden (of seizoensinvloeden). • Voorbeeld: statgraphics. Probability plot • ’Probability plots’ zijn geschikt om te kijken of de waarnemingen uit een bepaalde kansverdeling komen. • Een histogram kan al een idee geven, maar probability plots geven een beter beeld. • De waarnemingen worden uitgezet tegen een speciale schaal. • De schaal is zodanig dat de waarnemingen bij de betreffende verdeling op een rechte lijn moeten liggen. 7