Sheets hoorcollege 1: hoofdstuk 1 Populatie: groep van individuen Variabele: eigenschap van individu Kwalitatieve variabele: mogelijke waarden zijn categorieën of niveaus. We onderscheiden 2 meetniveaus: Nominaal: de waarden van de variabele zijn ongeordend, bijv. kleuren. Ordinaal: de waarden zijn geordend, bijv. zeer mee eens t/m zeer mee oneens. Kwantitatieve variabele: mogelijke waarden zijn numeriek/meetbaar. We spreken van intervalvariabelen of (als er een “nulpunt” is) ratiovariabelen. Informatie over een variabele: vaak m.b.v. een steekproef van n waargenomen waarden x1, x2, …, xn van die variabele. Meetgegevens beschrijven: Exploratieve Data Analyse (EDA) 1 EDA-technieken: Samenvatten van meetgegevens: maten voor midden en spreiding e.d. (M.n. voor kwantitatieve variabelen) Grafische presentatie Maten voor het centrum (midden): 1. Het steekproefgemiddelde: n x 1 ...... x n 1 x n xi i 1 n 2. De Mediaan M: middelste waarneming in grootte. Bij een even aantal het gemiddelde van de middelste twee. 3. De modus: meest voorkomende waarneming. Percentielen en kwartielen: Voorbeeld: het 20ste percentiel is de waarde die de “grens” vormt tussen de kleinste 20 % en de grootste 80% van n gerangschikte waarnemingen. 2 n = 48: 20% van 48 is 9.6 Dus de 10de waarneming in grootte is het 20ste percentiel. Rangnummers → Waarnemingen→ 1 • 2 …..…..18 19 20 ….…..……89 90 •………...• • • ……………..• • 20% ↓ 80% ste 20 percentiel n = 90: 20% van 90 is (precies) 18: de “grens” ligt tussen de 18de en 19de waarneming in grootte. Het 20ste percentiel is het gemiddelde van de waarnemingen met rangnummers 18 en 19. Bepalen p-de percentiel gaat analoog: bepaal eerst p% van n De kwartielen Q1, Q2 en Q3 zijn het 25ste, 50ste en 75ste percentiel en delen de dataset op in vier (grofweg) gelijke kwarten. (Q2 is de mediaan M!) 25% 25% 25% 25% • •……….• •….• •……….• • ……….• • Q1 M Q3 3 Maten voor de spreiding 1. Interkwartielafstand IKA= Q3 – Q1 2. Steekproefvariantie s2: 2 1 x i x 2 s n 1 n-1 is het aantal vrijheidsgraden 3. Steekproefstandaardafwijking s: s s2 Eigenschappen s en s2 : s ≥ 0 en s2 ≥ 0 Als s = 0, zijn alle waarnemingen gelijk Uitschieters (uitbijters, outliers): ongewone waarnemingen. De 1.5×IKA-regel: waarnemingen groter dan Q3 + 1.5×IKA of kleiner dan Q1 - 1.5×IKA zijn uitschieters Resistente maten: niet gevoelig voor uitschieters Resistent: Mediaan en IKA 4 Niet-resistent: steekproefgemiddelde en steekproefvariantie Bij steekproeven met n waarnemingen: Frequenties: het aantal waarnemingen met een bepaalde numerieke waarde of in een bepaalde categorie Relatieve frequenties: frequenties gedeeld door n De verdeling van een variabele: alle mogelijke waarden (eventueel in klassen) en de bijbehorende (relatieve) frequenties. De 5-getallen-samenvatting: kleinste, Q1, M ,Q3 en grootste waarneming. Grafieken en diagrammen: 1. Staafdiagram (bar graph): -Op x-as: categorieën of waarden -Staven ter grootte van frequenties of relatieve frequenties 5 2. Taartdiagram (cirkel- / sectordiagram): -vooral voor kwalitatieve variabelen -opdeling cirkel in categorieën naar rato. 3. Stamdiagram (Stem-leaf diagram) Voorbeeld: stam blad 31 waarnemingen: 15 1 5556668 is de kleinste en 42 de 2 01334 2 55678999 grootste. 42 kwam dus twee keer voor in de 3 00123 dataset. Kleinste blad 3 579 het dichtst bij de stam 4 022 Splits de stam bij veel waarnemingen per stam (voorb: tientallen gesplitst) Rug-aan-rug stamdiagram voor vergelijken van twee steekproeven: geef ze in één diagram dezelfde stam. 4. Doosdiagram (boxplot) Geeft de 5 getallensamenvatting weer. Bij uitschieters deze apart weergeven en vervolgens voor de overige waarnemingen het doosdiagram. 6 5. Histogram Histogram van (relatieve) frequenties: Maak eerst een frequentietabel: Kies klassen (intervallen) van gelijke breedte en bepaal de frequenties. Het histogram bestaat uit rechthoeken boven de klassen op de x-as, met op de y-as frequenties of relatieve frequenties. Histogram bij ongelijke klassebreedte: de rechthoeken hebben een oppervlakte gelijk aan de relatieve frequentie. Noteer in de tabel per klasse de relatieve rel . freq. frequentie en hoogte breedte De hoogte is de frequentiedichtheid. ------------------------------------------------------------------------------------------------------------------------ 7 Let bij het geven van commentaar bij grafieken (m.n. histogrammen) op: de globale vorm van de verdeling: symmetrisch of scheef, 1 of meer pieken de ligging van het midden en de spreiding. Hiaten en mogelijke uitschieters Normale verdeling als model voor populatieverdeling (Relatieve) frekwentieverdeling van scores in populatie: populatieverdeling 120 100 80 60 40 Std. Dev = 6.18 20 Mean = 35.1 N = 1398.00 0 9.0 13.0 17.0 21.0 25.0 29.0 33.0 37.0 41.0 45.0 49.0 11.0 15.0 19.0 23.0 27.0 31.0 35.0 39.0 43.0 47.0 TOTSCORE 8 Grootheden die je kunt berekenen bij populatieverdeling: parameters Enkele parameters: =populatiegemiddelde , = (populatie)standaardafwijking Normale verdelingen als benadering van een populatieverdeling 120 100 80 60 40 Std. Dev = 6.18 20 Mean = 35.1 N = 1398.00 0 9.0 13.0 17.0 21.0 25.0 29.0 33.0 37.0 41.0 45.0 49.0 11.0 15.0 19.0 23.0 27.0 31.0 35.0 39.0 43.0 47.0 TOTSCORE 9 Als we relatieve frekwenties gebruiken, is het totale oppervlak van het histogram gelijk aan 1. Idem voor oppervlak onder 1 x 2 ( ) 1 e 2 "normale curve": 2 2 1. Tussen en ligt 68% van de waarnemingen. 2. Tussen 2 en 2 ligt 95% van de waarnemingen. 3. Tussen 3 en 3 ligt 99.7% van de waarnemingen. 10 Het standaardiseren van de normale verdeling: X X is N ( , ) Z is N(0,1) Z is standaardnormaal verdeeld Kansen P(Z≤ z) zijn getabelleerd in de standaardnormale tabel. Toepassen in een voorbeeld: De IQ’s van mensen in een populatie zijn normaal verdeeld met populatiegemiddelde µ = 120 en standaardafwijking σ = 10. Hoe groot is de kans dat een persoon uit die populatie een IQ kleiner dan 110 heeft? 11 Ofwel: wat is het percentage IQ’s <110 Oplossing: X, het IQ van een persoon, is X 120 N(120, 10) , dus Z is N(0,1) 10 X 120 110120 P ( X 110) P ( 10 ) 10 P ( Z 1.00) 0.1587 15.87% Andere toepassingen van normale verdelingen: Later leren we dat het steekproefgemiddelde X (onder zekere voorwaarden) normaal verdeeld is of bij benadering normaal verdeeld is. Idem voor allerlei andere steekproefgrootheden. 12