1 Wat is statistiek ? 1.1. Algemene omschrijving Voorbeelden : Conclusie : De statistiek is de wetenschap die de eigenschappen of kenmerken van een grote groep mensen, dieren of voorwerpen bestudeert. Ze doet dat door gegevens te verzamelen, te ordenen en te interpreteren. 1.2. Kwalitatieve en kwantitatieve kenmerken Sommige kenmerken kunnen weergegeven worden door getallen, eventueel gevolgd door een eenheid, dan spreken we van een kwantitatief kenmerk. Een kwantitatief kenmerk kan discreet of continu zijn. Discreet: als voor twee verschillende waarnemingsgetallen xi , x j de absolute waarde xi x j niet kleiner kan worden dan een zekere grenswaarde, bvb. aantal schoolgaande kinderen per gezin, schoenmaat, aantal haren op een veegborstel, … Continu: als voor de waarnemingsgetallen in principe alle getallen van een interval mogelijk zijn, bvb. gewicht (de maateenheid kan namelijk steeds verfijnd worden), lengte, etc… Afrondingen: als waarnemingsgetallen continu veranderen, dan worden toch vaak, door de beperktheid van de meetinstrumenten, de resultaten afgerond. Indien het kenmerk niet door een getal kan worden uitgedrukt, spreken we van een kwalitatief kenmerk. H1 Wat is statistiek? 1 1.3. Steekproef en populatie De groep individuen of objecten waarvan we het kenmerk willen onderzoeken, noemen we de populatie. Meestal is het ondoenbaar of onmogelijk om de gehele populatie te onderwerpen aan een onderzoek. Vaak nemen we daarom een klein gedeelte van de populatie, een steekproef. Een kok eet immers ook niet de hele pan soep leeg om uitspraken te doen over de kwaliteit. Wel belangrijk is dat voor het proeven goed wordt geroerd. De eetlepel soep die beoordeeld wordt, moet overeenkomen met (oftewel: moet representatief zijn voor) het geheel. Kenmerken van een steekproef De steekproef moet representatief zijn. Dat wil zeggen dat de steekproef een correct beeld moet geven van de verscheidenheid binnen de populatie, dat in de steekproef alle deelverzamelingen van de populatie evenredig vertegenwoordigd moeten zijn. Vb : De steekproef moet aselect zijn. Dat betekent dat elk element van de populatie dezelfde kans hebben om opgenomen te worden in de steekproef. Vb : Alle TV-polls op basis van SMS-en, alle internet-polls zijn daarom compleet onbetrouwbaar. 1.4. Onderverdelingen binnen de statistiek 1.4.1. Verzamelende statistiek Het verzamelen van de gegevens voor het onderzoek wordt gedaan via waarnemingen, tellingen of enquêtes bij de elementen van de steekproef. Het is belangrijk dat het vergaren van gegevens op een correcte manier gebeurt. Enerzijds moeten we erop letten dat de steekproef op een goede manier is tot stand gekomen en anderzijds moet het onderzoek zelf typische valkuilen vermijden. Zo is de vraagstelling bij enquêtes die peilen naar een mening van mensen een bijzonder delicate H1 Wat is statistiek? 2 materie. Vragen als: “U vindt toch ook dat dit wasmiddel witter wast?” zijn immers suggestief. 1.4.2. Beschrijvende statistiek De beschrijvende statistiek verzamelt gegevens en beschrijft de toestand door die gegevens te ordenen in tabellen, te verwerken, samen te vatten en grafisch voor te stellen. Ook worden gemiddelden, standaardafwijkingen, vormcoëfficiënten en eventuele correlaties (statistische verbanden) berekend. De gegevens worden dus letterlijk "beschreven" a.d.h.v. een beperkt aantal typerende parameters. Dit maakt het onderwerp uit van de hoofdstukken 2 en 3. 1.4.3. Verklarende statistiek De verklarende statistiek steunt op de resultaten uit de beschrijvende statistiek en op de kanstheorie om uitspraken te doen over de ganse populatie. H1 Wat is statistiek? 3 2 Ordenen en grafisch voorstellen van statistische gegevens 2.1. Het sigma-teken In de beschrijvende statistiek worden sommen van reële getallen dikwijls kort voorgesteld m.b.v. van een sigma-teken. 4 3 bv. x1 x2 x3 x4 xi y12 y22 y32 yi2 i 1 i 1 Eigenschappen van het sigma-teken : n n n i 1 i 1 ( xi yi ) xi yi i 1 n a.x i 1 i n a. xi i 1 n a n.a i 1 2.2. Niet-gegroepeerde frequentietabellen 2.2.1. Frequentie van een waarnemingsgetal Voorbeeld : We tellen bij 25 gezinnen het aantal kinderen en we verkrijgen volgende data (gegevens): 0 1 2 1 2 2 2 0 2 1 2 0 1 4 3 3 0 3 4 5 2 1 1 0 5 1 4 2 5 Om meer overzicht te krijgen, kunnen we de waarnemingsgetallen ordenen: 0 2 5 0 2 H2 Statistische gegevens 0 2 0 2 0 2 1 2 1 3 1 3 1 3 1 4 4 Vervolgens voeren we de volgende begrippen in: De enkelvoudige absolute frequentie ni is het aantal keren dat een waarnemingsgetal xi in de tabel voorkomt. De cumulatieve absolute frequentie cni is het aantal waarnemingsgetallen kleiner of gelijk aan xi. De relatieve frequenties geven de verhouding van de absolute frequenties tot de omvang van de tabel weer. Dus: en n fi i n cf i cni n De procentuele frequenties geven deze verhoudingen in % weer, i.p.v. door een decimaal getal. 2.2.2. Frequentietabel waarnemings -getallen enkelvoudige frequenties cumulatieve frequenties relatieve frequentie fi procentuele frequentie absolute frequentie cni relatieve frequentie cfi procentuele frequentie xi absolute frequentie ni 0 1 2 3 4 5 5 6 7 3 2 2 0.200 0.240 0.280 0.120 0.080 0.080 20.0% 24.0% 28.0% 12.0% 8.0% 8.0% 5 11 18 21 23 25 0.200 0.440 0.720 0.840 0.920 1.000 20.0% 44.0% 72.0% 84.0% 92.0% 100.0% 2.2.3. Grafische voorstelling De enkelvoudige frequenties kunnen worden voorgesteld door een staaf- of schijfdiagram. H2 Statistische gegevens 5 staafdiagram 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 aantal kinderen In Excel maken we gebruik van onderstaande functies voor het maken van een frequentietabel: AANTAL(geg): telt het aantal gegevens binnen een bereik met naam ‘geg’ MIN(geg): zoekt het minimum in een bereik met naam ‘geg’ MAX(geg): zoekt het maximum in een bereik met naam ‘geg’ INTERVAL(geg;…): berekent de enkelvoudige absolute frequentie van de waarnemingsgetallen in … die voorkomen in ‘geg’ We maken gebruik van de Wizard grafieken voor het tekenen van een staafdiagram (type kolom) en van een schijfdiagram (type cirkel). H2 Statistische gegevens 6 Oefening Open het bestand ‘H1 oef1’. In het werkblad ‘gegevens’ vind je de schoenmaten van 100 proefpersonen. Deze gegevens dragen de naam ‘geg’. Maak in het werkblad ‘tabel’ een niet-gegroepeerde frequentietabel. Teken daarna een bijbehorend staaf- en schijfdiagram. 2.3. Gegroepeerde frequentietabellen 2.3.1. Voorbeeld We bepalen de lichaamslengte in cm van 100 16-jarige jongens, afgerond op de eenheid: 175 173 155 161 170 183 189 165 171 159 160 165 158 168 172 179 162 165 173 153 193 176 169 164 165 163 177 170 184 174 157 168 162 154 165 176 163 166 169 167 186 155 159 168 150 166 180 176 185 170 183 177 176 168 188 162 167 182 157 171 172 176 158 164 167 180 163 169 166 154 179 168 169 164 168 167 172 165 156 171 172 160 164 180 161 169 175 159 166 159 172 179 174 159 169 181 167 166 173 180 Door de omvang van deze gegevens zou een niet-gegroepeerde frequentietabel zeer onoverzichtelijk zijn. Daarom kiezen we er hier voor om de gegevens te groeperen, zodanig dat: - elk waarnemingsgetal tot precies één klasse behoort; - elke klasse vertegenwoordigd wordt door het klassenmidden; - aan de hand van het aantal waarnemingsgetallen in een klasse de klassenfrequenties berekend worden. H2 Statistische gegevens 7 Voor het bepalen van de klassenbreedte, berekenen we de variatiebreedte van de tabel: max – min = Deel de variatiebreedte door het gewenste aantal klassen (bvb. 10 à 15): Bepaal de eerste klasse: Met behulp van de gekozen klassenbreedte, kunnen nu alle klassen bepaald worden en de bijbehorende klassenfrequenties berekend worden: aantal 100 kiezen: min 150 OGKL1 150 max 193 KLBR 4 bereik 43 KLASSENGRENZEN [ [ [ [ [ [ [ [ [ [ [ 150 154 158 162 166 170 174 178 182 186 190 154 158 162 166 170 174 178 182 186 190 194 [ [ [ [ [ [ [ [ [ [ [ MIDDEN xi ni cni fi cfi 152 156 160 164 168 172 176 180 184 188 192 2 7 11 16 22 14 11 8 5 3 1 2 9 20 36 58 72 83 91 96 99 100 2% 7% 11% 16% 22% 14% 11% 8% 5% 3% 1% 2% 9% 20% 36% 58% 72% 83% 91% 96% 99% 100% 2.3.2. Praktische werkwijze en definities - bereken de variatiebreedte - bepaal de klassenbreedte: deel de variatiebreedte door het aantal gewenste klassen - kies een ondergrens voor de eerste klasse en bepaal vervolgens de andere klassengrenzen m.b.v. de klassenbreedte - bereken klassenmidden en – frequenties: klassenmidden = halve som van de klassengrenzen H2 Statistische gegevens 8 enkelvoudige absolute frequentie van een klasse = aantal gegevens dat tot die klasse behoort cumulatieve absolute frequentie van een klasse = aantal gegevens dat tot die klasse en de lagere klassen behoort relatieve frequenties = verhouding van de absolute frequenties tot de omvang van de steekproef 2.3.2. Grafische voorstelling van een gegroepeerde frequentietabel Histogram De enkelvoudige klassenfrequenties worden voorgesteld door rechthoeken, waarvan de oppervlakte evenredig is met de bijbehorende frequentie. Voorbeeld: Histogram 25 20 ni 15 10 5 0 152 156 160 164 168 172 176 180 184 188 192 klassenmiddens H2 Statistische gegevens 9 Enkelvoudige frequentiepolygoon is een lijngrafiek die de enkelvoudige frequentie weergeeft. Voorbeeld: enkelvoudige frequentiepolygoon 25 20 ni 15 10 5 0 148 152 156 160 164 168 172 176 180 184 188 192 196 klassenmiddens Cumulatieve frequentiepolygoon is een lijngrafiek die de cumulatieve frequentie weergeeft. Voorbeeld: cumulatieve frequentiepolygoon 120 100 80 60 40 20 0 150 154 158 162 166 170 174 178 182 186 190 194 klassengrenzen H2 Statistische gegevens 10 Oefeningen 1. Open het bestand ‘H2 oef2’. In het werkblad ‘gegevens’ vind je de hoeveelheid bier in 50 automatisch gevulde flesjes (in cl). Deze gegevens dragen de naam ‘geg’. Maak in het werkblad ‘tabel’ een gegroepeerde frequentietabel. Stel daarna deze gegevens grafisch voor door een histogram, een enkelvoudige en een cumulatieve frequentiepolygoon. 2. Open het bestand ‘H2 oef 3’. In het werkblad ‘gegevens’ vind je het IQ van 60 leerlingen. Deze gegevens dragen de naam ‘geg’. Maak in het werkblad ‘tabel’ een gegroepeerde frequentietabel. Stel daarna deze gegevens grafisch voor door een histogram, een enkelvoudige en een cumulatieve frequentiepolygoon. H2 Statistische gegevens 11 3 Statistische kengetallen 3.1. Centrumgetallen Centrumgetallen zijn kenmerkend voor de centrale ligging van de waarnemingsgetallen. Rekenkundig gemiddelde, mediaan en modus zijn centrumgetallen. 3.1.1. Rekenkundig gemiddelde Definitie: rekenkundig gemiddelde = p n In formulevorm: x som van de waarnemingsgetallen aantal waarnemingsgetallen x n x i 1 n i i i i 1 n (als er n gegevens zijn, waarvan p verschillende) In Excel gebruiken we hiervoor de functie gemiddelde(…:…). Voordeel van het gebruik van het rekenkundig gemiddelde: alle gegevens zijn betrokken bij de berekening en hebben dus invloed op de grootte van het rekenkundig gemiddelde. Nadeel hiervan is dat uitschieters (extreem lage of hoge waarde van waarnemingsgetallen) het rekenkundig gemiddelde beïnvloeden. Deze extremen hebben minder invloed op de mediaan. 3.1.2. Mediaan Definitie: De mediaan (Me) is het middelste waarnemingsgetal als het aantal gegevens oneven is en de halve som van de twee middelste waarnemingsgetallen als het aantal gegevens even is. In Excel klikken we hiervoor op het symbool fx in de werkbalk. Klik bij functiecategorie op Statistisch, bij functienaam op Mediaan, vervolgens op OK. Vul het bereik van de gegevensmatrix in. H3 Statistische kengetallen 12 2.1.3. Modus Definitie: De modus (Mo) is het waarnemingsgetal met de grootste enkelvoudige frequentie of het klassenmidden van de klasse met de grootste enkelvoudige frequentie. In Excel gebruiken we de functie ‘modus(…:…)’. 2.2. Spreidingsgetallen Statistische gegevens met dezelfde centrumgetallen kunnen toch nog van elkaar verschillen door de spreiding van de gegevens t.o.v. het centrumgetal. 2.2.1. Kwartielen Zoals de mediaan de gerangschikte gegevens in twee even dicht bevolkte delen verdeelt, verdelen de kwartielen de gerangschikte gegevens in vier even dicht bevolkte delen. We spreken van het eerste kwartiel (Q1), het tweede kwartiel (Q2) (= de mediaan) en het derde kwartiel (Q3). D.w.z. dat 25% van de gegevens kleiner of gelijk zijn dan Q1, 50% kleiner of gelijk dan Q2 en 75% kleiner of gelijk dan Q3. Werkwijze in Excel: zie berekening mediaan. Interkwartielafstand is het verschil tussen het derde en het eerste kwartiel. Grafische voorstelling: boxplot. Voorbeeld: (lichaamslengtes) H3 Statistische kengetallen 13 2.2.2. Variantie en standaardafwijking Definitie: De variantie is de gemiddelde kwadratische afwijking van de gegevens t.o.v. het rekenkundig gemiddelde. De standaardafwijking is de positieve vierkantswortel hieruit. x x n In formulevorm: var( x) s 2 i 1 i n n x x p 2 i 1 i 2 i n s var( x) In Excel gebruiken we de formule STDEVP(…:…). Oefening Bereken bij alle gemaakte voorbeelden en oefeningen het rekenkundig gemiddelde, de mediaan, de modus, het eerste en derde kwartiel, de variantie en standaardafwijking. Teken bij de laatste twee oefeningen een boxplot. H3 Statistische kengetallen 14