1. Inleiding 1.1. Wat is statistiek? Statistiek is zowel een wetenschap als een techniek die tot doel heeft het verzamelen, verwerken en interpreteren van waarnemingsgegevens. Beschrijvende statistiek Verklarende statistiek 1.2. Populatie en steekproef De populatie zijn alle mensen of dingen waarvan we een bepaalde eigenschap bestuderen. De steekproef zijn alle mensen of dingen waar we waarnemingen op uitvoeren. De omvang van de steekproef is het aantal ondervraagden. De waarneming of het variabele is het onderwerp van het onderzoek. 1.3. Representativiteit van een steekproef Representativiteit betekent dat elk element van de populatie dezelfde kans moet hebben om geselecteerd te worden voor de steekproef. 1.3.1. Selectie met randomgetallen Op basis van volkomen toevallig gekozen getallen, zoals in een loterij. 1.3.2. Gestratifieerde steekproef De steekproefgrootte wordt bepaald in functie van het belang of de omvang van de subpopulatie. 1.3.3. Getrapte steekproef Een procedure die bestaat uit het maken van een selectie in stapjes. De populatie wordt in subpopulaties ingedeeld, deze in nog kleinere deelpopulaties, enzovoort. 1.3.4. Systematische steekproef Tussen twee opeenvolgend selecties wordt steeds een min of meer gelijk aantal elementen overgeslagen, of het tijdsinterval tussen twee selecties is ongeveer gelijk. Het grootste gevaar voor de representativiteit bij vooral schriftelijke enquêtes is de zogenaamde non-respons, aangeschreven personen die nalaten het enquêteformulier in te vullen. 1.4. Statistische variabelen Een kenmerk dat onderwerp uitmaakt van een statistisch onderzoek noemen we een statistische variabele of waarneming. De resultaten bij een statistisch onderzoek zijn de waarnemingsgetallen of data. 1.4.1. Kwantitatieve of numerieke variabelen Kwantitatieve of numerieke variabelen zijn getallen. Als data slechts bepaalde waarden kunnen aannemen, spreken we van een discrete variabele. Als data alle reële waarden uit een interval kunnen aannemen, dan spreken we van een continue variabele. 1.4.2. Kwalitatieve of niet-numerieke variabelen Kwalitatieve variabelen zijn variabelen die niet met getallen kunnen worden beschreven. Kunnen de resultaten op natuurlijke of logische wijze geordend worden, dan spreken we van ordinale gegevens. Kunnen de resultaten niet op natuurlijke of logische wijze geordend worden, dan spreken we van nominale gegevens. 1.5. Het sigma- of somteken In het algemeen stellen we het aantal waarnemingen voor door de letter n. De n waarnemingsgetallen noteren we als volgt: x1, x2, x3, x4,…. xi,…. xn Om een gemiddelde te bekomen tellen we alle waarnemingsgetallen op en delen dit resultaat door de omvang n van de tabel. (Zie ook formule bladzijde 7) 2. Frequentietabellen 2.1. Frequentietabel van niet-gegroepeerde gegevens 1ste In de kolom noteren we alle verschillende waarnemingsgetallen, van klein naar groot. de In de 2 kolom gaan we turven. In de 3de kolom noteren we de absolute frequentie fi: het aantal keer dat elk getal voorkomt. In de 4de kolom komt de relatieve frequentie rfi: dit is het quotiënt van fi door de omvang van de tabel. In de 5de kolom noteren we de cumulatieve absolute frequentie cfi: het totaal aantal waarnemingsgetallen kleiner dan of gelijk aan xi. de In de 6 kolom komt de cumulatieve relatieve frequentie crf i: het quotiënt van de cumulatieve absolute frequentie door de omvang n. 2.2. Frequentietabel van gegroepeerde gegevens Hoe bepalen we de grootte van de klassen? We zoeken het grootste en het kleinste waarnemingsgetal. We bepalen het verschil tussen deze. Dit verschil delen we door 10 en door 20 (want het aantal klassen ligt tussen 10 en 20) De klassenbreedte is dan elk natuurlijk getal dat daartussen ligt. (Zie voorbeeld bladzijden 9 en 10) 3. Grafische voorstelling Zie bundel. 4. Centrummaten 4.1. Het rekenkundig gemiddelde We tellen alle waarnemingen op en delen deze door de omvang. Definities: zie bladzijde 21. Eigenschappen: Als je bij elk waarnemingsgetal éénzelfde getal optelt of aftrekt, dan moet jij bij het rekenkundig gemiddelde ook hetzelfde getal optellen of aftrekken. Als je elk waarnemingsgetal door éénzelfde getal deelt of vermenigvuldigd, dan moet jij het rekenkundig gemiddelde ook door hetzelfde getal delen of vermenigvuldigen. Nadelen: Veel rekenwerk Een extreem hoog of extreem laag waarnemingsgetal (een uitschieter) heeft teveel invloed op het rekenkundig gemiddelde. 4.2. Mediaan De mediaan van een gerangschikte tabel waarnemingsgetallen is: Het middelste waarnemingsgetal als n oneven is. De halve som van de 2 middelste waarnemingsgetallen als n even is. Hoe zoeken we de mediaan in een frequentietabel? We berekenen een vertegenwoordiger voor de klassen, de klassenmiddens. We zoeken de middelste 2 waarnemingsgetallen. We maken de kolom cfi bij om te kunnen aflezen tot welke klassen die 2 waarnemingsgetallen behoren. De mediaan is dan gelijk aan de halve som (het gemiddelde) van de uitersten van die klasse. 4.3. De modus De modus Mo van een gerangschikte tabel waarnemingsgetallen, is het waarnemingsgetal dat het meest voorkomt, dus het waarnemingsgetal met de hoogste absolute frequentie fi. Hoe vinden we de modus? We maken een extra kolom genaamd “modus”. We zoeken de hoogste fi. De modus is nu het klassenmidden van de klasse me de hoogste absolute frequentie. 4.4. De kwartielen De kwartielen verdelen de gerangschikte tabel waarnemingsgetallen in 4 even dicht bevolkte gebieden. Als de omvang van de tabel gelijk is aan n, dan is: Q1 gelijk aan het waarnemingsgetal met rangorde (n+1) / 4 Q2 gelijk aan het waarnemingsgetal met rangorde 2(n+1) / 4 = (n+1) / 2 = Me Q3 gelijk aan het waarnemingsgetal met rangorde 3(n+1) / 4 Om deze te berekenen in een gewone reeks waarnemingsgetallen gebruiken we enkel Excel. Hebben we echter een gegroepeerde frequentietabel, dan: Voegen we een kolom crfi toe. Q1 is het klassenmidden van de grens voor de eerste 25% van de waarnemingsgetallen. Q2 is het klassenmidden van de grens voor de eerste 50% van de waarnemingsgetallen. Q3 is het klassenmidden van de grens voor de eerste 75% van de waarnemingsgetallen. 5. Spreidingsmaten Het is soms nuttig om te weten hoe de waarnemingsgetallen verspreid liggen ten opzichte van mekaar en van een centrummaat. 5.1. De variatiebreedte De variatiebreedte is: Het verschil tussen het grootste en het kleinste waarnemingsgetal in een tabel nietgegroepeerde gegevens. Het verschil tussen de bovengrens van de hoogste klasse en de ondergrens van de laagste klasse bij een gegroepeerde frequentietabel. Nadelen: Da variatiebreedte houdt enkel rekening met de twee uiterste waarnemingsgetallen. De variatiebreedte wordt te sterk beïnvloed door een uitzonderlijk groot of klein waarnemingsgetal. 5.2. De variantie – de standaardafwijking De variantie s² van een tabel waarnemingsgetallen wordt als volgt berekend: Zet alle waarnemingen in het kwadraat Maak hiervan de som Deel dit door n Trek het kwadraat van het rekenkundig gemiddelde hiervan af (Formules: zie bladzijde 28) De standaardafwijking s is gelijk aan de vierkantswortel van s². 5.3. De variatiecoëfficiënt De variatiecoëfficiënt V is gelijk aan de standaardafwijking gedeeld door het rekenkundig gemiddelde. V=s/x Opmerking: Het rekenkundig gemiddelde ronden we af op 1 cijfer meer na de komma dan de waarnemingsgetallen. De standaardafwijking ronden we af op 2 cijfers meer na de komma dan de waarnemingsgetallen. De variatiecoëfficiënt ronden we af op 3 cijfers meer na de komma dan de waarnemingsgetallen. 5.4. Interkwartielafstand De interkwartielafstand is het verschil tussen het derde en het eerste kwartiel. Interkwartielafstand = Q3 – Q1 Eigenschappen: De interkwartielafstand meet de spreiding ten opzichte van de mediaan. Binnen de interkwartielafstand ligt 50% (de helft) van alle waarnemingsgetallen.