1 - InvisionFree

advertisement
1. Inleiding
1.1.
Wat is statistiek?
Statistiek is zowel een wetenschap als een techniek die tot doel heeft het verzamelen,
verwerken en interpreteren van waarnemingsgegevens.
 Beschrijvende statistiek
 Verklarende statistiek
1.2.
Populatie en steekproef
De populatie zijn alle mensen of dingen waarvan we een bepaalde eigenschap bestuderen.
De steekproef zijn alle mensen of dingen waar we waarnemingen op uitvoeren.
De omvang van de steekproef is het aantal ondervraagden.
De waarneming of het variabele is het onderwerp van het onderzoek.
1.3.
Representativiteit van een steekproef
Representativiteit betekent dat elk element van de populatie dezelfde kans moet hebben om
geselecteerd te worden voor de steekproef.
1.3.1.
Selectie met randomgetallen
Op basis van volkomen toevallig gekozen getallen, zoals in een loterij.
1.3.2.
Gestratifieerde steekproef
De steekproefgrootte wordt bepaald in functie van het belang of de omvang van de
subpopulatie.
1.3.3.
Getrapte steekproef
Een procedure die bestaat uit het maken van een selectie in stapjes. De populatie wordt in
subpopulaties ingedeeld, deze in nog kleinere deelpopulaties, enzovoort.
1.3.4.
Systematische steekproef
Tussen twee opeenvolgend selecties wordt steeds een min of meer gelijk aantal elementen
overgeslagen, of het tijdsinterval tussen twee selecties is ongeveer gelijk.
Het grootste gevaar voor de representativiteit bij vooral schriftelijke enquêtes is de
zogenaamde non-respons, aangeschreven personen die nalaten het enquêteformulier in te
vullen.
1.4.
Statistische variabelen
Een kenmerk dat onderwerp uitmaakt van een statistisch onderzoek noemen we een
statistische variabele of waarneming. De resultaten bij een statistisch onderzoek zijn de
waarnemingsgetallen of data.
1.4.1.
Kwantitatieve of numerieke variabelen
Kwantitatieve of numerieke variabelen zijn getallen.
 Als data slechts bepaalde waarden kunnen aannemen, spreken we van een discrete
variabele.
 Als data alle reële waarden uit een interval kunnen aannemen, dan spreken we van een
continue variabele.
1.4.2.
Kwalitatieve of niet-numerieke variabelen
Kwalitatieve variabelen zijn variabelen die niet met getallen kunnen worden beschreven.
 Kunnen de resultaten op natuurlijke of logische wijze geordend worden, dan spreken we
van ordinale gegevens.
 Kunnen de resultaten niet op natuurlijke of logische wijze geordend worden, dan
spreken we van nominale gegevens.
1.5.
Het sigma- of somteken
In het algemeen stellen we het aantal waarnemingen voor door de letter n. De n
waarnemingsgetallen noteren we als volgt:
x1, x2, x3, x4,…. xi,…. xn
Om een gemiddelde te bekomen tellen we alle waarnemingsgetallen op en delen dit resultaat
door de omvang n van de tabel. (Zie ook formule bladzijde 7)
2. Frequentietabellen
2.1.
Frequentietabel van niet-gegroepeerde gegevens
1ste
In de
kolom noteren we alle verschillende waarnemingsgetallen, van klein naar groot.
de
In de 2 kolom gaan we turven.
In de 3de kolom noteren we de absolute frequentie fi: het aantal keer dat elk getal voorkomt.
In de 4de kolom komt de relatieve frequentie rfi: dit is het quotiënt van fi door de omvang
van de tabel.
In de 5de kolom noteren we de cumulatieve absolute frequentie cfi: het totaal aantal
waarnemingsgetallen kleiner dan of gelijk aan xi.
de
In de 6 kolom komt de cumulatieve relatieve frequentie crf i: het quotiënt van de
cumulatieve absolute frequentie door de omvang n.
2.2.
Frequentietabel van gegroepeerde gegevens
Hoe bepalen we de grootte van de klassen?
 We zoeken het grootste en het kleinste waarnemingsgetal.
 We bepalen het verschil tussen deze.
 Dit verschil delen we door 10 en door 20 (want het aantal klassen ligt tussen 10 en 20)
 De klassenbreedte is dan elk natuurlijk getal dat daartussen ligt.
(Zie voorbeeld bladzijden 9 en 10)
3. Grafische voorstelling
Zie bundel.
4. Centrummaten
4.1.
Het rekenkundig gemiddelde
We tellen alle waarnemingen op en delen deze door de omvang.
Definities: zie bladzijde 21.
Eigenschappen:
 Als je bij elk waarnemingsgetal éénzelfde getal optelt of aftrekt, dan moet jij bij het
rekenkundig gemiddelde ook hetzelfde getal optellen of aftrekken.
 Als je elk waarnemingsgetal door éénzelfde getal deelt of vermenigvuldigd, dan moet jij
het rekenkundig gemiddelde ook door hetzelfde getal delen of vermenigvuldigen.
Nadelen:
 Veel rekenwerk
 Een extreem hoog of extreem laag waarnemingsgetal (een uitschieter) heeft teveel
invloed op het rekenkundig gemiddelde.
4.2.
Mediaan
De mediaan van een gerangschikte tabel waarnemingsgetallen is:
 Het middelste waarnemingsgetal als n oneven is.
 De halve som van de 2 middelste waarnemingsgetallen als n even is.
Hoe zoeken we de mediaan in een frequentietabel?
 We berekenen een vertegenwoordiger voor de klassen, de klassenmiddens.
 We zoeken de middelste 2 waarnemingsgetallen.
 We maken de kolom cfi bij om te kunnen aflezen tot welke klassen die 2
waarnemingsgetallen behoren.
 De mediaan is dan gelijk aan de halve som (het gemiddelde) van de uitersten van die
klasse.
4.3.
De modus
De modus Mo van een gerangschikte tabel waarnemingsgetallen, is het waarnemingsgetal dat
het meest voorkomt, dus het waarnemingsgetal met de hoogste absolute frequentie fi.
Hoe vinden we de modus?
 We maken een extra kolom genaamd “modus”.
 We zoeken de hoogste fi.
 De modus is nu het klassenmidden van de klasse me de hoogste absolute frequentie.
4.4.
De kwartielen
De kwartielen verdelen de gerangschikte tabel waarnemingsgetallen in 4 even dicht bevolkte
gebieden.
Als de omvang van de tabel gelijk is aan n, dan is:
 Q1 gelijk aan het waarnemingsgetal met rangorde (n+1) / 4
 Q2 gelijk aan het waarnemingsgetal met rangorde 2(n+1) / 4 = (n+1) / 2 = Me
 Q3 gelijk aan het waarnemingsgetal met rangorde 3(n+1) / 4
Om deze te berekenen in een gewone reeks waarnemingsgetallen gebruiken we enkel Excel.
Hebben we echter een gegroepeerde frequentietabel, dan:
Voegen we een kolom crfi toe.
 Q1 is het klassenmidden van de grens voor de eerste 25% van de waarnemingsgetallen.
 Q2 is het klassenmidden van de grens voor de eerste 50% van de waarnemingsgetallen.
 Q3 is het klassenmidden van de grens voor de eerste 75% van de waarnemingsgetallen.
5. Spreidingsmaten
Het is soms nuttig om te weten hoe de waarnemingsgetallen verspreid liggen ten opzichte van
mekaar en van een centrummaat.
5.1.
De variatiebreedte
De variatiebreedte is:
 Het verschil tussen het grootste en het kleinste waarnemingsgetal in een tabel nietgegroepeerde gegevens.
 Het verschil tussen de bovengrens van de hoogste klasse en de ondergrens van de
laagste klasse bij een gegroepeerde frequentietabel.
Nadelen:
 Da variatiebreedte houdt enkel rekening met de twee uiterste waarnemingsgetallen.
 De variatiebreedte wordt te sterk beïnvloed door een uitzonderlijk groot of klein
waarnemingsgetal.
5.2.
De variantie – de standaardafwijking
De variantie s² van een tabel waarnemingsgetallen wordt als volgt berekend:
 Zet alle waarnemingen in het kwadraat
 Maak hiervan de som
 Deel dit door n
 Trek het kwadraat van het rekenkundig gemiddelde hiervan af
(Formules: zie bladzijde 28)
De standaardafwijking s is gelijk aan de vierkantswortel van s².
5.3.
De variatiecoëfficiënt
De variatiecoëfficiënt V is gelijk aan de standaardafwijking gedeeld door het rekenkundig
gemiddelde.
V=s/x
Opmerking:
 Het rekenkundig gemiddelde ronden we af op 1 cijfer meer na de komma dan de
waarnemingsgetallen.
 De standaardafwijking ronden we af op 2 cijfers meer na de komma dan de
waarnemingsgetallen.
 De variatiecoëfficiënt ronden we af op 3 cijfers meer na de komma dan de
waarnemingsgetallen.
5.4.
Interkwartielafstand
De interkwartielafstand is het verschil tussen het derde en het eerste kwartiel.
Interkwartielafstand = Q3 – Q1
Eigenschappen:
De interkwartielafstand meet de spreiding ten opzichte van de mediaan.
Binnen de interkwartielafstand ligt 50% (de helft) van alle waarnemingsgetallen.
Download