DEFINITIES

advertisement
DEFINITIES
Statistiek
Massaverschijnsel
Frequentieverdeling
Totale frequentie
Absolute frequentie
Variatiebreedte (= range)
Klassen
Klassenbreedte
Relatieve frequentie
Cumulatieve (gestapelde) frequentie
Indexcijfer (enkelvoudig)
X-as
Y-as
Frequentiepolygoon
Lijndiagram (= kromme = curve)
Histogram (=kolommendiagram)
Discrete variabele
Staafdiagram
Cirkeldiagram (pie-chart)
80 – 20 regel
Concentratiecurve (Lorentzcurve)
Statistiek is de wetenschap die zich bezighoudt met het
waarnemen, bestuderen en analyseren van
massaverschijnselen
Groep van gelijksoortige verschijnsels
Een frequentieverdeling van een variabele geeft aan
hoe vaak elke waarde (of klasse) van de variabele
voorkomt
Totaal aantal waarneming
Het aantal keren dat een waarneming voorkomt
Verschil tussen de hoogste een laagste waarneming
Opsplitsen van variatiebreedte in even grote delen
Verschil tussen de hoogste een laagste grens van de
klasse
De relatieve frequentie is de frequentie van een waarde
(of klasse) van een variabele, uitgedrukt in een
percentage van het geheel
De cumulatieve frequentie geeft de relatie weer tussen
de bovengrens van een klasse en het totale aantal
waarnemingen beneden die bepaalde bovengrens. De
cumulatieve frequentie van een klassengrens wordt
berekend door de frequenties onder de klassengrens bij
elkaar op te tellen
Verhouding tussen 2 getallen uitgedrukt als percentage
Horizontale as
Verticale as
Grafische weergave van frequentieverdeling waarbij de
midden van de verschillende klassen door middel van
lijnstukken met elkaar worden verbonden
Een continue lijn die de relatie uitbeeldt tussen 2
variabelen (b.v. omzet en tijd)
Grafische weergave van een frequentieverdeling,
waarbij een aantal kolommen wordt getekend die op
elkaar aansluiten. 1 kolom = 1 klassenbreedte
Een discrete variabele is een variabele, waarbij slechts
bepaalde waarden mogelijk zijn, zoals geslacht (man,
vrouw), aantal kinderen (geen, 1, 2 enz)
Grafische weergave van de frequentieverdeling van
een discrete variabele
Grafische weergave van een frequentieverdeling in de
vorm van een cirkel. De cirkel wordt verdeeld in
sectoren die de procentuele verdeling aangeeft
Globaal zorgt 20% van de klanten voor 80% van de
omzet. Of 80% van de omzet wordt behaald met 20%
van de artikelen
Grafische weergave van de 80 – 20 regel. Hoe schever
de verdeling, des te meer omzet geconcentreerd is bij
slechts enkele klanten (cq producten). Op de x-as staan
de klanten (producten) op de y-as de gecumuleerde
omzet.
Centrale tendentie (= centrummaat = Een centrale tendentie geeft aan rond welk getal de
locatiemaatstaf)
waarnemingen gegroepeerd zijn
Rekenkundig gemiddelde
Het rekenkundig gemiddelde is de som van alle
waarnemingsuitkomsten, gedeeld door het aantal
waarnemingen
Gewogen rekenkundig gemiddelde
Het gewogen rekenkundig gemiddelde is de som van
een aantal waarden, ieder vermenigvuldigd met zijn
wegingcoëfficiënt (frequentie) gedeeld door de som
van de wegingcoëfficiënten
Klassenmidden
De middelste waarde tussen de klassengrenzen
Modus
De modus is de waarde van een variabele die het meest
voorkomt.
Modale klasse
De modale klasse is de klasse met de hoogste
frequentiedichtheid (bij even grote klassen: met de
hoogste frequentie).
Bij ongelijke klassenbreedtes is de modale klasse de
klasse met de hoogste frequentiedichtheid
Frequentiedichtheid
De frequentiedichtheid van een klasse is de absolute
frequentie van de klasse gedeeld door de
klassenbreedte
Mediaan
De mediaan is de middelste waarneming (het middelste
getal) nadat alle waarnemingen naar grootte
gerangschikt zijn.
Bij een even aantal waarnemingen is de mediaan gelijk
aan het gemiddelde van de middelste 2 waarnemingen
Spreiding
Spreiding is de mate waarin individuele waarnemingen
afwijken van de centrale tendentie
Spreidingsmaat
Een spreidingsmaat is een statistisch kengetal dat de
spreiding van de waarnemingen karakteriseert
Range (= variatiebreedte)
Het verschil tussen de grootste en kleinste waarneming
Standaarddeviatie (=
De standaarddeviatie is een spreidingsmaat, die –
standaardafwijking)
anders dan de variatiebreedte – rekening houdt met de
waarde van alle individuele waarnemingen.
De berekening gaat aldus:
1. Bepaal eerst het rekenkundig gemiddelde van
de waarnemingen
2. Bepaal per waarneming de afwijking van het
berekende rekenkundig gemiddelde
3. Kwadrateer de berekende afwijking per
waarneming
4. Tel alle gekwadrateerde afwijkingen bij elkaar
op
5. Deel de som van deze gekwadrateerde
afwijkingen door het aantal waarnemingen. Dit
is het rekenkundig gemiddelde van de
gekwadrateerde afwijkingen, ofwel de variantie
6. Uit de onder 5 verkregen uitkomst de wortel
Kromme van Gauss
Z-waarde
Steekproef
Populatie
Census
Steekproefkader
Validiteit
Non respons
Binomiale verdeling
Puntschatting
Intervalschatting
Z-waarde
trekken. Dit is de standaarddeviatie
Bij de grafische weergave van een zeer groot aantal
verschijnselen zal de frequentiepolygoon een
bijzondere karakteristieke vorm aannemen. Deze vorm
heet de normale verdeling of de kromme van Gauss.
Deze verdeling heeft een aantal bijzonder
eigenschappen:
1. ze is ééntoppig
2. ze is klokvormig
3. ze is symmetrisch, d.w.z. 50% van de
waarnemingen ligt links van het midden en
50% van de waarnemingen ligt rechts van het
midden
4. Het rekenkundig gemiddelde ligt precies in het
midden van de curve (in het hoogste punt)
5. Het rekenkundig gemiddelde, de modus en de
mediaan zijn aan elkaar gelijk
De vorm van de normale verdeling wordt bepaald door
het gemiddelde en de standaarddeviatie. De z-waarde
is de afstand t.o.v. het midden uitgedrukt in aantal
maal de standaarddeviatie
Een steekproef is een selectie van een subgroep van
elementen uit een grotere verzameling van elementen,
de populatie
De populatie is een verzameling van elementen
waarover men in het kader van een
steekproefonderzoek uitspraken wil doen.
Ondervraging van de totale populatie b.v. volkstelling
Het steekproefkader is de concrete lijst van elementen
(personen, huishoudens, bedrijven enz) waaruit de
steekproef wordt getrokken anders gezegd: de
administratieve weerspiegeling van de populatie
Validiteit is de mate waarin wat men meet,
overeenkomt met wat men beoogt te meten
Het aantal of het percentage personen uit de
onderzoeksdoelgroep dat niet wil of kan werken.
De uitkomst kan slechts 2 waarden aannemen. Wel of
geen auto, wel of geen bier gedronken. De kans dat het
verschijnsel zich voordoet is P, de kans dat het
verschijnsel zich niet voordoet is Q (= 100% - P)
“Uit ons steekproefonderzoek blijkt, dat 43% van de
Nederlanders boven de 18 jaar een auto bezit”.
Deze 43% heet een puntschatting
Wij denken, dat het echte percentage in de populatie
zal liggen tussen de 40% en de 46%. Deze uitspraak
heet een intervalschatting.
Formule: p +/- z x p x q
n
Voor de z-waarde kun je zelf een getal kiezen. Zodra je
voor de z-waarde een getal hebt gekozen ligt de
Betrouwbaarheid
Nauwkeurigheid
Overschrijdingskans
Gewenste steekproefomvang
Volledig aselecte steekproef
Systematische steekproef
Clustersteekproef
Gestratificeerde steekproef
Proportioneel gestratificeerde
steekproef
Disproportioneel gestratificeerde
steekproef
betrouwbaarheid van de berekende interval vast. In
marketing kiezen we voor de z meestal 1,96 of 2. Bij z
= 1,96 hoort een betrouwbaarheid van 95% en bij een
z-waarde = 2 hoort een betrouwbaarheid van 95,4%.
De betrouwbaarheid is de kans, dat de echte p (van de
populatie) inderdaad in de genoemde interval ligt.
Uit onderzoek blijkt dat het percentage Bussummers
thuis over een personal computer beschikt tussen
55,6% en 64,4% ligt. De nauwkeurigheid van dit
interval (of van deze schatting) is de halve breedte, dus
4,4%
Bij bovengenoemde onderzoek bedraagt de z-waarde
=2, dan is de betrouwbaarheid 95,4%. De kans dat de
uitspraak waar is bedraagt 95,4%. De kans dat de
uitspraak niet waar is bedraagt derhalve 4,6%. Dit heet
de overschrijdingskans.
Stel: Bij een gewenste betrouwbaarheid van 95,4% en
een nauwkeurigheid van 3% kan de eerder genoemde
formule gebruikt worden om de gewenste
steekproefomvang vast te stellen.
Formule: z x p x q
n
Deze formule kan nu worden ingevuld, mits we p
weten. Nu zijn er 2 mogelijkheden:
a. we weten niets van p > dan kun je p op 50%
stellen en is q dus ook 50%
b. Uit eerder onderzoeken weten we ongeveer wat
p moet zijn. Dit kunnen we dan ook gebruiken.
Bij een volledig aselecte steekproef heeft elk element
uit het steekproefkader (of de populatie) evenveel kans
om in de steekproef te worden opgenomen.
Een systematische steekproef is een aselecte steekproef
waarbij ieder k’de (10e of 50ste enz) element uit het
steekproef kader wordt getrokken
Een clustersteekproef is een steekproef waarbij het
steekproefkader wordt gesplitst in groepen (clusters),
waarna een aselecte steekproef van clusters wordt
getrokken
Een gestratificeerde steekproef is een steekproef
waarbij een steekproefkader wordt gesplitst in groepen
(strata) waarna uit iedere groep een aselecte steekproef
wordt getrokken
Een proportioneel gestratificeerde steekproef is een
gestratificeerde steekproef, waarbij de verhoudingen
van de strata in de steekproef gelijk zijn aan de
verhoudingen van de strata in het steekproefkader
Een disproportioneel gestratificeerde steekproef is een
gestratificeerde steekproef, waarbij de verhoudingen
van de strata in de steekproef ongelijk zijn aan de
Selecte steekproef
Quota steekproef
Datamining
Datawarehouse
verhoudingen van de strata in het steekproefkader
In tegenstelling tot een aselecte steekproef speelt het
toeval bij een selecte steekproef geen rol. Hier zoeken
we naar elementen die een bepaald kenmerk bezitten.
Een quota steekproef is een selecte steekproef waarbij
de populatie van de belangrijk geachte variabelen
wordt opgedeeld in een aantal strata, waarna uit ieder
stratum gericht een bepaald quotum elementen wordt
geselecteerd.
“Schatgraven in je eigen gegevens”.
Structureren van eigen gegevens zodanig dat zij de
nodige informatie kunnen verschaffen
Een database die georganiseerd is als een neutrale
databank die gebruikt wordt voor datamining ter
ondersteuning van de besluitvorming van het
management.
Download