DEFINITIES Statistiek Massaverschijnsel Frequentieverdeling Totale frequentie Absolute frequentie Variatiebreedte (= range) Klassen Klassenbreedte Relatieve frequentie Cumulatieve (gestapelde) frequentie Indexcijfer (enkelvoudig) X-as Y-as Frequentiepolygoon Lijndiagram (= kromme = curve) Histogram (=kolommendiagram) Discrete variabele Staafdiagram Cirkeldiagram (pie-chart) 80 – 20 regel Concentratiecurve (Lorentzcurve) Statistiek is de wetenschap die zich bezighoudt met het waarnemen, bestuderen en analyseren van massaverschijnselen Groep van gelijksoortige verschijnsels Een frequentieverdeling van een variabele geeft aan hoe vaak elke waarde (of klasse) van de variabele voorkomt Totaal aantal waarneming Het aantal keren dat een waarneming voorkomt Verschil tussen de hoogste een laagste waarneming Opsplitsen van variatiebreedte in even grote delen Verschil tussen de hoogste een laagste grens van de klasse De relatieve frequentie is de frequentie van een waarde (of klasse) van een variabele, uitgedrukt in een percentage van het geheel De cumulatieve frequentie geeft de relatie weer tussen de bovengrens van een klasse en het totale aantal waarnemingen beneden die bepaalde bovengrens. De cumulatieve frequentie van een klassengrens wordt berekend door de frequenties onder de klassengrens bij elkaar op te tellen Verhouding tussen 2 getallen uitgedrukt als percentage Horizontale as Verticale as Grafische weergave van frequentieverdeling waarbij de midden van de verschillende klassen door middel van lijnstukken met elkaar worden verbonden Een continue lijn die de relatie uitbeeldt tussen 2 variabelen (b.v. omzet en tijd) Grafische weergave van een frequentieverdeling, waarbij een aantal kolommen wordt getekend die op elkaar aansluiten. 1 kolom = 1 klassenbreedte Een discrete variabele is een variabele, waarbij slechts bepaalde waarden mogelijk zijn, zoals geslacht (man, vrouw), aantal kinderen (geen, 1, 2 enz) Grafische weergave van de frequentieverdeling van een discrete variabele Grafische weergave van een frequentieverdeling in de vorm van een cirkel. De cirkel wordt verdeeld in sectoren die de procentuele verdeling aangeeft Globaal zorgt 20% van de klanten voor 80% van de omzet. Of 80% van de omzet wordt behaald met 20% van de artikelen Grafische weergave van de 80 – 20 regel. Hoe schever de verdeling, des te meer omzet geconcentreerd is bij slechts enkele klanten (cq producten). Op de x-as staan de klanten (producten) op de y-as de gecumuleerde omzet. Centrale tendentie (= centrummaat = Een centrale tendentie geeft aan rond welk getal de locatiemaatstaf) waarnemingen gegroepeerd zijn Rekenkundig gemiddelde Het rekenkundig gemiddelde is de som van alle waarnemingsuitkomsten, gedeeld door het aantal waarnemingen Gewogen rekenkundig gemiddelde Het gewogen rekenkundig gemiddelde is de som van een aantal waarden, ieder vermenigvuldigd met zijn wegingcoëfficiënt (frequentie) gedeeld door de som van de wegingcoëfficiënten Klassenmidden De middelste waarde tussen de klassengrenzen Modus De modus is de waarde van een variabele die het meest voorkomt. Modale klasse De modale klasse is de klasse met de hoogste frequentiedichtheid (bij even grote klassen: met de hoogste frequentie). Bij ongelijke klassenbreedtes is de modale klasse de klasse met de hoogste frequentiedichtheid Frequentiedichtheid De frequentiedichtheid van een klasse is de absolute frequentie van de klasse gedeeld door de klassenbreedte Mediaan De mediaan is de middelste waarneming (het middelste getal) nadat alle waarnemingen naar grootte gerangschikt zijn. Bij een even aantal waarnemingen is de mediaan gelijk aan het gemiddelde van de middelste 2 waarnemingen Spreiding Spreiding is de mate waarin individuele waarnemingen afwijken van de centrale tendentie Spreidingsmaat Een spreidingsmaat is een statistisch kengetal dat de spreiding van de waarnemingen karakteriseert Range (= variatiebreedte) Het verschil tussen de grootste en kleinste waarneming Standaarddeviatie (= De standaarddeviatie is een spreidingsmaat, die – standaardafwijking) anders dan de variatiebreedte – rekening houdt met de waarde van alle individuele waarnemingen. De berekening gaat aldus: 1. Bepaal eerst het rekenkundig gemiddelde van de waarnemingen 2. Bepaal per waarneming de afwijking van het berekende rekenkundig gemiddelde 3. Kwadrateer de berekende afwijking per waarneming 4. Tel alle gekwadrateerde afwijkingen bij elkaar op 5. Deel de som van deze gekwadrateerde afwijkingen door het aantal waarnemingen. Dit is het rekenkundig gemiddelde van de gekwadrateerde afwijkingen, ofwel de variantie 6. Uit de onder 5 verkregen uitkomst de wortel Kromme van Gauss Z-waarde Steekproef Populatie Census Steekproefkader Validiteit Non respons Binomiale verdeling Puntschatting Intervalschatting Z-waarde trekken. Dit is de standaarddeviatie Bij de grafische weergave van een zeer groot aantal verschijnselen zal de frequentiepolygoon een bijzondere karakteristieke vorm aannemen. Deze vorm heet de normale verdeling of de kromme van Gauss. Deze verdeling heeft een aantal bijzonder eigenschappen: 1. ze is ééntoppig 2. ze is klokvormig 3. ze is symmetrisch, d.w.z. 50% van de waarnemingen ligt links van het midden en 50% van de waarnemingen ligt rechts van het midden 4. Het rekenkundig gemiddelde ligt precies in het midden van de curve (in het hoogste punt) 5. Het rekenkundig gemiddelde, de modus en de mediaan zijn aan elkaar gelijk De vorm van de normale verdeling wordt bepaald door het gemiddelde en de standaarddeviatie. De z-waarde is de afstand t.o.v. het midden uitgedrukt in aantal maal de standaarddeviatie Een steekproef is een selectie van een subgroep van elementen uit een grotere verzameling van elementen, de populatie De populatie is een verzameling van elementen waarover men in het kader van een steekproefonderzoek uitspraken wil doen. Ondervraging van de totale populatie b.v. volkstelling Het steekproefkader is de concrete lijst van elementen (personen, huishoudens, bedrijven enz) waaruit de steekproef wordt getrokken anders gezegd: de administratieve weerspiegeling van de populatie Validiteit is de mate waarin wat men meet, overeenkomt met wat men beoogt te meten Het aantal of het percentage personen uit de onderzoeksdoelgroep dat niet wil of kan werken. De uitkomst kan slechts 2 waarden aannemen. Wel of geen auto, wel of geen bier gedronken. De kans dat het verschijnsel zich voordoet is P, de kans dat het verschijnsel zich niet voordoet is Q (= 100% - P) “Uit ons steekproefonderzoek blijkt, dat 43% van de Nederlanders boven de 18 jaar een auto bezit”. Deze 43% heet een puntschatting Wij denken, dat het echte percentage in de populatie zal liggen tussen de 40% en de 46%. Deze uitspraak heet een intervalschatting. Formule: p +/- z x p x q n Voor de z-waarde kun je zelf een getal kiezen. Zodra je voor de z-waarde een getal hebt gekozen ligt de Betrouwbaarheid Nauwkeurigheid Overschrijdingskans Gewenste steekproefomvang Volledig aselecte steekproef Systematische steekproef Clustersteekproef Gestratificeerde steekproef Proportioneel gestratificeerde steekproef Disproportioneel gestratificeerde steekproef betrouwbaarheid van de berekende interval vast. In marketing kiezen we voor de z meestal 1,96 of 2. Bij z = 1,96 hoort een betrouwbaarheid van 95% en bij een z-waarde = 2 hoort een betrouwbaarheid van 95,4%. De betrouwbaarheid is de kans, dat de echte p (van de populatie) inderdaad in de genoemde interval ligt. Uit onderzoek blijkt dat het percentage Bussummers thuis over een personal computer beschikt tussen 55,6% en 64,4% ligt. De nauwkeurigheid van dit interval (of van deze schatting) is de halve breedte, dus 4,4% Bij bovengenoemde onderzoek bedraagt de z-waarde =2, dan is de betrouwbaarheid 95,4%. De kans dat de uitspraak waar is bedraagt 95,4%. De kans dat de uitspraak niet waar is bedraagt derhalve 4,6%. Dit heet de overschrijdingskans. Stel: Bij een gewenste betrouwbaarheid van 95,4% en een nauwkeurigheid van 3% kan de eerder genoemde formule gebruikt worden om de gewenste steekproefomvang vast te stellen. Formule: z x p x q n Deze formule kan nu worden ingevuld, mits we p weten. Nu zijn er 2 mogelijkheden: a. we weten niets van p > dan kun je p op 50% stellen en is q dus ook 50% b. Uit eerder onderzoeken weten we ongeveer wat p moet zijn. Dit kunnen we dan ook gebruiken. Bij een volledig aselecte steekproef heeft elk element uit het steekproefkader (of de populatie) evenveel kans om in de steekproef te worden opgenomen. Een systematische steekproef is een aselecte steekproef waarbij ieder k’de (10e of 50ste enz) element uit het steekproef kader wordt getrokken Een clustersteekproef is een steekproef waarbij het steekproefkader wordt gesplitst in groepen (clusters), waarna een aselecte steekproef van clusters wordt getrokken Een gestratificeerde steekproef is een steekproef waarbij een steekproefkader wordt gesplitst in groepen (strata) waarna uit iedere groep een aselecte steekproef wordt getrokken Een proportioneel gestratificeerde steekproef is een gestratificeerde steekproef, waarbij de verhoudingen van de strata in de steekproef gelijk zijn aan de verhoudingen van de strata in het steekproefkader Een disproportioneel gestratificeerde steekproef is een gestratificeerde steekproef, waarbij de verhoudingen van de strata in de steekproef ongelijk zijn aan de Selecte steekproef Quota steekproef Datamining Datawarehouse verhoudingen van de strata in het steekproefkader In tegenstelling tot een aselecte steekproef speelt het toeval bij een selecte steekproef geen rol. Hier zoeken we naar elementen die een bepaald kenmerk bezitten. Een quota steekproef is een selecte steekproef waarbij de populatie van de belangrijk geachte variabelen wordt opgedeeld in een aantal strata, waarna uit ieder stratum gericht een bepaald quotum elementen wordt geselecteerd. “Schatgraven in je eigen gegevens”. Structureren van eigen gegevens zodanig dat zij de nodige informatie kunnen verschaffen Een database die georganiseerd is als een neutrale databank die gebruikt wordt voor datamining ter ondersteuning van de besluitvorming van het management.