Begrippenlijst statistiek Aggregatieniveau = niveau van optelling

advertisement
BEGRIPPENLIJST STATISTIEK
 Aggregatieniveau = niveau van optelling (micro meso en macro)
 Afhankelijke variabele = te verklaren variabele Y
 Asymmetrische analyse = een causaal verband onderzoeken X beïnvloed Y
 Clustersteekproef (=beste) = eenheden worden onderscheiden op verschillende geneste
niveaus, meestal primair (jaar, gemeente, …) en secundair (binnen de toevallig gekozen
primaire groep) = tweetrapssteekproef, maar er kunnen ook meerdere niveaus gehanteerd
worden. Voordeel: temporele en geografische spreiding indijken.
 Continue variabelen = kunnen een niet aftelbaar aantal waarden aannemen.
 Coderen = het vervangen van kwalitatieve meetwaarden door een numerieke code.
 Descriptieve statistiek = wetenschappelijke discipline die zich bezighoudt met de
ontwikkeling en het gebruik van geschikte presentatievormen om relatief grote
hoeveelheden ruwe gegevens op een overzichtelijke wijze weer te geven. (Klassieke protowetenschappelijke conceptie)
 Dichotome nominale variabele = een variabele die slechts twee nominale waarden
aanneemt.
 Discrete variabelen = kunnen slechts een aftelbaar aantal waarden aannemen
 Disjunct = elk element hoort thuis in een en slechts een categorie
 Dummy variabele = een dichotome nominale of ordinale variabele die de scores 0 of 1
aanneemt en die scores vervolgens pseudo-kwantitatieve waarden toe te dichten.
 EAS = elk element van de populatie heeft een even grote kans om geselecteerd te worden,
indien men beschikt over een lijst van elementen van de populatie en indien er geen
systematiek is in de selectie. (gebruik van toevalscijfers)
 Ecologische meetfout = Wanneer onderzoekers obv gegevens op macro of mesoniveau een
uitspraak doen over individuen op microniveau.
 Exhaustief Er is voor elk element een categorie beschikbaar.
 Frequentieverdeling = het registreren van de verschillende meetwaarden die een variabele
aanneemt en koppelt ze aan hun frequentie (het aantal keren dat ze voorkomt)
 Gestratificeerde steekproef = wanneer men de steekproef selecteert obv voorkennis. Men
weet dat de steekproef uiteenvalt in verschillende subgroepen die zich op een duidelijk
onderscheiden wijze verhouden tov een te onderzoeken kenmerk. Dan gaat men uit elk van
deze strata een toevalsteekproef trekken.
 Groot exponent = groot gewicht aan de verschillen
 Inferentiële statistiek = verklarende of analytische statistiek.
 Kwalitatief meetniveau = geen numerieken meetwaarden, maar worden uitgedrukt in een
aantal alfanumerieke categorieën.
 Kwantitatief meetniveau = numerieke meetwaarden waarmee men rekenkundige
bewerkingen kan uitvoerenen waartussen men ook betekenisvolle verschillen kan
berekenen.
 Kansdefinitie van Laplace= het aantal gunstige alternatieven gedeeld door het aantal
mogelijke alternatieven.
 Latent (ordinaal) kwalitatief= onderliggend en niet direct waarneembaar kwalitatief.
 (data) Matrix = coherent geheel van rijen en kolommen die een reeks systematisch
geordende numerieke gegevens bevat.
 Manifest ordinale variabele = direct waarneembaar
 Microniveau = onderzoekselementen zijn individuen.
 Mesoniveau = functioneel gegroepeerde individuen
 Macroniveau = het samengaan van (alle) groepen op mesoniveau
 Modus = de meest voorkomende waarde of de meetwaarde xi die correspondeert met de
hoogste absolute (fi) of relatieve (fi*) frequentie.
 Mediaan = de middelste meetwaarde, gegeven dat de meetwaarden eerst gerankschikt
worden.
 Multivariate statistische analyse = wanneer er meerdere variabelen tegelijkertijd betrokken
worden in de statistische analyse.
 Onafhankelijke variabele = verklarende variabele X
 Onderzoekselementen = eenheden waarbij men een aantal karakteristieken gaat
onderzoeken of registreren.
 Panelonderzoek = hierbij worden metingen verricht bij dezelfde onderzoekselementen en
voor dezelfde variabelen op verschillende momenten in tijd.
 Populatie = het aantal onderzoekselementen is gelijk aan de totale aantal mogelijke
elementen waarbij men desbetreffende karakteristieken kan onderzoeken of registreren.
 Responsbias = wanneer de vertekening door de reulstaten veroorzaakt wordt door een hoge
non-respons bijvoorbeeld.
 Rekenkundig gemiddelde = de som van alle meetwaarden gedeeld door het aantal
meetwaarden.
 Scheefheidsgraad = de mate waarin een verdeling symmetrisch dan wel asymmetrisch is.
 Selectiebias = wanneer de vertekening van de resultaten wordt veroorzaakt door het
selectief includeren van personen in een studie.
 Statistiek = de wetenschap van het verzamelen, organiseren, presentren, analyseren en
interpreteren van gegevens of data volgens een numerieke logica.
 Statistisch moment = verwijst naar gemeenschappelijke vormeigenschappen van de
kengetallen die kunnen worden gebruikt bij de analyse van kwantitatieve variabelen.
r-de moment rond een willekeurige referentiewaarde g (g = rekenkundig gemiddelde of nul)
 Steekproef = de onderzoekselementen zijn slechts een deel van een groter geheel aan
elementen die men in het onderzoek had kunnen betrekken.
 Symmetrische analyse = gericht op de samenhang tussen variabelen.
 Variabele = kenmerk van onderzoekselementen dat kan variëren.
o
Meting = adequaat registreren van de mate waarin dit kenmerk aanwezig is bij de
onderzoekselementen. Dit heeft een invloed op de meetwaarden en
onderzoeksconclusies.

Conceptualiseren = concept zo goed mogelijk omschrijven.

Indiceren = identificatie van een bepaald waarneembaar verschijnsel als
representant voor het theoretisch concept.

Valide indicator = er wordt gepeild naar wat men wil peilen, sterke overlap
tussen concept definitie en betekenisinhoud van de indicator.

Operationalisering = preciseren hoe men met de indicator moet
omgaan

Meetschaal = Bundeling van meerdere indicatoren, grote
samenhang tussen antwoorden op de onderscheiden indicator

Ceteris poribus = betrouwbaarheid in tijd / intertemporele / testretest betrouwbaarheid : op verschillende momenten in tijd
eveneens vrij grote samenhang!
 Quotesteekproef = steunen op beschikbare informatie ivm de populatieverdeling voor een
aantal socio-demografische variabelen als leeftijd en geslacht. Maar probleem van de
selectiebias, maar vaak goedkoper.
 Uitschieters = scores die atypisch zijn voor een bepaalde dataset omdat ze extreem hoog of
extreem laag zijn.
 Univariate verdeling = veriatiepatroon van één variabelen (1kolom X1, X2, X3,…)
 Variatiebreedte = het verschil tussen de grootste en de kleinste meetwaarde
 Vrijheidsgraden = aantal bekenden min het aantal onbekenden is het aantal vrijheidsgraden.
Soms is het nuttig om k nominale waarden om te zetten in k-1 nominale waarden, omdat de
kde nominale categorie wordt bepaald door de overige k-1waarden. Bv. Dummycodering
voor 10 provincies, maar slecht 9 dummy’s.
HISTOGRAM
X-as: exacte klassegrenzen
Y-as: frequentiedichtheden
FREQUENTIEPOLYGOON
X-as: klassecentra
Y-as: Frequentiedichtheden
OGIEF
X-as: exacte klassengrenzen
Y-as: gecummeleerde frequenties
Download