BEGRIPPENLIJST STATISTIEK Aggregatieniveau = niveau van optelling (micro meso en macro) Afhankelijke variabele = te verklaren variabele Y Asymmetrische analyse = een causaal verband onderzoeken X beïnvloed Y Clustersteekproef (=beste) = eenheden worden onderscheiden op verschillende geneste niveaus, meestal primair (jaar, gemeente, …) en secundair (binnen de toevallig gekozen primaire groep) = tweetrapssteekproef, maar er kunnen ook meerdere niveaus gehanteerd worden. Voordeel: temporele en geografische spreiding indijken. Continue variabelen = kunnen een niet aftelbaar aantal waarden aannemen. Coderen = het vervangen van kwalitatieve meetwaarden door een numerieke code. Descriptieve statistiek = wetenschappelijke discipline die zich bezighoudt met de ontwikkeling en het gebruik van geschikte presentatievormen om relatief grote hoeveelheden ruwe gegevens op een overzichtelijke wijze weer te geven. (Klassieke protowetenschappelijke conceptie) Dichotome nominale variabele = een variabele die slechts twee nominale waarden aanneemt. Discrete variabelen = kunnen slechts een aftelbaar aantal waarden aannemen Disjunct = elk element hoort thuis in een en slechts een categorie Dummy variabele = een dichotome nominale of ordinale variabele die de scores 0 of 1 aanneemt en die scores vervolgens pseudo-kwantitatieve waarden toe te dichten. EAS = elk element van de populatie heeft een even grote kans om geselecteerd te worden, indien men beschikt over een lijst van elementen van de populatie en indien er geen systematiek is in de selectie. (gebruik van toevalscijfers) Ecologische meetfout = Wanneer onderzoekers obv gegevens op macro of mesoniveau een uitspraak doen over individuen op microniveau. Exhaustief Er is voor elk element een categorie beschikbaar. Frequentieverdeling = het registreren van de verschillende meetwaarden die een variabele aanneemt en koppelt ze aan hun frequentie (het aantal keren dat ze voorkomt) Gestratificeerde steekproef = wanneer men de steekproef selecteert obv voorkennis. Men weet dat de steekproef uiteenvalt in verschillende subgroepen die zich op een duidelijk onderscheiden wijze verhouden tov een te onderzoeken kenmerk. Dan gaat men uit elk van deze strata een toevalsteekproef trekken. Groot exponent = groot gewicht aan de verschillen Inferentiële statistiek = verklarende of analytische statistiek. Kwalitatief meetniveau = geen numerieken meetwaarden, maar worden uitgedrukt in een aantal alfanumerieke categorieën. Kwantitatief meetniveau = numerieke meetwaarden waarmee men rekenkundige bewerkingen kan uitvoerenen waartussen men ook betekenisvolle verschillen kan berekenen. Kansdefinitie van Laplace= het aantal gunstige alternatieven gedeeld door het aantal mogelijke alternatieven. Latent (ordinaal) kwalitatief= onderliggend en niet direct waarneembaar kwalitatief. (data) Matrix = coherent geheel van rijen en kolommen die een reeks systematisch geordende numerieke gegevens bevat. Manifest ordinale variabele = direct waarneembaar Microniveau = onderzoekselementen zijn individuen. Mesoniveau = functioneel gegroepeerde individuen Macroniveau = het samengaan van (alle) groepen op mesoniveau Modus = de meest voorkomende waarde of de meetwaarde xi die correspondeert met de hoogste absolute (fi) of relatieve (fi*) frequentie. Mediaan = de middelste meetwaarde, gegeven dat de meetwaarden eerst gerankschikt worden. Multivariate statistische analyse = wanneer er meerdere variabelen tegelijkertijd betrokken worden in de statistische analyse. Onafhankelijke variabele = verklarende variabele X Onderzoekselementen = eenheden waarbij men een aantal karakteristieken gaat onderzoeken of registreren. Panelonderzoek = hierbij worden metingen verricht bij dezelfde onderzoekselementen en voor dezelfde variabelen op verschillende momenten in tijd. Populatie = het aantal onderzoekselementen is gelijk aan de totale aantal mogelijke elementen waarbij men desbetreffende karakteristieken kan onderzoeken of registreren. Responsbias = wanneer de vertekening door de reulstaten veroorzaakt wordt door een hoge non-respons bijvoorbeeld. Rekenkundig gemiddelde = de som van alle meetwaarden gedeeld door het aantal meetwaarden. Scheefheidsgraad = de mate waarin een verdeling symmetrisch dan wel asymmetrisch is. Selectiebias = wanneer de vertekening van de resultaten wordt veroorzaakt door het selectief includeren van personen in een studie. Statistiek = de wetenschap van het verzamelen, organiseren, presentren, analyseren en interpreteren van gegevens of data volgens een numerieke logica. Statistisch moment = verwijst naar gemeenschappelijke vormeigenschappen van de kengetallen die kunnen worden gebruikt bij de analyse van kwantitatieve variabelen. r-de moment rond een willekeurige referentiewaarde g (g = rekenkundig gemiddelde of nul) Steekproef = de onderzoekselementen zijn slechts een deel van een groter geheel aan elementen die men in het onderzoek had kunnen betrekken. Symmetrische analyse = gericht op de samenhang tussen variabelen. Variabele = kenmerk van onderzoekselementen dat kan variëren. o Meting = adequaat registreren van de mate waarin dit kenmerk aanwezig is bij de onderzoekselementen. Dit heeft een invloed op de meetwaarden en onderzoeksconclusies. Conceptualiseren = concept zo goed mogelijk omschrijven. Indiceren = identificatie van een bepaald waarneembaar verschijnsel als representant voor het theoretisch concept. Valide indicator = er wordt gepeild naar wat men wil peilen, sterke overlap tussen concept definitie en betekenisinhoud van de indicator. Operationalisering = preciseren hoe men met de indicator moet omgaan Meetschaal = Bundeling van meerdere indicatoren, grote samenhang tussen antwoorden op de onderscheiden indicator Ceteris poribus = betrouwbaarheid in tijd / intertemporele / testretest betrouwbaarheid : op verschillende momenten in tijd eveneens vrij grote samenhang! Quotesteekproef = steunen op beschikbare informatie ivm de populatieverdeling voor een aantal socio-demografische variabelen als leeftijd en geslacht. Maar probleem van de selectiebias, maar vaak goedkoper. Uitschieters = scores die atypisch zijn voor een bepaalde dataset omdat ze extreem hoog of extreem laag zijn. Univariate verdeling = veriatiepatroon van één variabelen (1kolom X1, X2, X3,…) Variatiebreedte = het verschil tussen de grootste en de kleinste meetwaarde Vrijheidsgraden = aantal bekenden min het aantal onbekenden is het aantal vrijheidsgraden. Soms is het nuttig om k nominale waarden om te zetten in k-1 nominale waarden, omdat de kde nominale categorie wordt bepaald door de overige k-1waarden. Bv. Dummycodering voor 10 provincies, maar slecht 9 dummy’s. HISTOGRAM X-as: exacte klassegrenzen Y-as: frequentiedichtheden FREQUENTIEPOLYGOON X-as: klassecentra Y-as: Frequentiedichtheden OGIEF X-as: exacte klassengrenzen Y-as: gecummeleerde frequenties