Afbakening van onderzoeksopzet

advertisement
1
Nationaal Onderzoeksinstuut voor Arbeidsomstandigheden
De relatie tussen mokken analyse en factoranalyse
Validering van de Vragelijst Beleving en beoordeling van de Arbeid in
Vlaanderen
Technical Working Paper
Guy Notelaers
Brussel
1999
2
Afbakening van het onderzoeksopzet. ............................................................................................ 4
Dataverzameling in een a-typische omgeving voor sociale wetenschappen .................................... 6
Voorstelling van de structuur van de VBBA ................................................................................... 7
De Schalen van de vbba onder de loep............................................................................................. 8
Vergelijking Mokkenprocedure en Factoranalyse in SPSS ......................................................... 8
De klassieke testtheorie en item repons theorie. ...................................................................... 8
Korte toelichting van het Mokken-model ................................................................................ 9
Principale factoranalyse ......................................................................................................... 11
Schaalstructuren aan de hand van exploratieve factoranalyse in SPPS ..................................... 12
Werktempo en –hoeveelheid .................................................................................................. 12
Emotionele belasting .............................................................................................................. 12
Lichamelijke inspanning ........................................................................................................ 12
Afwisseling in het werk .......................................................................................................... 12
Leermogelijkheden ................................................................................................................. 13
Zelfstandigheid in het werk .................................................................................................... 13
Relatie met collega’s .............................................................................................................. 13
Relatie met directe leiding...................................................................................................... 13
Inspraak .................................................................................................................................. 13
Toekomstonzekerheid ............................................................................................................ 13
Plezier in het werk .................................................................................................................. 14
Herstelbehoefte....................................................................................................................... 14
Piekeren .................................................................................................................................. 14
Mokken search procedure : de IRT. ........................................................................................... 14
Werktempo en – hoeveelheid ................................................................................................. 15
Emotionele belasting .............................................................................................................. 15
Lichamelijke inspanning ........................................................................................................ 15
Afwisseling in het werk .......................................................................................................... 15
Leermogelijkheden ................................................................................................................. 16
Zelfstandigheid in het werk .................................................................................................... 16
Relatie met collega’s .............................................................................................................. 16
Relatie met directe leiding...................................................................................................... 16
Inspraak .................................................................................................................................. 16
Toekomstonzekerheid ............................................................................................................ 17
Plezier in het werk .................................................................................................................. 17
Herstelbehoefte....................................................................................................................... 17
Piekeren .................................................................................................................................. 17
Vergelijking van de resultaten uit MSP en PAF ........................................................................ 17
Een relatie tussen schaalbaarheid van het item Hi en lading van i op de latente variabele ... 17
3
Een relatie tussen H en % verklaarde variantie ...................................................................... 21
Na het meten het toesten van hypothesen met zowel schaalscores als factorscores ...................... 24
Leidinggevenden versus niet leidinggevenden aan de hand van het moeten en kunnen ........... 24
Theoretisch kader ................................................................................................................... 24
Empirisch onderzoek : t-test ................................................................................................... 25
Weerlegbaarheid van sekseverschillen aan de hand van onze data aan de hand van partiële
correlatieberekening ................................................................................................................... 27
Hypothese uit eerder onderzoek ............................................................................................. 27
Operationaliseren van deze onderzoekhypothese in het kader van de VBBA ....................... 27
Besluit..................................................................................................................................... 30
Besluit............................................................................................................................................. 30
4
Afbakening van het onderzoeksopzet.
Bij het NOVA heeft men beslist om een meetinstrument vanuit Nederland in te zetten om
Belgische bedrijven en organisaties te ondersteunen bij hun stressbeleid. Het meetinstrument, de
vragenlijst beleving en beoordeling van de arbeid, ontwikkeld door van Veldhoven (1996) in
samenwerking met Arbodiensten was het onderwerp van een doctorale scriptie aan de
Universiteit van Groningen. De VBBA zoals de vragenlijst in de volksmond genoemd wordt,
meet verschillende stressoren van psychologische en sociaal-organisatorische aard. Ze bestaat in
twee vormen : de uitgebreide en de kern-vbba. In dit werk zullen we het leven van de kern-vbba
nagaan. Bij het NOVA hebben we tot nog toe zo’n 1700 data terug binnen gekregen van de
17000 enquêtes die zijn uitgezet en die de uitgebreide vragenlijst behelzen. Voor de kern-vbba
kunnen we voorlopig beschikken over 1013 observaties.
Dat leven van de kern-vbba is voor het NOVA uiterst belangrijk bij de bestrijding van stress op
het werk. Het NOVA heeft zich immers op landelijk vlak ertoe verbonden een referentiebestand
aan te maken zodat het Belgische bedrijfsleven zich kan vergelijken en ankerpunten vindt om het
stressbeleid op het niveau van de onderneming te ondersteunen. Daarbij is het belangrijk dat we
meten wat in Nederland gemeten werd. Deze ruwe schets doen we aan de hand van de
mokkenanalyse in vergelijking met factoranalyse.
De concrete ingesteldheid is erg exploratief van aard. Bedrijfsexterne en bedrijfsinterne
vergelijkingen worden herleid tot afwijkingen van een referentiewaarde. Voor de bedrijfsinterne
vergelijking ligt de werkwijze erg voor de hand. De bedrijfexterne vergelijking en keuze van de
referentie vraagt om een woordje uitleg. Op basis van de nace-bel code en beroep, enz. wordt het
bedrijf vergeleken met soortgelijke bedrijven in dezelfde sector. De vergelijking gebeurt aan de
hand van een t-test waarbij op basis van de referentiegroep1 een steekproef getrokken wordt
waarbij de standaarddeviatie, het gemiddelde en het aantal respondenten de centrale parameters
zijn die in de t-vergelijking ingevoerd worden. Met deze vergelijking en het resultaat ervan
wordt het bedrijf als het ware gesitueerd in een verdeling van soortgelijke bedrijven die zich op
een bepaalde manier gedragen. Deze gegevens worden teruggekoppeld naar de bedrijven of
organisaties die op deze manier snel een summier inzicht krijgen in mogelijke probleemgebieden
op het vlak van stressbestrijding. Voor hun is het m.a.w. een houvast, een anker dat als startpunt
dient voor een verdere bevraging van de organisatie. Dit laatste gebeurt evenwel niet aan de hand
van nieuw vragenlijstonderzoek maar gebeurt op een kwalitatieve wijze. Zo kan men
bijvoorbeeld met werkgroepen thema’s bespreken aan de hand van onze resultaten en kijken in
welke mate de organisatie zich herkent in de resultaten. Na de herkenning wordt het pad
1
Over de procedure, het gebruik van referentiegroepen en onze werkwijze : zie : Weel, A. Broersen, Sj.
Signalen van problemen in werk en gezondheid. Periodiek bedrijfsgezondheidskundig onderzoek bij
groepen werknemers. Doctoraal proefschrift. Universiteit van Amsterdam. 1992, p. 97-124.
5
geëffend voor een meer oplossend denken dat concreet na enige samenkomsten vertaald wordt in
beleidsmaatregelen die – en dat is erg belangrijk – vanuit het management gelanceerd worden.
We vermelden het opzet van het project bij het NOVA opdat het de lezer duidelijk zou worden
dat we deze eigenheid van werken niet kunnen vertalen in een paper voor de eerste module van
de cursus kwantitatieve analyse in de sociale wetenschappen.
Voor het opzet van deze taak in het kader van de opleiding kwantitatieve analyse in de sociale
wetenschappen is dat uiteraard een interessant uitgangspunt maar dat is niet genoeg. We werken
immers niet met een steekproef van de bedrijfswereld om uitspraken te doen over het Belgisch
bedrijfsleven. Dat zou erg interessant zijn maar zou eigenlijk het doel van dit project
dwarsbomen. In tegenstelling tot wat wij doen zouden bedrijven zich geviseerd voelen door de
situering van hun sector en vooral de vergelijking met de naaste concurrentie zou eerder
bedreigend dan verlossend werken. Op dat moment doet stress de deur dicht en wordt het
preventiewerk enkele jaren terug de tijd in gejaagd. En dat kan uiteraard niet de bedoeling zijn
van dit erg ambitieus project.
Voor deze taak willen we twee dingen proberen te klaren – met de nadruk wellicht op ‘proberen’.
Tijdens onze opleiding was ik erg gecharmeerd door ‘Latent Class Analysis’ dat gedoceerd werd
door afwisselend Hagenaers, Vermunt en Waege. Vermunt ging wat dieper op de zaak in en
schonk eventjes aandacht aan het verband2 tussen LCA en IRT. Deze laatste komen bij het
NOVA bijzonder aan bod vermits alle items bepaalde mokkenschalen vormen.
We willen eens kijken of het een verschil maakt of we met Mokkenschalen werken of met
factorscores.3 Daartoe zullen we in SPSS factoren extraheren en in MSP de kwaliteit van de
onderliggende meettheorieën4 nagaan. Daarna zullen we de correlatiecoëfficient tussen factoren
en somscores uit de mokkenanalyse berekenen. In laatste instantie zullen we kijken of het nu een
verschil maakt of we één van de twee gebruiken in concrete omstandigheden. Dat zullen we in
eerste instantie doen door t-testen en variantietesten op basis van factorscores en mokkenscores te
vergelijken en in tweede instantie door bepaalde hypothesen die we uit de literatuur hernemen, te
testen.
2
Heinen, Ton. Latent Class and Discrete Latent Trait Models. Simularities and Differences. Advanced
Quantitative Techniques in the Social Sciences Series. Sage, 1996.
3
Tijdens een gesprek met Johan Vermunt bracht ik aan de orde dat we in de voorlopige analyses met
polytome items zonder uitzondering enkel één factoroplossingen kregen. Zijn antwoord daarop was dat
dit zou kunnen te wijten zijn aan het feit dat de respondenten de ordinaliteit eerder zagen als interval.
Voor ons het startpunt van deze paper.
4
Zie : van Veldhoven, M. Psychosociale arbeidsbelasting en werkstress. Doctoraal proefschrift.
Universiteit van Groningen. 1996.
6
Dataverzameling in
wetenschappen
een
a-typische
omgeving
voor
sociale
In de sociale wetenschappen waar er kwantitatieve technieken aan te pas komen bij een
onderzoek vertrekken de onderzoekers vanuit een onderzoeksdesign om een bepaalde populatie
onder de loep te nemen. Daarbij vertrekt men van een steekproef die representatief dient te zijn
voor de populatie, zodat men bij de analyse van de gegevens veralgemeenbare conclusies kan
trekken aan de hand van de technieken die de inferentiële statistiek hen biedt. Uiteraard was dit
ook het opzet van mijn taak die ik voor deze module wilde maken.
Maar werken in de bedrijfswereld met het doel deze te ondersteunen heeft zijn beperkingen op
het gebied van inferentiële statistiek. We hoeven immers geen steekproef te trekken. Gans het
bedrijf of de organisatie wordt bevraagd. De gemiddelde antwoordrespons bedraagt veel meer
dan de 60% die voor een post-enquête vereist is, waardoor we voor het bedrijf gerechtvaardigde
uitspraken kunnen doen. Maar bij een analyse van de gegeves over de bedrijven heen stoten we
op de muur van multi-level analyse, zoals van Veldhoven die toepastte in zijn onderzoek naar de
VBBA. Helaas werd er dit jaar aan de KUB geen Multilevel gedoceerd door de gerechtvaardigde
afwezigheid van K. Jones. Dat zorgt voor een onoverkomelijke beperking in deze paper en
verbiedt ons eigenlijk om het inferentiële te gebruiken. Daar zijn we ons erg bewust van.
Daarom ook presenteren we de factoranalyse in dit werk als beschrijvend instrument5, om te
kijken welke structuur er nu in die data zit die we verzamelen aan de hand van de VBBA.
Wanneer we de bruikbaarheid van de data onder de loep nemen aan de hand van het toetsen van
hypothesen doen we als het ware een oogje toe in de richting van de inferentiële statistiek maar
dat doen we niet zomaar. Mijn ervaring uit zo’n 22-tal cases die ik tot nog toe op het NOVA
onderzocht leert me dat de p-waarden bij een anova of bij een t-test een richtinggevende invloed
hebben. De afstanden tussen gemiddelden van verschillende groepen neemt toe met een
toenemend significantieniveau.6 Vanuit die ervaring ben ik niet bereid de instrumenten die de
cursus van Jacques Tacq ons aanreikt zomaar naast me neer te leggen. Het betekent natuurlijk
wel dat we ons enkel kunnen uitspreken over de bedrijven7 in onze dataset.8 De conclusie is
duidelijk : net zoals in vele onderzoeken balanceren we op de dunne koord tussen inferentiële en
beschrijvende statistiek.
5
De volledige uitdraai wordt uiteraard niet opgenomen in deze paper maar wel bijgevoegd in de misschien
te dikke bundel bijlagen bij dit werkje.
6
Voor de bedrijven is dat erg belangrijk omdat dat groepen afdelingen, functiecategoriën of kortweg
groepen van mensen zijn. En aanknopingspunten vinden om je stressbeleid te spijzen, zijn meer dan
welkom.
7
Over de bedrijfscultuur : we zullen deze hypothese testen in deze paper aan de hand van de VBBAschalen. In Lisrel zouden we evenwel de partiële ( gecontroleerd voor de bedrijven) correlatiematrix
kunnen invoeren om te kijken of we de één factorstructuur terugvinden. Maar daarmee belanden we in de
laatste module van deze opleiding in de kwantitatieve analyse voor de sociale wetenschappen.
8
Die kan ik niet met naam noemen omwille van de setting waarin het werk van het NOVA-INRCT zich
situeert.
7
Tenslotte wil ik opmerken dat ik hiermee toch ook aansluit bij de verzuchtigen van het NOVA
dat me de ‘nodige’ tijd ter beschikking stelt om de cursus aan de KUB af te maken. Een
voorlopig onderzoek naar de VBBA was voor de administrateur-generaal meer dan welkom.
Voorstelling van de structuur van de VBBA
Voor een uitgebreid relaas over de ontwikkeling van de VBBA verwijs ik graag naar het
doctoraal proefschrift van van Veldhoven waarin hij met erg moderne technieken te werk is
gegaan. In deze paper is het voor ons van belang de structuur even toe te lichten.
Het resultaat van de confirmatorische factoranalyse ziet er als volgt uit volgens 9
De items uit de schalen – hierboven in vierkantjes – nemen we op in de bijlagen omdat het er
teveel zijn om hier te vernoemen. We willen meegeven dat we in deze paper de namen afgekort
hebben. Werktempo en hoeveelheid wordt wh, emotionele belasting wordt eb, lichamelijke
inspanningen wordt li, leermogelijkheden wordt lm, afwisseling in het werk wordt aw,
taakautonomie (in de vragenlijst : zelfstandigheid in het werk) wordt ziw, inspraak wordt inspr,
9
We weten dat bij het fitten van de data in Lisrel verschillende latente variabelen reduceren in minder
latente variabelen geen invloed heeft op χ². Misschien heeft de auteur de factoren ingevoerd met een
passende error-variantie van 0 en zo het model proberen te fitten.
8
relatie collega’s wordt rc, relatie directe leiding wordt rl, herstelbehoefte wordt herb, piekeren
wordt p, opzien (in de vragenlijst : plezier in het werk) wordt piw. Betrokkenheid laten we weg
uit de analyse omdat tijdens de berekeningen duidelijk werd dat in de handleiding van de VBBA
een omkeringsfout gemaakt werd. De items worden in de vragenlijst niet genummerd. In dit
werkje wel en dat in de volgorde van de vragen van de vragenlijst.
Tenslotte nog dit : als in deze paper in hoofdletter gewerkt wordt, hebben we het over de latente
variabelen. Hier volgen we dezelfde afkorting als hierboven, in dat geval hebben we het over de
mokkenscores. Wanneer na de hoofdletterafkorting een F volgt willen we aanduiden dat we het
hebben over factorscores.
De Schalen van de vbba onder de loep
Vergelijking Mokkenprocedure en Factoranalyse in SPSS
De klassieke testtheorie en item repons theorie.
Alle handboeken vatten de uiteenzetting over item respons aan met de situering van de klassieke
testtheorie. Ook wij doen dat en vallen meteen met de deur in huis. “De belangrijke vraag is dus
of de ware toetsscore, die samenhangt met een specifieke toets, iets kan zeggen over een meer
abstracte, onderliggende vaardigheid.”10 Dit resulteert in een aantal vragen waarop de klassieke
testtheorie geen antwoord heeft. Een eerste punt is dat de klassieke testtheorie, de statistische
theorie geen middelen aanreikt aan de hand waarvan duidelijk beslist kan worden of de
homogeniteit in de conceptuele relevantie al dan niet bereikt is. Een tweede punt is dat de
klassieke testtheorie geen bewijs kan aanbrengen waaruit de superioriteit van de gewone
somscore regel of welke regel dan ook blijkt. Tenslotte kan de klassieke testtheorie geen
oplossing geven aan volgend vraagstuk11 :
Een steekproef van kinderen, aselect getrokken uit een goed gedefiniëerde populatie, wordt op
tijdstip t1 temten met een toets X1 en op tijdstip t2 met een toets X2 waarbij het de bedoeling is te
schatten of de gemiddelde vaardigheid in de populatie veranderd is in het interval (t2-t1). Indien
X1 niet identiek is aan X2 treedt er een dubbel probleem op. Indien het gemiddelde op X2 groter
is dan het gemiddelde op X1 zou het verschil te wijten kunnen zijn aan het feit dat X2 makkelijker
is dan X1, of aan het feit dat de gemiddelde vaardigheid inderdaad is toegenomen, of aan beide.
Om de verklaring van een gemakkelijkere toets uit te sluiten dienen speciale maatregelen genomen
te worden zoals bijvoorbeeld equivaleren. Fundamenteler is hoe kan gegarandeerd worden dat X1
en X2 hetzelfde concept meten?
10
Eggen, T. Sanders, P. Psychometrie in de praktijk. Cito Instituut voor Toetsontwikkeling. 1993,
p. 84 –85.
11
Ibid.
9
In de moderne testtheorie wordt aan de bovenstaande problemen tegemoet gekomen, nl. de
populatieafhankelijheid en de toetsspecificiteit van de score. De theorie wordt ontwikkeld zonder
enige referentie aan één of andere populatie (populatieonafhankelijkheid – lokale onafhankelijkheid) en in de item respons theorie staat niet de toetscore centraal maar de items en het antwoord
daarop. Een item respons theorie is een geheel van uitspraken over de samenhang tussen een
latente variabele en het antwoordgedrag op een verzameling items. De conceptuele homogeniteit
is niets anders dan deze samenhang. In de mate dat deze samenhang gedefinieerd is, weten we
ook precies wat met de homogeniteit bedoeld is (cf. parametrische versus niet parametrische
modellen). De uitspraken in zo’n theorie zijn meestal niet geheel specifiek : de voorspellingen
over het gedrag hangen van items en personen af. Deze kenmerken worden meestal
gekwantificeerd als parameters of worden helemaal niet gekwantificeerd. De item response
theorie kunnen we dan ook onderverdelen in parametrische en niet parametrische modellen.
Bekende parametrische item respons modellen zijn bijvoorbeel het Rashmodel of het 2 en 3
parametrisch model van Birnbaum. Deze modellen onderscheiden zich van mekaar door het
aantal parameters.12
In deze paper hebben we in navolging van van Veldhoven geopteerd om zoals boven blijkt met
het Mokken-model te werken.
Korte toelichting van het Mokken-model13
Uitgangspunt van het model is dat we de te meten eigenschap als een rechte lijn kunnen
voorstellen waarop elk inidividu zijn waarde (θ) heeft. Niet alleen het individu maar ook elk item
heeft een positie op dat continuüm. Daarbij krijgt het item dezelfde waarde als de respondent, die
met de kans van .5 het positieve alternatief van dat item kiest.
12
Voor een interessante uiteenzetting en overzicht over item response theorieën verwijzen we naar van der
Linden, W. Hambleton R. (eds.) Handbook of Modern Item Response Theory. Springer, 1997.
13
Dit gedeelte is haast integraal gebaseerd op : de Graaf, C. Eendimensionele schaaltechnieken. In :
Bijnen, E. (red). Methoden voor de sociale wetenschappen. Meten. 1987, p. 56-61. Let wel : we zetten
enkel de theorie uiteen voor dichtome items. Voor de polytome items geldt een analoge theorie omdat
met itemstep responsfuncties gewerkt wordt die dichotoom zijn.
10
Item A krijgt de waarde die de respondent heeft die met een kans van .5 het positieve antwoord
kiest. We duiden die waarde op θ aan met δ. Verder wordt aangenomen dat de verschillende
items een verschillende moeilijkheidsgraad hebben. Dat wil zeggen dat om een positieve score
op te leveren sommige items een hogere θ-waarde veronderstellen dan andere. De kans op een
positief antwoord is daarbij voor een moeilijker item kleiner of hoogstens gelijk aan de kans om
een positief antwoord te geven op een makkelijker item.
De belangrijkste assumpties die aan de basis van het Mokken-model liggen zijn :
1. A. Monotome homogeniteit : de items zijn monotoom niet dalend met een toename van de
waarde van θ. Dus als θ stijgt dan neemt ook de kans op een positief antwoord toe. θ
meet 1 latente trek.
B. Dubbele monotomie : naast de monotome homogeniteit wordt een bijkomende eis gesteld,
nl. de curven mogen mekaar niet snijden.
2. Lokale stochastische onafhankelijkheid14 : op elk punt op het continuüm is de kans op het
positieve alternatief voor item i onafhankelijk van de waarde van kans op het positieve
alternatief van item j.
Uit deze aannames volgen enkele interessante eigenschappen :
- we kunnen items ordenen op de θ;
- we kunnen personen ordenen op basis van hun geobserveerde score op de schaal θ.
Hier komt de meerwaarde van IRT en i.c. Mokken tot uiting. We kunnen i.t.t. de klassieke
testleer items en personen ordenen en dus vergelijken. Een stap verder gaat het met item
vergelijkend meten. Dan is de score op zich niet meer belangrijk. We kunnen de hoeveelheid
latente trekken die een persoon heeft (zijn plaats op θ) uitdrukken aan de hand van een item, een
verbale eenheid.15
Wanneer we ons echter richten op de somscore verliezen we deze meerwaarde. We krijgen een
latente variabele die op een bepaalde manier verdeeld is met een gemiddelde en een
standaarddeviatie, die niet meer dient om personen en items op één rechte te plaatsen maar die
haast enkel dient als garantie voor unidimensionaliteit : meten datgene dat we wilden meten. En
met dat concept kunnen we terug in de klassieke analyse (externe analyse) hypothesen toetsen.
Vandaar dat we ons afvragen of we de gebruikers van de vragenlijst (VBBA) niet kunnen
aanraden om de meer bekende factoranalyse te gebruiken.
Voor itemstep response functies kunnen we deze veronderstelling uiteraard niet maken :”Within
itemsteps scores are dependent”, zie hierover: Molenaar, I. Sijtsma, K. Debets, P. Hemker, B. MSP, A
Program for Mokken Scale Analysis for Polytomous Items, Version 3.0. 1994, p. 11-15.
15
Gesprek met P. de Boeck, afdeling Psychodiagnostiek, KU-Leuven.
14
11
Principale factoranalyse
In sociaal-wetenschappelijk onderzoek komt het vaak voor dat we een reeks vragen hebben die
aan respondenten gesteld worden met de idee dat deze vragen een onderliggende eigenschap of
attitude gemeen hebben zonder dat we daarbij noodzakelijk een stevig onderbouwde theorie in
het achterhoofd hebben. Zulke schema heeft weinig van doen met causaliteit en wordt in de
literatuur measurement model of meetmodel genoemd. Dat is ook gepast. De techniek van de
hoofdassenmethode wil in een factoranalyse de veelheid (aantal geobserveerde variabelen) terug
brengen tot weinig –lees : meer hanteerbare begrippen- variabelen. Met de hoofdassenmethode
wordt zoveel mogelijk gemeenschappelijke variantie uit de puntenwolk geëxtraheert in enkele
variabelen tot alle variantie16 is opgebruikt. Op deze manier wordt ons zicht op de puntenwolk
gestructureerd door een aantal assen die de wolk herindelen op zo’n manier dat de meeste
variantie verklaard wordt.
In deze paper doen we beroep op het zuiver dimensiereducerende en gebruiken daarom PAF in
tegenstelling tot PCA dat op zich genomen niet dimensiereducerend is. Bij PCA moet de
gebruiker bv. op basis van de scree plot, waarbij eigenwaarden tegenover de componenten staan
in een grafiek, beslissen hoeveel dimensies hij weerhoudt. Bij PCA worden immers in eerste
instantie evenveel componenten aangemaakt als er geobserveerde variabelen zijn. Dat maakt wel
dat componentenanalyse een handig instrument is om niet blindelings het algoritme van de
extrahering van variantie te volgen waardoor de gebruiker op een zinvolle wijze (techniek,
ladingen en inhoud) een aantal dimensies aanvaardt. Het valt bijvoorbeeld nogal eens voor dat
deze methoden slechts één lading voorzien op één component. Dat zou betekenen dat de
geobserveerde variabele samenvalt met de latente variabelen. Van dimensiereductie is dan geen
sprake meer.
Uit de VBBA structuur volgt in feite dat verschillende schalen teruggebracht kunnen worden tot
één latent begrip. Zo zien we dat werktempo en hoeveelheid samen met emotionele belasting
onder de noemer komen van psychologische taakeisen. Dat betekent in feite dat alle items uit
deze twee schalen laden op dezelfde achtergrond variabele m.n. psychologische taakeisen. Wij
respecteren echter de keuze die van Veldhoven maakte in zijn doctoraat en laten daarom in SPSS
geen PAF draaien waarin alle geobserveerde variabelen bekeken worden. Wij geven batterij per
batterij aan de procedure. Daarmee kunnen we ons ook toeleggen op ons vraagstuk17 over het
16
Let wel in PCA is dat 100% maar in PFA is dat h, de diagonaal van de gereduceerde correlatiematrix
waarbij van 1 de unieke factor (de errorcomponent) wordt afgetrokken. H staat dan voor communaliteit.
17
Dat we daarbij aan kanskapitalisatie doen is een erg zeer wanneer we in het laatste deel hypothesen gaan
toetsen. We zijn ons daarvan bewust en hebben nagelaten om daarvoor te corrigeren. Zoals later zal
blijken zijn de bekomen p-waarden van die orde dat we wel wat kunnen kapitaliseren.
Tenslotte willen we ook opmerken dat het vanuit wetenschappelijk standpunt interessanter is te falsifiëren
dan na te gaan of de structuren kunnen aanvaard worden. In deze paper beschikken we echter nog niet
over de voldoende grip op data-analyse om na een falsificatie een behoorlijk alternatief aan te bieden.
12
verband tussen PAF en IRT. We opteren er bijgevolg ook voor om de factoren (als het er al meer
dan 1 zal zijn ) niet te laten roteren. In gedachten hebben we immers een één-factorstructuur. Bij
een ongeroteerde oplossing profiteren we dan van het feit dat de eerste component of factor een
algemene factor is waarop alle variabelen hoog laden.18
Schaalstructuren aan de hand van exploratieve factoranalyse in SPPS
Werktempo en –hoeveelheid
De factor verklaart ruim 37% van de variantie binnen de items. Dat is niet slecht. De meeste
items laden behoorlijk op de latente trek werktempo -en hoeveelheid op één item na, nl. wh8 dat
maar .25 op de factor laadt. Toch moeten we opmerken dat wh7 vrij laag laadt op deze factor.
Emotionele belasting
De items eb1 tot eb7 zijn volgens van Veldhoven de items die de schaal emotionele belasting
uitmaken. In een factoranalyse komen zij goed tot hun recht. We krijgen weliswaartwee factoren
aangereikt door deze techniek die samen bijna 44% verklaarde variantie opleveren maar slecht
één item laadt op deze factor nl. item 6, maar dan minder dan op de eerste factor. Vandaar dat
wij opteren voor een één factor model. Deze oplossing verklaart 35%. Alle ladingen behalve
die van eb2 en eb3 zijn boven de .5 of .6.
Lichamelijke inspanning
De items die de schaal lichamelijke inspanning meten lijken op het eerste zicht heel mooi één
factor achter zich te dragen die hun onderlinge samenhang voor zijn rekening neemt. De factor
verklaart 56%. Dat is voor sociale wetenschappen naar mijn oordeel erg hoog. Toch merken we
in de ladingen op dat li3 erg laag laadt, nl. .17. Als we dit item weg zouden laten zouden we nog
meer verklaarde variantie verkrijgen en zou wellicht de betrouwbaarheid van de meting stijgen.
In termen van Swanborn stijgen we van een zwakke naar een sterke schaal. Het percentage
verklaarde variantie stijgt met 10%.
Die verbetering is niet nodig…we zitten hoe dan ook binnen de grenzen die in de humane
wetenschappen gehanteerd worden.
Afwisseling in het werk
De factoranalyse in SPSS laat weinig tot onze verbeelding over : de factor verklaart bijna 40%
van de te verklaren variantie. Hier hebben we ook geen afwijkende ladingen; enkel item aw6 met
Hiermee sluit ik expliciet aan bij de paradigmaleer van Khun dat in zich Popper ’s falsificatie draagt maar
er niet dadelijk dezelfde consequenties aan hecht.
18
Tacq, J. o.c. p. 267.
13
een lading of beta van .439 scoort onder de .5, aw3 laad heel hoog met .83. De matrix wordt
zoals voor alle overige matrixen opgenomen in de bijlage.
Leermogelijkheden
Met leermogelijkheden zit het goed. De factor verklaart 61% van de te verklaren variatie tussen
de items. Geen enkel item laadt eigenlijk beneden de .7.
Zelfstandigheid in het werk
Hoewel we met een meting van 11 items meer kans maken tot anomaliën merken we op dat de
factor hier zowat 51% verklaart van de samenhang tussen de items. Dat is weerom erg goed. De
structuur ziet er ook mooi uit. Geen enkel item laadt lager dan .64 op deze factor.
Relatie met collega’s
De factoranalyse op basis van de items die de relatie met de collega’s meent te meten levert met 2
factoren een behoorlijk resultaat op. Samen verklaren de twee factoren 53% van de aanwezige
variantie in de items. Bij inspectie van de ladingen op de twee factoren zien we echter dat er
geen reden is om naar één twee-factormodel te rijken. Geen enkel item laadt hoger op het eerste
dan op de tweede factor. Vandaar dat we ons tevreden moeten stellen met een één-factormodel
dat 44 % van de aanwezige variantie verklaart en waarbij item rc6 maar een beta van .45 heeft.
Maar dat is ruimschoots voldoende en weerlegt ons inziens de veronderstellingen van van
Veldhoven niet.
Relatie met directe leiding
We kunnen praktisch hetzelfde verhaal vertellen als bij relatie met collega’s. We hoeven zoals de
lezer kan afleiden uit de bijlage niet meer te zeggen dat we een één factoroplossing vinden die
4% meer verklaart als hierboven en waarbij weer rc6 een beetje uit de toon valt.
Inspraak
De volgende schaal maar dan uit de regelmogelijkheden is inspraak. De factoranalyse behoeft
weinig woorden. De ladingen liggen op één na boven de .6 en de meeste boven de .75 en dat op
een factor die zowat 52% van de oorspronkelijke variatie voor zijn rekening neemt. Van een
andere factor is gezien de extraheringsresultaten in de bijlagen geen sprake.
Toekomstonzekerheid
We verklaren met deze latente trek 82% van de variantie tussen de items. Dat is torenhoog. De
factorladingen liegen er niet om : ze gaan van .85 tot .95. Een resultaat om van te dromen.
14
Plezier in het werk
Van een twee factoren oplossing is geen sprake. Hoewel een tweede factor een bijkomende
percentage verklaarde variantie oplevert van 6 % zien we in de matrix van factorladingen geen
enkele reden om de tweede factor te aanvaarden. Slechts één item laadt maximum rond de .4 op
deze factor terwijl ze .65 haalt op de eerste factor.
Een één factoroplossing levert uiteindelijk 37% verklaarde variantie op. Dat is vrij goed voor
sociale wetenschappen. Het enige item dat onder de .5 laadt is piw6; het laadt tot .456. De
andere ladingen zijn ‘moderate’ en voor de meeste items variëren ze tussen de .6 en de .75. Voor
ons uitgangspunt een aanvaardbaar resultaat. We zien immers geen enkele aanleiding om de unidimensionaliteit op basis van een factoranalyse te verwerpen.
Herstelbehoefte
Met herstelbehoefte nemen we eigenlijk als we naar de resultaten kijken de draad van voor
betrokkenheid bij de organisatie of bedrijf terug op. SPSS laat weinig aan onze verbeelding over.
Met de optie om factoren te produceren met eigenwaarden groter dan 1 – de default optie cf.
Kaizer criterium – krijgen we maar één factor te zien in de output die 40% van de te verklaren
variantie voor zijn rekening neemt. De ladingen zijn middelmatig tot goed te noemen op herb11
na. Dat laatste item laadt tot .43. De overige items uit deze batterij zitten boven de .56 met een
maximum van .73. Ook hier zien we in tegenstelling tot de vorige batterij overduidelijk
aanknopingspunten terug om tevreden te zijn met de unidimensionaliteit waarvan van Veldhoven
uitgaat.
Piekeren
De items die samenhangen voor piekeren zijn voor 45% te danken aan één onderliggende
variabele volgens het resultaat van de exploratieve factor analyse in SPPS. Dat is meer dan
geruststellend in de setting van de humane wetenschappen. De factormatrix is meer dan
bevredigend, slecht één item scoort onder de .63, nl. p2 laadt .52.
Mokken search procedure19 : de IRT.
Om een Mokkenanalyse te doen aan de hand van MSP 3 verliezen we heel wat observaties omdat
het programma nu eenmaal geen lege cellen kan verwerken. Dat opvangen door ‘imputation of
19
We hebben bij deze analyse gewerkt met MSP versie 3 (1994)
15
missing variables’ zoals mogelijk is in SPSS, biedt ons in eerste instantie weinig theoretische
houvast om dat op een verantwoorde manier te doen en in tweede instantie zijn de opties in SPSS
er niet op gericht om de te vervangen lege cel om te zetten in een geheel getal dat wel door MSP
kan verwerkt worden.
Werktempo en – hoeveelheid
De schaal die met de items die werktempo achten te meten gevonden werd, levert een
schaalbaarheidscoëfficient op van .47. Dat is behoorlijk volgens mokken.
Wat de keuze van het Mokkenmodel betreft moeten we vaststellen dat het model van de dubbele
monotomie (in het vervolg afgekort als DM) niet aanvaard kan worden op basis van deze items.
Daarvoor vinden we – zoals we in de bijlage kunnen zien – teveel significante schendingen van
deze eis die er op neer komt dat de IRF’s elkaar niet mogen snijden. Deze vaststelling is dus in
tegenspraak met van Veldhovens inspectie van de P-Matrixen.20
We aanvaarden de resultaten van deze zoekprocedure bij het meer eenvoudige model van
Mokken. De eis van monotome homogeniteit (in de toekomst afgekort als MH) wordt zelfs
nergens geschonden. Dus ook niet significant geschonden zoals we zien in de bijlagen van dit
werk.
Emotionele belasting
Zoals we hieronder zien hebben we een middelmatige schaal als we de vuistregels van Mokken
(cf. infra) (1982) volgen.
De diagnose van de MH is net zoals bij werktempo en –hoeveelheidpositief.
Bij inspectie van de DM in restscore groepen zien we dat we enkele schendigen terugvinden maar
ze zijn niet significant. Geen enkele IRF snijdt dus een andere IRF in dit IRT-model.
Lichamelijke inspanning
Bij de lichamelijke inspanning is de schaal heel sterk : Loevinger’s H is gelijk aan .69.
Van een aanvaarding van de eis van DM kan hier geen sprake zijn. Het aantal significante
schendingen spreekt bijna tot de verbeelding. Wel hebben we geen enkele schending en zeker
geen enkele significante van het MH-model.
Afwisseling in het werk
De schaalbaarheid gemeten aan de hand van Loevinger H bedraagt .40. Dat is een middelmatig
doch voldoende resultaat.
20
Wel moeten we opmerken dat hij enkel de 5 à 10% schendingen weerhoudt in het eerste decimaal.
(van Veldhoven, o.c. 1996, p 71) Hier betreft het alle schendingen aan de hand van de optie in MSP 3
‘restcscore’ dat uitmondt in een tabel waarbij alle schendingen en alle significante schendingen (alfa : .05)
weergegeven worden. Daardoor kunnen we eigenlijk een vergelijking met van Veldhoven zijn resultaten
niet maken die visueel de P-Matrixen moest inspecteren op mogelijke schendingen.
We onthouden dat hij vertrok van de eis van de dubbele monotomie en trekken stilzwijgend de
vergelijking met zijn resultaten.
16
Het model van MH kunnen we zonder enig probleem aanvaarden. We hebben dan tot dusver al
een mokkenschaal maar zonder de strenge eisen van het DM. Dat laatste kunnen we in geen
geval aanvaarden. We hebben wel weinig schendingen maar ze zijn krachtig. Ze reiken tot een
z-waarde van 3.8.
Leermogelijkheden
Bij leermogelijkheden hebben we maar 4 items zoals bij toekomstonzekerheid. In de
factoranalyse verklaarden we met een één-factor-model 61% van de variantie. Bij mokken halen
we een ijzersterk schaalbaarheidscoëfficient van .72 .
Wat het soort mokkenmodel betreft kunnen we stellen dat zowel bij MH als bij DM er zelfs geen
enkele schending.
Zelfstandigheid in het werk
Hieronder vindt de lezer de schaalbaarheidscoëfficient en de plaats van de item respons curven
terug.
Voor deze items kunnen we echter, zoals men kan verifiëren in de bijlagen, geen steun vinden
voor DM. Bij MH vinden we één schending – en dat bij item 7 - terug maar ze is niet
significant. Zo kunnen we het verzwakte mokkenmodel aanvaarden.
Relatie met collega’s
De schaalbaarheid van de items die deze schaal uitmaken is boven de .5, nl. .56. Dat is erg hoog
en stelt ons dus tevreden.
Op het 10% significantieniveau kunnen we ook de DM eis inwilligen. Bij het 5% niveau hebben
we echter twee schendingen. Aan het MH kan weliswaar niet getwijfeld worden : er is geen
enkele schending van het monotoom stijgende verloop van de IRFs.
Relatie met directe leiding
De schaalbaarheid van de items die directe leiding meten, ligt iets hoger dan die van relatie met
collega’s. De schaalbaarheidscoëfficient is .6.
Tot zover de gelijkenissen, want het DM – model kunnen we in geen geval handhaven. Het
aantal schendigen is immers erg talrijk. Het MH scenario komt ook licht in het gedrang. Item 4
vertoont 4 significante schendingen als we een α aanhouden van .05. In het .1 geval kunnen we
de waarde echter aanvaarden en stellen dat het MH scenario aangehouden wordt. In feite hebben
we dus een twijfelachtige mokkenschaal.
Inspraak
De schaalbaarheid van deze items laat helemaal niet te wensen over. We halen .61 wat in feite
een sterke schaal is. Het model van MH wordt makkelijk gepasseerd. We hebben niet één
schending vastgesteld. Maar het model van de DM kan zeker niet aangehouden worden, ook niet
17
op het 10% niveau. Er is zelfs geen enkel item in de restscore groepen dat geen significante
schending maakt tegen de dubbele monotomie.
Toekomstonzekerheid
Bij het zien van de schaalbaarheidsmaat worden we als het ware wantrouwig door de hoge score
ervan. De items halen een schaalbaarheid tot .81. De schaal zelf haalt .84. Dat is uiteraard
enorm hoog. De range is daarentegen heel, heel erg klein.
De MH en de DM modellen kunnen met brio aanvaard worden. We vonden wel 2 schendingen
in de DM situatie maar deze waren verre van significant.
Plezier in het werk
De schaalbaarheid is erg hoog, nl. .52.
Voor deze schaal is er geen enkel probleem om zelfs de DM te aanvaarden. Noch schendingen
noch significante schendingen werden voor de DM ende MH waargenomen in de output die we
in de bijlagen opnemen.
Herstelbehoefte
Ook bij herstelbehoefte is de range betrekkelijk groot zoals we hieronder kunnen afleiden.
Hetzelfde geldt voor de schaalbaarheidscoëfficient Loevinger’s H die .54 bedraagt.
Wat het model van MH betreft zitten we erg goed. Er is geen enkele schending. We hoeven het
mokkenmodel van de monotome homogeniteit niet te verwerpen. Op het vijf procent niveau
komen we 4 keer in aanvaring met de eisen van DM. Op het niveau van de 10% kunnen we
echter de eisen van DM aanvaarden. We zitten dus in vergelijking met wat we konden
verwachten op het scherp van de snee.
Piekeren
Piekeren is weer zo’n korte batterij : ze bestaat uit vier items. De schaalbaarheidsmaat van .64
stemt ons heel gunstig. Het model van MH wordt niet in het gedrang gebracht. Wat echter de
eisen van de DM betreft kunnen we deze schendingen in geen geval aanvaarden. We moeten het
dus houden bij het minder strenge mokkenmodel.
Vergelijking van de resultaten uit MSP en PAF
Een relatie tussen schaalbaarheid van het item Hi en lading van i op de latente variabele
MSP zoekt –kort gesitueerd- op basis van Loevinger’s H, Hi, Hij de schaal. Daarbij moet H
groter of gelijk aan c zijn dat over het algemeen .3 bedraagt. ‘Loevinger’s H-coefficient per item
pair, per item and for the scale can be used to express the exent to which this Guttman pattern
18
holds true ….’21 Dat is de deterministische variant van Mokken waarbij foutenpatronen niet
voorkomen. Hieronder beelden we het verband grafisch af.22
Onder het Mokken-model ligt Hig tussen nul en 1. Als Hig nadert tot 1, dan gaat het Mokkenmodel lijken op het Guttman-model en als Hig nadert tot nul, dan gaat het Mokken-model lijken
op het constante regressiefunctiemodel.23 In dat laatste zijn de items ongeschikt om een latente
trek te maken.
Hig kan geschreven worden als
Hig = 1- kans op verkeerd antwoord patroon/verwachte kans op verkeerd patroon onder
Onafhankelijkheid
Intuïtief zouden we stellen dat Hig aldus een helling uitdrukt net zoals de ladingen van de
factormatrix hellingen bevat. Voor parametrische modellen zouden de bewijsvoering van een
21
Molenaar, I.W. Nonparametric Models for Polytomous Responses. In : van der Linden, W. Hambleton
R. (eds.) Handbook of Modern Item Response Theory. Springer, 1997, p. 369.
22
van den Brink, W.P. Mellenbergh, G.J. Testleer en testconstructie. Vakgroep Psychologische
Methodenleer, Faculteit der Psychologie, Universiteit van Amsterdam. 1998, p. 198.
23
Ibid. p. 199.
19
verband tussen Hig en r makkelijker liggen. In de regressiefunctie van deze modellen worden
immers veronderstellingen gemaakt over de discriminatieparameter. In een niet parametrisch
model ligt dat niet voor de hand. Er zijn immers geen parameters. Toch staan we niet
machteloos en geraken we verder dan deze intuïtieve bewijsvoering. Bij Mokken vinden we het
volgende terug : ‘Schriever advocated optimal score methods derived from multiple
correspondance analysis, where the first principal component Y1 of the correlation matrix of
items U optimally fits the ability θ.24 Wanneer Meijer en Sijtsma zich bezighouden met de vraag
of de personen fitten op deze latente trek dan demonstreren ze dat het gebruik van de
itembetrouwbaarheid als maat voor discriminatie en helling van de IRF’s nuttig is.25
In PCA gebeurt het onderzoek van de eigenstructuur van X door het onderzoek van de
eigenstructuur van R m.n. de correlatiematrix (gereduceerde correlatie matrix in PAF)van de
geobserveerde variabelen. Deze structuur wordt gevat door de eigenwaarde. De eigenwaarde
geeft meestal een optimum aan. Voor de factoranalyse is dat de maximale variantie 26. In een
principale componenten analyse is de som van de eigenwaarden gelijk aan het aantal indicatoren
– het bewijs dat 100% verklaard wordt of dat alle variantie geëxtraheerd wordt. Het geeft met
andere woorden aan hoe goed een component in staat is om de gemeenschappelijke spreiding uit
de oorsponkelijke variabelen te extraheren. In PAF is de som van de eigenwaarden gelijk aan de
totale gemeenschappelijke variantie. Dat is dus 1-E. Voor ons opzet is het echter belangrijk dat
de componentladingen de regressiecoëfficienten zijn in een model met een variabele als
afhankelijke en de componenten als onafhankelijke variabelen. 27 Maar hier zijn het
correlatiecöefficienten.28 Met deze correlatie zijn op weg naar een wiskundig verband tussen
Hi(j) en lading. ‘This coefficient equals the ratio of the covariance between item i en j and their
maximum covariance given the marginal distributions.’ 29 In de formule van de correlatie komen
we dus eenzelfde grootheid tegen, nl. in de teller van de twee staat (i-mean(i))*(j-mean(j)).
Omdat we echter in een niet parametrisch model zijn kunnen we onze intuitieve bewijsvoering
moeilijk hard maken.30 Maar we zien dat H en r geen gescheiden grootheden zijn.
Hieronder zetten we de itemschaalbaarheid naast de ladingen om te kijken of we geen verband
kunnen zien.
Tabel 1 Factorladingen naast itemschaalbaarheid Hi
H
24
Factor
H
Factor
H
Factor
Mokken, R. J. Nonparametric Models for Dichtomous Responses. In : van der Linden, W. Hambleton
R. (eds.) Handbook of Modern Item Response Theory. Springer, 1997, p. 358.
25
Ibid. p. 362.
26
Tacq. J. o.c. p. 258.
27
Tacq, J. o.c. p. 262.
28
Tacq, J. o.c. p. 281
29
Molenaar, I. Sijtsma, K. Debets, P. Hemker, B. o.c. p. 7.
30
Takane en de Leeuw vergelijken het hart van de procedures in factoranalyse en IRT met mekaar in
begrijpelijke taal in : Takane, Y. de Leeuw, J. On the relationship between item response theory and
factor analysis of discretized variables. In : Psychometrika, nr. 3, 1987, p. 393-394 en 396-397.
20
WH1
.48
.674
ZIW1
.6
.699
LM1
.85
.698
WH2
.44
.587
ZIW2
.61
.769
LM2
.87
.876
WH3
.57
.741
ZIW3
.56
.659
LM3
.84
.840
WH4
.46
.669
ZIW4
.64
.772
LM4
.81
.699
WH5
.58
.779
ZIW5
.55
.640
WH6
.42
.515
ZIW6
.66
.811
H
Factor
WH7
.35
.440
ZIW7
.63
.745
INSPR1
.54
.577
WH8
.32
.255
ZIW8
.64
.773
INSPR2
.65
.756
WH9
.52
.638
ZIW9
.42
.463
INSPR3
.7
.821
WH10
.51
.666
ZIW10
.66
.829
INSPR4
.62
.745
WH11
.48
.584
ZIW11
.53
.644
INSPR5
.65
.768
INSPR6
.65
.786
Factor INSPR8
.53
.617
.6
.681
H
Factor
H
Factor
EB1
.45
.632
RC1
.58
.668
EB2
.49
.712
RC2
.55
.650
EB3
.37
.453
RC3
.62
.759
EB4
.33
.409
RC4
.52
.603
TO1
.85
.907
EB5
.47
.618
RC5
.56
.619
TO2
.87
.952
EB6
.39
.511
RC7
.61
.781
TO3
.84
.912
EB7
.5
.702
RC8
.62
.780
TO4
.81
.842
RC6
.45
.454
Factor RC9
.5
.593
H
Factor
AW1
.42
.520
Factor AW2
.49
.646
H
H
INSPR7
LI1
.64
.858
LI2
.64
.875
LI3
.18
.167
RL1
.61
.706
AW3
.57
.836
LI4
.45
.619
RL2
.59
.685
AW4
.48
.694
LI5
.65
.869
RL3
.7
.855
AW5
.39
.577
LI6
.62
.786
RL4
.38
.491
AW6
.33
.439
LI7
.59
.801
RL5
.51
.711
RL6
.47
.412
RL7
.67
.791
RL8
.7
.812
RL9
.5
.594
H
Op het eerste zicht zien we dat als Hi hoog is ook de factorlading hoog is en dat als Hi laag is ook
de factorlading laag is. Tergelijkertijd zien we echter dat bij de volgorde per schaal op het gebied
van de hoogte van Hi en factorlading bij de hoge ladingen en hoge Hi waarden de vergelijking in
21
de fout gaat. De volgorde is niet dezelfde. Toch merken we een hoge correlatie op tussen de
twee waarden.
In de tabel hieronder geven we de samenhang weer tusssen de twee grootheden per schaal. De
laatste kolom en de laatste rij geven een overzicht over de samenhang van de totaliteit, dus alle h
en factorwaarden.
Tabel 2 Correlatie tussen ladingen per batterij items en Hi per schaal
Correlations
Hwh Heb Hli
Haw Hlm
Hziw Hrl
Hinspr Hto H
Fwh
0,94
Feb
0,99
Fli
0,99
Faw
0,96
Flm
0,64
Fziw
0,99
Frl
0,89
Finspr
0,971
Fto
1
F
0,86
We zien een sterke relatie tussen de twee. Enkel voor leermogelijkheden zien we een
tegenvallend resultaat, mede door het feit dat we maar 4 waarden per grootheid konden
vergelijken. We durven te stellen dat de ladingen uit de factormatrix een reflectie zijn van
itemschaalbaarheidscoëfficienten die we redigeerden uit de MSP-output.
Een relatie tussen H en % verklaarde variantie
De relatie van hierboven komt intuïtief niet vreemd over. De eerste factor wordt zo gezocht dat
het meeste variantie geëxtraheerd wordt. In MSP is het start itempaar het paar dat de hoogste Hij
waarde oplevert. Bij PAF stopt het proces als alle gemeenschappelijkheid verklaard is. Bij MSP
stopt het zoekproces als er geen beduidende relaties meer zijn. Hi, Hij en H moeten groter dan .3
zijn. Dat is dus als het ware de benedengrens voor gemeenschappelijkheid. 31 In een PAF is de
som der gekwadrateerde ladingen gelijk aan de eigenwaarde van de eerste factor.32 De
eigenwaarden hebben echter een zeer interessante interpretatie : hoe goed is een component in
staat om de gemeenschappelijke spreiding uit de oorspronkelijke geobserveerde variabelen te
traceren. Vertaald naar factoren is dat : hoe goed is een factor in staat om de ‘echte’
31
De procedure is mooi en duidelijk uitgelegd in Mellenbergh, G. J.
itemsresponsen. In : van de Brink, W.P. Mellenbergh, G.J. o.c. p. 203-204.
32
Tacq, J. o.c. p. 279.
Modellen voor discrete
22
gemeenschappelijke spreiding uit de oorspronkelijke variabelen te traceren. 33 We kunnen
eigenwaarden dan ook zien als gelijkwaardig aan % verklaarde variantie die dus een maat is voor
de kwaliteit van de factoranalyse. Het is dan ook niet meer dan logisch dat we deze twee
kwaliteitsmaten eens met mekaar willen vergelijken.
Tabel 3 Beoordeling van H naast beoordeling van de verklaarde variantie in % uit de
factoranalyse.
Schaal uit VBBA-kern (aantal
items)
VIER
SCHALEN
H
Beoorde- DM of % verklaarde Beoordeling
ling H34 MH35
variantie
% verkl.
Var.36
.47
.43
.54
.44
.72
.59
.56
.6
.61
.84
Medium
Medium
Strong
Medium
Strong
Strong
Strong
Strong
Strong
Strong
.52
.54
.64
Strong
Strong
Strong
PUNTEN
Werktempo en hoeveelheid (11)
Emotionele belasting (7)
Lichamelijke inspanning (7)
Afwisseling in het werk (6)
Leermogelijkheden (4)
Zelfstandigheid in het werk (11)
Relatie met collega’s (9)
Relatie met directe leiding (9)
Inspraak (8)
Toekomstonzekerheid
MH
DM
MH
MH
DM
MH
DMH
MH
MH
DM
37, 4
34.5
65.5
39.9
61.2
51.4
44
47.2
52.3
81.7
Zwak
Zwak
Sterk
Matig
Sterk
Matig
Matig
Matig
Sterk
Sterk
36.7
40.2
45
Zwak
Matig
Matig
DICHOTOME
SCHALEN
Plezier in het werk
Herstelbehoefte
Piekeren
Voor we deze tabel bespreken willen we eerst opmerken dat het na de factoranalyse haast logisch
zou zijn (cfr. Likerschaal) om Chronbach’s alfa te presenteren als tegenhanger van de Loevinger
H-coëfficient maar ‘make clear that H and alfa have some similarities, but also behave differently
‘echte’ omdat een unieke factor afgetrokken wordt van de 1 die de hoofddiagonaal van de
correlatiematrix in een PCA vormen, m.n. de error-term. We concetreren ons dus van bij het begin op de
gemeenschappelijkheid. In de praktijk zien we dan ook dat de eigenwaarden over het algemeen kleiner
zijn in een PAF dan in een PCA waarin de 100% variantie herschikt worden. Tacq, J. o.c. op p. 274
samen lezen met 264 en 279.
34
Mokken, R.J. o.c. p. 361.
35
DMH is gelijk aan DM op een significantie-niveau van 10%.
36
We hebben uiteraard geen harde evidentie voor deze beoordeling. Laten we maar stellen dat ze
gebaseerd is op eigen inzicht dat verkregen werd uit de literatuur en ervaringen van anderen.
33
23
[…] leads to the conclusion that H and alfa, despite their apparent simularities, should not be
used interchangeably in research.’37
Wij willen de klemtoon leggen op de
gemeenschappelijkheid waarnaar beide methoden op zoek gaan.
Als we H en percentage verklaarde variantie vergelijken zien we wel dat hoe hoger H is, hoe
meer verklaarde variantie. Bij de beoordeling komen er echter grote verschillen aan het licht.
Als volgens de norm uit Mokken de schaal sterk is, dan is dat niet noodzakelijk het geval voor
hoe tevreden we zijn over het percentage verklaarde variantie dat PAF uit de oorspronkelijke
gemeenschappelijkheid wist te extraheren. Sommigen zijn ook wel sterk maar de meesten zijn
maar matig. Hier komt blijkbaar het verschil tussen de twee methoden aan het licht. De
gemeenschappelijkheid is voor Mokken niet genoeg. Er is nog de niet monotoom dalende vorm
van de item responscurven en de lokale stochastische onafhankelijkheid waaraan een
Mokkenschaal moet voldoen. Bij het model van de dubbele monotomie mogen de IRF’s mekaar
ook niet snijden. Afwijkende hellingen kunnen daarvan een indicatie zijn.38 Gelijkgezind zijn ze
wel over unidimensionaliteit. Bij de factoranalyse zien we nergens een tweede factor naar voor
komen. Dat mokkenschalen unidimensioneel zijn spreekt voor zich.
Dan rest ons het vraagstuk over de scoringsregel. Factoren kunnen ons geen houvast geven om
de scores van personen over items op te tellen. We zijn dan ook geneigd om met de factorscores
verder te werken. Uit de item respons theorie weten we dat de scoringsregel een voldoende
statistiek is om mee verder te werken. We zijn dan ook geïnteresseerd in het verband tussen
factorscores en mokkenscores.
Tabel 4 correlatie tussen schaalwaarden en factorscores
Correlations39
Schaal
Factor
Werktempo en hoeveelheid
-0,99098
Emotionele belasting
-0,98441
Lichamelijke inspanning
-0,96897
Afwisseling in het werk
0,963471
Leermogelijkheden
0,990028
Zelfstandigheid in het werk 0,993625
Relatie met collega's
0,991144
Sijtsma, K. Contributions to Mokken’s Nonparametric Item Response Theory. Rijkuniversiteit
Groningen. 1988, p. 94.
38
Wanneer we de oefening maakten om via de factorladingen na te gaan of we items verantwoordelijk
konden stellen voor de schending van de dubbele monotomie of voor de schending van de monotome
homogeniteit konden we nergens evidentie vinden. De helling is immers maar één aspect van een IRF. Er
is ook nog de moeilijkheidsgraad van een item dat verantwoordelijk is voor de ligging van de
responsfunctie in de ruimte thetha en kans op een goed antwoord.
39
α is minimum in de grootte orde van 10 -20 . Dat is inderdaad erg hoog maar niet verwonderlijk gezien
het grote aantal observaties (minimum 900) en de gecorreleerde grootheden.
37
24
relatie met directe leiding
0,988757
Inspraak
0,992534
Toekomstonzekerheid
-0,99527
Plezier in het werk
-0,98708
Herstelbehoefte
0,997059
Piekeren
0,975779
De correlaties zijn erg hoog. Dat hoeft niet te verwonderen. We zagen eerder al een verband
tussen H en het percentage verklaarde variantie als ook een verband tussen Hi en factorlading.
Het lijkt alsof we gewoon verder kunnen werken met de factoranalyse i.p.v. mokken net zoals we
bij de likertschalen deden in de module eendimensionele schaaltechnieken. Maar we mogen de
dingen niet verkeerd voorstellen. Het is niet omdat we één factoroplossing hebben dat we een
mokkenmodel hebben. Wel zal het zo zijn dat als we een medium of strong mokkenmodel
hebben, we in een factoroplossing een één factorstructuur zullen zien. De voorwaarden voor Hi,
Hig en H groter dan .3 komen overeen met een lading van rond de dertig procent. Een erg vlakke
item responscurve is het gevolg. Als we zulk item verwijderen dan zal het percentage verklaarde
variantie wellicht toenoemen alsook H. Doch vanuit de informatiefunctie kunnen we onszelf niet
aanraden om te doen.
Laten we onthouden dat vanuit de unidimensionaliteit bij Mokken ook een unidimensioneel
factormodel volgt, als tenminste Loevinger’s H van minstens medium niveau is.40
Na het meten het toesten van hypothesen met zowel schaalscores als
factorscores41
Leidinggevenden versus niet leidinggevenden aan de hand van het moeten en
kunnen42
Theoretisch kader
Op het werk hebben we te maken met andere mensen in zeer uiteenlopende rollen. Zij zijn
collega, chef, ondergeschikte, klant, leverancier, …enz. De verschillende rol die de andere speelt
zet ons telkens in een andere positie en legt ons andere taken op. Het ligt voor de hand, de
anderen op het werk oefenen invloed uit op alle componenten van het stressmodel : ter hoogte
van het ‘moeten-aankunnen’, ter hoogte van het ontstaan van het gevoel je taak niet meer aan te
kunnen.43 Met mensen werken treft maw. altijd de verhouding tussen moeten en kunnen die aan
40
Deze conclusie wil ik enkel nemen voor onze data met ons beperkt aantal bedrijven. (cf. supra)
In de bijlagen nemen we twee tabellen op die op onze vraag moesten antwoorden of we bij het toetsen
van hypothesen in de problemen komen met de p-waarden en de vooropgestelde kans op een type I-fout.
Het antwoord daarop is negatief. De significantieniveaus zijn bij beide modellen van eenzelfde grootte
orde zoals blijkt uit de bijlage.
42
Moors, S (ed.) Stress en werk. Oorsprong en aanpak. Nationaal Onderzoeksinstituut voor
Arbeidsomstandigheden, 1994, p. 13-47.
43
Ibid. p. 39-40.
41
25
de basis ligt van stress. Voor leidinggevenden is dat niet anders, integendeel. ‘Om het ijzer te
smelten moet je de nodige parameters op de hoogte brengen zodat het smelt, maar om mensen
warm te maken en te houden, kunnen we niet op zulke fysische makkelijk te bespelen variabelen
rekenen.’ Dat gaat zeker op voor de leidinggevenden. Zij zijn in de hiërarchie van het bedrijf
niet alleen gezagsvoerders over de ondergeschikten maar ook de ondergeschikten van het kader.
We kunnen hen zien als een knooppunt waar instructies binnen komen en buitengaan. In
‘integrale zorg-taal’ zijn zij steeds zowel klant als leverancier. Om het met de woorden van
Moors te zeggen : “Het oordeel over hoe goed je het doet en of je dus je taak aankunt, komt niet
enkel van de hogere leiding, je collega’s-chefs, maar ook van je ondergeschikten.”44 De nietleidinggevenden spelen in het algemeen niet zo’n dubbele rol. Zij zijn in het IZ-denken ook wel
klant en leverancier maar zijn als klant meer proceduraal afhankelijk om hun rol als leverancier
(dienst of product) te vervullen. Er is echter meer. De procedurale afhankelijkheid impliceert dat
zij minder regelmogelijkheden hebben die dan nog via de sociaal-organisatorische component
van een instelling of bedrijf herbekeken kan worden. Dat laatste gebeurt dikwijls in het kader
van de collectieve arbeidsverhoudingen dat gedelegeerd wordt aan de syndicale
vertegenwoordigers.
In operationele termen verwachten we dan voor de leidinggevenden meer emotionele belasting en
harder moeten werken dan niet leidinggevenden. Hun rol in het bedrijf als knooppunt betekent
voor ons dat ze ook meer variatie in de taak maar ook meer leermogelijkheden hebben dan nietleidinggevenden. Voor niet leidinggevenden verwachten we minder inspraak en zelfstandigheid
in het werk (taakautonomie) om het dagelijkse werk te regelen. Werken met mensen die als het
ware tegenstelde eisen hebben, veroorzaakt o.i. meer spanning die in het doctoraat van van
Veldhoven geoperationaliseerd werd aan de hand van herstelbehoefte en piekeren.45
Empirisch onderzoek : t-test
Bovenstaand vraagstuk is erg makkelijk te gieten in een meettechniek, nl. de t-test voor het
vergelijken van twee groepen. We willen immers leidinggevenden met niet leidinggevenden
vergelijken op tal van schalen. De nulhypothese die getest wordt, is de hypothese dat de
gemiddelden van beide groepen gelijk zijn. De alternatieve hypothese is dat de gemiddelden van
beide groepen verschillend zijn.
Tabel 5 Significantietabel op basis van Mokken en Factor scores
44
Ibid. p. 42.
De figuur uit het doctoraat wordt behandeld in van Veldhoven, M. Meijman, Th., Broersen, S. en
Fortuin, R. Handleiding VBBA. Onderzoek naar de beleving van psychosociale arbeidsbelasting en
werkstress met behulp van de VBBA. Stichting Kwaliteitsbevordering en Gezondheidszorg. Amsterdam,
1997, p. 50.
45
26
Independent
Samples Leidinggevenden versus niet-leidinggevenden
Test
Factoren
Mokken
Levene’s Test for Equality of Variances
Levene's Test for Equality of Variances
t-test for Equality of Means
F
Sig.
t
df
Sig. (2-tailed)
t-test for Equality of Means
F
Sig.
t
df
Sig. (2-tailed)
WH
EVA46
5,91 0,015341
1,88 340
0,060899
6,66 0,010091
-2,27 339
0,02398
EB
EVA
1,88 0,170873
7,835 621
2,04E-14
0,723 0,395437
-8,44 621
2,22E-16
AW
EVA
8,95 0,002883
-10,4 357
3,78E-21
12,72
0,00039
-10,4 366
3,45E-21
LM
EVA
4,13 0,042503
-6,01 341
4,79E-09
7,596 0,006021
-6,44 353
3,85E-10
ZIW
EVA
27 2,72E-07
-10,6 399
2,49E-21
23,42 1,65E-06
-10,8 394
2,6E-21
INSPR
EVA
11,5 0,000751
-13,2 344
4,35E-21
8,86 0,003031
-13,4 336
4,77E-21
HERB
EVA
1,65 0,200055
-1,5 573
0,133695
1,911 0,167404
-1,35 573
0,177516
P
EVA
0 0,964811
-4,17 603
3,47E-05
0,573 0,449313
-3,86 603
0,000124
We zien duidelijk uit de significantietabel dat enkel voor HERB we de nulhypothese op het 5%
significantieniveau moeten aanvaarden. De t-waarde voor WH, EB, AW, LM, ZIW, INSPR en P
bevinden zich binnen het kritisch gebied. Dat betekent dat we de alternatieve hypothese kunnen
aanvaarden. Uit het teken van de t-waarde voor de mokkenschalen zien we wat de richting
betreft dat de groep van de leidinggevenden op alle schalen gemiddeld gezien hoger scoort dan de
niet leidinggevenden. Dat komt grotendeels overeen met onze hypothesen uit het theoretisch
kader van hierboven. Leidinggevenden beleven gemiddeld meer emotionele belasting, ervaren
een hoger werktempo en –hoeveelheid en piekeren meer dan niet-leidinggevenden maar hebben
ook meer afwisseling in het werk en meer leermogelijkheden. Daarenboven hebben ze
gemiddeld gezien ook meer inspraak en zelfstandigheid dan niet leidinggevenden. Dat stemt
overeen met onze uiteenzetting over leidinggevenden waarin we stelden dat ze een schakel
vormen tussen hoger kader en werknemers : WH EB en P negatief en INSPR, ZIW, LM en AW
positief.
46
Equal variances assumed. Hier wordt met andere woorden de assumptie van de homoscedaciteit
getoetst. Uit de tabel blijkt dat de variantie binnen de groepen niet altijd gelijk is. In dat geval hebben we
de gecorrigeerde p-waarde opgenomen nl. de p-waarde die hoort bij equal variances not assumed.
Wanneer de assumptie geschonden is hebben we p-waarden van de levine’s test in cursief gedrukt.
27
Weerlegbaarheid van sekseverschillen aan de hand van onze data aan de hand
van partiële correlatieberekening
Hypothese uit eerder onderzoek
Bij het onderzoek naar stress als ziekteverzuim onderzoekt Dr. Swinnen het voorkomen van
stress bij mannen en vrouwen. Hij komt in zijn steekproef van dossiers van de leden van de CM
van Eekloo47 tot volgende vaststelling : “Uit deze gegevens blijkt dat vrouwen veel sterker (56%)
vertegenwoordigd zijn in de stressgroep dan in de groep van de verzekerden (35,1%). Bij de
interpretatie vervolgt de dokter moeten we voorzichtig zijn : we mogen niet besluiten dat
vrouwen stressgevoeliger zijn… we mogen niet vergeten dat het verschil toegeschreven kan
worden aan de lagere positie van de vrouw in het bedrijf, de grotere bezorgheid van de vrouw,
enz.”48
Operationaliseren van deze onderzoekhypothese in het kader van de VBBA
Stress operationaliseren we erg eng tot psychosociale belasting. Dit meten we aan de hand van de
schaal emotionele belasting en de schaal werktempo en hoeveelheid. Deze operationalisering laat
ons toe om mannen en vrouwen te vergelijken naar het gemiddelde op deze schalen. Uit de tabel
hieronder blijkt dat we op het .05 niveau zeker zitten en kunnen concluderen dat vrouwen en
mannen in onze bedrijven gemiddeld gezien verschillend scoren op de schalen emotionele
belasting en werktempo en – hoeveelheid.
Tabel 6 Significantietabel op basis van Mokken en Factor scores
Independent
Geslachtsverschillen
Samples Test
Factoren
Mokken
Levene's Test for Equality of Variances
Levene's Test for Equality of Variances
t-test for Equality of Means
F
WH
EVA
Sig.
t
df
Sig. (2-tailed) F
t-test for Equality of Means
Sig.
t
df
Sig. (2-tailed)
0,02 0,888597
-2,75 621
0,006211
0,015 0,902972
2,576 621
0,01022
0,01 0,906874
-3,16 624
0,001632
3E-04 0,985246
2,735 624
0,006424
EVNA
EB
EVA
EVNA
47
48
Swinnen, L. e.a. Stress als oorzaak van ziekteverzuim. In : Moors, S. o.c. p. 127.
Ibid. p. 130.
28
Vrouwen ervaren als we naar de gemiddelden kijken meer werktempo en –hoeveelheid en meer
emotionele belasting dan mannen. We kunnen aldus de bewering van aanvaarden verwerpen op
basis van onze data (sign. Level 5%).
Toch zijn we benieuwd of inspraak en autonomie meer bijdragen tot de verklaring van de
variantie van psychosociale factoren dan sekse tot nog toe doet. Volgens Karasek spelen
regelmogelijkheden een enorme rol bij de beleving van de psychische belasting. We kunnen dit
vraagstuk analyseren aan de hand van partiële correlatie rekening en kijken of de relatie tussen
geslacht en psychische belasting verandert als we de invloed van de regelmogelijkheden
wegnemen.
We kunnen ook deze hypothese anders operationaliseren, nl. door middel van multiple regressie.
Daarbij stuiten we echter op een probleem. Uit de VBBA structuur kunnen we makkelijk
afleiden dat EB en WH psychische belasting gemeen hebben en dat ZIW en INSPR
regelmogelijkheden gemeen hebben. Dat noopt ons ertoe om een tweede–orde factoranalyse49 uit
te voeren waardoor we slechts één afhankelijke variabele zouden overhouden, nl. psychische
belasting en waardoor het probleem van de multicollineairiteit verdwijnt door ZIW en INSPR als
onafhankelijke variabelen te nemen.
De factoranalyse heeft 32 iteraties nodig om te convergeren en verklaart met twee factoren 56%
van de oorspronkelijke mokkenschalen. Op de eerste factor laden ZIW en INSPR aanzienlijk
hoog. WH en EB laden meer dan voldoende op de tweede factor zoals blijkt uit de tabel
hieronder.
Factor Matrix
Factor
1
2
ZIW
.730
-.122
INSPR Inspraak
.823
-7.289E-02
WH werktempo en hoeveelheid
-5.761E-02
.695
EB Emotionele belasting
.283
.669
We besluiten om met de 2de orde factoren verder te werken.
We proberen nu de hypothese te toesten aan de hand van volgend model :
geslacht
psychische belasting
49
De tweede-orde factoranalyse wordt uitgevoerd op basis van de Mokkenschalen. Hierboven hebben we
gerechtvaardigd dat we daarmee verder kunnen werken
29
regel
regelmogelijkheden
Uit de correlatiematrix kunnen we al verwachten dat onze afhankelijk variabele niet substantiëel
beïnvloedt zal worden door de predictoren geslacht en regelmogelijkheden. Gezien de
multicollineariteitdiagnostieken en de correlatiematrix kunnen we stellen dat regelmogelijkheden
en geslacht niet samenhangen . Er zijn in ons regressiemodel geen contaminerende werken van
de twee precitoren onderling mogelijk op de afhankelijke variabele. Ook de verdeling van de
afhankelijke variabele voldoet aan de voorwaarden om een regressieanalyse te doen. Ze ziet er
bijna standaard normaal verdeeld uit (mean = 0, std = .88).
De residuenanalyse volgt de vereiste weg. Het gestandaardiseerde residu is .9. en de normal P-P
plot die cumulutieve ten opzichte van geobserveerde kansen plaatst, volgt perfect de diagonaal.
De scatterplot tenslotte is mooi random verdeeld.
Het hele model verklaart amper 1%. Dat is substantieel niets doch significant, p is namelijk .035.
Wanneer we de coëfficienten erbij halen merken we dat noch de constante noch
regelmogelijkheden als effect significant zijn. Hun p-waarde ligt ver boven de .05 norm, zodat
de nulhypothese dat er geen effect is niet kan verworpen worden.
Gezien het intercept en de regelmogelijkheden besloten we om een lineaire regressie met sekse
als onafhankelijke variabele en psychische belasting als afhankelijke variabele over te doen. Zo
kunnen we verschillende regressiemodellen aan de hand van de modelvergelijkingsprocedure
vergelijken en beoordelen.
Na deze analyse kunnen we besluiten dat regelmogelijkheden de psychische belasting niet
beïnvloeden. Dat weten we als we de ratio van de modelvergelijkingsprocedure weergeven, nl.
F=1,18 amper groter dan 1. We kunnen ons de moeite sparen om het tabellenboekje bij de hand
te nemen. We besluiten dat het model met 1 predictor het haalt. Het model met twee predictoren
voor psychische belasting is dus inadequaat.
Hoewel geslacht als predictor fungeert voor psychische belasting kunnen we ons ook hier vragen
stellen over de adequaatheid. Substantieel gezien is beta erg laag en verklaart het model bijna
niets van de variantie in psychische belasting. Dat het model significant is, verandert daar niets
aan.
30
Besluit
In het algemeen kunnen we dus stellen dat we de hypothese van hierboven verwerpen. De
regelmogelijkheden bieden geen verklaring voor de beleving van psychische belasting van de
respondenten in de data die het NOVA tot nog toe verzamelde. Dat wil niet zeggen dat we het
model van Karasek kunnen weerleggen. We werken immers met dezelfde begrippen maar niet
met hezelfde meet instrument. Wel louteren we de relatie tussen geslacht en pscyhologische
taakeisen.
Besluit
In deze paper concentreerden we ons op de vraag of voor de gebruikers van de vragenlijst
beoordeling en beleving van de arbeid een verschil uitmaakt of ze werken met factorscores dan
wel met mokkenschaalwaarden. Om deze vraag te beantwoorden berekenden we voor alle items
uit de kern-vragenlijst zowel mokkenschalen als factoren. Beide methoden laten zien dat we de
unidimensionele structuur op basis van onze data niet kunnen verwerpen. Ook is het duidelijk
dat het model van de dubbele monotomie waarin item responscurven mekaar niet mogen snijden
in de meeste gevallen niet bekomen werd.
Molenaar en Mellenbergh geven intuïtief mee dat er een verband is tussen de
schaalbaarheidscoëfficient van een item en de lading van een item op een factor. Wiskundig
kunnen we onze bewijsvoering moeilijk hard maken. Het mokkenmodel is immers een nietparametrisch model. Wanneer we echter H en de factorlading naast mekaar plaatsen zien we met
het blote oog dat er sterk verband is tussen beide waarden. De correlatie die we berekenden
bevestigt dat. Ze is van de grootte orde van .85. Dat brengt ons tot de conclusie dat de
factorladingen een weerspiegeling zijn van de itemschaalbaarheidswaarden.
Bij een vergelijking tussen de schaalbaarheidscoëfficient van de schaal en het % verklaarde
variantie (of eigenwaarde) stellen we ook wel een positief verband vast. Bij de beoordeling van
de maten en de vergelijking van de beoordeling merken we dat de gebruikers vanaf medium
schalen (cf. Mokken) een aanvaarbaar percentage verklaarde variantie en dito ladingen krijgen in
een één factor model. Bij een zwak mokkenmodel komt de gebruiker bij de inspectie van de
ladingen en de beoordeling van het percentage verklaarde variantie echter in de verleiding om
items te schrappen. Hier komt dan ook het verschil tussen een mokkenmodel en PAF aan de
oppervlakte. Beide zijn wel op zoek naar gemeenschappelijkheid maar een mokkenmodel stelt
bijkomende voorwaarden aan de data, nl. lokale onafhankelijkheid en monotoom niet dalende
item responsfuncties bij monotome homogeniteit en daarenboven mekaar niet snijdende IRF’s bij
de dubbele monotomie. Die eisen inwilligen betekent dat de IRF’s zich in de ruimte veel strikter
tot mekaar moeten verhouden dan de hoofdassen in een factoranalyse.
In laatste instantie bekijken we of bij het testen van hypothesen het gebruik van schaalscores en
mokkenscores een verschil veroorzaakt. Bij de meeste hypothesen zien we geen verschil. De
31
gebruiker komt niet in de verleiding om de nulhypothese in één van de gevallen te verwerpen of
de alternatieve hypothese te aanvaarden. Maar soms gebeurt het toch en dat vooral bij inspectie
van de assumptie van gelijke varianties bij de te vergelijken groepen.
Dat brengt ons tot de eindconclusie dat we veiligheidshalve en omwille van de uniformiteit bij de
VBBA beter werken met de schaalscores i.p.v. de factorscores. Deze laatste hebben volgend uit
de IRT interessantere kwaliteiten.
Wel kan de gebruiker bij zichzelf de unidimensionaliteit inspecteren wanneer hij weet dat de
schaal van minstens medium kwaliteit is.
Download