1 Nationaal Onderzoeksinstuut voor Arbeidsomstandigheden De relatie tussen mokken analyse en factoranalyse Validering van de Vragelijst Beleving en beoordeling van de Arbeid in Vlaanderen Technical Working Paper Guy Notelaers Brussel 1999 2 Afbakening van het onderzoeksopzet. ............................................................................................ 4 Dataverzameling in een a-typische omgeving voor sociale wetenschappen .................................... 6 Voorstelling van de structuur van de VBBA ................................................................................... 7 De Schalen van de vbba onder de loep............................................................................................. 8 Vergelijking Mokkenprocedure en Factoranalyse in SPSS ......................................................... 8 De klassieke testtheorie en item repons theorie. ...................................................................... 8 Korte toelichting van het Mokken-model ................................................................................ 9 Principale factoranalyse ......................................................................................................... 11 Schaalstructuren aan de hand van exploratieve factoranalyse in SPPS ..................................... 12 Werktempo en –hoeveelheid .................................................................................................. 12 Emotionele belasting .............................................................................................................. 12 Lichamelijke inspanning ........................................................................................................ 12 Afwisseling in het werk .......................................................................................................... 12 Leermogelijkheden ................................................................................................................. 13 Zelfstandigheid in het werk .................................................................................................... 13 Relatie met collega’s .............................................................................................................. 13 Relatie met directe leiding...................................................................................................... 13 Inspraak .................................................................................................................................. 13 Toekomstonzekerheid ............................................................................................................ 13 Plezier in het werk .................................................................................................................. 14 Herstelbehoefte....................................................................................................................... 14 Piekeren .................................................................................................................................. 14 Mokken search procedure : de IRT. ........................................................................................... 14 Werktempo en – hoeveelheid ................................................................................................. 15 Emotionele belasting .............................................................................................................. 15 Lichamelijke inspanning ........................................................................................................ 15 Afwisseling in het werk .......................................................................................................... 15 Leermogelijkheden ................................................................................................................. 16 Zelfstandigheid in het werk .................................................................................................... 16 Relatie met collega’s .............................................................................................................. 16 Relatie met directe leiding...................................................................................................... 16 Inspraak .................................................................................................................................. 16 Toekomstonzekerheid ............................................................................................................ 17 Plezier in het werk .................................................................................................................. 17 Herstelbehoefte....................................................................................................................... 17 Piekeren .................................................................................................................................. 17 Vergelijking van de resultaten uit MSP en PAF ........................................................................ 17 Een relatie tussen schaalbaarheid van het item Hi en lading van i op de latente variabele ... 17 3 Een relatie tussen H en % verklaarde variantie ...................................................................... 21 Na het meten het toesten van hypothesen met zowel schaalscores als factorscores ...................... 24 Leidinggevenden versus niet leidinggevenden aan de hand van het moeten en kunnen ........... 24 Theoretisch kader ................................................................................................................... 24 Empirisch onderzoek : t-test ................................................................................................... 25 Weerlegbaarheid van sekseverschillen aan de hand van onze data aan de hand van partiële correlatieberekening ................................................................................................................... 27 Hypothese uit eerder onderzoek ............................................................................................. 27 Operationaliseren van deze onderzoekhypothese in het kader van de VBBA ....................... 27 Besluit..................................................................................................................................... 30 Besluit............................................................................................................................................. 30 4 Afbakening van het onderzoeksopzet. Bij het NOVA heeft men beslist om een meetinstrument vanuit Nederland in te zetten om Belgische bedrijven en organisaties te ondersteunen bij hun stressbeleid. Het meetinstrument, de vragenlijst beleving en beoordeling van de arbeid, ontwikkeld door van Veldhoven (1996) in samenwerking met Arbodiensten was het onderwerp van een doctorale scriptie aan de Universiteit van Groningen. De VBBA zoals de vragenlijst in de volksmond genoemd wordt, meet verschillende stressoren van psychologische en sociaal-organisatorische aard. Ze bestaat in twee vormen : de uitgebreide en de kern-vbba. In dit werk zullen we het leven van de kern-vbba nagaan. Bij het NOVA hebben we tot nog toe zo’n 1700 data terug binnen gekregen van de 17000 enquêtes die zijn uitgezet en die de uitgebreide vragenlijst behelzen. Voor de kern-vbba kunnen we voorlopig beschikken over 1013 observaties. Dat leven van de kern-vbba is voor het NOVA uiterst belangrijk bij de bestrijding van stress op het werk. Het NOVA heeft zich immers op landelijk vlak ertoe verbonden een referentiebestand aan te maken zodat het Belgische bedrijfsleven zich kan vergelijken en ankerpunten vindt om het stressbeleid op het niveau van de onderneming te ondersteunen. Daarbij is het belangrijk dat we meten wat in Nederland gemeten werd. Deze ruwe schets doen we aan de hand van de mokkenanalyse in vergelijking met factoranalyse. De concrete ingesteldheid is erg exploratief van aard. Bedrijfsexterne en bedrijfsinterne vergelijkingen worden herleid tot afwijkingen van een referentiewaarde. Voor de bedrijfsinterne vergelijking ligt de werkwijze erg voor de hand. De bedrijfexterne vergelijking en keuze van de referentie vraagt om een woordje uitleg. Op basis van de nace-bel code en beroep, enz. wordt het bedrijf vergeleken met soortgelijke bedrijven in dezelfde sector. De vergelijking gebeurt aan de hand van een t-test waarbij op basis van de referentiegroep1 een steekproef getrokken wordt waarbij de standaarddeviatie, het gemiddelde en het aantal respondenten de centrale parameters zijn die in de t-vergelijking ingevoerd worden. Met deze vergelijking en het resultaat ervan wordt het bedrijf als het ware gesitueerd in een verdeling van soortgelijke bedrijven die zich op een bepaalde manier gedragen. Deze gegevens worden teruggekoppeld naar de bedrijven of organisaties die op deze manier snel een summier inzicht krijgen in mogelijke probleemgebieden op het vlak van stressbestrijding. Voor hun is het m.a.w. een houvast, een anker dat als startpunt dient voor een verdere bevraging van de organisatie. Dit laatste gebeurt evenwel niet aan de hand van nieuw vragenlijstonderzoek maar gebeurt op een kwalitatieve wijze. Zo kan men bijvoorbeeld met werkgroepen thema’s bespreken aan de hand van onze resultaten en kijken in welke mate de organisatie zich herkent in de resultaten. Na de herkenning wordt het pad 1 Over de procedure, het gebruik van referentiegroepen en onze werkwijze : zie : Weel, A. Broersen, Sj. Signalen van problemen in werk en gezondheid. Periodiek bedrijfsgezondheidskundig onderzoek bij groepen werknemers. Doctoraal proefschrift. Universiteit van Amsterdam. 1992, p. 97-124. 5 geëffend voor een meer oplossend denken dat concreet na enige samenkomsten vertaald wordt in beleidsmaatregelen die – en dat is erg belangrijk – vanuit het management gelanceerd worden. We vermelden het opzet van het project bij het NOVA opdat het de lezer duidelijk zou worden dat we deze eigenheid van werken niet kunnen vertalen in een paper voor de eerste module van de cursus kwantitatieve analyse in de sociale wetenschappen. Voor het opzet van deze taak in het kader van de opleiding kwantitatieve analyse in de sociale wetenschappen is dat uiteraard een interessant uitgangspunt maar dat is niet genoeg. We werken immers niet met een steekproef van de bedrijfswereld om uitspraken te doen over het Belgisch bedrijfsleven. Dat zou erg interessant zijn maar zou eigenlijk het doel van dit project dwarsbomen. In tegenstelling tot wat wij doen zouden bedrijven zich geviseerd voelen door de situering van hun sector en vooral de vergelijking met de naaste concurrentie zou eerder bedreigend dan verlossend werken. Op dat moment doet stress de deur dicht en wordt het preventiewerk enkele jaren terug de tijd in gejaagd. En dat kan uiteraard niet de bedoeling zijn van dit erg ambitieus project. Voor deze taak willen we twee dingen proberen te klaren – met de nadruk wellicht op ‘proberen’. Tijdens onze opleiding was ik erg gecharmeerd door ‘Latent Class Analysis’ dat gedoceerd werd door afwisselend Hagenaers, Vermunt en Waege. Vermunt ging wat dieper op de zaak in en schonk eventjes aandacht aan het verband2 tussen LCA en IRT. Deze laatste komen bij het NOVA bijzonder aan bod vermits alle items bepaalde mokkenschalen vormen. We willen eens kijken of het een verschil maakt of we met Mokkenschalen werken of met factorscores.3 Daartoe zullen we in SPSS factoren extraheren en in MSP de kwaliteit van de onderliggende meettheorieën4 nagaan. Daarna zullen we de correlatiecoëfficient tussen factoren en somscores uit de mokkenanalyse berekenen. In laatste instantie zullen we kijken of het nu een verschil maakt of we één van de twee gebruiken in concrete omstandigheden. Dat zullen we in eerste instantie doen door t-testen en variantietesten op basis van factorscores en mokkenscores te vergelijken en in tweede instantie door bepaalde hypothesen die we uit de literatuur hernemen, te testen. 2 Heinen, Ton. Latent Class and Discrete Latent Trait Models. Simularities and Differences. Advanced Quantitative Techniques in the Social Sciences Series. Sage, 1996. 3 Tijdens een gesprek met Johan Vermunt bracht ik aan de orde dat we in de voorlopige analyses met polytome items zonder uitzondering enkel één factoroplossingen kregen. Zijn antwoord daarop was dat dit zou kunnen te wijten zijn aan het feit dat de respondenten de ordinaliteit eerder zagen als interval. Voor ons het startpunt van deze paper. 4 Zie : van Veldhoven, M. Psychosociale arbeidsbelasting en werkstress. Doctoraal proefschrift. Universiteit van Groningen. 1996. 6 Dataverzameling in wetenschappen een a-typische omgeving voor sociale In de sociale wetenschappen waar er kwantitatieve technieken aan te pas komen bij een onderzoek vertrekken de onderzoekers vanuit een onderzoeksdesign om een bepaalde populatie onder de loep te nemen. Daarbij vertrekt men van een steekproef die representatief dient te zijn voor de populatie, zodat men bij de analyse van de gegevens veralgemeenbare conclusies kan trekken aan de hand van de technieken die de inferentiële statistiek hen biedt. Uiteraard was dit ook het opzet van mijn taak die ik voor deze module wilde maken. Maar werken in de bedrijfswereld met het doel deze te ondersteunen heeft zijn beperkingen op het gebied van inferentiële statistiek. We hoeven immers geen steekproef te trekken. Gans het bedrijf of de organisatie wordt bevraagd. De gemiddelde antwoordrespons bedraagt veel meer dan de 60% die voor een post-enquête vereist is, waardoor we voor het bedrijf gerechtvaardigde uitspraken kunnen doen. Maar bij een analyse van de gegeves over de bedrijven heen stoten we op de muur van multi-level analyse, zoals van Veldhoven die toepastte in zijn onderzoek naar de VBBA. Helaas werd er dit jaar aan de KUB geen Multilevel gedoceerd door de gerechtvaardigde afwezigheid van K. Jones. Dat zorgt voor een onoverkomelijke beperking in deze paper en verbiedt ons eigenlijk om het inferentiële te gebruiken. Daar zijn we ons erg bewust van. Daarom ook presenteren we de factoranalyse in dit werk als beschrijvend instrument5, om te kijken welke structuur er nu in die data zit die we verzamelen aan de hand van de VBBA. Wanneer we de bruikbaarheid van de data onder de loep nemen aan de hand van het toetsen van hypothesen doen we als het ware een oogje toe in de richting van de inferentiële statistiek maar dat doen we niet zomaar. Mijn ervaring uit zo’n 22-tal cases die ik tot nog toe op het NOVA onderzocht leert me dat de p-waarden bij een anova of bij een t-test een richtinggevende invloed hebben. De afstanden tussen gemiddelden van verschillende groepen neemt toe met een toenemend significantieniveau.6 Vanuit die ervaring ben ik niet bereid de instrumenten die de cursus van Jacques Tacq ons aanreikt zomaar naast me neer te leggen. Het betekent natuurlijk wel dat we ons enkel kunnen uitspreken over de bedrijven7 in onze dataset.8 De conclusie is duidelijk : net zoals in vele onderzoeken balanceren we op de dunne koord tussen inferentiële en beschrijvende statistiek. 5 De volledige uitdraai wordt uiteraard niet opgenomen in deze paper maar wel bijgevoegd in de misschien te dikke bundel bijlagen bij dit werkje. 6 Voor de bedrijven is dat erg belangrijk omdat dat groepen afdelingen, functiecategoriën of kortweg groepen van mensen zijn. En aanknopingspunten vinden om je stressbeleid te spijzen, zijn meer dan welkom. 7 Over de bedrijfscultuur : we zullen deze hypothese testen in deze paper aan de hand van de VBBAschalen. In Lisrel zouden we evenwel de partiële ( gecontroleerd voor de bedrijven) correlatiematrix kunnen invoeren om te kijken of we de één factorstructuur terugvinden. Maar daarmee belanden we in de laatste module van deze opleiding in de kwantitatieve analyse voor de sociale wetenschappen. 8 Die kan ik niet met naam noemen omwille van de setting waarin het werk van het NOVA-INRCT zich situeert. 7 Tenslotte wil ik opmerken dat ik hiermee toch ook aansluit bij de verzuchtigen van het NOVA dat me de ‘nodige’ tijd ter beschikking stelt om de cursus aan de KUB af te maken. Een voorlopig onderzoek naar de VBBA was voor de administrateur-generaal meer dan welkom. Voorstelling van de structuur van de VBBA Voor een uitgebreid relaas over de ontwikkeling van de VBBA verwijs ik graag naar het doctoraal proefschrift van van Veldhoven waarin hij met erg moderne technieken te werk is gegaan. In deze paper is het voor ons van belang de structuur even toe te lichten. Het resultaat van de confirmatorische factoranalyse ziet er als volgt uit volgens 9 De items uit de schalen – hierboven in vierkantjes – nemen we op in de bijlagen omdat het er teveel zijn om hier te vernoemen. We willen meegeven dat we in deze paper de namen afgekort hebben. Werktempo en hoeveelheid wordt wh, emotionele belasting wordt eb, lichamelijke inspanningen wordt li, leermogelijkheden wordt lm, afwisseling in het werk wordt aw, taakautonomie (in de vragenlijst : zelfstandigheid in het werk) wordt ziw, inspraak wordt inspr, 9 We weten dat bij het fitten van de data in Lisrel verschillende latente variabelen reduceren in minder latente variabelen geen invloed heeft op χ². Misschien heeft de auteur de factoren ingevoerd met een passende error-variantie van 0 en zo het model proberen te fitten. 8 relatie collega’s wordt rc, relatie directe leiding wordt rl, herstelbehoefte wordt herb, piekeren wordt p, opzien (in de vragenlijst : plezier in het werk) wordt piw. Betrokkenheid laten we weg uit de analyse omdat tijdens de berekeningen duidelijk werd dat in de handleiding van de VBBA een omkeringsfout gemaakt werd. De items worden in de vragenlijst niet genummerd. In dit werkje wel en dat in de volgorde van de vragen van de vragenlijst. Tenslotte nog dit : als in deze paper in hoofdletter gewerkt wordt, hebben we het over de latente variabelen. Hier volgen we dezelfde afkorting als hierboven, in dat geval hebben we het over de mokkenscores. Wanneer na de hoofdletterafkorting een F volgt willen we aanduiden dat we het hebben over factorscores. De Schalen van de vbba onder de loep Vergelijking Mokkenprocedure en Factoranalyse in SPSS De klassieke testtheorie en item repons theorie. Alle handboeken vatten de uiteenzetting over item respons aan met de situering van de klassieke testtheorie. Ook wij doen dat en vallen meteen met de deur in huis. “De belangrijke vraag is dus of de ware toetsscore, die samenhangt met een specifieke toets, iets kan zeggen over een meer abstracte, onderliggende vaardigheid.”10 Dit resulteert in een aantal vragen waarop de klassieke testtheorie geen antwoord heeft. Een eerste punt is dat de klassieke testtheorie, de statistische theorie geen middelen aanreikt aan de hand waarvan duidelijk beslist kan worden of de homogeniteit in de conceptuele relevantie al dan niet bereikt is. Een tweede punt is dat de klassieke testtheorie geen bewijs kan aanbrengen waaruit de superioriteit van de gewone somscore regel of welke regel dan ook blijkt. Tenslotte kan de klassieke testtheorie geen oplossing geven aan volgend vraagstuk11 : Een steekproef van kinderen, aselect getrokken uit een goed gedefiniëerde populatie, wordt op tijdstip t1 temten met een toets X1 en op tijdstip t2 met een toets X2 waarbij het de bedoeling is te schatten of de gemiddelde vaardigheid in de populatie veranderd is in het interval (t2-t1). Indien X1 niet identiek is aan X2 treedt er een dubbel probleem op. Indien het gemiddelde op X2 groter is dan het gemiddelde op X1 zou het verschil te wijten kunnen zijn aan het feit dat X2 makkelijker is dan X1, of aan het feit dat de gemiddelde vaardigheid inderdaad is toegenomen, of aan beide. Om de verklaring van een gemakkelijkere toets uit te sluiten dienen speciale maatregelen genomen te worden zoals bijvoorbeeld equivaleren. Fundamenteler is hoe kan gegarandeerd worden dat X1 en X2 hetzelfde concept meten? 10 Eggen, T. Sanders, P. Psychometrie in de praktijk. Cito Instituut voor Toetsontwikkeling. 1993, p. 84 –85. 11 Ibid. 9 In de moderne testtheorie wordt aan de bovenstaande problemen tegemoet gekomen, nl. de populatieafhankelijheid en de toetsspecificiteit van de score. De theorie wordt ontwikkeld zonder enige referentie aan één of andere populatie (populatieonafhankelijkheid – lokale onafhankelijkheid) en in de item respons theorie staat niet de toetscore centraal maar de items en het antwoord daarop. Een item respons theorie is een geheel van uitspraken over de samenhang tussen een latente variabele en het antwoordgedrag op een verzameling items. De conceptuele homogeniteit is niets anders dan deze samenhang. In de mate dat deze samenhang gedefinieerd is, weten we ook precies wat met de homogeniteit bedoeld is (cf. parametrische versus niet parametrische modellen). De uitspraken in zo’n theorie zijn meestal niet geheel specifiek : de voorspellingen over het gedrag hangen van items en personen af. Deze kenmerken worden meestal gekwantificeerd als parameters of worden helemaal niet gekwantificeerd. De item response theorie kunnen we dan ook onderverdelen in parametrische en niet parametrische modellen. Bekende parametrische item respons modellen zijn bijvoorbeel het Rashmodel of het 2 en 3 parametrisch model van Birnbaum. Deze modellen onderscheiden zich van mekaar door het aantal parameters.12 In deze paper hebben we in navolging van van Veldhoven geopteerd om zoals boven blijkt met het Mokken-model te werken. Korte toelichting van het Mokken-model13 Uitgangspunt van het model is dat we de te meten eigenschap als een rechte lijn kunnen voorstellen waarop elk inidividu zijn waarde (θ) heeft. Niet alleen het individu maar ook elk item heeft een positie op dat continuüm. Daarbij krijgt het item dezelfde waarde als de respondent, die met de kans van .5 het positieve alternatief van dat item kiest. 12 Voor een interessante uiteenzetting en overzicht over item response theorieën verwijzen we naar van der Linden, W. Hambleton R. (eds.) Handbook of Modern Item Response Theory. Springer, 1997. 13 Dit gedeelte is haast integraal gebaseerd op : de Graaf, C. Eendimensionele schaaltechnieken. In : Bijnen, E. (red). Methoden voor de sociale wetenschappen. Meten. 1987, p. 56-61. Let wel : we zetten enkel de theorie uiteen voor dichtome items. Voor de polytome items geldt een analoge theorie omdat met itemstep responsfuncties gewerkt wordt die dichotoom zijn. 10 Item A krijgt de waarde die de respondent heeft die met een kans van .5 het positieve antwoord kiest. We duiden die waarde op θ aan met δ. Verder wordt aangenomen dat de verschillende items een verschillende moeilijkheidsgraad hebben. Dat wil zeggen dat om een positieve score op te leveren sommige items een hogere θ-waarde veronderstellen dan andere. De kans op een positief antwoord is daarbij voor een moeilijker item kleiner of hoogstens gelijk aan de kans om een positief antwoord te geven op een makkelijker item. De belangrijkste assumpties die aan de basis van het Mokken-model liggen zijn : 1. A. Monotome homogeniteit : de items zijn monotoom niet dalend met een toename van de waarde van θ. Dus als θ stijgt dan neemt ook de kans op een positief antwoord toe. θ meet 1 latente trek. B. Dubbele monotomie : naast de monotome homogeniteit wordt een bijkomende eis gesteld, nl. de curven mogen mekaar niet snijden. 2. Lokale stochastische onafhankelijkheid14 : op elk punt op het continuüm is de kans op het positieve alternatief voor item i onafhankelijk van de waarde van kans op het positieve alternatief van item j. Uit deze aannames volgen enkele interessante eigenschappen : - we kunnen items ordenen op de θ; - we kunnen personen ordenen op basis van hun geobserveerde score op de schaal θ. Hier komt de meerwaarde van IRT en i.c. Mokken tot uiting. We kunnen i.t.t. de klassieke testleer items en personen ordenen en dus vergelijken. Een stap verder gaat het met item vergelijkend meten. Dan is de score op zich niet meer belangrijk. We kunnen de hoeveelheid latente trekken die een persoon heeft (zijn plaats op θ) uitdrukken aan de hand van een item, een verbale eenheid.15 Wanneer we ons echter richten op de somscore verliezen we deze meerwaarde. We krijgen een latente variabele die op een bepaalde manier verdeeld is met een gemiddelde en een standaarddeviatie, die niet meer dient om personen en items op één rechte te plaatsen maar die haast enkel dient als garantie voor unidimensionaliteit : meten datgene dat we wilden meten. En met dat concept kunnen we terug in de klassieke analyse (externe analyse) hypothesen toetsen. Vandaar dat we ons afvragen of we de gebruikers van de vragenlijst (VBBA) niet kunnen aanraden om de meer bekende factoranalyse te gebruiken. Voor itemstep response functies kunnen we deze veronderstelling uiteraard niet maken :”Within itemsteps scores are dependent”, zie hierover: Molenaar, I. Sijtsma, K. Debets, P. Hemker, B. MSP, A Program for Mokken Scale Analysis for Polytomous Items, Version 3.0. 1994, p. 11-15. 15 Gesprek met P. de Boeck, afdeling Psychodiagnostiek, KU-Leuven. 14 11 Principale factoranalyse In sociaal-wetenschappelijk onderzoek komt het vaak voor dat we een reeks vragen hebben die aan respondenten gesteld worden met de idee dat deze vragen een onderliggende eigenschap of attitude gemeen hebben zonder dat we daarbij noodzakelijk een stevig onderbouwde theorie in het achterhoofd hebben. Zulke schema heeft weinig van doen met causaliteit en wordt in de literatuur measurement model of meetmodel genoemd. Dat is ook gepast. De techniek van de hoofdassenmethode wil in een factoranalyse de veelheid (aantal geobserveerde variabelen) terug brengen tot weinig –lees : meer hanteerbare begrippen- variabelen. Met de hoofdassenmethode wordt zoveel mogelijk gemeenschappelijke variantie uit de puntenwolk geëxtraheert in enkele variabelen tot alle variantie16 is opgebruikt. Op deze manier wordt ons zicht op de puntenwolk gestructureerd door een aantal assen die de wolk herindelen op zo’n manier dat de meeste variantie verklaard wordt. In deze paper doen we beroep op het zuiver dimensiereducerende en gebruiken daarom PAF in tegenstelling tot PCA dat op zich genomen niet dimensiereducerend is. Bij PCA moet de gebruiker bv. op basis van de scree plot, waarbij eigenwaarden tegenover de componenten staan in een grafiek, beslissen hoeveel dimensies hij weerhoudt. Bij PCA worden immers in eerste instantie evenveel componenten aangemaakt als er geobserveerde variabelen zijn. Dat maakt wel dat componentenanalyse een handig instrument is om niet blindelings het algoritme van de extrahering van variantie te volgen waardoor de gebruiker op een zinvolle wijze (techniek, ladingen en inhoud) een aantal dimensies aanvaardt. Het valt bijvoorbeeld nogal eens voor dat deze methoden slechts één lading voorzien op één component. Dat zou betekenen dat de geobserveerde variabele samenvalt met de latente variabelen. Van dimensiereductie is dan geen sprake meer. Uit de VBBA structuur volgt in feite dat verschillende schalen teruggebracht kunnen worden tot één latent begrip. Zo zien we dat werktempo en hoeveelheid samen met emotionele belasting onder de noemer komen van psychologische taakeisen. Dat betekent in feite dat alle items uit deze twee schalen laden op dezelfde achtergrond variabele m.n. psychologische taakeisen. Wij respecteren echter de keuze die van Veldhoven maakte in zijn doctoraat en laten daarom in SPSS geen PAF draaien waarin alle geobserveerde variabelen bekeken worden. Wij geven batterij per batterij aan de procedure. Daarmee kunnen we ons ook toeleggen op ons vraagstuk17 over het 16 Let wel in PCA is dat 100% maar in PFA is dat h, de diagonaal van de gereduceerde correlatiematrix waarbij van 1 de unieke factor (de errorcomponent) wordt afgetrokken. H staat dan voor communaliteit. 17 Dat we daarbij aan kanskapitalisatie doen is een erg zeer wanneer we in het laatste deel hypothesen gaan toetsen. We zijn ons daarvan bewust en hebben nagelaten om daarvoor te corrigeren. Zoals later zal blijken zijn de bekomen p-waarden van die orde dat we wel wat kunnen kapitaliseren. Tenslotte willen we ook opmerken dat het vanuit wetenschappelijk standpunt interessanter is te falsifiëren dan na te gaan of de structuren kunnen aanvaard worden. In deze paper beschikken we echter nog niet over de voldoende grip op data-analyse om na een falsificatie een behoorlijk alternatief aan te bieden. 12 verband tussen PAF en IRT. We opteren er bijgevolg ook voor om de factoren (als het er al meer dan 1 zal zijn ) niet te laten roteren. In gedachten hebben we immers een één-factorstructuur. Bij een ongeroteerde oplossing profiteren we dan van het feit dat de eerste component of factor een algemene factor is waarop alle variabelen hoog laden.18 Schaalstructuren aan de hand van exploratieve factoranalyse in SPPS Werktempo en –hoeveelheid De factor verklaart ruim 37% van de variantie binnen de items. Dat is niet slecht. De meeste items laden behoorlijk op de latente trek werktempo -en hoeveelheid op één item na, nl. wh8 dat maar .25 op de factor laadt. Toch moeten we opmerken dat wh7 vrij laag laadt op deze factor. Emotionele belasting De items eb1 tot eb7 zijn volgens van Veldhoven de items die de schaal emotionele belasting uitmaken. In een factoranalyse komen zij goed tot hun recht. We krijgen weliswaartwee factoren aangereikt door deze techniek die samen bijna 44% verklaarde variantie opleveren maar slecht één item laadt op deze factor nl. item 6, maar dan minder dan op de eerste factor. Vandaar dat wij opteren voor een één factor model. Deze oplossing verklaart 35%. Alle ladingen behalve die van eb2 en eb3 zijn boven de .5 of .6. Lichamelijke inspanning De items die de schaal lichamelijke inspanning meten lijken op het eerste zicht heel mooi één factor achter zich te dragen die hun onderlinge samenhang voor zijn rekening neemt. De factor verklaart 56%. Dat is voor sociale wetenschappen naar mijn oordeel erg hoog. Toch merken we in de ladingen op dat li3 erg laag laadt, nl. .17. Als we dit item weg zouden laten zouden we nog meer verklaarde variantie verkrijgen en zou wellicht de betrouwbaarheid van de meting stijgen. In termen van Swanborn stijgen we van een zwakke naar een sterke schaal. Het percentage verklaarde variantie stijgt met 10%. Die verbetering is niet nodig…we zitten hoe dan ook binnen de grenzen die in de humane wetenschappen gehanteerd worden. Afwisseling in het werk De factoranalyse in SPSS laat weinig tot onze verbeelding over : de factor verklaart bijna 40% van de te verklaren variantie. Hier hebben we ook geen afwijkende ladingen; enkel item aw6 met Hiermee sluit ik expliciet aan bij de paradigmaleer van Khun dat in zich Popper ’s falsificatie draagt maar er niet dadelijk dezelfde consequenties aan hecht. 18 Tacq, J. o.c. p. 267. 13 een lading of beta van .439 scoort onder de .5, aw3 laad heel hoog met .83. De matrix wordt zoals voor alle overige matrixen opgenomen in de bijlage. Leermogelijkheden Met leermogelijkheden zit het goed. De factor verklaart 61% van de te verklaren variatie tussen de items. Geen enkel item laadt eigenlijk beneden de .7. Zelfstandigheid in het werk Hoewel we met een meting van 11 items meer kans maken tot anomaliën merken we op dat de factor hier zowat 51% verklaart van de samenhang tussen de items. Dat is weerom erg goed. De structuur ziet er ook mooi uit. Geen enkel item laadt lager dan .64 op deze factor. Relatie met collega’s De factoranalyse op basis van de items die de relatie met de collega’s meent te meten levert met 2 factoren een behoorlijk resultaat op. Samen verklaren de twee factoren 53% van de aanwezige variantie in de items. Bij inspectie van de ladingen op de twee factoren zien we echter dat er geen reden is om naar één twee-factormodel te rijken. Geen enkel item laadt hoger op het eerste dan op de tweede factor. Vandaar dat we ons tevreden moeten stellen met een één-factormodel dat 44 % van de aanwezige variantie verklaart en waarbij item rc6 maar een beta van .45 heeft. Maar dat is ruimschoots voldoende en weerlegt ons inziens de veronderstellingen van van Veldhoven niet. Relatie met directe leiding We kunnen praktisch hetzelfde verhaal vertellen als bij relatie met collega’s. We hoeven zoals de lezer kan afleiden uit de bijlage niet meer te zeggen dat we een één factoroplossing vinden die 4% meer verklaart als hierboven en waarbij weer rc6 een beetje uit de toon valt. Inspraak De volgende schaal maar dan uit de regelmogelijkheden is inspraak. De factoranalyse behoeft weinig woorden. De ladingen liggen op één na boven de .6 en de meeste boven de .75 en dat op een factor die zowat 52% van de oorspronkelijke variatie voor zijn rekening neemt. Van een andere factor is gezien de extraheringsresultaten in de bijlagen geen sprake. Toekomstonzekerheid We verklaren met deze latente trek 82% van de variantie tussen de items. Dat is torenhoog. De factorladingen liegen er niet om : ze gaan van .85 tot .95. Een resultaat om van te dromen. 14 Plezier in het werk Van een twee factoren oplossing is geen sprake. Hoewel een tweede factor een bijkomende percentage verklaarde variantie oplevert van 6 % zien we in de matrix van factorladingen geen enkele reden om de tweede factor te aanvaarden. Slechts één item laadt maximum rond de .4 op deze factor terwijl ze .65 haalt op de eerste factor. Een één factoroplossing levert uiteindelijk 37% verklaarde variantie op. Dat is vrij goed voor sociale wetenschappen. Het enige item dat onder de .5 laadt is piw6; het laadt tot .456. De andere ladingen zijn ‘moderate’ en voor de meeste items variëren ze tussen de .6 en de .75. Voor ons uitgangspunt een aanvaardbaar resultaat. We zien immers geen enkele aanleiding om de unidimensionaliteit op basis van een factoranalyse te verwerpen. Herstelbehoefte Met herstelbehoefte nemen we eigenlijk als we naar de resultaten kijken de draad van voor betrokkenheid bij de organisatie of bedrijf terug op. SPSS laat weinig aan onze verbeelding over. Met de optie om factoren te produceren met eigenwaarden groter dan 1 – de default optie cf. Kaizer criterium – krijgen we maar één factor te zien in de output die 40% van de te verklaren variantie voor zijn rekening neemt. De ladingen zijn middelmatig tot goed te noemen op herb11 na. Dat laatste item laadt tot .43. De overige items uit deze batterij zitten boven de .56 met een maximum van .73. Ook hier zien we in tegenstelling tot de vorige batterij overduidelijk aanknopingspunten terug om tevreden te zijn met de unidimensionaliteit waarvan van Veldhoven uitgaat. Piekeren De items die samenhangen voor piekeren zijn voor 45% te danken aan één onderliggende variabele volgens het resultaat van de exploratieve factor analyse in SPPS. Dat is meer dan geruststellend in de setting van de humane wetenschappen. De factormatrix is meer dan bevredigend, slecht één item scoort onder de .63, nl. p2 laadt .52. Mokken search procedure19 : de IRT. Om een Mokkenanalyse te doen aan de hand van MSP 3 verliezen we heel wat observaties omdat het programma nu eenmaal geen lege cellen kan verwerken. Dat opvangen door ‘imputation of 19 We hebben bij deze analyse gewerkt met MSP versie 3 (1994) 15 missing variables’ zoals mogelijk is in SPSS, biedt ons in eerste instantie weinig theoretische houvast om dat op een verantwoorde manier te doen en in tweede instantie zijn de opties in SPSS er niet op gericht om de te vervangen lege cel om te zetten in een geheel getal dat wel door MSP kan verwerkt worden. Werktempo en – hoeveelheid De schaal die met de items die werktempo achten te meten gevonden werd, levert een schaalbaarheidscoëfficient op van .47. Dat is behoorlijk volgens mokken. Wat de keuze van het Mokkenmodel betreft moeten we vaststellen dat het model van de dubbele monotomie (in het vervolg afgekort als DM) niet aanvaard kan worden op basis van deze items. Daarvoor vinden we – zoals we in de bijlage kunnen zien – teveel significante schendingen van deze eis die er op neer komt dat de IRF’s elkaar niet mogen snijden. Deze vaststelling is dus in tegenspraak met van Veldhovens inspectie van de P-Matrixen.20 We aanvaarden de resultaten van deze zoekprocedure bij het meer eenvoudige model van Mokken. De eis van monotome homogeniteit (in de toekomst afgekort als MH) wordt zelfs nergens geschonden. Dus ook niet significant geschonden zoals we zien in de bijlagen van dit werk. Emotionele belasting Zoals we hieronder zien hebben we een middelmatige schaal als we de vuistregels van Mokken (cf. infra) (1982) volgen. De diagnose van de MH is net zoals bij werktempo en –hoeveelheidpositief. Bij inspectie van de DM in restscore groepen zien we dat we enkele schendigen terugvinden maar ze zijn niet significant. Geen enkele IRF snijdt dus een andere IRF in dit IRT-model. Lichamelijke inspanning Bij de lichamelijke inspanning is de schaal heel sterk : Loevinger’s H is gelijk aan .69. Van een aanvaarding van de eis van DM kan hier geen sprake zijn. Het aantal significante schendingen spreekt bijna tot de verbeelding. Wel hebben we geen enkele schending en zeker geen enkele significante van het MH-model. Afwisseling in het werk De schaalbaarheid gemeten aan de hand van Loevinger H bedraagt .40. Dat is een middelmatig doch voldoende resultaat. 20 Wel moeten we opmerken dat hij enkel de 5 à 10% schendingen weerhoudt in het eerste decimaal. (van Veldhoven, o.c. 1996, p 71) Hier betreft het alle schendingen aan de hand van de optie in MSP 3 ‘restcscore’ dat uitmondt in een tabel waarbij alle schendingen en alle significante schendingen (alfa : .05) weergegeven worden. Daardoor kunnen we eigenlijk een vergelijking met van Veldhoven zijn resultaten niet maken die visueel de P-Matrixen moest inspecteren op mogelijke schendingen. We onthouden dat hij vertrok van de eis van de dubbele monotomie en trekken stilzwijgend de vergelijking met zijn resultaten. 16 Het model van MH kunnen we zonder enig probleem aanvaarden. We hebben dan tot dusver al een mokkenschaal maar zonder de strenge eisen van het DM. Dat laatste kunnen we in geen geval aanvaarden. We hebben wel weinig schendingen maar ze zijn krachtig. Ze reiken tot een z-waarde van 3.8. Leermogelijkheden Bij leermogelijkheden hebben we maar 4 items zoals bij toekomstonzekerheid. In de factoranalyse verklaarden we met een één-factor-model 61% van de variantie. Bij mokken halen we een ijzersterk schaalbaarheidscoëfficient van .72 . Wat het soort mokkenmodel betreft kunnen we stellen dat zowel bij MH als bij DM er zelfs geen enkele schending. Zelfstandigheid in het werk Hieronder vindt de lezer de schaalbaarheidscoëfficient en de plaats van de item respons curven terug. Voor deze items kunnen we echter, zoals men kan verifiëren in de bijlagen, geen steun vinden voor DM. Bij MH vinden we één schending – en dat bij item 7 - terug maar ze is niet significant. Zo kunnen we het verzwakte mokkenmodel aanvaarden. Relatie met collega’s De schaalbaarheid van de items die deze schaal uitmaken is boven de .5, nl. .56. Dat is erg hoog en stelt ons dus tevreden. Op het 10% significantieniveau kunnen we ook de DM eis inwilligen. Bij het 5% niveau hebben we echter twee schendingen. Aan het MH kan weliswaar niet getwijfeld worden : er is geen enkele schending van het monotoom stijgende verloop van de IRFs. Relatie met directe leiding De schaalbaarheid van de items die directe leiding meten, ligt iets hoger dan die van relatie met collega’s. De schaalbaarheidscoëfficient is .6. Tot zover de gelijkenissen, want het DM – model kunnen we in geen geval handhaven. Het aantal schendigen is immers erg talrijk. Het MH scenario komt ook licht in het gedrang. Item 4 vertoont 4 significante schendingen als we een α aanhouden van .05. In het .1 geval kunnen we de waarde echter aanvaarden en stellen dat het MH scenario aangehouden wordt. In feite hebben we dus een twijfelachtige mokkenschaal. Inspraak De schaalbaarheid van deze items laat helemaal niet te wensen over. We halen .61 wat in feite een sterke schaal is. Het model van MH wordt makkelijk gepasseerd. We hebben niet één schending vastgesteld. Maar het model van de DM kan zeker niet aangehouden worden, ook niet 17 op het 10% niveau. Er is zelfs geen enkel item in de restscore groepen dat geen significante schending maakt tegen de dubbele monotomie. Toekomstonzekerheid Bij het zien van de schaalbaarheidsmaat worden we als het ware wantrouwig door de hoge score ervan. De items halen een schaalbaarheid tot .81. De schaal zelf haalt .84. Dat is uiteraard enorm hoog. De range is daarentegen heel, heel erg klein. De MH en de DM modellen kunnen met brio aanvaard worden. We vonden wel 2 schendingen in de DM situatie maar deze waren verre van significant. Plezier in het werk De schaalbaarheid is erg hoog, nl. .52. Voor deze schaal is er geen enkel probleem om zelfs de DM te aanvaarden. Noch schendingen noch significante schendingen werden voor de DM ende MH waargenomen in de output die we in de bijlagen opnemen. Herstelbehoefte Ook bij herstelbehoefte is de range betrekkelijk groot zoals we hieronder kunnen afleiden. Hetzelfde geldt voor de schaalbaarheidscoëfficient Loevinger’s H die .54 bedraagt. Wat het model van MH betreft zitten we erg goed. Er is geen enkele schending. We hoeven het mokkenmodel van de monotome homogeniteit niet te verwerpen. Op het vijf procent niveau komen we 4 keer in aanvaring met de eisen van DM. Op het niveau van de 10% kunnen we echter de eisen van DM aanvaarden. We zitten dus in vergelijking met wat we konden verwachten op het scherp van de snee. Piekeren Piekeren is weer zo’n korte batterij : ze bestaat uit vier items. De schaalbaarheidsmaat van .64 stemt ons heel gunstig. Het model van MH wordt niet in het gedrang gebracht. Wat echter de eisen van de DM betreft kunnen we deze schendingen in geen geval aanvaarden. We moeten het dus houden bij het minder strenge mokkenmodel. Vergelijking van de resultaten uit MSP en PAF Een relatie tussen schaalbaarheid van het item Hi en lading van i op de latente variabele MSP zoekt –kort gesitueerd- op basis van Loevinger’s H, Hi, Hij de schaal. Daarbij moet H groter of gelijk aan c zijn dat over het algemeen .3 bedraagt. ‘Loevinger’s H-coefficient per item pair, per item and for the scale can be used to express the exent to which this Guttman pattern 18 holds true ….’21 Dat is de deterministische variant van Mokken waarbij foutenpatronen niet voorkomen. Hieronder beelden we het verband grafisch af.22 Onder het Mokken-model ligt Hig tussen nul en 1. Als Hig nadert tot 1, dan gaat het Mokkenmodel lijken op het Guttman-model en als Hig nadert tot nul, dan gaat het Mokken-model lijken op het constante regressiefunctiemodel.23 In dat laatste zijn de items ongeschikt om een latente trek te maken. Hig kan geschreven worden als Hig = 1- kans op verkeerd antwoord patroon/verwachte kans op verkeerd patroon onder Onafhankelijkheid Intuïtief zouden we stellen dat Hig aldus een helling uitdrukt net zoals de ladingen van de factormatrix hellingen bevat. Voor parametrische modellen zouden de bewijsvoering van een 21 Molenaar, I.W. Nonparametric Models for Polytomous Responses. In : van der Linden, W. Hambleton R. (eds.) Handbook of Modern Item Response Theory. Springer, 1997, p. 369. 22 van den Brink, W.P. Mellenbergh, G.J. Testleer en testconstructie. Vakgroep Psychologische Methodenleer, Faculteit der Psychologie, Universiteit van Amsterdam. 1998, p. 198. 23 Ibid. p. 199. 19 verband tussen Hig en r makkelijker liggen. In de regressiefunctie van deze modellen worden immers veronderstellingen gemaakt over de discriminatieparameter. In een niet parametrisch model ligt dat niet voor de hand. Er zijn immers geen parameters. Toch staan we niet machteloos en geraken we verder dan deze intuïtieve bewijsvoering. Bij Mokken vinden we het volgende terug : ‘Schriever advocated optimal score methods derived from multiple correspondance analysis, where the first principal component Y1 of the correlation matrix of items U optimally fits the ability θ.24 Wanneer Meijer en Sijtsma zich bezighouden met de vraag of de personen fitten op deze latente trek dan demonstreren ze dat het gebruik van de itembetrouwbaarheid als maat voor discriminatie en helling van de IRF’s nuttig is.25 In PCA gebeurt het onderzoek van de eigenstructuur van X door het onderzoek van de eigenstructuur van R m.n. de correlatiematrix (gereduceerde correlatie matrix in PAF)van de geobserveerde variabelen. Deze structuur wordt gevat door de eigenwaarde. De eigenwaarde geeft meestal een optimum aan. Voor de factoranalyse is dat de maximale variantie 26. In een principale componenten analyse is de som van de eigenwaarden gelijk aan het aantal indicatoren – het bewijs dat 100% verklaard wordt of dat alle variantie geëxtraheerd wordt. Het geeft met andere woorden aan hoe goed een component in staat is om de gemeenschappelijke spreiding uit de oorsponkelijke variabelen te extraheren. In PAF is de som van de eigenwaarden gelijk aan de totale gemeenschappelijke variantie. Dat is dus 1-E. Voor ons opzet is het echter belangrijk dat de componentladingen de regressiecoëfficienten zijn in een model met een variabele als afhankelijke en de componenten als onafhankelijke variabelen. 27 Maar hier zijn het correlatiecöefficienten.28 Met deze correlatie zijn op weg naar een wiskundig verband tussen Hi(j) en lading. ‘This coefficient equals the ratio of the covariance between item i en j and their maximum covariance given the marginal distributions.’ 29 In de formule van de correlatie komen we dus eenzelfde grootheid tegen, nl. in de teller van de twee staat (i-mean(i))*(j-mean(j)). Omdat we echter in een niet parametrisch model zijn kunnen we onze intuitieve bewijsvoering moeilijk hard maken.30 Maar we zien dat H en r geen gescheiden grootheden zijn. Hieronder zetten we de itemschaalbaarheid naast de ladingen om te kijken of we geen verband kunnen zien. Tabel 1 Factorladingen naast itemschaalbaarheid Hi H 24 Factor H Factor H Factor Mokken, R. J. Nonparametric Models for Dichtomous Responses. In : van der Linden, W. Hambleton R. (eds.) Handbook of Modern Item Response Theory. Springer, 1997, p. 358. 25 Ibid. p. 362. 26 Tacq. J. o.c. p. 258. 27 Tacq, J. o.c. p. 262. 28 Tacq, J. o.c. p. 281 29 Molenaar, I. Sijtsma, K. Debets, P. Hemker, B. o.c. p. 7. 30 Takane en de Leeuw vergelijken het hart van de procedures in factoranalyse en IRT met mekaar in begrijpelijke taal in : Takane, Y. de Leeuw, J. On the relationship between item response theory and factor analysis of discretized variables. In : Psychometrika, nr. 3, 1987, p. 393-394 en 396-397. 20 WH1 .48 .674 ZIW1 .6 .699 LM1 .85 .698 WH2 .44 .587 ZIW2 .61 .769 LM2 .87 .876 WH3 .57 .741 ZIW3 .56 .659 LM3 .84 .840 WH4 .46 .669 ZIW4 .64 .772 LM4 .81 .699 WH5 .58 .779 ZIW5 .55 .640 WH6 .42 .515 ZIW6 .66 .811 H Factor WH7 .35 .440 ZIW7 .63 .745 INSPR1 .54 .577 WH8 .32 .255 ZIW8 .64 .773 INSPR2 .65 .756 WH9 .52 .638 ZIW9 .42 .463 INSPR3 .7 .821 WH10 .51 .666 ZIW10 .66 .829 INSPR4 .62 .745 WH11 .48 .584 ZIW11 .53 .644 INSPR5 .65 .768 INSPR6 .65 .786 Factor INSPR8 .53 .617 .6 .681 H Factor H Factor EB1 .45 .632 RC1 .58 .668 EB2 .49 .712 RC2 .55 .650 EB3 .37 .453 RC3 .62 .759 EB4 .33 .409 RC4 .52 .603 TO1 .85 .907 EB5 .47 .618 RC5 .56 .619 TO2 .87 .952 EB6 .39 .511 RC7 .61 .781 TO3 .84 .912 EB7 .5 .702 RC8 .62 .780 TO4 .81 .842 RC6 .45 .454 Factor RC9 .5 .593 H Factor AW1 .42 .520 Factor AW2 .49 .646 H H INSPR7 LI1 .64 .858 LI2 .64 .875 LI3 .18 .167 RL1 .61 .706 AW3 .57 .836 LI4 .45 .619 RL2 .59 .685 AW4 .48 .694 LI5 .65 .869 RL3 .7 .855 AW5 .39 .577 LI6 .62 .786 RL4 .38 .491 AW6 .33 .439 LI7 .59 .801 RL5 .51 .711 RL6 .47 .412 RL7 .67 .791 RL8 .7 .812 RL9 .5 .594 H Op het eerste zicht zien we dat als Hi hoog is ook de factorlading hoog is en dat als Hi laag is ook de factorlading laag is. Tergelijkertijd zien we echter dat bij de volgorde per schaal op het gebied van de hoogte van Hi en factorlading bij de hoge ladingen en hoge Hi waarden de vergelijking in 21 de fout gaat. De volgorde is niet dezelfde. Toch merken we een hoge correlatie op tussen de twee waarden. In de tabel hieronder geven we de samenhang weer tusssen de twee grootheden per schaal. De laatste kolom en de laatste rij geven een overzicht over de samenhang van de totaliteit, dus alle h en factorwaarden. Tabel 2 Correlatie tussen ladingen per batterij items en Hi per schaal Correlations Hwh Heb Hli Haw Hlm Hziw Hrl Hinspr Hto H Fwh 0,94 Feb 0,99 Fli 0,99 Faw 0,96 Flm 0,64 Fziw 0,99 Frl 0,89 Finspr 0,971 Fto 1 F 0,86 We zien een sterke relatie tussen de twee. Enkel voor leermogelijkheden zien we een tegenvallend resultaat, mede door het feit dat we maar 4 waarden per grootheid konden vergelijken. We durven te stellen dat de ladingen uit de factormatrix een reflectie zijn van itemschaalbaarheidscoëfficienten die we redigeerden uit de MSP-output. Een relatie tussen H en % verklaarde variantie De relatie van hierboven komt intuïtief niet vreemd over. De eerste factor wordt zo gezocht dat het meeste variantie geëxtraheerd wordt. In MSP is het start itempaar het paar dat de hoogste Hij waarde oplevert. Bij PAF stopt het proces als alle gemeenschappelijkheid verklaard is. Bij MSP stopt het zoekproces als er geen beduidende relaties meer zijn. Hi, Hij en H moeten groter dan .3 zijn. Dat is dus als het ware de benedengrens voor gemeenschappelijkheid. 31 In een PAF is de som der gekwadrateerde ladingen gelijk aan de eigenwaarde van de eerste factor.32 De eigenwaarden hebben echter een zeer interessante interpretatie : hoe goed is een component in staat om de gemeenschappelijke spreiding uit de oorspronkelijke geobserveerde variabelen te traceren. Vertaald naar factoren is dat : hoe goed is een factor in staat om de ‘echte’ 31 De procedure is mooi en duidelijk uitgelegd in Mellenbergh, G. J. itemsresponsen. In : van de Brink, W.P. Mellenbergh, G.J. o.c. p. 203-204. 32 Tacq, J. o.c. p. 279. Modellen voor discrete 22 gemeenschappelijke spreiding uit de oorspronkelijke variabelen te traceren. 33 We kunnen eigenwaarden dan ook zien als gelijkwaardig aan % verklaarde variantie die dus een maat is voor de kwaliteit van de factoranalyse. Het is dan ook niet meer dan logisch dat we deze twee kwaliteitsmaten eens met mekaar willen vergelijken. Tabel 3 Beoordeling van H naast beoordeling van de verklaarde variantie in % uit de factoranalyse. Schaal uit VBBA-kern (aantal items) VIER SCHALEN H Beoorde- DM of % verklaarde Beoordeling ling H34 MH35 variantie % verkl. Var.36 .47 .43 .54 .44 .72 .59 .56 .6 .61 .84 Medium Medium Strong Medium Strong Strong Strong Strong Strong Strong .52 .54 .64 Strong Strong Strong PUNTEN Werktempo en hoeveelheid (11) Emotionele belasting (7) Lichamelijke inspanning (7) Afwisseling in het werk (6) Leermogelijkheden (4) Zelfstandigheid in het werk (11) Relatie met collega’s (9) Relatie met directe leiding (9) Inspraak (8) Toekomstonzekerheid MH DM MH MH DM MH DMH MH MH DM 37, 4 34.5 65.5 39.9 61.2 51.4 44 47.2 52.3 81.7 Zwak Zwak Sterk Matig Sterk Matig Matig Matig Sterk Sterk 36.7 40.2 45 Zwak Matig Matig DICHOTOME SCHALEN Plezier in het werk Herstelbehoefte Piekeren Voor we deze tabel bespreken willen we eerst opmerken dat het na de factoranalyse haast logisch zou zijn (cfr. Likerschaal) om Chronbach’s alfa te presenteren als tegenhanger van de Loevinger H-coëfficient maar ‘make clear that H and alfa have some similarities, but also behave differently ‘echte’ omdat een unieke factor afgetrokken wordt van de 1 die de hoofddiagonaal van de correlatiematrix in een PCA vormen, m.n. de error-term. We concetreren ons dus van bij het begin op de gemeenschappelijkheid. In de praktijk zien we dan ook dat de eigenwaarden over het algemeen kleiner zijn in een PAF dan in een PCA waarin de 100% variantie herschikt worden. Tacq, J. o.c. op p. 274 samen lezen met 264 en 279. 34 Mokken, R.J. o.c. p. 361. 35 DMH is gelijk aan DM op een significantie-niveau van 10%. 36 We hebben uiteraard geen harde evidentie voor deze beoordeling. Laten we maar stellen dat ze gebaseerd is op eigen inzicht dat verkregen werd uit de literatuur en ervaringen van anderen. 33 23 […] leads to the conclusion that H and alfa, despite their apparent simularities, should not be used interchangeably in research.’37 Wij willen de klemtoon leggen op de gemeenschappelijkheid waarnaar beide methoden op zoek gaan. Als we H en percentage verklaarde variantie vergelijken zien we wel dat hoe hoger H is, hoe meer verklaarde variantie. Bij de beoordeling komen er echter grote verschillen aan het licht. Als volgens de norm uit Mokken de schaal sterk is, dan is dat niet noodzakelijk het geval voor hoe tevreden we zijn over het percentage verklaarde variantie dat PAF uit de oorspronkelijke gemeenschappelijkheid wist te extraheren. Sommigen zijn ook wel sterk maar de meesten zijn maar matig. Hier komt blijkbaar het verschil tussen de twee methoden aan het licht. De gemeenschappelijkheid is voor Mokken niet genoeg. Er is nog de niet monotoom dalende vorm van de item responscurven en de lokale stochastische onafhankelijkheid waaraan een Mokkenschaal moet voldoen. Bij het model van de dubbele monotomie mogen de IRF’s mekaar ook niet snijden. Afwijkende hellingen kunnen daarvan een indicatie zijn.38 Gelijkgezind zijn ze wel over unidimensionaliteit. Bij de factoranalyse zien we nergens een tweede factor naar voor komen. Dat mokkenschalen unidimensioneel zijn spreekt voor zich. Dan rest ons het vraagstuk over de scoringsregel. Factoren kunnen ons geen houvast geven om de scores van personen over items op te tellen. We zijn dan ook geneigd om met de factorscores verder te werken. Uit de item respons theorie weten we dat de scoringsregel een voldoende statistiek is om mee verder te werken. We zijn dan ook geïnteresseerd in het verband tussen factorscores en mokkenscores. Tabel 4 correlatie tussen schaalwaarden en factorscores Correlations39 Schaal Factor Werktempo en hoeveelheid -0,99098 Emotionele belasting -0,98441 Lichamelijke inspanning -0,96897 Afwisseling in het werk 0,963471 Leermogelijkheden 0,990028 Zelfstandigheid in het werk 0,993625 Relatie met collega's 0,991144 Sijtsma, K. Contributions to Mokken’s Nonparametric Item Response Theory. Rijkuniversiteit Groningen. 1988, p. 94. 38 Wanneer we de oefening maakten om via de factorladingen na te gaan of we items verantwoordelijk konden stellen voor de schending van de dubbele monotomie of voor de schending van de monotome homogeniteit konden we nergens evidentie vinden. De helling is immers maar één aspect van een IRF. Er is ook nog de moeilijkheidsgraad van een item dat verantwoordelijk is voor de ligging van de responsfunctie in de ruimte thetha en kans op een goed antwoord. 39 α is minimum in de grootte orde van 10 -20 . Dat is inderdaad erg hoog maar niet verwonderlijk gezien het grote aantal observaties (minimum 900) en de gecorreleerde grootheden. 37 24 relatie met directe leiding 0,988757 Inspraak 0,992534 Toekomstonzekerheid -0,99527 Plezier in het werk -0,98708 Herstelbehoefte 0,997059 Piekeren 0,975779 De correlaties zijn erg hoog. Dat hoeft niet te verwonderen. We zagen eerder al een verband tussen H en het percentage verklaarde variantie als ook een verband tussen Hi en factorlading. Het lijkt alsof we gewoon verder kunnen werken met de factoranalyse i.p.v. mokken net zoals we bij de likertschalen deden in de module eendimensionele schaaltechnieken. Maar we mogen de dingen niet verkeerd voorstellen. Het is niet omdat we één factoroplossing hebben dat we een mokkenmodel hebben. Wel zal het zo zijn dat als we een medium of strong mokkenmodel hebben, we in een factoroplossing een één factorstructuur zullen zien. De voorwaarden voor Hi, Hig en H groter dan .3 komen overeen met een lading van rond de dertig procent. Een erg vlakke item responscurve is het gevolg. Als we zulk item verwijderen dan zal het percentage verklaarde variantie wellicht toenoemen alsook H. Doch vanuit de informatiefunctie kunnen we onszelf niet aanraden om te doen. Laten we onthouden dat vanuit de unidimensionaliteit bij Mokken ook een unidimensioneel factormodel volgt, als tenminste Loevinger’s H van minstens medium niveau is.40 Na het meten het toesten van hypothesen met zowel schaalscores als factorscores41 Leidinggevenden versus niet leidinggevenden aan de hand van het moeten en kunnen42 Theoretisch kader Op het werk hebben we te maken met andere mensen in zeer uiteenlopende rollen. Zij zijn collega, chef, ondergeschikte, klant, leverancier, …enz. De verschillende rol die de andere speelt zet ons telkens in een andere positie en legt ons andere taken op. Het ligt voor de hand, de anderen op het werk oefenen invloed uit op alle componenten van het stressmodel : ter hoogte van het ‘moeten-aankunnen’, ter hoogte van het ontstaan van het gevoel je taak niet meer aan te kunnen.43 Met mensen werken treft maw. altijd de verhouding tussen moeten en kunnen die aan 40 Deze conclusie wil ik enkel nemen voor onze data met ons beperkt aantal bedrijven. (cf. supra) In de bijlagen nemen we twee tabellen op die op onze vraag moesten antwoorden of we bij het toetsen van hypothesen in de problemen komen met de p-waarden en de vooropgestelde kans op een type I-fout. Het antwoord daarop is negatief. De significantieniveaus zijn bij beide modellen van eenzelfde grootte orde zoals blijkt uit de bijlage. 42 Moors, S (ed.) Stress en werk. Oorsprong en aanpak. Nationaal Onderzoeksinstituut voor Arbeidsomstandigheden, 1994, p. 13-47. 43 Ibid. p. 39-40. 41 25 de basis ligt van stress. Voor leidinggevenden is dat niet anders, integendeel. ‘Om het ijzer te smelten moet je de nodige parameters op de hoogte brengen zodat het smelt, maar om mensen warm te maken en te houden, kunnen we niet op zulke fysische makkelijk te bespelen variabelen rekenen.’ Dat gaat zeker op voor de leidinggevenden. Zij zijn in de hiërarchie van het bedrijf niet alleen gezagsvoerders over de ondergeschikten maar ook de ondergeschikten van het kader. We kunnen hen zien als een knooppunt waar instructies binnen komen en buitengaan. In ‘integrale zorg-taal’ zijn zij steeds zowel klant als leverancier. Om het met de woorden van Moors te zeggen : “Het oordeel over hoe goed je het doet en of je dus je taak aankunt, komt niet enkel van de hogere leiding, je collega’s-chefs, maar ook van je ondergeschikten.”44 De nietleidinggevenden spelen in het algemeen niet zo’n dubbele rol. Zij zijn in het IZ-denken ook wel klant en leverancier maar zijn als klant meer proceduraal afhankelijk om hun rol als leverancier (dienst of product) te vervullen. Er is echter meer. De procedurale afhankelijkheid impliceert dat zij minder regelmogelijkheden hebben die dan nog via de sociaal-organisatorische component van een instelling of bedrijf herbekeken kan worden. Dat laatste gebeurt dikwijls in het kader van de collectieve arbeidsverhoudingen dat gedelegeerd wordt aan de syndicale vertegenwoordigers. In operationele termen verwachten we dan voor de leidinggevenden meer emotionele belasting en harder moeten werken dan niet leidinggevenden. Hun rol in het bedrijf als knooppunt betekent voor ons dat ze ook meer variatie in de taak maar ook meer leermogelijkheden hebben dan nietleidinggevenden. Voor niet leidinggevenden verwachten we minder inspraak en zelfstandigheid in het werk (taakautonomie) om het dagelijkse werk te regelen. Werken met mensen die als het ware tegenstelde eisen hebben, veroorzaakt o.i. meer spanning die in het doctoraat van van Veldhoven geoperationaliseerd werd aan de hand van herstelbehoefte en piekeren.45 Empirisch onderzoek : t-test Bovenstaand vraagstuk is erg makkelijk te gieten in een meettechniek, nl. de t-test voor het vergelijken van twee groepen. We willen immers leidinggevenden met niet leidinggevenden vergelijken op tal van schalen. De nulhypothese die getest wordt, is de hypothese dat de gemiddelden van beide groepen gelijk zijn. De alternatieve hypothese is dat de gemiddelden van beide groepen verschillend zijn. Tabel 5 Significantietabel op basis van Mokken en Factor scores 44 Ibid. p. 42. De figuur uit het doctoraat wordt behandeld in van Veldhoven, M. Meijman, Th., Broersen, S. en Fortuin, R. Handleiding VBBA. Onderzoek naar de beleving van psychosociale arbeidsbelasting en werkstress met behulp van de VBBA. Stichting Kwaliteitsbevordering en Gezondheidszorg. Amsterdam, 1997, p. 50. 45 26 Independent Samples Leidinggevenden versus niet-leidinggevenden Test Factoren Mokken Levene’s Test for Equality of Variances Levene's Test for Equality of Variances t-test for Equality of Means F Sig. t df Sig. (2-tailed) t-test for Equality of Means F Sig. t df Sig. (2-tailed) WH EVA46 5,91 0,015341 1,88 340 0,060899 6,66 0,010091 -2,27 339 0,02398 EB EVA 1,88 0,170873 7,835 621 2,04E-14 0,723 0,395437 -8,44 621 2,22E-16 AW EVA 8,95 0,002883 -10,4 357 3,78E-21 12,72 0,00039 -10,4 366 3,45E-21 LM EVA 4,13 0,042503 -6,01 341 4,79E-09 7,596 0,006021 -6,44 353 3,85E-10 ZIW EVA 27 2,72E-07 -10,6 399 2,49E-21 23,42 1,65E-06 -10,8 394 2,6E-21 INSPR EVA 11,5 0,000751 -13,2 344 4,35E-21 8,86 0,003031 -13,4 336 4,77E-21 HERB EVA 1,65 0,200055 -1,5 573 0,133695 1,911 0,167404 -1,35 573 0,177516 P EVA 0 0,964811 -4,17 603 3,47E-05 0,573 0,449313 -3,86 603 0,000124 We zien duidelijk uit de significantietabel dat enkel voor HERB we de nulhypothese op het 5% significantieniveau moeten aanvaarden. De t-waarde voor WH, EB, AW, LM, ZIW, INSPR en P bevinden zich binnen het kritisch gebied. Dat betekent dat we de alternatieve hypothese kunnen aanvaarden. Uit het teken van de t-waarde voor de mokkenschalen zien we wat de richting betreft dat de groep van de leidinggevenden op alle schalen gemiddeld gezien hoger scoort dan de niet leidinggevenden. Dat komt grotendeels overeen met onze hypothesen uit het theoretisch kader van hierboven. Leidinggevenden beleven gemiddeld meer emotionele belasting, ervaren een hoger werktempo en –hoeveelheid en piekeren meer dan niet-leidinggevenden maar hebben ook meer afwisseling in het werk en meer leermogelijkheden. Daarenboven hebben ze gemiddeld gezien ook meer inspraak en zelfstandigheid dan niet leidinggevenden. Dat stemt overeen met onze uiteenzetting over leidinggevenden waarin we stelden dat ze een schakel vormen tussen hoger kader en werknemers : WH EB en P negatief en INSPR, ZIW, LM en AW positief. 46 Equal variances assumed. Hier wordt met andere woorden de assumptie van de homoscedaciteit getoetst. Uit de tabel blijkt dat de variantie binnen de groepen niet altijd gelijk is. In dat geval hebben we de gecorrigeerde p-waarde opgenomen nl. de p-waarde die hoort bij equal variances not assumed. Wanneer de assumptie geschonden is hebben we p-waarden van de levine’s test in cursief gedrukt. 27 Weerlegbaarheid van sekseverschillen aan de hand van onze data aan de hand van partiële correlatieberekening Hypothese uit eerder onderzoek Bij het onderzoek naar stress als ziekteverzuim onderzoekt Dr. Swinnen het voorkomen van stress bij mannen en vrouwen. Hij komt in zijn steekproef van dossiers van de leden van de CM van Eekloo47 tot volgende vaststelling : “Uit deze gegevens blijkt dat vrouwen veel sterker (56%) vertegenwoordigd zijn in de stressgroep dan in de groep van de verzekerden (35,1%). Bij de interpretatie vervolgt de dokter moeten we voorzichtig zijn : we mogen niet besluiten dat vrouwen stressgevoeliger zijn… we mogen niet vergeten dat het verschil toegeschreven kan worden aan de lagere positie van de vrouw in het bedrijf, de grotere bezorgheid van de vrouw, enz.”48 Operationaliseren van deze onderzoekhypothese in het kader van de VBBA Stress operationaliseren we erg eng tot psychosociale belasting. Dit meten we aan de hand van de schaal emotionele belasting en de schaal werktempo en hoeveelheid. Deze operationalisering laat ons toe om mannen en vrouwen te vergelijken naar het gemiddelde op deze schalen. Uit de tabel hieronder blijkt dat we op het .05 niveau zeker zitten en kunnen concluderen dat vrouwen en mannen in onze bedrijven gemiddeld gezien verschillend scoren op de schalen emotionele belasting en werktempo en – hoeveelheid. Tabel 6 Significantietabel op basis van Mokken en Factor scores Independent Geslachtsverschillen Samples Test Factoren Mokken Levene's Test for Equality of Variances Levene's Test for Equality of Variances t-test for Equality of Means F WH EVA Sig. t df Sig. (2-tailed) F t-test for Equality of Means Sig. t df Sig. (2-tailed) 0,02 0,888597 -2,75 621 0,006211 0,015 0,902972 2,576 621 0,01022 0,01 0,906874 -3,16 624 0,001632 3E-04 0,985246 2,735 624 0,006424 EVNA EB EVA EVNA 47 48 Swinnen, L. e.a. Stress als oorzaak van ziekteverzuim. In : Moors, S. o.c. p. 127. Ibid. p. 130. 28 Vrouwen ervaren als we naar de gemiddelden kijken meer werktempo en –hoeveelheid en meer emotionele belasting dan mannen. We kunnen aldus de bewering van aanvaarden verwerpen op basis van onze data (sign. Level 5%). Toch zijn we benieuwd of inspraak en autonomie meer bijdragen tot de verklaring van de variantie van psychosociale factoren dan sekse tot nog toe doet. Volgens Karasek spelen regelmogelijkheden een enorme rol bij de beleving van de psychische belasting. We kunnen dit vraagstuk analyseren aan de hand van partiële correlatie rekening en kijken of de relatie tussen geslacht en psychische belasting verandert als we de invloed van de regelmogelijkheden wegnemen. We kunnen ook deze hypothese anders operationaliseren, nl. door middel van multiple regressie. Daarbij stuiten we echter op een probleem. Uit de VBBA structuur kunnen we makkelijk afleiden dat EB en WH psychische belasting gemeen hebben en dat ZIW en INSPR regelmogelijkheden gemeen hebben. Dat noopt ons ertoe om een tweede–orde factoranalyse49 uit te voeren waardoor we slechts één afhankelijke variabele zouden overhouden, nl. psychische belasting en waardoor het probleem van de multicollineairiteit verdwijnt door ZIW en INSPR als onafhankelijke variabelen te nemen. De factoranalyse heeft 32 iteraties nodig om te convergeren en verklaart met twee factoren 56% van de oorspronkelijke mokkenschalen. Op de eerste factor laden ZIW en INSPR aanzienlijk hoog. WH en EB laden meer dan voldoende op de tweede factor zoals blijkt uit de tabel hieronder. Factor Matrix Factor 1 2 ZIW .730 -.122 INSPR Inspraak .823 -7.289E-02 WH werktempo en hoeveelheid -5.761E-02 .695 EB Emotionele belasting .283 .669 We besluiten om met de 2de orde factoren verder te werken. We proberen nu de hypothese te toesten aan de hand van volgend model : geslacht psychische belasting 49 De tweede-orde factoranalyse wordt uitgevoerd op basis van de Mokkenschalen. Hierboven hebben we gerechtvaardigd dat we daarmee verder kunnen werken 29 regel regelmogelijkheden Uit de correlatiematrix kunnen we al verwachten dat onze afhankelijk variabele niet substantiëel beïnvloedt zal worden door de predictoren geslacht en regelmogelijkheden. Gezien de multicollineariteitdiagnostieken en de correlatiematrix kunnen we stellen dat regelmogelijkheden en geslacht niet samenhangen . Er zijn in ons regressiemodel geen contaminerende werken van de twee precitoren onderling mogelijk op de afhankelijke variabele. Ook de verdeling van de afhankelijke variabele voldoet aan de voorwaarden om een regressieanalyse te doen. Ze ziet er bijna standaard normaal verdeeld uit (mean = 0, std = .88). De residuenanalyse volgt de vereiste weg. Het gestandaardiseerde residu is .9. en de normal P-P plot die cumulutieve ten opzichte van geobserveerde kansen plaatst, volgt perfect de diagonaal. De scatterplot tenslotte is mooi random verdeeld. Het hele model verklaart amper 1%. Dat is substantieel niets doch significant, p is namelijk .035. Wanneer we de coëfficienten erbij halen merken we dat noch de constante noch regelmogelijkheden als effect significant zijn. Hun p-waarde ligt ver boven de .05 norm, zodat de nulhypothese dat er geen effect is niet kan verworpen worden. Gezien het intercept en de regelmogelijkheden besloten we om een lineaire regressie met sekse als onafhankelijke variabele en psychische belasting als afhankelijke variabele over te doen. Zo kunnen we verschillende regressiemodellen aan de hand van de modelvergelijkingsprocedure vergelijken en beoordelen. Na deze analyse kunnen we besluiten dat regelmogelijkheden de psychische belasting niet beïnvloeden. Dat weten we als we de ratio van de modelvergelijkingsprocedure weergeven, nl. F=1,18 amper groter dan 1. We kunnen ons de moeite sparen om het tabellenboekje bij de hand te nemen. We besluiten dat het model met 1 predictor het haalt. Het model met twee predictoren voor psychische belasting is dus inadequaat. Hoewel geslacht als predictor fungeert voor psychische belasting kunnen we ons ook hier vragen stellen over de adequaatheid. Substantieel gezien is beta erg laag en verklaart het model bijna niets van de variantie in psychische belasting. Dat het model significant is, verandert daar niets aan. 30 Besluit In het algemeen kunnen we dus stellen dat we de hypothese van hierboven verwerpen. De regelmogelijkheden bieden geen verklaring voor de beleving van psychische belasting van de respondenten in de data die het NOVA tot nog toe verzamelde. Dat wil niet zeggen dat we het model van Karasek kunnen weerleggen. We werken immers met dezelfde begrippen maar niet met hezelfde meet instrument. Wel louteren we de relatie tussen geslacht en pscyhologische taakeisen. Besluit In deze paper concentreerden we ons op de vraag of voor de gebruikers van de vragenlijst beoordeling en beleving van de arbeid een verschil uitmaakt of ze werken met factorscores dan wel met mokkenschaalwaarden. Om deze vraag te beantwoorden berekenden we voor alle items uit de kern-vragenlijst zowel mokkenschalen als factoren. Beide methoden laten zien dat we de unidimensionele structuur op basis van onze data niet kunnen verwerpen. Ook is het duidelijk dat het model van de dubbele monotomie waarin item responscurven mekaar niet mogen snijden in de meeste gevallen niet bekomen werd. Molenaar en Mellenbergh geven intuïtief mee dat er een verband is tussen de schaalbaarheidscoëfficient van een item en de lading van een item op een factor. Wiskundig kunnen we onze bewijsvoering moeilijk hard maken. Het mokkenmodel is immers een nietparametrisch model. Wanneer we echter H en de factorlading naast mekaar plaatsen zien we met het blote oog dat er sterk verband is tussen beide waarden. De correlatie die we berekenden bevestigt dat. Ze is van de grootte orde van .85. Dat brengt ons tot de conclusie dat de factorladingen een weerspiegeling zijn van de itemschaalbaarheidswaarden. Bij een vergelijking tussen de schaalbaarheidscoëfficient van de schaal en het % verklaarde variantie (of eigenwaarde) stellen we ook wel een positief verband vast. Bij de beoordeling van de maten en de vergelijking van de beoordeling merken we dat de gebruikers vanaf medium schalen (cf. Mokken) een aanvaarbaar percentage verklaarde variantie en dito ladingen krijgen in een één factor model. Bij een zwak mokkenmodel komt de gebruiker bij de inspectie van de ladingen en de beoordeling van het percentage verklaarde variantie echter in de verleiding om items te schrappen. Hier komt dan ook het verschil tussen een mokkenmodel en PAF aan de oppervlakte. Beide zijn wel op zoek naar gemeenschappelijkheid maar een mokkenmodel stelt bijkomende voorwaarden aan de data, nl. lokale onafhankelijkheid en monotoom niet dalende item responsfuncties bij monotome homogeniteit en daarenboven mekaar niet snijdende IRF’s bij de dubbele monotomie. Die eisen inwilligen betekent dat de IRF’s zich in de ruimte veel strikter tot mekaar moeten verhouden dan de hoofdassen in een factoranalyse. In laatste instantie bekijken we of bij het testen van hypothesen het gebruik van schaalscores en mokkenscores een verschil veroorzaakt. Bij de meeste hypothesen zien we geen verschil. De 31 gebruiker komt niet in de verleiding om de nulhypothese in één van de gevallen te verwerpen of de alternatieve hypothese te aanvaarden. Maar soms gebeurt het toch en dat vooral bij inspectie van de assumptie van gelijke varianties bij de te vergelijken groepen. Dat brengt ons tot de eindconclusie dat we veiligheidshalve en omwille van de uniformiteit bij de VBBA beter werken met de schaalscores i.p.v. de factorscores. Deze laatste hebben volgend uit de IRT interessantere kwaliteiten. Wel kan de gebruiker bij zichzelf de unidimensionaliteit inspecteren wanneer hij weet dat de schaal van minstens medium kwaliteit is.