A RT I K EL P E O P L E Nico Smid Onder diversiteitsproof worden nogal eens verschillende dingen verstaan. In het kader van testgebruik is de volgende omschrijving het meest verdedigbaar: Een test is diversiteitsproof wanneer de uitslag van de test geen onderscheid maakt tussen aanwijsbare groepen die verschillen naar sekse, cultuur, etnische achtergrond, leeftijd etc, anders dan op aspecten die gerelateerd zijn aan datgene wat de test zelf beoogt te meten. Een term die in dit kader ook vaak gebruikt wordt is ‘adverse impact’. Als gebruik van de test een nadelige consequentie heeft – b.v. een lagere kans op slagen of toegelaten worden in een functie – voor een subgroep (b.v. vrouwen of etnische minderheden) ten opzichte van anderen met eenzelfde testscore, dan wordt gezegd dat die test een adverse impact heeft op die subgroep. Vaak wordt dan direct de consequentie van discriminatie door de test getrokken. Dit hoeft echter niet het geval te zijn. Twee mogelijkheden die zich vaak voordoen zijn de volgende. Ten eerste: de discriminatie vindt niet plaats op de test maar op het criterium. Vrouwen worden dan b.v in de praktijk (of bij de eindselectie) systematisch slechter beoordeeld dan mannen, ook bij gelijke testscore. Ten tweede: de testscore is een ‘geobserveerde’ meting die niet zelf een positie op een ‘latent’ construct als bedoeld – b.v. de ‘echte’ intelligentie – meet, maar daar enkel een meer of minder zuivere indicator van is. Zo’n geobserveerde score is nooit perfect betrouwbaar, maar gaat gepaard met meetfouten. Alleen al deze onbetrouwbaarheid kan tot ‘adverse impact’ leiden. Een vaak gehanteerde ‘oplossing’ is het gebruiken van aparte normen voor de onderscheiden groepen, b.v. mannen en vrouwen. Maar dat is allerminst een ‘oplossing’ voor het probleem. In het geval van discriminatie op het criterium verkoop je de testpersoon een kat in de zak. Vrouwen worden b.v. nog steeds lager beoordeeld dan mannen. In het geval van niet perfecte betrouwbaarheid van de test (ook bij een betrouwbare test van b.v. .90) krijg je een te lage voorspelling van de echte kwaliteit in het functioneren bij de ene groep, en een te hoge voorspelling bij de andere. Ook dat is een kat in zak, die tot ongerechtvaardigd optimisme c.q. pessimisme leidt. P E R F O R M A N C E Diversiteitsproof en ‘adverse impact’ I M P R O V E Connector Ability en Diversiteitsproof Item Response Technology en intelligentiemeting Item Response Technology (IRT) pakt het bovenstaande probleem bij de wortel aan. Connector Ability is dan ook mede om die reden op basis van IRT geconstrueerd. In een IRT model worden items geconstrueerd en geselecteerd om het ‘begrip als bedoeld’ te meten. Zonder op de mathematische achtergronden in te gaan kan gezegd worden dat ieder item dat de toets voor meting van het ‘begrip als bedoeld’ heeft doorstaan, ook alleen dat begrip meet en niets anders. En dat niet alleen, er is dan ook nauwkeurig bekend ‘hoeveel’ van dat begrip door dat item wordt gemeten. Dit heeft ten aanzien van een mogelijke ‘adverse impact’ van de test twee consequenties. Ten eerste: als twee testpersonen een gelijke kans hebben om dat item goed te maken, dan is dat alleen afhankelijk van datgene wat het item bedoelt te meten en niets anders. Verschillen tussen groepen zijn dan ook echte verschillen in het begrip rechtstreeks voorspeld door de score op een of meer items, maar door de schatting van de ‘echte’ c.q. ‘latente’ intelligentie op basis van een getoetst rekenmodel op enkel die items die de toets voor meting van het ‘begrip als bedoeld’ hebben doorstaan. Adverse impact doordat je je rechtstreeks op een geobserveerde score Een voorbeeld kan een en ander verduidelijken. Als je op de markt wil weten hoe zwaar een zak sinaasappels is, en je gebruikt een balansweegschaal, dan maakt het niet uit welke concrete contragewichtjes je aan de I M P R O V E baseert, is dan niet meer aan de orde. P E O P L E als bedoeld. Ten tweede: criteria als slaagkans of toelating in een functie worden niet meer andere kant van de balans zet, zolang het totaal van de gewichtjes de weegschaal Waarom werkt dat? Omdat je ‘gewicht’ wil meten en omdat van ieder concreet contragewichtje bekend is hoe ‘zwaar’ het is. Het is ‘geijkt’ zeggen we dan. Normering Zo is het ook met items in een IRT geconstrueerde intelligentietest. Ieder item is ‘geijkt’ op de hoeveelheid ‘intelligentie’ die nodig is om het item goed te kunnen maken. Dan maakt het ook niet meer uit welke deelverzameling van items een testpersoon krijgt voorgelegd. P E R F O R M A N C E maar in evenwicht zet. Omdat van ieder item bekend is hoeveel ‘intelligentie’ je er voor nodig hebt, kun je dus ook op basis van de antwoorden van een testpersoon op iedere willekeurige deelverzameling van items uitrekenen, hoeveel ‘intelligentie’ deze persoon blijkbaar bezit. Net zoals je met iedere willekeurige deelverzameling van contragewichtjes kunt bepalen hoe zwaar de zak sinaasappels is. Dus: op basis van een voor iedere persoon unieke verzameling items wordt voor elk van hen de positie op een onderliggende gemeenschappelijke ‘latente’ intelligentieschaal berekend. En op die ‘latente’ intelligentiescores worden dan ook de normen berekend. Aparte normen voor aparte verzamelingen items zijn dan ook niet meer nodig. Voor de normering doet het er niet meer toe welke concrete items een testpersoon voorgelegd heeft gekregen. Alle personen worden op dezelfde onderliggende schaal vergeleken. Connector Ability is een test voor algemene intelligentie. Dat wil zeggen: het onderliggende vermogen om nieuwe problemen in nieuwe situaties op te lossen. Ongeacht concrete verschillen tussen mensen in kennis van een specifieke taal of Op basis van veel wetenschappelijk onderzoek is bekend dat algemene intelligentie in de hier bedoelde betekenis gemiddeld niet meer dan hooguit marginaal verschilt tussen seksen, etnische en culturele achtergronden. Connector Ability beoogt die algemene intelligentie te meten. Dus de schatting daarvan mag dan ook gemiddeld niet verschillen tussen seksen, etnische en culturele I M P R O V E cultuur. P E O P L E Connector Ability en diversiteitsproof achtergronden. In dat opzicht dient een test als Connector Ability ‘diversiteitsproof’ te Dat nu is voor Connector Ability in grote en goed gebalanceerde gegevens bestanden getoetst, en de test blijkt op basis daarvan inderdaad diversiteitsproof waar het ‘culture’ en ‘language’ ‘ fair’ betreft. De consequentie hiervan is: Verschillen tussen scores van verschillende testpersonen op Connector Ability – ongeacht sekse, etnische of culturele achtergrond – meten bij die personen betrouwbare verschillen in algemene intelligentie en zijn op zichzelf geen indicatie voor ‘adverse impact’ op de ene of andere groep. Aparte normen zijn dan niet alleen onnodig maar zelfs ongerechtvaardigd. P E R F O R M A N C E zijn. Dit heet ook wel: ‘culture fair’ en ‘language fair’. P E O P L E I M P R O V E P E R F O R M A N C E PiCompany verbindt de ambitie van uw organisatie aan de prestaties van uw medewerkers. Wij bieden oplossingen op het gebied van performance management, leiderschap, competentie-ontwikkeling en selectie. Kijk voor meer informatie op www.picompany.nl.