Connector Ability en Diversiteitsproof

advertisement
A RT I K EL
P E O P L E
Nico Smid
Onder diversiteitsproof worden nogal eens verschillende dingen verstaan.
In het kader van testgebruik is de volgende omschrijving het meest verdedigbaar:
Een test is diversiteitsproof wanneer de uitslag van de test geen onderscheid maakt
tussen aanwijsbare groepen die verschillen naar sekse, cultuur, etnische
achtergrond, leeftijd etc, anders dan op aspecten die gerelateerd zijn aan datgene
wat de test zelf beoogt te meten.
Een term die in dit kader ook vaak gebruikt wordt is ‘adverse impact’.
Als gebruik van de test een nadelige consequentie heeft – b.v. een lagere kans op
slagen of toegelaten worden in een functie – voor een subgroep (b.v. vrouwen of
etnische minderheden) ten opzichte van anderen met eenzelfde testscore, dan wordt
gezegd dat die test een adverse impact heeft op die subgroep.
Vaak wordt dan direct de consequentie van discriminatie door de test getrokken. Dit
hoeft echter niet het geval te zijn. Twee mogelijkheden die zich vaak voordoen zijn de
volgende.
Ten eerste: de discriminatie vindt niet plaats op de test maar op het criterium.
Vrouwen worden dan b.v in de praktijk (of bij de eindselectie) systematisch slechter
beoordeeld dan mannen, ook bij gelijke testscore.
Ten tweede: de testscore is een ‘geobserveerde’ meting die niet zelf een positie op
een ‘latent’ construct als bedoeld – b.v. de ‘echte’ intelligentie – meet, maar daar
enkel een meer of minder zuivere indicator van is. Zo’n geobserveerde score is nooit
perfect betrouwbaar, maar gaat gepaard met meetfouten. Alleen al deze
onbetrouwbaarheid kan tot ‘adverse impact’ leiden.
Een vaak gehanteerde ‘oplossing’ is het gebruiken van aparte normen voor de
onderscheiden groepen, b.v. mannen en vrouwen. Maar dat is allerminst een
‘oplossing’ voor het probleem. In het geval van discriminatie op het criterium verkoop
je de testpersoon een kat in de zak. Vrouwen worden b.v. nog steeds lager
beoordeeld dan mannen.
In het geval van niet perfecte betrouwbaarheid van de test (ook bij een betrouwbare
test van b.v. .90) krijg je een te lage voorspelling van de echte kwaliteit in het
functioneren bij de ene groep, en een te hoge voorspelling bij de andere. Ook dat is
een kat in zak, die tot ongerechtvaardigd optimisme c.q. pessimisme leidt.
P E R F O R M A N C E
Diversiteitsproof en ‘adverse impact’
I M P R O V E
Connector Ability en Diversiteitsproof
Item Response Technology en intelligentiemeting
Item Response Technology (IRT) pakt het bovenstaande probleem bij de wortel aan.
Connector Ability is dan ook mede om die reden op basis van IRT geconstrueerd.
In een IRT model worden items geconstrueerd en geselecteerd om het ‘begrip als
bedoeld’ te meten. Zonder op de mathematische achtergronden in te gaan kan
gezegd worden dat ieder item dat de toets voor meting van het ‘begrip als bedoeld’
heeft doorstaan, ook alleen dat begrip meet en niets anders. En dat niet alleen, er is
dan ook nauwkeurig bekend ‘hoeveel’ van dat begrip door dat item wordt gemeten.
Dit heeft ten aanzien van een mogelijke ‘adverse impact’ van de test twee
consequenties.
Ten eerste: als twee testpersonen een gelijke kans hebben om dat item goed te
maken, dan is dat alleen afhankelijk van datgene wat het item bedoelt te meten en
niets anders. Verschillen tussen groepen zijn dan ook echte verschillen in het begrip
rechtstreeks voorspeld door de score op een of meer items, maar door de schatting
van de ‘echte’ c.q. ‘latente’ intelligentie op basis van een getoetst rekenmodel op
enkel die items die de toets voor meting van het ‘begrip als bedoeld’ hebben
doorstaan. Adverse impact doordat je je rechtstreeks op een geobserveerde score
Een voorbeeld kan een en ander verduidelijken.
Als je op de markt wil weten hoe zwaar een zak sinaasappels is, en je gebruikt een
balansweegschaal, dan maakt het niet uit welke concrete contragewichtjes je aan de
I M P R O V E
baseert, is dan niet meer aan de orde.
P E O P L E
als bedoeld.
Ten tweede: criteria als slaagkans of toelating in een functie worden niet meer
andere kant van de balans zet, zolang het totaal van de gewichtjes de weegschaal
Waarom werkt dat?
Omdat je ‘gewicht’ wil meten en omdat van ieder concreet contragewichtje bekend is
hoe ‘zwaar’ het is. Het is ‘geijkt’ zeggen we dan.
Normering
Zo is het ook met items in een IRT geconstrueerde intelligentietest. Ieder item is
‘geijkt’ op de hoeveelheid ‘intelligentie’ die nodig is om het item goed te kunnen
maken.
Dan maakt het ook niet meer uit welke deelverzameling van items een testpersoon
krijgt voorgelegd.
P E R F O R M A N C E
maar in evenwicht zet.
Omdat van ieder item bekend is hoeveel ‘intelligentie’ je er voor nodig hebt, kun je
dus ook op basis van de antwoorden van een testpersoon op iedere willekeurige
deelverzameling van items uitrekenen, hoeveel ‘intelligentie’ deze persoon blijkbaar
bezit. Net zoals je met iedere willekeurige deelverzameling van contragewichtjes kunt
bepalen hoe zwaar de zak sinaasappels is.
Dus: op basis van een voor iedere persoon unieke verzameling items wordt voor elk
van hen de positie op een onderliggende gemeenschappelijke ‘latente’
intelligentieschaal berekend.
En op die ‘latente’ intelligentiescores worden dan ook de normen berekend. Aparte
normen voor aparte verzamelingen items zijn dan ook niet meer nodig.
Voor de normering doet het er niet meer toe welke concrete items een testpersoon
voorgelegd heeft gekregen. Alle personen worden op dezelfde onderliggende schaal
vergeleken.
Connector Ability is een test voor algemene intelligentie. Dat wil zeggen: het
onderliggende vermogen om nieuwe problemen in nieuwe situaties op te lossen.
Ongeacht concrete verschillen tussen mensen in kennis van een specifieke taal of
Op basis van veel wetenschappelijk onderzoek is bekend dat algemene intelligentie
in de hier bedoelde betekenis gemiddeld niet meer dan hooguit marginaal verschilt
tussen seksen, etnische en culturele achtergronden.
Connector Ability beoogt die algemene intelligentie te meten. Dus de schatting
daarvan mag dan ook gemiddeld niet verschillen tussen seksen, etnische en culturele
I M P R O V E
cultuur.
P E O P L E
Connector Ability en diversiteitsproof
achtergronden. In dat opzicht dient een test als Connector Ability ‘diversiteitsproof’ te
Dat nu is voor Connector Ability in grote en goed gebalanceerde gegevens bestanden
getoetst, en de test blijkt op basis daarvan inderdaad diversiteitsproof waar het
‘culture’ en ‘language’ ‘ fair’ betreft.
De consequentie hiervan is:
Verschillen tussen scores van verschillende testpersonen op Connector Ability –
ongeacht sekse, etnische of culturele achtergrond – meten bij die personen
betrouwbare verschillen in algemene intelligentie en zijn op zichzelf geen indicatie
voor ‘adverse impact’ op de ene of andere groep.
Aparte normen zijn dan niet alleen onnodig maar zelfs ongerechtvaardigd.
P E R F O R M A N C E
zijn. Dit heet ook wel: ‘culture fair’ en ‘language fair’.
P E O P L E
I M P R O V E
P E R F O R M A N C E
PiCompany verbindt de ambitie van uw organisatie aan de prestaties van uw medewerkers.
Wij bieden oplossingen op het gebied van performance management, leiderschap,
competentie-ontwikkeling en selectie. Kijk voor meer informatie op www.picompany.nl.
Download