PSYCHODIAGNOSTIEK Hoofdstuk 0: Wat is psychodiagnostiek

advertisement
PSYCHODIAGNOSTIEK
Hoofdstuk 0: Wat is psychodiagnostiek?
1. Definities en omschrijvingen
Psychodiagnostiek is…
 BESLISSEN; < Grieks (onderscheiding): onderscheidings- en
beslissingsvermogen. “Een systematisch beslissingsproces”.
 VASTSTELLEN VAN INDIVIDUELE VERSCHILLEN; “Een onderzoekstaak om
individuele verschillen tussen mensen vast te stellen en om deze kennis
toe te passen op het enkele individu.” Het vaststellen van individuele
verschillen gebeurt adhv meetinstrumenten
 VERZAMELEN VAN INFO OVER PERSOON EN ZIJN/HAAR OMGEVING; “Op
wetenschappelijk verantwoorde wijze verzamelen van info omtrent persoon
en zijn omgeving met het oog op het nemen van beslissingen.”
 HULP BIEDEN; “Psychodiagnostisch proces is het proces van hulp bieden
aan personen met hun vragen en problemen.” Diagnostiek mondt uit in
behandeling/interventie.
 BESCHRIJVEN VAN ONTWIKKELINGSNIVEAUS; (zwakke én sterke kanten)
van cliënt. “Developmental assessment op diverse ontwikkelingsgebieden
zoals cognitie, motoriek, socio-emotionele vaardigheden, …”
 Telkens klemtoon op slechts één of enkele centrale elementen van
Psychodiagnostiek
2. Doel





Op wetenschappelijk verantwoorde wijze uitspraken doen over cognitie,
emotie, gedrag van een persoon als doel oa. beschrijving, diagnose,
voorspelling, verklaring, …
BESCHRIJVING; Betrouwbare en geldige beschrijving van gedrag van cliënt
of omgeving en ontwikkeling van het gedrag. Wat? cognitie, emotie,
gedrag. Hoe? Onderzoek naar condities, verbanden, verloop. (bv. Waaruit
bestaan de werkhoudingsproblemen van deze leerling precies? Op welk
niveau is het technisch lezen van een bepaalde leerling? Hoe groot is de
rekenachterstand van het kind?)  Onderkennen van wat er met de cliënt
aan de hand is
DIAGNOSE; Definitie in engere zin: Activiteit van experts om een persoon
in een bepaald categorieënsysteem onder te brengen. Inventariseren en
ordenen van (niet) functionele clusters van gedragingen, cognities en
emoties. (bv. Is er sprake van een gedragsstoornis? Is er bij dit kind
sprake van dyslexie? Is er sprake van een angststoornis bij deze vrouw?)
 Voorbeeld categorieënsysteem binnen psychologie/ psychiatrie:
Diagnostic and Statistical Manual of mental Disorders (DSM-IV; APA,
1994). APA: Amerikaanse psychiatrische beroepsvereniging. Gebaseerd op
wetenschappelijke kennis en inter-collegiale overeenstemming over de
indeling van allerlei stoornissen
VOORSPELLING; = Predictie = Voorspelling kans van optreden van
(dis)functionele gedragingen, cognities en emoties in toekomst (met/
zonder behandeling). (bv. Wat is de kans op zelfmoord?) Kansuitspraak
doen over gerelateerde gedragingen.
VERKLARING; = Diagnostisch onderzoek naar de oorzaken van een
gedrag(probleem). (bv. Waarom heeft een bepaalde leerling
concentratieproblemen? Waarom reageert deze jongen zo opstandig
1
PSYCHODIAGNOSTIEK
wanneer de ouders hem iets vragen? Waarom zijn er zoveel werknemers
met burn-out in dit bedrijf?)  Antwoord geven op het ‘waarom’ van het
voorkomen van de (dis)functionele gedragingen
 Vaststellen van de aard van (hulp)vragen of de ernst van cognitieve, socioemotionele problemen of gedragsproblemen van personen met als doel
beschrijving, diagnose, voorspelling of verklaring van die problemen.
Antwoord formuleren op vragen over selectie en plaatsing.
3. Diagnostisch proces
 DIAGNOSTICUS ~ REGISSEUR
 DOELGERICHTE ACTIVITEIT dat begint met de vraag van de cliënt en
eindigt met een advies:
 (Hulp)vraag
 Reflectie van diagnosticus
 Diagnostisch scenario
 Rapportering / advies
 Diagnostisch proces
Hoofdstuk 1: Historische ontwikkeling van het testen
Handboek pg. 15-29 (+32-35: lezen)
1. Inleiding: enkele historische voorlopers
 Al zeer lang sprake van tests en beoordelen? (bv. wie is de beste,
snelste, slimste, handigste,…? & selectiesystemen in China, meer dan 1000
jaar) Ontstaan vanuit praktisch probleem (bv. Binet-Simon test
(1905)). Belangrijke invloeden (gebeurtenissen, personen,...) die
een rol speelden bij de testontwikkeling en psychologische
diagnostiek. Wanneer ontstaan? Hoe ontstaan? Beïnvloedende factoren?
Belangrijke gebeurtenissen? Historische voorlopers? Belangrijke historische
personen? Oa. Wundt, Galton, Catell, Binet, Goddard…
 Ontstaan eind 19de eeuw. Voorlopers vd testbeweging leidde tot
procedures voor bepalen van individuele verschillen in intelligentie en
persoonlijkheid  selectie: historische context; samenleving &
wetenschappelijke psychologie.
 Geschiedenis diagnostiek = geschiedenis testen? Testen voor selectie
& testen voor plaatsing. MAAR geschiedenis diagnostiek = geschiedenis
van testen, testtheorie, psychologische theorievorming, diagnostisch
proces, … Geschiedenis diagnostiek vooral over opkomst, verspreiding en
gebruik van psychologische tests en meetinstrumenten  Geschiedenis
van testbeweging. Evolutie: Europa  VS. (bv. Opbouw van het
ambtenarenapparaat in China: Selectieprocedure ambtenaren voor de
keizers (de mandarijnen), Schriftelijke examens, Getrapt examensysteem.
/ Selectie in het Oude Testament: Selectie van de Gideonsbende, ‘Ratrace’.
/ Beoordelen en selecteren in het antieke Griekenland: Gedragsverschillen
 Typologieën. / Hippocrates: temperamenttypes op grond van
lichaamssap: Sanguinisch type, Cholerisch type, Flegmatisch type,
Melancholisch type. / Plato: persoontypes op grond van de plaats van het
gemoed in het lichaam: In het hoofd, In de borst, In het onderlijf. /
Hedendaagse ‘ratraces’: Overheid, Politie, Bedrijfsleven .)
2
PSYCHODIAGNOSTIEK

Diagnostiek avant la lettre: 13de eeuw: schoolprestaties via mondelinge
examens op universiteit - 16de eeuw: selectie van ‘hoog begaafden’
(Huarte) - 18de & 19de eeuw: persoonlijkheid obv uiterlijk: Typologie op
grond van constitutie (1. Kretschmer: Picnisch, Atletisch, Leptosoom. 2.
Scheldon: Endomorf, Mesomorf, ectomorf) & Gall: intelligentie obv
schedelomtrek.
2. Periode tot Binet-Simon-test
 BIJDRAGE PSYCHIATRIE
 Begin 19de eeuw: onderscheid zwakzinnigheid en psychiatrische
stoornissen (krankzinnigheid)  medische denkmodellen.
 Pinel (1793 interesse): Bicêtre & Salpêtrière zijn
instellingen in Frankrijk. Populatie van la Salpêtrière in 1701
(instelling Parijs): 4646 vrouwen (1894 kinderen jonger dan
15j, 329 meisjes jonger dan 16j [kreupel, kolerig, …], 594
oudere blinden en verlamden, 262 ouderen hoger dan 70j,
380 veroordeelden/zedelozen/prostituees, 465 schooiers en
vagebonden, 330 kindsvrouwen van hoge leeftijd, 300
gewelddadige gekken, 92 epileptici van verschillende
leeftijden).
 Esquirol (1838 diagnose/differentiatie): “des maladies
mentales”. Kwantitatieve en kwalitatieve, irreversibel.
Zwakzinnigheid: permanent, irreversibel & ongeneeslijk.
Psychiatrische stoornis: kan ontstaan op latere leeftijd &
kan verbeteren.
 Seguin (1837 behandeling): student Esquirol, reversibel,
trainigsmethode.
 Eind 19de eeuw: ontwikkeling testmethode; intelligentie,
vermoeidheid, schizofrenie & persoonlijkheid
 Begin 20ste eeuw: classificatiesysteem voor psychiatrische
stoornissen. Taxonomisatie psychiatrie. De essentie: mentale
retardatie ≠ psychiatrische beelden, … is “een ziekte”
(fysiologische…), … kan behandeld worden, behandeling door
training, meting is gewenst voor differentiatie tussen de beelden.
 Kraepelin (1883): “Compendium der psychiatrie” eerste
classificatie in de psychiatrie; o.a. manische depressie &
dementia-precox, Alzheimer, …  Fysiologische oorzaak,
meting noodzakelijk.
 BIJDRAGE EXPERIMENTELE PSYCHOLOGIE; Meetnauwkeurigheid
(Duitsland): vaststellen en meten van algemeen geldende wetmatigheden
in de waarneming.
 Individuele verschillen tussen mensen: waarneming.
 Wundt (1879): eerste labo  denksnelheid
 Ebbinghaus: geheugenspanne
 Meetinstrumenten: vb. Tachistoscoop uit 1903 = toestel waarmee
visuele stimuli kunnen worden aangeboden voor een zeer korte
tijdspanne (msec). Chronograaf van Wundt voor meting tot op
1/10000 sec. Bewegingsmodellen van het oog van Wundt.
 Manipulatie van onderzoekscondities: nauwkeurige schattingen
van fouten (storende factoren) & standaardisatie-eis voor tests.
3
PSYCHODIAGNOSTIEK

BIJDRAGE GENETICA; verdere ontwikkelingen: vooral klemtoon op
individuele verschillen in persoonlijkheid en intelligentie + belang van
maatschappelijke veranderingen voor ontwikkelingen in psychodiagnostiek.
 Galton (1822-1911 GB): Brede interesse (vb. statistiek,
erfelijkheid, efficiëntie van gebed). Filosofische overtuiging: Engels
empirisme. Kennen is alleen mogelijk via zintuigen, dus wie de
beste zintuiglijkheid bezit functioneert ook het beste. ‘Meten is
weten’.
 Erfelijkheid van individuele verschillen: geïnspireerd door
evolutieleer van Darwin; belang van erfelijkheid van
lichamelijke eigenschappen. Galton wil aantonen dat
psychische eigenschappen (vb. genialiteit) ook erfelijk zijn
en dezelfde wetten volgen als lichamelijke eigenschappen. 
Eugenetica (‘goed geboren’). Metingen zouden als basis
kunnen dienen om de “besten” de selecteren.
 Psychofysische metingen voor het mentale vermogen:
belangrijk individueel verschil: het mentale vermogen.
Metingen van het mentale vermogen gebeurde via
psychofysische metingen van elementaire functies (vb.
lichaamslengte, gewicht, lengte van hoofd, spierkracht,
reactiesnelheid, capaciteit longen, …). Waarom? Elementaire
functies zijn eenvoudig en exact te meten, zouden weinig
beïnvloed worden door milieu en opvoeding, zijn
representatief voor het mentale functioneren (Engels
empirisme).  ontwikkeling objectieve tests & gebruik van
gestandaardiseerde procedures.
 Wiskundige technieken: maakt gebruik van ‘co-relations’ en
regressieanalyses om vb. verband uit te drukken tussen
kenmerken va ouders en kenmerken van hun kinderen.
 Samengevat: individuele verschillen (genetica),
systematisering onderzoekstechnieken (experimentele
psychologie), wiskundige technieken (vb. scores uitdrukken
in termen van afwijkingen t.o.v. het gemiddelde [1ste stap naar
normatief denken nl. presentatie beoordelen door vergelijking
met anderen).
 Cattel (1860 1944 VS): Leerling van Wundt (experimentele
psychologie), promoveerde op systematische individuele verschillen
in reactietijd, net als Galton geïnteresseerd in individuele
verschillen.
 Ontwikkeling van tests voor meting individuele verschillen:
Link tussen Engelse traditie (meten) en Amerikaanse
behoefte aan tests (konden gebruikt worden om
immigranten te selecteren in de VS; VS is eind 19de – begin
20e eeuw een immigratieland). ‘Mental tests’ weerspiegelen
werkwijze van Galton (psychofysische metingen): handgrip
(dynamometer), discrimineren gewichten, oordeel over
verstreken tijd, druk nodig om pijn te voelen. Overtuiging:
mentale en lichamelijke energie kunne niet van elkaar
onderscheiden worden. Ontwikkeling van
psychofysiologische laboratoria en testbatterij.
4
PSYCHODIAGNOSTIEK
Jaarlijkse testafname bij schoolkinderen en studenten met
oog op bepalen intelligentie en voorspelen schoolprestaties
vb. meten van spierkracht, snelheid bewegingen, pijn
gevoeligheid, …
 Onderzoek naar validiteit: Wissler (student Cattel)
onderzoekt of scores op testbatterij schoolresultaten van
studenten kunnen voorspellen (= criteriumvaliditeit: verband
testscores – externe variabele: correctheid van
voorspellingen over te verwachten gedrag in andere situaties
dan de testsituaties op basis van de testresultaten) & in
hoerverre de verschillende proefjes onderling samenhangen
(= constructvaliditeit: interne structuur van de testbatterij:
zijn scores op deelproeven indicatoren voor hetzelfde
construct, vb. metaal vermogen?).  omwille van lage
correlatie stoppen psychologen met gebruik van
psychofysiologische metingen voor intelligentie. Mogelijke
verklaringen voor lage correlaties: homogene steekproef
(‘restriction of range’), variatie in testscores en in
studieresultaten was beperkt. Recentere correlaties zijn
grote dan deze gevonden door Wissler.
 Tot nu toe gericht op ‘elementaire functies’ hierin komt verandering vanaf
Binet!
3. Periode tussen Binet-Simon-test en WO-I
 BINET (1857-1911 F): stichter van tijdschrift L’Année Psychologique,
veelzijdig en zeer actieve persoon (zie de verschillende onderwerpen in zijn
boeken en artikels).
 Hogere mentale processen (Bekend artikel ‘La psychologie
individuelle’ 1895 van Binet & Henri): Afwijzing van sensorische
tests voor onderzoek naar intelligentie. Individuele verschillen in
intelligentie bepalen adhv hogere mentale processen (vb.
geheugen, begrip, problemen oplossen, verbeeldingskracht).
Voorgestelde tests: geheugentests, verbeelding met behulp van
inktvlekken, aandachtsonderzoek, verschil tussen een paar
begrippen opschrijven, …
 Binet-Simon test: verzoek van ministerie van onderwijszaken
(schoolplicht was recentelijk ingevoerd in Frankrijk + groot aantal
mislukkingen): test ontwikkelen voor selectieve maatregelen voor
kinderen die wel/niet het gewone onderwijs konden volgen. 30
taken om intelligentie na te gaan (vb. aanwijzen van
lichaamsdelen, woordparen herhalen, definiëren van woorden &
begrippen, …). 1ste versie verschijnt in 1905. Kenmerken: niet
bedoeld om alle aspecten van intelligentie te meten maar wel als
maat voor algemene mentale ontwikkeling van kinderen, korte en
praktische test, aantrekkelijk zodat kinderen er hun aandacht bij
konden houden, intelligentie wordt beschouwd als
oordeelsvermogen en niet als ‘lagere’ vaardigheden, nog geen
gestandaardiseerde instructie (doel = classificatie en niet het exact
meten van begaafdheden). Er volgen een aantal herwerkingen van
de eerste versie.
5
PSYCHODIAGNOSTIEK

 ‘Mentaal niveau’ of ‘Mentale leeftijd’ (1908): Binet-Simon test
wordt bij 300 kinderen afgenomen en per leeftijdsgroep wordt
nagegaan hoeveel kinderen een item goed beantwoorden. Item
worden geordend volgens leeftijd. Bepaling van mentaal niveau of
mentale leeftijd: bepaling van het basale mentale niveau (mentale
niveau waarvoor hoogstens één proef niet was gelukt) + voor elke
5 gelukte proeven boven basale niveau wordt één extra jaar
toegekend.
 Latere ontwikkelingen van de Binet-Simon test: Stern (1911)
IQ = mentale leeftijd / chronische leeftijd. Vertalingen: Terman
(1916) Stanford-Binet (Amerikaanse versie) met
standaardinstructies, normen en nieuwe scoringswijze (IQ =
mentale leeftijd / chronische leeftijd *100)
GODDARD (1866-1957 VS): Belangrijke rol in verspreiding van tests
binnen de VS, indeling van prestaties adhv beledigde termen bv. ‘moron’,
onderzoek naar prevalentie van mentale achterstand.
 Verspreiding van tests en testmisbruik: organiseerde testing
van immigranten op Ellis Island in VS. Problemen: oorspronkelijk
Franse test die vertaald was naar het Engels en dan weer vertaald
naar het Russisch, Italiaans, enz., de immigranten waren zwaar
vermoeid bij afname van test, scores werden geïnterpreteerd met
Franse normen. Conclusie Goddard: 83% Joodse, 80% Hongaarse,
79% Italiaanse & 87% Russische immigranten waren zwakzinnig! 
Ontwikkeling nieuwe non-verbale tests voor immigranten die nu
nog terug te vinden zijn in intelligentietests!
4. Begin WO-I tot WO-II
 GROEPSTESTS: Door WO I ontstond noodzaak om grote groepen personen
voor uiteenlopende functies te selecteren. Amerika: Army alpha test
(rekenopgaven, synoniemen, informatie) & Army beta test (non-vebale
opdrachten). Probleem: veel rekruten scoorden 0 (niet omwille van
mentale achterstand). Brigham: testresultaten worden gebruikt
(misbruikt) om verschillende bevolkingsgroepen te vergelijken,
‘rasvermenging zal onherroepelijk leiden tot aftakeling van Amerikaanse
intelligentie’, later herroept hij zijn uitspraken.
 ONTWIKKELING VAN PERSOONLIJKHEIDSTEST:
 Woodworth: legerrekruten WO I in VS selecteren (vatbaarheid
‘psychoneurose’). Woodworth Personal Data Sheet (1917); schaal
op basis van 116 symptoombeschrijvingen (vb. komen gedachten
bij jou op waardoor je niet kan slapen? Beschouwde men jou
vroeger als een stout kind? …). Som van antwoorden geeft mate
van aanpassing weer, basis voor latere vragenlijsten.
 MMPI (1943): Minnesota Multiphasic Personality Inventory,
koppeling van onaangepastheid aan psychiatrische categorieën,
verschillende klinische schalen (vb. depressie , schizofrenie, …),
verschillende validiteitschalen (vb. leugenschaal).
 Projectieve technieken: Rorschach (1921) publiceert over
ervaringen met inktvlekken en legt het verband tussen het duiden
van inktvlekken en persoonlijkheid. 10 symmetrische vlekken (kleur
of zwart/wit)  ‘Wat stelt dit voor?’. Thematic Apperception Test
6
PSYCHODIAGNOSTIEK
(TAT) voor het eerst beschreven door Morgan & Murray (1935), =
‘verhalentest’, tekeningen van personen in onduidelijke (ambigue)
situaties.  ‘Wat doen deze mensen, wat is er vooraf gebeurd, wat
zal er nog gebeuren?’. Aanvullen van zinnen (vb. ik hou van …,
mijn vader…). Voor- (brede band techniek, diepere lagen
persoonlijkheid) en tegenstanders (betrouwbaarheid, validiteit)
van projectieve technieken
5. Begin WO-II tot heden
 TESTS VOOR SPECIFIEKE VAARDIGHEDEN: Na WO II heeft men nood aan
selecteren van personen voor gespecialiseerde taken.
 TREND: toename in diversiteit van tests en testgebruik, sterkeren en
kritische bezinning over methodologische grondslagen van testgebruik
(met meer toepassing van statistische analyse).
 WAAROM IS STUDIE VAN GESCHIEDENIS VAN PSYCHODIAGNOSTIEK
ZINVOL? (vb.examenvraag) Inzien dat diagnostiek ook misbruikt kan
worden (vb. Goddard  slechte vertaling, slechte omstandigheden
daardoor slechte interpretatie / Brigham  IQ bepalen soldaten; lage
testresultaten en foute interpretatie en vergelijkingen).  Hier kritisch
over blijven: tests ontwikkelen die voldoen aan wetenschappelijke eisen is
nog geen garantie dat deze instrumenten ethisch verantwoord gebruikt
worden! Huidige testinhouden en testvragen begrijpen vanuit hun
historische oorsprong (vb. Goddard  non – verbale testen voor doof
stomme mensen en buitenlanders (doolhoven en figuur leggen) / Binet 
testen van IQ kinderen voor scholing [adhv aanwijzen van dingen,
herhalen van letters en cijfers, definiëren van woorden…]). Inzien dat
diagnostiek aansloot en ook nu nog aansluit bij maatschappelijke
vragen (vb. Schoolplicht vs intelligentie en opdeling niveaus  Binet test /
Verschillen in psychische problemen vs verschillende behandelingen 
Kreaplin / Verschillen in legerniveaus; onderscheiden via testen 
Brigham).
Hoofdstuk 2: Meten in de psychologie
Handboek pg. 38-75, 116-136
1. Wat is een test? (pg 38-46, 50-53,67)
 DEFINITIE PSYCHOLOGISCHE TEST: Een test is een systematische
classificatie –of meetprocedure (eigenschappen die we meten adhv een
schaal), waarbij het mogelijk is om een uitspraak te doen over één
of meer empirisch -theoretisch (wetenschappelijk te werk gaan met
theorieën in ons achterhoofd) gefundeerde eigenschappen (kennis,
vaardigheden, specifieke persoonskenmerken) van de onderzochte of
over specifiek niet - testgedrag (beschrijven en verklaringen zoeken,
voorspellingen maken, …), door uit te gaan van een objectieve
verwerking van reacties van hem/haar (eigenschappen/reacties die
we waar nemen op bepaalde stimuli die we uitlokken en dit objectief
verwerken  zodat dezelfde scores bekomen worden) , in vergelijking
tot die van andere (scores vergelijken met normen voor representatie),
7
PSYCHODIAGNOSTIEK


op een aantal gestandaardiseerde, zorgvuldig gekozen stimuli.
(Voorbeelden: interview, enquête, vragenlijst, test, observatieschaal, … )
DOEL TESTONDERZOEK: uitspraak doen die voorspelling, classificatie of
beschrijving mbt onderzochte individu behelst.
KENMERKEN TEST: Efficiëntie, Standaardisatie, Normering, Objectiviteit,
Betrouwbaarheid, Validiteit.
2. Operationaliseren (pg 61-67)
 METEN: oa verschillende tussen mensen, fenomenen, verbanden,
veranderingen, …  waarnemen. (vb. Welke nationaliteiten komen voor in
België? Pedagoog wil de schoolrijpheid van de kleuters testen, …)
Construct  operationaliseren (nationaliteit?  directe meting 
empirische constructen)
 WANEER OPERATIONALISEREN?: Meten en gebruik van schalen in de
psychologie: het is een noodzaak om “onmeetbare” gedragsaspecten
meetbaar maken  indirecte meting  hypothetische constructen (vb.
schoolrijpheid, geschikte directeurskandidaat vs nationaliteit; directe
meting)
 DIRECTE ( vb. lengte, gewicht,…  begrip = operationalisering) vs
INDIRECTE METINGEN (vb. aangepastheid, intelligentie,…  abstracte
constructen): observatie  score  meetwaarde
 METEN IN DE PSYCHOLOGIE: Meten = waarden toekennen aan de
verschillende toestanden van een variabele, waarbij de verhouding tussen
die waarden een weerspiegeling is van de verhouding in de werkelijkheid.
(vb. een mogelijke operationalisering van het construct intelligentie is de
WISC-III)
 BEGRIPPEN: waarden , toestanden, variabelen: waarnemingseenheden 
variabelen  waarden (deze kunnen discreet of continue [Kwantitatief],
dichotoom of categorisch [kwalitatief] zijn).
3. Antwoordschalen, antwoordvormen (pg 116-136)
 INSCHALEN OF SCHALEREN (METEN) = toekennen van cijfers aan objecten
of aan waarnemingen betreffende objecten (items op een test vb.
theoretische opdrachten …) volgens een regel (cijfers toekennen adhv
bepaalde regels). Objecten? (vb. theoretische opdrachten, uitspraken of
stellingen, vragen, praktijkproeven, …  items
 ANTWOORDSCHAAL OF RESPONSSCHAAL = manier waarop je de
antwoorden op beweringen verzamelt (elk item heeft een waarde).
 Dichotoom: kiezen uit twee antwoorden; ja of nee, juist of fout.
 Semantische responsvorm: De antwoordmogelijkheden zijn
gelegen tussen twee uitersten en zijn er meer dan 2 (volledig
akkoord – totaal niet akkoord, …).
 Multiple choice: Keuze uit verschillende antwoorden. (A-B-C-D, …)
 Forced choice: gedwongen keuze uit keuzemogelijkheden.
 Grafische responsschaal: antwoord gelegen tussen twee
uitersten, deze keer dmv aanduiding op een lijn. (vb. altijd
nooit)
 Checklist / rating scale: in een vooropgestelde lijst antwoorden
aanduiden, opsomming van alle antwoordmogelijkheden.
 Scoringsidex: = aantal correcte / benodigde tijd.
8
PSYCHODIAGNOSTIEK

(MEET)SCHAAL = verzameling van mogelijke categorieën of scores van een
variabele scores voor de verschillende objecten bekomen we via
welbepaalde procedure, regels (niet elk item heeft een waarde)  Doel:
een bepaald psychologisch construct in meting brengen (inschalen).
Daarbij wordt gebruik gemaakt van een of andere antwoordschaal /
responsvorm. Veelal geeft de som over de verschillende vragen (items) de
score op de meetschaal. (vb. Beck Depression Inventory = meetschaal die
de ernst van depressie (=construct) meet d.m.v. vragen in een
semantische responsvorm )
4. Dimensionaliteit
 DIMENSIONALITEIT VAN MEETSCHALEN: Schalen kunnen bestaan uit één
of meerdere dimensies:
 Uniedimensionale schalen; voorstelling adhv 1 lijn/ as (vb.
lengte, gewicht,…)  belangrijke schalen; Thurstone schaal:
methode van gelijke intervallen / Likert schaal: summatief
inschalen / Guttman schaal: cumulatief inschalen
 Twee - dimensionale schalen; voorstelling adhv 2 lijnen / assen
(vb. intelligentie [verbaal vs performaal], sociale oriëntatie)
 Multi - dimensionale schalen; voorstelling adhv 3of meer lijnen /
assen (vb. causale attributie: controleerbaarheid vs stabiliteit vs
locus)
 LIKERT SCHAAL = (meet)schaaltype: Bepaalde regel over verband tussen
het te meten onderliggend construct en de wijze waarop antwoorden op de
items van een schaal worden gegeven (Vb. Meetschaal voor de kwaliteit van
gehechtheidsrelatie van jongeren met ouders). Schaalscore = som van
cijfers die horen bij de antwoorden (na correctie voor negatief
geformuleerde items)  Likert schaal of Summatieve schaal. Schaalscore is
dus de meetwaarde voor een construct (vb. kwaliteit relatie). Regel bij
Likert schaal: voor elk item neemt de kans dat de mate waarin iemand
ermee akkoord gaat toe of af, afhankelijk van de positie van die persoon op
de dimensie van het construct. Stappen bij constructie van
unidimensionele Likert schaal:
 Definitie van unidimensionele construct
 Groot aantal items opstellen die aansluiten bij definitie. (items zijn
uitspraken die mensen moeten beoordelen gaande van ‘niet
akkoord’ tot ‘akkoord’)
 Items voorleggen aan proefgroep (< populatie waarop men schaal
wil toepassen)
 Analyse itemscores en schaalscores van proefgroep. (vb. r tussen
itemscores en schaalscore / r tussen items onderling [bij
unidimensionele schaal: hoog en allemaal even sterk]).
5. Meetniveau (pg 53-57)
 Variabelen (vb. geslacht, opleidingsniveau, …)  waarden (man – vrouw,
BaO - SO - HO, …). Meetniveau? Gevolgen voor toegelaten wiskundige
bewerkingen.
 NOMINAAL: Getallen of labels om kenmerken te classificeren, getallen
hebben geen numerieke betekenis, getallen niet gebruiken om
9
PSYCHODIAGNOSTIEK



rekenkundige bewerkingen uit te voeren (wel frequenties van elke
categorie, modus) (vb. geslacht, partijkeuze, DSM-IV, …).
ORDINAAL: Categorieën kan men rangordenen, het verschil tussen twee
waarden heeft geen betekenis, geen gemiddelde berekenen (wel mediaan,
rangcorrelatie Spearman) (vb. opleidingsniveau, sio-economische status, …)
INTERVAL: afstanden tussen twee waarden hebben betekenis,
meeteenheid, geen absoluut nulpunt, gewone wiskundige bewerkingen
(gemiddelde, sd, Pearson correlatie, …) zijn toegelaten (vb. °C,
geboortejaar, …).
RATIO (VERHOUDING): absoluut nulpunt, verhouding tussen twee waarden
is zinvol (vb. lengte, reactietijd, aantallen, …).
ORDINAAL
NOMINAAL ordening
onderscheid onderscheid
geslacht
INTERVAL
gelijke verschillen
ordening
onderscheid
opleidingsniveau geboortejaar
RATIO
absoluut nulpunt
gelijke verschillen
ordening
onderscheid
reactietijd

Bepaling van meetniveau is niet altijd eenvoudig en kan onderwerp van
discussie zijn! Wat blijkt soms? Wanneer men variabelen die strikt genomen
ordinaal zijn (bv. likert schalen) toch behandelt als variabelen op
intervalniveau (bv. Pearson r berekenen) levert dit toch plausibele
resultaten op. Sommige auteurs menen dat een test een meetniveay
empirisch moet ‘verdienen’.
6. Scoring, transformatiemeetwaarden (pg. 43-45, 172-186)
 RUWE SCORES EN TRANSFORMATIEMEETWAARDEN: Ruwe score =
basisscore waarin testresultaat in eerste instantie wordt uitgedrukt.
Nadeel ‘ruwe scores’: Ruwe scores hebben op zichzelf geen betekenis. Ze
hebben alleen betekenis wanneer we meer weten zoals, aantal items in de
test, moeilijkheid van de items, behaalde score van anderen 
transformatiemeetwaarden ipv. ruwe scores: ruwe scores
transformeren zodat betekenis duidelijker is. Transformatiemeetwaarde
= aangepaste ruwe score die interpreteerbaar is.
 Transformatie onafhankelijk van anderen: Absolute
transformatiemeetwaarden
 Transformatie afhankelijk van anderen: Toevallige vergelijkende
transformatiemeetwaarden = toevallige referentiegroep &
Normen = representatieve referentiegroep (representatieve
steeproef = steekproef is een goede afspiegeling van de populatie)
 ABSOLUTE TRANSFORMATIEMEETWAARDEN:
 Percentage juist: % = 100 x (aantal correcte antwoorden/totaal
aantal items)  Prestatie van persoon vergelijken met ‘perfecte’
prestatie (Vb. Jan heeft op rekentest 25 juiste antwoorden op 40
items, dus Jan heeft 100 x (25/40) = 62.5%). Nadeel ‘percentage
juist’: Betekenis van ‘percentage juist’ op zichzelf is moeilijk te
interpreteren omdat je geen informatie hebt over
moeilijkheidsgraad van de test  kunnen we pas te weten komen
door vergelijken met anderen.
 Vergelijking met leeftijd (‘Verhoudingsnormen’): IQ = mentale
leeftijd / chronologische leeftijd *100. Mentale leeftijd < score op
intelligentie test (zie Binet-Simon test; mentaal niveau of mentale
10
PSYCHODIAGNOSTIEK

leeftijd, de test wordt bij 300 kinderen afgenomen en per
leeftijdsgroep wordt nagegaan hoeveel kinderen een item goed
beantwoorden). Nadeel ‘IQ (vgl met leeftijd)’: niet bruikbaar
boven leeftijd 15-16 jaar (testscores zijn niet meer zo verschillend
voor verschillende leeftijden), niet eenvoudig om mentale leeftijd
te bepalen bij een test.  daarom: Deviatie – IQ (opmerking: IQ is
in strikte zin geen absolute transformatiemeetwaarde!).
VERGELIJKENDE TRANSFORMATIEMEETWAARDEN: Voordeel: impact van
moeilijkheid van test vermindert voor de interpretatie van een score.
 Toevallige vergelijkende transformatiemeetwaarden: Nadeel:
interpretatie is afhankelijk van kwaliteit van samenstelling
toevallige referentiegroep.
 Rangnummers: ruwe scores rangordenen. Zelfde ruwe
score  rangnummers = rekenkundig gemiddelde
van betrokken rangnummers. Nadeel: interpretatie
van rangnummers is moeilijk als je niets weet over
de groepsgrootte. Interpretatie is afhankelijk van de
kwaliteit of aard van de groep.
 Fractielen; percentielen, vigintielen, decielen,
quartielen: Fractielen = indelen van de verdeling
van verkregen scores in gelijke fracties volgens een
bepaalde regel.  niet meer afhankelijk van
groepsgrootte. (decielen zijn 10 gelijke delen,
percentielen zijn 100 gelijke delen, vigintielen zijn
20 gelijke delen, quartielen zijn 4 gelijke delen).
Voordelen; grootte van de referentiegroep zit
vervat in een fractielen, gemakkelijk toepasbaar,
inzichtelijk en makkelijk te begrijpen. Nadelen;
kwaliteit van de referentiegroep, afstanden tussen
de ruwe scores blijven niet bewaard (geen
gemiddelde percentiel), fractielen zijn sterk
afhankelijk van de verdeling (er is geen vergelijking
mogelijk tussen prestaties op twee veerschillende
tests). Samengevat: afstanden tussen fractielen zijn
moeilijk naar waarde in te schatten.
 Standaardscore: Score wordt vergeleken met groep
(zoals bij fractielen) maar er wordt rekening
gehouden met de kenmerken van de verdeling van
de scores in de groep (nl. gemiddelde en
standaarddeviatie). Standaardscore = aantal
standaard deviatie verschil tussen meetwaarde en
gemiddelde. Standaardiseren = transformeren
naar ‘deviatie - scores’ (Vb. Standaardscore = Z
score). Standaarddeviatie = mate van spreiding.
Z-score: Lineair (hoeveel standaardafwijkingen
ligt de ruwe score boven of onder het gemiddelde in
de waargenomen verdeling?) vs. Genormaliseerd
(waargenomen verdeling wordt eerst omgezet naar
een normaalverdeling. Hoeveel
standaardafwijkingen ligt de score boven of onder
11
PSYCHODIAGNOSTIEK
het gemiddelde in de normaalverdeling?). T-score,
deviatie IQ- scores, stanines (breedte ven een
stanine = stdev/2, gemiddelde ven de verdeling ligt
in het midden van de 5de stanine[slide]), C-score
(zelfde als stanines, maar meer klassen)  variaties
op de Z-score!
 Normen: Norm = transformatiemeetwaarden die werden bekomen
voor een representatieve referentiegroep (vb. Vlamingen,
leeftijdsgroep). Normeren = vastleggen van de normen van een
test door test af te nemen bij een representatieve steekproef.
Ruwe scores vergelijken met norm, onafhankelijk van prestatie in
toevallige groep: leeftijdsnormen (gewicht en lengte), klasnormen,
percentielnormen, standaardnormen.
 PROFIELEN
 IPSATIEVE SCORES (pg69): Normscores: scores vergelijken met prestaties
van een representatieve groep. Ipsatieve scores: scores van individu
vergelijken met eigen prestaties op andere facetten  geen externe
norm. Gebruik: gedwongen antwoorden (vb. interessetest, sterke vs.
zwakke kanten). Nadelen: geen persoonlijke waardering alle items. Men
is gedwongen de ene activiteit boven de andere te kiezen terwijl men
beide even prettig of onprettig kan vinden. Afstand tussen de voorkeuren
komt niet tot uiting (een klein verschil in voorkeur wordt in de ipsatieve
scores sterk overtrokken, schaalscores zijn niet onafhankelijk: kiezen
voor A = minden punten voor B).
 NORM-, CRITERIUM- EN COMMUNICATIEGEORIËNTEERDE INSTRUMENTEN:
interpretatie van testresultaten:
 Normgeoriënteerde instrumenten of ‘Norm referenced’ test:
normgroep of referentiegroep, vergelijkende
transformatiewaarden (vb. T-score, IQ-score, C-scores, …).
Gebruik binnen diagnostisch proces: screening grote groepen,
bepalen van de aanwezigheid en ernst van een afwijking of
achterstand (vb. intelligentietest, CBCL, …).
 Criteriumgeoriënteerde instrumenten: = ‘Criterion referenced’ test
of (criterium) toetsen. Vergelijking tussen het gedrag van de
onderzochte persoon met gewenst gedrag; vastgelegd doel.
Gebruik binnen onderwijscontext en diagnostisch proces (plannen
van interventie) (vb. prestatietoets, examen, …).
 Communicatiegeoriënteerde instrumenten: = Communicationreferenced tests. Doel: het ontdekken ven het individueel beleven
en functioneren van de onderzochte persoon. Geen vergelijking
met groep of expliciet criterium (vb. onderzoek binnen sociaalemotioneel domein).
7. Aard van het gedrag: testindelingen (pg. 76-113, 116-119)
 Instrumenten en tests die betrouwbare, precieze en valide
informatie verstrekken over eigenschappen, kenmerken of gedragingen
van personen, ontwikkeling van personen en kenmerken van de omgeving.
Verschillende soorten tests  categorisatie van tests. Verschillende
soorten classificatiesystemen. Soorten psychologische instrumenten:
test (verzameling verbale, performale en/of motorische opdrachten of een
12
PSYCHODIAGNOSTIEK





toestel om één of meer variabele te meten), vragenlijst (aantal vragen
en/of beweringen dat één of meer variabelen meet), (klinische)
beoordelingsschaal (schriftelijke gedragsbeoordeling mbv observatie, het
betreft concrete omschrijvingen van gedrag), evaluatieschaal (aantal
vragen en/of beweringen om variabelen te meten met doel personeel,
trainingen, onderwijs te evalueren), batterij (combinatie van verschillende
tests of vragenlisten, die ook elk afzonderlijk kunnen worden gebruikt),
(meet) schaal (aantal beweringen dat slechts één variabele meet), …
TESTGEDRAG OF ‘PERFORMANCE’:
 Prestatieniveau tests of ‘maximum’ performance: een goed
en een fout antwoord, geeft de mate van iets (niveau) (vb.
intelligentie, vaardigheden, geheugen, redeneren, inzicht of
schoolprestatie, …)
 Tests voor gedragswijze (‘typical’): geen goede of foute
antwoorden, een kwaliteitsmeting – wat persoon ervan vindt (vb.
neuroticisme, extraversie, persoonlijkheid, temperament,
obsessie, depressie, angst, …).  zie slides!!
INDIVIDUELE VS. GROEPSTESTS:
 Individuele tests; Voordelen: observatie, zeer veel informatie.
Nadelen: hoge kost, rol van onderzoeker is complex.
 Groepstests; voordelen: efficiënter, economischer, minder
tijdsintensief, eenvoudige vergelijking, beperkte rol van
onderzoeker.
TYPE ITEM: (item: taak, opdracht of vraag)
 Antwoordvorm: open of vrije antwoordvorm (antwoord zelf
produceren), gesloten of keuze -antwoordvorm (vb. meerkeuze of
multiple choice, semantische responsvorm, …).
 Aard van antwoord: discreet (Dichotoom, polytoom, vb. ben je
tevreden met je werk? JA-NEE) – continu (vb. responstijd).
TESTMATERIAAL:
 Papier- en potloodtests: antwoord aankruisen of antwoord
geven op vraag (vb. persoonlijkheidsvragenlijst).
 Tests met speciaal materiaal: opdrachten via speciaal
materiaal zoals puzzels, blokken, spelmateriaal,
computergestuurde testen (vb. intelligentietests, projectieve
tests, persoonlijkheidstests en neuropsychologische tests op PC).
CATEGORIEËN (COTAN = Commissie voor Tests Aangelegenheden
Nederland, bevat testbeschrijvingen en beoordelingen):
 Persoon Situatie Tests: situaties, vaardigheden en attitudes,
gedragscategorieën (oa cognitie, aandacht, perceptie, emotie, …).
 Persoonlijkheidstests: vaardigheden en attitudes,
gedragscategorieën.
 Situatie Tests: situaties.
8. Standaardisatie (pg. 42, 146-151)
 Standaardisatie in testafname en scoring & verwerking  handleiding
van de tests. Gestandaardiseerde afname: tests en items afnemen
volgens precies voorgeschreven condities, het doel is objectieve
vergelijking tussen personen.  zelfde condities voor alle personen in
de testafname: testsituatie (lokaal, licht, warmte, geluid, ruimte,
13
PSYCHODIAGNOSTIEK
aanwezigheid van afleiders, …), testmateriaal (testboekjes, puzzels,
blokjes, toetsenbord, monitor, …), testinstructies (evenveel tijd, niet meer
of minder hulp bieden, zelfde afbreekregels, …), houding en gedrag van de
testleider. En zelfde condities voor alle personen voor de
verwerking: scoring (voorgeschreven richtlijnen, objectief), normering.
Uitzonderingen: ‘testing the limits’, leerpotentieel-tests (prestaties onder
standaardconditie vgl met prestatie onder conditie met hulp),
ongestructureerde observatie & computergestuurd testen (papier en
potloodtest: volledige testafname. – computergestuurd testen:
mogelijkheid stoppen tot betrouwbare schatting dmv items volgens
oplopende moeilijkheidsgraad en discriminerende waarde).
Hoofdstuk 3: Betrouwbaarheid
1. Betrouwbaarheid als alledaags begrip
 Gebruik in uitspraken over personen of zaken (vb. Mijn auto is helemaal
niet betrouwbaar want er is regelmatig een probleem. Steeds, nooit, …
verwijzen naar mate van betrouwbaarheid).  betrouwbaarheid verwijst
naar de consistentie van iets, herhaalbaarheid in identieke situaties,
naar een zeker mate van vertrouwen. Drie betekenissen van
betrouwbaarheid mbt personen:
 Kenmerk dat gewaardeerd wordt: te vertrouwen, eerlijk, je kan
er beroep op doen, …
 Persoonlijkheidskenmerk waarop mensen verschillen:
sommige mensen vinden we betrouwbaar, anderen niet. = het
gevolg vaan hoe we mensen zien over verschillende situaties heen
(thuis, op werk, in vriendenkring) en over de tijd heen (vroeger,
nu). Verband met Big Five persoonlijkheidskenmerken:
betrouwbaarheid ~ consciëntieusheid.
 Verantwoord vaststellen van kenmerken van personen:
betrouwbaarheid als kenmerk van het instrument waarmee je
kenmerken van personen vaststelt. Onbetrouwbaar: fouten maken
bij het vaststellen/de meting van kenmerken  betrouwbaarheid
van instrumenten: metingen zijn consistent of herhaalbaar,
metingen bevatten weinig onsystematische/toevallige meetfouten.
2. Betrouwbaarheid van instrumenten (pg. 190-194)
 KLASSIEKE TESTTHEORIE (KTT): Kwantitatieve modellen ontstaan uit
de testleer en de statistiek. Testleer of psychometrie: een verzameling
van modellen om bepaalde eigenschappen van items- en testscores af te
beelden en te toetsen. Enkele belangrijke modellen zijn de KTT en de
Moderne testtheorie of Item Respons theorie (IRT).
 Vertrekpunt KTT: (vb. vragenlijst trek - angst, hercodering items
 hoe hoger de somscore, hoe meer trek – angst.) Vragenlijst bij
dezelfde persoon afnemen een paar dagen  bij herhaald testen
van hetzelfde kenmerk – terwijl het kenmerk ongewijzigd blijft – is
de kans groot dat je niet dezelfde somscore ( KTT) bekomt.
 Meetfouten: Bij herhaling test bij dezelfde persoon andere
somscore bekomen. Dit kan komen door: persoon (vb. psychisch,
fysisch), omgeving (vb. licht, temperatuur, tijdstip), procedure
14
PSYCHODIAGNOSTIEK
(vb. instructie, verwerking) = toevallige omstandigheden die leiden
tot onsystematische meetfouten.  uitgangspunt KTT: variatie
in somscore is het gevolg van onsystematische (toevallige, random)
meetfouten.  het is wenselijk dat testscores zo weinig mogelijk
beïnvloed worden door toevallige omstandigheden.
 Onsystematische meetfouten: de ene keer ligt de score
hoger, de andere keer lager; niet altijd zelfde, systematische
invloed.
 Meetfouten kunnen ook systematisch zijn:
operationalisering van het beoogde construct is niet perfect,
je meet ook een beetje iets anders dan je wil meten (vb.
motoriek bij intelligentietest); heeft een systematische,
regelmatige invloed bij elke testafname.
 DUS: testscore = beoogde construct + systematische meetfouten +
onsystematische meetfouten. KTT: schatting van grootte van random
meetfout (onsystematische) bij test, geen aandacht aan systematische
meetfouten.
 Model en assumpties
 Model A: herhaalde metingen bij dezelfde persoon. Xij:
geobserveerde testscore van persoon i op moment j. Ti:
‘ware’ score van persoon i (true score). Eij: toevallige
meetfout van persoon i op moment j (Error).
 Ti: ‘Ware’ score van persoon i. Onafhankelijk van het
moment waarop je de test afneemt van persoon i (daarom
geen j index). Gemiddelde testscore over een groot aantal
(q) denkbeeldige onafhankelijke replicaties bij persoon i.
Omwille van niet-systematische meetfouten zal de
geobserveerde testscore (X) de ene keer wat groter zijn en
de andere keer wat kleiner.  Gevolg: de positieve en
negatieve afwijkingen in de geobserveerde scores tov de
‘ware’ scores zullen elkaar opheffen. Assumptie: KTT gaat
ervan uit dat afnames onderling onafhankelijk zijn (vb. geen
geheugeneffecten, geen leereffecten). Realistisch?
 Eij: meetfout van persoon i op moment j. De verwachte
waarde van alle toevallige meetfouten is 0. De toevallige
fouten kunnen net zo goed leiden tot een geobserveerde
testscore die de ‘ware’ score zowel overschat als onderschat.
 S(Ei): standaardmeetfout van persoon i = standaarddeviatie
(spreidingsmaat) van de foutencomponent Ei. We weten dat
Ēij = 0 en Eij = Xij – Ti  dus S(Ei) = de afwijking van de
testscores van persoon i op momenten j tov de ‘ware’ score
van persoon i. = indicatie voor hoe ‘goed’ we gemeten
hebben bij persoon i een kleine standaardmeetfout betekent
dat de metingen dicht bij Ti liggen, een grote
standaardmeetfout betekent dat er veel fluctuatie op de
metingen zit tov Ti. S(Ei) = S(Xi) De standaarddeviatie van
de meetfout van persoon i (standaardmeetfout) = de
standaarddeviatie van alle metingen (geobserveerde scores)
bij persoon i. We hebben het liefst dat deze waarde zo klein
mogelijk is. Assumptie: in KTT gaat men ervan uit dat de
15
PSYCHODIAGNOSTIEK
standaardmeetfout voor alle personen dezelfde is op
bepaalde test. Realistisch (vb. minder vaardigheid leidt tot
meer gokken)? Waarom heeft KTT deze assumptie nodig? In
realiteit is het niet mogelijk om van één bepaalde persoon
heel veel keren de test af te nemen om de
standaardmeetfout te kunnen berekenen. Oplossing: we
nemen van een zeer grote groep personen de test één maal
af; op basis van die gegevens kunnen we dan iets te weten
komen over de standaardmeetfout van de test.
 Model B: metingen bij verschillende personen in populatie op
één moment (j valt weg in model B). Xj = geobserveerde
testscore van persoon i. Ti = ‘ware’ score van persoon i (true
score). Ei = toevallige meetfout van persoon i (Error).
Assumptie 1: de gemiddelde meetfout in een populatie van
n personen is gelijk aan 0. Assumptie 2: in een groep
personen correleert de meetfout nergens mee tenzij ze zelf
deel uitmaakt van wat gemeten wordt. r(E,T) = 0 Geen
verband tussen meetfout en ware score. De meetfout is
immers niet systematisch. Personen met een hoge T hebben
geen systematische grotere of kleinere E dan personen met
een lage T (Realistisch?). r(E,X)>0 Er is een positief verband
tussen E en X. E maakt immers deel uit van X. Dus hoe
hoger E, hoe hoger X; hoe lager E, hoe lager X. r(E,Y)=0
geen verband tussen meetfout en willekeurige variabele
waarvan E geen deel uitmaakt. In een groep personen is de
gemiddelde geobserveerde score gelijk aan de
gemiddelde ‘ware’ score, immers Ē=0. Variantie van
geobserveerde scores S²(X)=S²(T)+S²(E).
 Waarom KTT nodig?: Betrouwbaarheid testscore gemeten in
populatie van personen = S²(T)/S²(X). Betrouwbaarheid:
zekerheid, herhaalbaarheid, consistentie. Standaardmeetfout van
testscore.
 Enkele bezwaren bij KTT: De standaardmeetfout is voor
iedereen gelijk (vb. mensen met meer vaardigheid zullen minder
‘gokken’ op prestatietest met meerkeuzevragen dus S(E) is kleiner).
Men kijkt enkel naar de somscore op een test, twee personen
met zelfde somscore kunnen op een verschillende manier tot die
somscore komen. Dit is enkel gerechtvaardigd als ieder item in de
test uitwisselbaar is met de andere items. Maar dit is meestal niet
het geval (vb. sommige items zijn moeilijker dan andere in een
vaardigheidstest; sommige items zijn een betere meting van het
construct dat je wil meten dan andere items).
16
PSYCHODIAGNOSTIEK


MEETFOUTEN EN KTT: Betrouwbaar
instrument: metingen zijn consistent of
Niet valied,
Niet valied,
Niet betrouwbaar
Betrouwbaar
herhaalbaar en bevatten weinig
onsystematische/toevallige meetfouten.
Testscore = beoogde construct (plaats van
persoon op construct dat je wil meten) +
Valied,
Matig valied,
systematische meetfouten (operationalisering
Betrouwbaar
Niet betrouwbaar
van construct is niet perfect  validiteit =
meten we wat we willen meten?) + onsystematische meetfout
(toevalsfouten: persoon, omgeving, procedure  betrouwbaarheid =
Bekomen we dezelfde testscore als we dezelfde test herhaaldelijk bij
dezelfde persoon afnemen?).  betrouwbaarheid en validiteit gaan beide
over het beperken van meetfouten, maar gaan elk over een andere soort
meetfout. Model B  hoe kleiner de spreiding van onsystematische
fouten, hoe ‘herhaalbaarder’ (=betrouwbaarder) je meting is.
Betrouwbaarheid = hoeveel van de variantie van de geobserveerde
testscores X is afkomstig uit de variantie van de ware scores T? Een hoge
S(E) betekent: een grote standaarddeviatie van de onsystematische
meetfouten bij herhaalde metingen (maw herhaalbaarheid is laag), S(E)
speelt een rol bij het baplen van betrouwbaarheidsintervallen (vb. IQ).
Men wil van een test de betrouwbaarheid of de standaardmeetfout
kennen.  probleem: men kan deze niet berekenen want S²(T) is
onbekend  gevolg: de betrouwbaarheid van een test moet worden
geschat  hoe wordt de betrouwbaarheid geschat? Via het bereken van
correlaties tussen testscores op twee ‘identieke’ tests (zie methode
voor het schatten van betrouwbaarheid). Wanneer er veel onsystematische
meetfouten zijn dan zal dit nu eens tot een hogere testscore leiden, en dan
eens tot een lagere testscore. Gevolg: r (X1,X2) zal klein zijn als er veel
meetfouten zijn, dus r zegt iets over de betrouwbaarheid.
METHODEN VOOR HET SCHATTEN VAN BETROUWBAARHEID
 Test-hertestmethode: dezelfde test twee maal afnemen van
dezelfde personen met een tussentijd. r(X afname1, X afname2) =
schatting van betrouwbaarheid = S²(T)/S²(X) = rxx’ (stabiliteit) =
stabiliteitscoëfficiënt. Nadelen: niet geschikt om betrouwbaarheid
te schatten van tests die constructen meten die niet stabiel zijn
over tijd (vb. gemoedstoestand) rxx’ wordt dan immers ook bepaald
voor verandering op construct (T), Niet geschikt om
betrouwbaarheid te schatten van tests waar een leer- (mensen
leren uit oefeningen uit de 1ste afname; treedt vooral op bij
inzichtopgaven) of geheugeneffect (opgaven die duidelijk in het oog
springen worden onthouden en bij volgende afname sneller herkend
en opgelost) kan optreden, geen probleem voor rxx’ indien leer- en
geheugeneffect voor iedereen op dezelfde wijze zou gebeuren, maar
in realiteit verschillen mensen hierin!  deze effecten treden vooral
een rol wanneer tijdsinterval tussen twee testafnames klein is. Een
te groot tijdsinterval houdt dan weer het risico in dat sommige
mensen ondertussen veranderd zijn op het construct dat je wil
meten waardoor rxx’ geen goede maat is voor betrouwbaarheid.
 Parallellvormmethode: twee inwisselbare maar niet identieke
tests afnemen van dezelfde personen (ipv twee replicaties van
17
35
PSYCHODIAGNOSTIEK
dezelfde test).  problemen ivm leer- en geheugeneffecten
verminderen. Wanneer zijn twee testen parallell? Ti1 = Ti2 de ware
score van een persoon op test 1 is dezelfde als de ware score op
test 2  dit kan je echter nooit nagaan  criteria waaraan de
testscores X1 en X2 moeten voldoen: de gemiddeldes van de testen
moeten gelijk zijn, hun variantie moet gelijk zijn, en de correlatie
met een andere test moeten ook overeenkomen! r(X1,X2) =
schatting van betrouwbaarheid = S²(T)/S²(X) = rxx’ =
paralleltestbetrouwbaarheid. Nadelen: paralleltesten maken is niet
zo eenvoudig: items moeten gelijkwaardig zijn maar mogen niet
identiek zijn (dus je moet vragen hebben die er anders uitzien maar
hetzelfde meten), vaak nog wel mogelijk voor cognitieve of
vaardigheidstests, maar vaak moeilijk voor
persoonlijkheidsvragenlijsten. In praktijk zullen twee paralleltests
niet perfect parallel zijn. Met gevolg dat de betrouwbaarheid wordt
overschat. Opmerking: paralleltests worden soms gebruikt bij
hertesting van een persoon (vb. evaluatie na hulpverlening).
 Splitsingsmethode: één test afnemen bij alle personen en test
splitsen in parallelle helften. Werkwijze: eerst volledige test
afnemen, dan score op helft 1 en score op helft 2 berekenen voor
iedere persoon, daarna de correlatie tussen score op helft 1 en
score op helft 2 berekenen, en als laatste de correlatie op correlatie
om betrouwbaarheid van de hele test te schatten. r(X helft1, X
helft2) = schatting voor betrouwbaarheid = S²(T)/S²(X) = rxx’
(equivalentiecoëfficiënt). Een splitsing in de eerste helft van de
items en de laatste helft van de items is niet aan te raden:
vermoeidheid, verveling, leereffecten in de 2de helft waardoor de
2de helft niet als parallelversie van de 1ste helft kan worden
beschouwd + wanneer de test van makkelijke naar moeilijke items
gaat, kan de 1ste helft van de test beroep doen op andere
vaardigheden ( andere T) dan de 2de helft. Een splitsing volgen
de odd-even methode is geschikter! Men moet een correctie
toepassen op de r tussen beide helften, welke? De
betrouwbaarheid van een halve test is lager dan de
betrouwbaarheid van de hele test omdat de somscores op een
kortere test minder stabiel zijn dan de scores op een langere test.
Als er zich een toevallige meetfout (vb. vergissing, gelukte gok)
voordoet dan heeft dit een grotere impact op de somscore van
kortere tests dan op langere tests. Spearman Brown Prophecy
Formule; r22 (betrouwbaarheid van hele test) = 2rxx’/1+rxx’
(betrouwbaarheid van halve test). Er is ook een invloed van
testlengte op betrouwbaarheid  met hoeveel items moet een
test verlengd worden om een gewenste betrouwbaarheid te krijgen?
 zie slides en formules!
 Interne consistentiemethode: uitgangspunt: items zijn
onderling inwisselbaar (onderling parallel). Elk item kan als een deel
van een test worden beschouwd. Analoog aan de gedachte uit de
halveringsmethode. Het gevolg is dat de scores op de items worden
gebruikt. Men gaat na wat de samenhang (covariantie) is van alle
items onderling. Formule van Cronbach (Cronbach’s alpha),
18
PSYCHODIAGNOSTIEK

formule voor gebruik bij niet-dichotome items. Kuder-Richardson
20 (KR20), formule voor gebruik bij dichotome items. Beide
waarden worden gebruikt als schatter van de betrouwbaarheid van
een test. Betrouwbaarheid (rxx’) ≥ alpha, deze maat voor interne
consistentie van de test geeft een onderschatting voor de ‘echte’
betrouwbaarheid van de test. Ondergrens voor de betrouwbaarheid
want de waarde is gelijk of groter dan alpha. Opmerking: vaak
gebruikt als maat voor homogeniteit of uni-dimensionaliteit  FOUT
Chronbach’s alpha is een toenemende functie van het aantal items,
bij testverlenging nadert alpha naar 1.
GEBRUIK VAN BETROUWBAARHEID
 Betrouwbaarheidsinterval: in de praktijk één meting, rond die
meting een zone … gebruik makend van onze kennis, uitzetten van
een zone waarbinnen de ware score in … % van de gevallen zal
vallen.  zie slides!!
 Verband tussen betrouwbaarheid en S(E): hoe hoger de
betrouwbaarheid, hoe kleiner de standaardmeetfout ↔ hoe lager de
betrouwbaarheid, hoe groter de standaardmeetfout.  zie slides!!
 Betrouwbaarheid van verschilscores: wanneer zijn twee scores
verschillend? Gebruikt bij voor en na meting van één persoon,
verschil tussen twee personen, verschil tussen twee verschillende
tests.  zie slides!!
 Problemen van betrouwbaarheid bij KTT:  zie bezwaren tegen
KTT mbt betrouwbaarheid: restriction of range!
 De schatting van de betrouwbaarheid is gevoelig voor de
variantie in de steekproef.
 Regressie naar het gemiddelde: Een statistisch fenomeen,
opeenvolgende metingen in een populatie neigen meer naar
de gemiddelde waarde. Als een score fluctueert, dwz niet
perfect betrouwbaar is, gaat bij een herhaalde meting de
score van een groep hoge scores per definitie omlaag en bij
een groep lage scoorders omhoog. Deze verandering is een
gevolg ven het feit dat een test niet perfect betrouwbaar is
(vb. hertesting met gelijkwaardige IQ-tests).
 Niet alle betrouwbaarheidsindexen zijn zinvol bij alle soorten
tests (vb. NOOIT de splitsingsmethode of interne
consistentie bij snelheidstests gebruiken!  de niet
beantwoorde items krijgen allen een 0 waarde en correleren
onderling hoog. Correlatie (betrouwbaarheid) verhoogd
kunstmatig.) Oplossing: test-retest methode, parallelvorm
methode, werken met de TIJD als score.
3. Vuistregels voor beoordeling van betrouwbaarheidscoëfficiënten
 Hoe hoog moet een betrouwbaarheidscoëfficiënt zijn? Vuistregels bij
vraagstelling die betrekking hebben op:
 Belangrijke beslissingen op individueel niveau: r < .80 onvoldoende,
.80 ≤ r <.90 voldoende, r ≥ .90 goed
 Minder belangrijke beslissingen: r < .70 onvoldoende, .70 ≤ r < .80
voldoende, r ≥ .80 goed
19
PSYCHODIAGNOSTIEK
 Wetenschappelijk onderzoek: r < .60 onvoldoende, .60 ≤ r < .70
voldoende, r ≥ .70 goed
Hoofdstuk 4: Validiteit
1. Validiteit als alledaags begrip (pg. 328 – 329)
 Doen van ‘geldige’ uitspraken over gedragingen van personen,
gebeurtenissen en zaken. In psychodiagnostiek: geldige, ware of valide
uitspraken over (probleem) gedrag, cognities en gevoelens van cliënten,
validiteit heeft betrekking op tests en instrumenten. Betrouwbaarheid
van een test is een noodzakelijke maar niet voldoende voorwaarde
voor een goede validiteit: hoge betrouwbaarheid ~ goede
herhaalbaarheid ~ kleine standaardmeetfout, noodzakelijkheid (alleen een
betrouwbare test kan valide zijn), voorwaardelijkheid (een betrouwbare
test is niet altijd valide).
2. Validiteit van instrumenten (pg. 329-346, 388-392)
 BETROUWBAARHEID VS. VALIDITEIT:
Betrouwbaarheid
Exactheid bij meten
Toevallige fouten
Spreiding meetfouten S(E)
Te berekenen
Term gebruikt voor: metingen

Validiteit
Juistheid van beslissing: geschikt, betekenisvol, nuttig
Systematische fouten: fouten die ontstaan door
systematisch iets anders te meten (operationalisering
niet perfect)
Bias
Proces: geen formules
Term gebruikt voor: conclusies, afleidingen,
generalisaties, besluiten
VALIDITEIT ALS PSYCHOMETRISCH BEGRIP: Waarheid: juistheid,
nuttigheid, accuraatheid, interpreteerbaarheid, voorspellend vermogen en
bijdrage aan beslissingen, … De mate waarin een test aan zijn doel
beantwoordt. Validiteit speelt niet alleen een rol bij tests (vb.
geneeskunde: hoge bloeddruk (= predictor) voorspelt hart- en vaatziekten
(= criterium)). Test validiteit verwijst naar: de mate waarin de vertaling
van een theoretisch, abstract begrip naar een meetbare eenheid geslaagd
is (hoe goed beantwoordt de test aan zijn doel?), maw validiteit is in
hoeverre een test meet wat het beweert te meten, in hoeverre het
mogelijk is geldige gevolgtrekkingen uit de testscores te maken. Validering
van een test is een proces zonder einde. Validiteit is een
verzamelterm: meerder vormen van validiteit. Men maakt een
onderscheid tussen verschillende soorten validiteit die elk op een
andere manier onderzocht worden. Centraal bij validiteit staan twee
aspecten (doelen): test als voorspeller van ander gedrag (de mate
waarin een test toelaat om een correcte uitspraak te doen over gedrag
buiten de testsituatie  predictieve validiteit [criterium]) vs. test als
operationalisering (meetbaar maken van constructen) van een
psychologisch begrip, meten van een eigenschap (de mate waarin een
20
PSYCHODIAGNOSTIEK


testscore daadwerkelijk een goede indicator is het construct dat de test
beoogt te meten  begripsvaliditeit [constructvaliditeit/begripsvaliditeit]).
 psychologische constructen zijn niet altijd direct waarneembaar.
DIMENSIES VAN VALIDITEIT: vier bronnen van evidentie
 Testinhoud (inhoudsvaliditeit): de test moet die bepaalde
kennisinhoud, rekenvaardigheid of karaktertrek dekken. Inhoud
verwijst naar de volledigheid waarmee iets wordt gemeten. De
representativiteit van de testinhoud.
 Analyse van antwoordprocessen (construct/begripsvaliditeit): de
test moet een goede representatie zijn van de kennis, vaardigheid
of karaktertrek die we willen meten. Antwoord en responsprocessen
nagaan. De test meet het volledige construct en niets anders (vb.
vaststellen van rekenvaardigheid zonder beroep te doen op
leesvaardigheid).
 Interne structuur van de test (construct/begripsvaliditeit): relatie
tussen items, tussen subgroepen van items, tussen items en de
volledige test, tussen verschillende deelconstructen in een test …
(vb. nagaan of verschillende groepen van mensen verschillende
presteren).
 Relatie test met externe variabelen (criterium/predictieve
validiteit): externe variabele: ander construct waarmee je een
samenhang of juist geen samenhang verwacht (vb. schoolsucces,
partnerkeuze, succes, …).
VERSCHILLENDE VORMEN VAN VALIDITEIT
 Construct validiteit (begripsvaliditeit): de mate waarin een
testscore een concrete weergave s van wat men wenst te meten
(vb. intelligentie en niet schoolse kennis). Het gaat om de
aanwijzingen die aantonen dat de test werkelijk het meetinstrument
is van datgene wat de test bedoelt te meten. Probleem: betekenis
van een begrip ligt niet altijd vast, betekenis kan verband houden
met andere zaken, andere termen en begrippen kunnen een min of
meer gelijke betekenislading dekken.  meerdere operationalisaties
mogelijk, meestal is geen enkele volledig. Dus een test moet het
construct meten, het volledige construct en niets anders dan het
construct dat het bedoelt te meten! Constructen zijn niet wederzijds
uitsluitend, ze bestaan in een net van overlappende betekenissen.
De betekenis van een construct = relatie (verschil/gelijkenis)
aangeven met gelijkaardige constructen.
 Convergente validiteit: mate waarin twee begrippen , die
theoretisch met elkaar verbonden, ook in de werkelijkheid
met elkaar samenhangen of correleren. Mate waarin twee
methoden convergent dezelfde eigenschap meten 
metingen van gelijkaardige constructen moeten hoog
correleren.
 Congruente validiteit (of soortgenootvaliditeit):
gelijkheid in vorm. Correlatie tussen twee tests die
precies hetzelfde onderwerp meten met gelijke
methode. Speciale situatie van convergente validiteit
(vb. Amsterdamse Biografische Vragenlijst [schaal
21
PSYCHODIAGNOSTIEK
neuroticisme] vs. Eysenck Personality Inventory
[schaal neuroticisme]).
 Discriminante validiteit: mate waarin twee begrippen, die
theoretisch geen relatie hebben, ook in de werkelijkheid
geen correlatie vertonen. Mate waarin twee methoden iets
verschillend meten. Specificiteit van een test  metingen
van theoretische verschillen constructen moeten laag
correleren.
Multitrait – Multimethod matrix: een benadering ontwikkeld door
Campbell en Fiske (1959). Convergent and discriminant validtion by
the mutlitrait-multimethod matrix. Een matrix (tabel) van
correlaties zondanig opgesteld dat de construct validiteit van een
instrument kan worden onderzocht. Integreert zowel convergente
als discriminante validiteit. Neemt aan dat je meerdere kenmerken
meet met meerdere methodes. Principes uit de MTMM matrix:
convergentie (dingen die theoretische moeten samengaan gaan ook
samen bij meting), divergentie/discriminatie (dingen die
theoretische niet mogen samengaan gaan ook niet samen bij
meting). Stap 1: betrouwbaarheid moet de hoogste coëfficiënten
bevatten. Stap 2: convergente validiteit > nonsense correlaties.
Stap 3: convergente validiteit > discriminante validiteit.
Voordelen: beschouwt simultaan convergente en discriminante
validiteit , benadrukt het belang van de methode bij onderzoek en
meten (methode als foutenbron). Nadelen: moeilijk om praktisch
volledig uit te werken, geen algemene validiteitcoëfficiënt
beschikbaar.
 Inhoudsvaliditeit (content validity): mate waarin een
itemverzameling representatief is voor een (specifiek) omschreven
domein. Inhoud verwijst naar de volledigheid waarmee iets wordt
gemeten. Representativiteit van de test: analoog aan de relatie
steekproef-populatie, mate waarin de inhoud van een test een
representatieve steekproef vormt uit het geheel aan kennis,
vaardigheid of gedrag dat de test beoogt te meten,
itemverzameling moet alle niveaus dekken met goede vragen. 
mate waarin de test volledig en omvattend het construct in kaart
brengt. Toepassingen op werkgebied: er wordt meer nadruk
gelegd op de inhoudsvaliditeit bij testen die bepaalde vaardigheden
en kennis toetsen (vb. arbeid of onderwijscontext). Bepaling van
de inhoudsvaliditeit: kwalitatief; is vooral een werk van oordelen en
zorgvuldig construeren en niet van rekenen, bij de bepaling van de
inhoud van een test kan een theoretisch model zeer nuttig zijn. (2dimensioneel) Verschil inhoudsvaliditeit en constructvaliditeit
: inhoudsvaliditeit richt zich alleen op de volledigheid waarmee een
test een construct meet, zonder enige uitspraak te doen over wat
het construct precies is; inhoudsvaliditeit (gaat uit van de rationale
van waaruit de test is ontstaan, uitgaande van de kennis over het
betreffende domein) vs. constructvaliditeit (aanwijzingen die
aantonen dat de test verband houdt met het construct dat deze
beoogt te meten).
22
PSYCHODIAGNOSTIEK
 Criterium validiteit: hangen prestaties op een test samen met
prestaties in real-live (externe) situaties? Voorspellen van extern
criterium in heden of toekomst. Twee methoden:
 Concurrente validiteit: wordt beoordeeld door na te gaan in
hoeverre de testresultaten corresponderen met gelijktijdig
beschikbare criteriumgegevens. Criterium wordt op zelfde
moment gemeten als testprestaties (predicator) (vb.
correlatie tussen testresultaten werknemers en gelijktijdige
prestatie beoordeling op de werkvloer door baas).
 Predictieve validiteit: wordt vastgesteld door na te gaan in
welke mate de voorspellingen obv testprestatie worden
bevestigd door gegevens of observaties verzameld op een
later tijdstip. Criterium wordt op later moment gemeten als
testprestaties (predictor)  correlaties tussen testprestatie
en toekomstig criterium (vb. toelatingsproef arts met als
doel selectie van studenten met grotere slaagkansen.
Verwachting: hoge cijfers op toelatingsproef  hogere cijfers
op examen  hoger slagingspercentage). Absolute eis = een
hoog positieve correlatie (zelden aanwezig, zelden
onderzocht vooraf).
 Samenvattend validiteit: de vraag of we met een valide meting te
maken hebben van gedragingen, cognitie, motivatie en emotie,
beantwoorden we meestal door een vermoeden uit te spreken wat een
construct is (vb. angst). We maken er items (vragen) bij en analyseren
deze. Daarna zeggen we vb. dat we iets over angst weten
(constructvaliditeit), dat we geen belangrijke dingen zijn vergeten
(inhoudsvaliditeit) en dat we er iets aan hebben (criteriumvaliditeit) want
we kunnen er zinvol mee voorspellen (vb. iemands gedrag bij vreemden).
3. Problemen bij criteriumvaliditeit
 Criteriumvaliditeit: streven om bij selectie en plaatsing zo weinig mogelijk
fouten te maken. Echter enkele problemen bij criteriumvaliditeit:
 Soorten criteria: het ene criterium is moeilijker te voorspellen dan
het andere; 1ste onderscheid: specifiek vs. globaal criterium , 2de
onderscheid in typen criteria: onmiddellijk (immediatie vb.
resultaten examens), tussentijds (intermediate vb. slaagkans
afstuderen), uiteindelijk (ultimate vb. goede hulpverlener).
 Betrouwbaarheid van criteriummeting: meting van
criteriumprestaties in de praktijk: criteria worden vaak minder
betrouwbaar gemeten dan constructen (geoperationaliseerd via
predictor), risico’s aan menselijk oordeel (oordeel expert) als
criterium.
 testcriterium correlaties (kenmerken van de steekproef):
correlaties zijn gevoelig voor de omvang en variantie van de
steekproef (restriction of range), testcriterium relatie wordt
berekend door twee continue variabelen.
 Face validity: ~ “liefde op het eerste gezicht”, heeft betrekking op
wat een test op het eerst gezicht meet, met name relatie
(correlatie) tussen bepaalde predictor en criterium volgens
subjectieve indruk zonder hiervoor empirische steun te hebben.
23
PSYCHODIAGNOSTIEK
4. Vuistregels voor de beoordeling validiteit
 VALIDITEITSCOËFFICIËNT: belangrijk om interpretaties te maken obv
testscores: correlatie tussen de testscore en één of ander extern
criterium, tussen 1 en -1, hoe dichter bij waarde 1, hoe beter! Hoe hoog
met een validiteitcoëfficiënt zijn? Dat hangt af van de
onderzoeksvraag. Vuistregel Cohen (1977): r = .10 (laag), r = .30
(gemiddeld), r = .50 (hoog).
 PREDICTIEVE VALIDITEIT EN INTERPRETATIE: Meta analyse van Meyer
(2001): 125 meta-studies (criteriumvaliditeit van psychologische en
medische meetinstrumenten [predictieve tests en criteria]), 800
steekproeven, 144 correlaties. Conclusie: gemiddelde predictie: r = .32,
standaard deviatie: .19, zelden boven r = .50. Predictieve
validiteitcoëfficiënt in vergelijking met:
 Betrouwbaarheidscoëfficiënten: wenselijke minimummaat: .70 à
.80. Mate dat test gelijk is aan zichzelf.
 Absolute grens van correlatie 1: predictieve validiteitscoëfficiënt
zegt iets over de mate van invloed die een aspect heeft op een
ander. Waarde 1 zal nooit bereikt worden in validiteitsonderzoek.
 Convergente validiteitscoëfficiënt (monomethode coëfficiënten):
coëfficiënten worden verkregen door twee tests die hetzelfde
kenmerk meten en dit doen op dezelfde manier, met elkaar te
correleren. Waarden liggen hier meestal op .50 of hoger.
Verhoogde correlatie door gedeelde methode en kenmerk.
 Waarom zoveel lage validiteitscoëfficiënten: lage criterium
betrouwbaarheid, restriction of range, …
Hoofdstuk 5: Het nemen van beslissingen op grond van tests
Handboek pg. 396-398, 402-406 + tekst ‘Validity for decisions: criterion related validity’ pg. 178185, 190-197
•
Base rate = basis verhouding (toevalskans): Base rate = 76/100 = .76 of 76%.
De kans op een succesvolle kandidaat is 76%. Verhouding van succesvolle
kandidaten (in een job = criterium) tot het totale aantal (100) zonder het gebruik
van een test. In voorbeeld: (A + B) / (A+B+C+D). Basisverhouding: mate van
voorkomen van een kenmerk in een random populatie. Percentage geschikte
kandidaten wanneer men niet zou selecteren maar volgens toeval (of allen) zou
aannemen.
•
Selectieratio: Testselectieverhouding: Verhouding van het aantal testpositieven (=
vraag) tot het totale aantal (100) (= aanbod). Percentage kandidaten dat wordt
aangenomen. In voorbeeld: (B+D) / (A+B+C+D). Selectieratio = 84/100 = .84 of
84%. We gebruiken een cutoff van 6 zodat we de beste 84 personen selecteren
(obv test).
•
Succesratio = Succesverhouding: Verhouding van de “positieve treffers” (terecht
aangenomen kandidaten) tot het aantal dat een positief testresultaat behaalde.
Percentage succesvolle kandidaten binnen de aangenomen groep. In voorbeeld:
B/ (B+D) De kans op job succes met gebruik van de test is dus 72/84 = 0.86.
24
PSYCHODIAGNOSTIEK
•
Vals Negatieven (False negatives): personen die voldoen aan het criterium,
maar niet worden weerhouden door de test (A: ‘positieve missers’)
•
Vals Positieven (False positives): personen die geselecteerd worden met de
test maar niet slagen voor criterium (maw. niet voldoen id praktijk) (D:
‘negatieve missers’) (vals alarm)
•
Sensitiviteit van een test: proportie personen die werkelijk goed zijn en die ook
als zodanig door de test worden herkend (B: ‘positieve treffers’ of true positives)
•
Specificiteit van een test: proportie slechte kandidaten die ook als zodanig door
de test werden herkend (C: ‘negatieve treffers’ of true negatives )
•
Beïnvloedende factoren: Base rate ligt vast. Andere cut-off (vb. andere
selectieratio): Andere sensitiviteit, Andere specificiteit, Andere vals
negatieven/vals positieven. Andere kritische criteriumscore (vb. lagere/hogere
eisen): Andere sensitiviteit, Andere specificiteit, Andere vals negatieven/vals
positieven.
•
Base rate (toevalskans): In voorbeeld: verhouding van succesvolle kandidaten
(in een job = criterium) tot het totale aantal (100) zonder het gebruik van een
test. Base rate = 76/100 = .76 of 76%. De kans op een succesvolle kandidaat is
76%. Belang van Base rates: Hoge base rate (90% - 100%): zinloos om te
testen. Elke kandidaat is goed. Extreem lage base rate (witte raven): zinloos om
te testen, zelfs niet met de allerhoogste validiteitscoëfficiënt.
25
Download