PSYCHODIAGNOSTIEK Hoofdstuk 0: Wat is psychodiagnostiek? 1. Definities en omschrijvingen Psychodiagnostiek is… BESLISSEN; < Grieks (onderscheiding): onderscheidings- en beslissingsvermogen. “Een systematisch beslissingsproces”. VASTSTELLEN VAN INDIVIDUELE VERSCHILLEN; “Een onderzoekstaak om individuele verschillen tussen mensen vast te stellen en om deze kennis toe te passen op het enkele individu.” Het vaststellen van individuele verschillen gebeurt adhv meetinstrumenten VERZAMELEN VAN INFO OVER PERSOON EN ZIJN/HAAR OMGEVING; “Op wetenschappelijk verantwoorde wijze verzamelen van info omtrent persoon en zijn omgeving met het oog op het nemen van beslissingen.” HULP BIEDEN; “Psychodiagnostisch proces is het proces van hulp bieden aan personen met hun vragen en problemen.” Diagnostiek mondt uit in behandeling/interventie. BESCHRIJVEN VAN ONTWIKKELINGSNIVEAUS; (zwakke én sterke kanten) van cliënt. “Developmental assessment op diverse ontwikkelingsgebieden zoals cognitie, motoriek, socio-emotionele vaardigheden, …” Telkens klemtoon op slechts één of enkele centrale elementen van Psychodiagnostiek 2. Doel Op wetenschappelijk verantwoorde wijze uitspraken doen over cognitie, emotie, gedrag van een persoon als doel oa. beschrijving, diagnose, voorspelling, verklaring, … BESCHRIJVING; Betrouwbare en geldige beschrijving van gedrag van cliënt of omgeving en ontwikkeling van het gedrag. Wat? cognitie, emotie, gedrag. Hoe? Onderzoek naar condities, verbanden, verloop. (bv. Waaruit bestaan de werkhoudingsproblemen van deze leerling precies? Op welk niveau is het technisch lezen van een bepaalde leerling? Hoe groot is de rekenachterstand van het kind?) Onderkennen van wat er met de cliënt aan de hand is DIAGNOSE; Definitie in engere zin: Activiteit van experts om een persoon in een bepaald categorieënsysteem onder te brengen. Inventariseren en ordenen van (niet) functionele clusters van gedragingen, cognities en emoties. (bv. Is er sprake van een gedragsstoornis? Is er bij dit kind sprake van dyslexie? Is er sprake van een angststoornis bij deze vrouw?) Voorbeeld categorieënsysteem binnen psychologie/ psychiatrie: Diagnostic and Statistical Manual of mental Disorders (DSM-IV; APA, 1994). APA: Amerikaanse psychiatrische beroepsvereniging. Gebaseerd op wetenschappelijke kennis en inter-collegiale overeenstemming over de indeling van allerlei stoornissen VOORSPELLING; = Predictie = Voorspelling kans van optreden van (dis)functionele gedragingen, cognities en emoties in toekomst (met/ zonder behandeling). (bv. Wat is de kans op zelfmoord?) Kansuitspraak doen over gerelateerde gedragingen. VERKLARING; = Diagnostisch onderzoek naar de oorzaken van een gedrag(probleem). (bv. Waarom heeft een bepaalde leerling concentratieproblemen? Waarom reageert deze jongen zo opstandig 1 PSYCHODIAGNOSTIEK wanneer de ouders hem iets vragen? Waarom zijn er zoveel werknemers met burn-out in dit bedrijf?) Antwoord geven op het ‘waarom’ van het voorkomen van de (dis)functionele gedragingen Vaststellen van de aard van (hulp)vragen of de ernst van cognitieve, socioemotionele problemen of gedragsproblemen van personen met als doel beschrijving, diagnose, voorspelling of verklaring van die problemen. Antwoord formuleren op vragen over selectie en plaatsing. 3. Diagnostisch proces DIAGNOSTICUS ~ REGISSEUR DOELGERICHTE ACTIVITEIT dat begint met de vraag van de cliënt en eindigt met een advies: (Hulp)vraag Reflectie van diagnosticus Diagnostisch scenario Rapportering / advies Diagnostisch proces Hoofdstuk 1: Historische ontwikkeling van het testen Handboek pg. 15-29 (+32-35: lezen) 1. Inleiding: enkele historische voorlopers Al zeer lang sprake van tests en beoordelen? (bv. wie is de beste, snelste, slimste, handigste,…? & selectiesystemen in China, meer dan 1000 jaar) Ontstaan vanuit praktisch probleem (bv. Binet-Simon test (1905)). Belangrijke invloeden (gebeurtenissen, personen,...) die een rol speelden bij de testontwikkeling en psychologische diagnostiek. Wanneer ontstaan? Hoe ontstaan? Beïnvloedende factoren? Belangrijke gebeurtenissen? Historische voorlopers? Belangrijke historische personen? Oa. Wundt, Galton, Catell, Binet, Goddard… Ontstaan eind 19de eeuw. Voorlopers vd testbeweging leidde tot procedures voor bepalen van individuele verschillen in intelligentie en persoonlijkheid selectie: historische context; samenleving & wetenschappelijke psychologie. Geschiedenis diagnostiek = geschiedenis testen? Testen voor selectie & testen voor plaatsing. MAAR geschiedenis diagnostiek = geschiedenis van testen, testtheorie, psychologische theorievorming, diagnostisch proces, … Geschiedenis diagnostiek vooral over opkomst, verspreiding en gebruik van psychologische tests en meetinstrumenten Geschiedenis van testbeweging. Evolutie: Europa VS. (bv. Opbouw van het ambtenarenapparaat in China: Selectieprocedure ambtenaren voor de keizers (de mandarijnen), Schriftelijke examens, Getrapt examensysteem. / Selectie in het Oude Testament: Selectie van de Gideonsbende, ‘Ratrace’. / Beoordelen en selecteren in het antieke Griekenland: Gedragsverschillen Typologieën. / Hippocrates: temperamenttypes op grond van lichaamssap: Sanguinisch type, Cholerisch type, Flegmatisch type, Melancholisch type. / Plato: persoontypes op grond van de plaats van het gemoed in het lichaam: In het hoofd, In de borst, In het onderlijf. / Hedendaagse ‘ratraces’: Overheid, Politie, Bedrijfsleven .) 2 PSYCHODIAGNOSTIEK Diagnostiek avant la lettre: 13de eeuw: schoolprestaties via mondelinge examens op universiteit - 16de eeuw: selectie van ‘hoog begaafden’ (Huarte) - 18de & 19de eeuw: persoonlijkheid obv uiterlijk: Typologie op grond van constitutie (1. Kretschmer: Picnisch, Atletisch, Leptosoom. 2. Scheldon: Endomorf, Mesomorf, ectomorf) & Gall: intelligentie obv schedelomtrek. 2. Periode tot Binet-Simon-test BIJDRAGE PSYCHIATRIE Begin 19de eeuw: onderscheid zwakzinnigheid en psychiatrische stoornissen (krankzinnigheid) medische denkmodellen. Pinel (1793 interesse): Bicêtre & Salpêtrière zijn instellingen in Frankrijk. Populatie van la Salpêtrière in 1701 (instelling Parijs): 4646 vrouwen (1894 kinderen jonger dan 15j, 329 meisjes jonger dan 16j [kreupel, kolerig, …], 594 oudere blinden en verlamden, 262 ouderen hoger dan 70j, 380 veroordeelden/zedelozen/prostituees, 465 schooiers en vagebonden, 330 kindsvrouwen van hoge leeftijd, 300 gewelddadige gekken, 92 epileptici van verschillende leeftijden). Esquirol (1838 diagnose/differentiatie): “des maladies mentales”. Kwantitatieve en kwalitatieve, irreversibel. Zwakzinnigheid: permanent, irreversibel & ongeneeslijk. Psychiatrische stoornis: kan ontstaan op latere leeftijd & kan verbeteren. Seguin (1837 behandeling): student Esquirol, reversibel, trainigsmethode. Eind 19de eeuw: ontwikkeling testmethode; intelligentie, vermoeidheid, schizofrenie & persoonlijkheid Begin 20ste eeuw: classificatiesysteem voor psychiatrische stoornissen. Taxonomisatie psychiatrie. De essentie: mentale retardatie ≠ psychiatrische beelden, … is “een ziekte” (fysiologische…), … kan behandeld worden, behandeling door training, meting is gewenst voor differentiatie tussen de beelden. Kraepelin (1883): “Compendium der psychiatrie” eerste classificatie in de psychiatrie; o.a. manische depressie & dementia-precox, Alzheimer, … Fysiologische oorzaak, meting noodzakelijk. BIJDRAGE EXPERIMENTELE PSYCHOLOGIE; Meetnauwkeurigheid (Duitsland): vaststellen en meten van algemeen geldende wetmatigheden in de waarneming. Individuele verschillen tussen mensen: waarneming. Wundt (1879): eerste labo denksnelheid Ebbinghaus: geheugenspanne Meetinstrumenten: vb. Tachistoscoop uit 1903 = toestel waarmee visuele stimuli kunnen worden aangeboden voor een zeer korte tijdspanne (msec). Chronograaf van Wundt voor meting tot op 1/10000 sec. Bewegingsmodellen van het oog van Wundt. Manipulatie van onderzoekscondities: nauwkeurige schattingen van fouten (storende factoren) & standaardisatie-eis voor tests. 3 PSYCHODIAGNOSTIEK BIJDRAGE GENETICA; verdere ontwikkelingen: vooral klemtoon op individuele verschillen in persoonlijkheid en intelligentie + belang van maatschappelijke veranderingen voor ontwikkelingen in psychodiagnostiek. Galton (1822-1911 GB): Brede interesse (vb. statistiek, erfelijkheid, efficiëntie van gebed). Filosofische overtuiging: Engels empirisme. Kennen is alleen mogelijk via zintuigen, dus wie de beste zintuiglijkheid bezit functioneert ook het beste. ‘Meten is weten’. Erfelijkheid van individuele verschillen: geïnspireerd door evolutieleer van Darwin; belang van erfelijkheid van lichamelijke eigenschappen. Galton wil aantonen dat psychische eigenschappen (vb. genialiteit) ook erfelijk zijn en dezelfde wetten volgen als lichamelijke eigenschappen. Eugenetica (‘goed geboren’). Metingen zouden als basis kunnen dienen om de “besten” de selecteren. Psychofysische metingen voor het mentale vermogen: belangrijk individueel verschil: het mentale vermogen. Metingen van het mentale vermogen gebeurde via psychofysische metingen van elementaire functies (vb. lichaamslengte, gewicht, lengte van hoofd, spierkracht, reactiesnelheid, capaciteit longen, …). Waarom? Elementaire functies zijn eenvoudig en exact te meten, zouden weinig beïnvloed worden door milieu en opvoeding, zijn representatief voor het mentale functioneren (Engels empirisme). ontwikkeling objectieve tests & gebruik van gestandaardiseerde procedures. Wiskundige technieken: maakt gebruik van ‘co-relations’ en regressieanalyses om vb. verband uit te drukken tussen kenmerken va ouders en kenmerken van hun kinderen. Samengevat: individuele verschillen (genetica), systematisering onderzoekstechnieken (experimentele psychologie), wiskundige technieken (vb. scores uitdrukken in termen van afwijkingen t.o.v. het gemiddelde [1ste stap naar normatief denken nl. presentatie beoordelen door vergelijking met anderen). Cattel (1860 1944 VS): Leerling van Wundt (experimentele psychologie), promoveerde op systematische individuele verschillen in reactietijd, net als Galton geïnteresseerd in individuele verschillen. Ontwikkeling van tests voor meting individuele verschillen: Link tussen Engelse traditie (meten) en Amerikaanse behoefte aan tests (konden gebruikt worden om immigranten te selecteren in de VS; VS is eind 19de – begin 20e eeuw een immigratieland). ‘Mental tests’ weerspiegelen werkwijze van Galton (psychofysische metingen): handgrip (dynamometer), discrimineren gewichten, oordeel over verstreken tijd, druk nodig om pijn te voelen. Overtuiging: mentale en lichamelijke energie kunne niet van elkaar onderscheiden worden. Ontwikkeling van psychofysiologische laboratoria en testbatterij. 4 PSYCHODIAGNOSTIEK Jaarlijkse testafname bij schoolkinderen en studenten met oog op bepalen intelligentie en voorspelen schoolprestaties vb. meten van spierkracht, snelheid bewegingen, pijn gevoeligheid, … Onderzoek naar validiteit: Wissler (student Cattel) onderzoekt of scores op testbatterij schoolresultaten van studenten kunnen voorspellen (= criteriumvaliditeit: verband testscores – externe variabele: correctheid van voorspellingen over te verwachten gedrag in andere situaties dan de testsituaties op basis van de testresultaten) & in hoerverre de verschillende proefjes onderling samenhangen (= constructvaliditeit: interne structuur van de testbatterij: zijn scores op deelproeven indicatoren voor hetzelfde construct, vb. metaal vermogen?). omwille van lage correlatie stoppen psychologen met gebruik van psychofysiologische metingen voor intelligentie. Mogelijke verklaringen voor lage correlaties: homogene steekproef (‘restriction of range’), variatie in testscores en in studieresultaten was beperkt. Recentere correlaties zijn grote dan deze gevonden door Wissler. Tot nu toe gericht op ‘elementaire functies’ hierin komt verandering vanaf Binet! 3. Periode tussen Binet-Simon-test en WO-I BINET (1857-1911 F): stichter van tijdschrift L’Année Psychologique, veelzijdig en zeer actieve persoon (zie de verschillende onderwerpen in zijn boeken en artikels). Hogere mentale processen (Bekend artikel ‘La psychologie individuelle’ 1895 van Binet & Henri): Afwijzing van sensorische tests voor onderzoek naar intelligentie. Individuele verschillen in intelligentie bepalen adhv hogere mentale processen (vb. geheugen, begrip, problemen oplossen, verbeeldingskracht). Voorgestelde tests: geheugentests, verbeelding met behulp van inktvlekken, aandachtsonderzoek, verschil tussen een paar begrippen opschrijven, … Binet-Simon test: verzoek van ministerie van onderwijszaken (schoolplicht was recentelijk ingevoerd in Frankrijk + groot aantal mislukkingen): test ontwikkelen voor selectieve maatregelen voor kinderen die wel/niet het gewone onderwijs konden volgen. 30 taken om intelligentie na te gaan (vb. aanwijzen van lichaamsdelen, woordparen herhalen, definiëren van woorden & begrippen, …). 1ste versie verschijnt in 1905. Kenmerken: niet bedoeld om alle aspecten van intelligentie te meten maar wel als maat voor algemene mentale ontwikkeling van kinderen, korte en praktische test, aantrekkelijk zodat kinderen er hun aandacht bij konden houden, intelligentie wordt beschouwd als oordeelsvermogen en niet als ‘lagere’ vaardigheden, nog geen gestandaardiseerde instructie (doel = classificatie en niet het exact meten van begaafdheden). Er volgen een aantal herwerkingen van de eerste versie. 5 PSYCHODIAGNOSTIEK ‘Mentaal niveau’ of ‘Mentale leeftijd’ (1908): Binet-Simon test wordt bij 300 kinderen afgenomen en per leeftijdsgroep wordt nagegaan hoeveel kinderen een item goed beantwoorden. Item worden geordend volgens leeftijd. Bepaling van mentaal niveau of mentale leeftijd: bepaling van het basale mentale niveau (mentale niveau waarvoor hoogstens één proef niet was gelukt) + voor elke 5 gelukte proeven boven basale niveau wordt één extra jaar toegekend. Latere ontwikkelingen van de Binet-Simon test: Stern (1911) IQ = mentale leeftijd / chronische leeftijd. Vertalingen: Terman (1916) Stanford-Binet (Amerikaanse versie) met standaardinstructies, normen en nieuwe scoringswijze (IQ = mentale leeftijd / chronische leeftijd *100) GODDARD (1866-1957 VS): Belangrijke rol in verspreiding van tests binnen de VS, indeling van prestaties adhv beledigde termen bv. ‘moron’, onderzoek naar prevalentie van mentale achterstand. Verspreiding van tests en testmisbruik: organiseerde testing van immigranten op Ellis Island in VS. Problemen: oorspronkelijk Franse test die vertaald was naar het Engels en dan weer vertaald naar het Russisch, Italiaans, enz., de immigranten waren zwaar vermoeid bij afname van test, scores werden geïnterpreteerd met Franse normen. Conclusie Goddard: 83% Joodse, 80% Hongaarse, 79% Italiaanse & 87% Russische immigranten waren zwakzinnig! Ontwikkeling nieuwe non-verbale tests voor immigranten die nu nog terug te vinden zijn in intelligentietests! 4. Begin WO-I tot WO-II GROEPSTESTS: Door WO I ontstond noodzaak om grote groepen personen voor uiteenlopende functies te selecteren. Amerika: Army alpha test (rekenopgaven, synoniemen, informatie) & Army beta test (non-vebale opdrachten). Probleem: veel rekruten scoorden 0 (niet omwille van mentale achterstand). Brigham: testresultaten worden gebruikt (misbruikt) om verschillende bevolkingsgroepen te vergelijken, ‘rasvermenging zal onherroepelijk leiden tot aftakeling van Amerikaanse intelligentie’, later herroept hij zijn uitspraken. ONTWIKKELING VAN PERSOONLIJKHEIDSTEST: Woodworth: legerrekruten WO I in VS selecteren (vatbaarheid ‘psychoneurose’). Woodworth Personal Data Sheet (1917); schaal op basis van 116 symptoombeschrijvingen (vb. komen gedachten bij jou op waardoor je niet kan slapen? Beschouwde men jou vroeger als een stout kind? …). Som van antwoorden geeft mate van aanpassing weer, basis voor latere vragenlijsten. MMPI (1943): Minnesota Multiphasic Personality Inventory, koppeling van onaangepastheid aan psychiatrische categorieën, verschillende klinische schalen (vb. depressie , schizofrenie, …), verschillende validiteitschalen (vb. leugenschaal). Projectieve technieken: Rorschach (1921) publiceert over ervaringen met inktvlekken en legt het verband tussen het duiden van inktvlekken en persoonlijkheid. 10 symmetrische vlekken (kleur of zwart/wit) ‘Wat stelt dit voor?’. Thematic Apperception Test 6 PSYCHODIAGNOSTIEK (TAT) voor het eerst beschreven door Morgan & Murray (1935), = ‘verhalentest’, tekeningen van personen in onduidelijke (ambigue) situaties. ‘Wat doen deze mensen, wat is er vooraf gebeurd, wat zal er nog gebeuren?’. Aanvullen van zinnen (vb. ik hou van …, mijn vader…). Voor- (brede band techniek, diepere lagen persoonlijkheid) en tegenstanders (betrouwbaarheid, validiteit) van projectieve technieken 5. Begin WO-II tot heden TESTS VOOR SPECIFIEKE VAARDIGHEDEN: Na WO II heeft men nood aan selecteren van personen voor gespecialiseerde taken. TREND: toename in diversiteit van tests en testgebruik, sterkeren en kritische bezinning over methodologische grondslagen van testgebruik (met meer toepassing van statistische analyse). WAAROM IS STUDIE VAN GESCHIEDENIS VAN PSYCHODIAGNOSTIEK ZINVOL? (vb.examenvraag) Inzien dat diagnostiek ook misbruikt kan worden (vb. Goddard slechte vertaling, slechte omstandigheden daardoor slechte interpretatie / Brigham IQ bepalen soldaten; lage testresultaten en foute interpretatie en vergelijkingen). Hier kritisch over blijven: tests ontwikkelen die voldoen aan wetenschappelijke eisen is nog geen garantie dat deze instrumenten ethisch verantwoord gebruikt worden! Huidige testinhouden en testvragen begrijpen vanuit hun historische oorsprong (vb. Goddard non – verbale testen voor doof stomme mensen en buitenlanders (doolhoven en figuur leggen) / Binet testen van IQ kinderen voor scholing [adhv aanwijzen van dingen, herhalen van letters en cijfers, definiëren van woorden…]). Inzien dat diagnostiek aansloot en ook nu nog aansluit bij maatschappelijke vragen (vb. Schoolplicht vs intelligentie en opdeling niveaus Binet test / Verschillen in psychische problemen vs verschillende behandelingen Kreaplin / Verschillen in legerniveaus; onderscheiden via testen Brigham). Hoofdstuk 2: Meten in de psychologie Handboek pg. 38-75, 116-136 1. Wat is een test? (pg 38-46, 50-53,67) DEFINITIE PSYCHOLOGISCHE TEST: Een test is een systematische classificatie –of meetprocedure (eigenschappen die we meten adhv een schaal), waarbij het mogelijk is om een uitspraak te doen over één of meer empirisch -theoretisch (wetenschappelijk te werk gaan met theorieën in ons achterhoofd) gefundeerde eigenschappen (kennis, vaardigheden, specifieke persoonskenmerken) van de onderzochte of over specifiek niet - testgedrag (beschrijven en verklaringen zoeken, voorspellingen maken, …), door uit te gaan van een objectieve verwerking van reacties van hem/haar (eigenschappen/reacties die we waar nemen op bepaalde stimuli die we uitlokken en dit objectief verwerken zodat dezelfde scores bekomen worden) , in vergelijking tot die van andere (scores vergelijken met normen voor representatie), 7 PSYCHODIAGNOSTIEK op een aantal gestandaardiseerde, zorgvuldig gekozen stimuli. (Voorbeelden: interview, enquête, vragenlijst, test, observatieschaal, … ) DOEL TESTONDERZOEK: uitspraak doen die voorspelling, classificatie of beschrijving mbt onderzochte individu behelst. KENMERKEN TEST: Efficiëntie, Standaardisatie, Normering, Objectiviteit, Betrouwbaarheid, Validiteit. 2. Operationaliseren (pg 61-67) METEN: oa verschillende tussen mensen, fenomenen, verbanden, veranderingen, … waarnemen. (vb. Welke nationaliteiten komen voor in België? Pedagoog wil de schoolrijpheid van de kleuters testen, …) Construct operationaliseren (nationaliteit? directe meting empirische constructen) WANEER OPERATIONALISEREN?: Meten en gebruik van schalen in de psychologie: het is een noodzaak om “onmeetbare” gedragsaspecten meetbaar maken indirecte meting hypothetische constructen (vb. schoolrijpheid, geschikte directeurskandidaat vs nationaliteit; directe meting) DIRECTE ( vb. lengte, gewicht,… begrip = operationalisering) vs INDIRECTE METINGEN (vb. aangepastheid, intelligentie,… abstracte constructen): observatie score meetwaarde METEN IN DE PSYCHOLOGIE: Meten = waarden toekennen aan de verschillende toestanden van een variabele, waarbij de verhouding tussen die waarden een weerspiegeling is van de verhouding in de werkelijkheid. (vb. een mogelijke operationalisering van het construct intelligentie is de WISC-III) BEGRIPPEN: waarden , toestanden, variabelen: waarnemingseenheden variabelen waarden (deze kunnen discreet of continue [Kwantitatief], dichotoom of categorisch [kwalitatief] zijn). 3. Antwoordschalen, antwoordvormen (pg 116-136) INSCHALEN OF SCHALEREN (METEN) = toekennen van cijfers aan objecten of aan waarnemingen betreffende objecten (items op een test vb. theoretische opdrachten …) volgens een regel (cijfers toekennen adhv bepaalde regels). Objecten? (vb. theoretische opdrachten, uitspraken of stellingen, vragen, praktijkproeven, … items ANTWOORDSCHAAL OF RESPONSSCHAAL = manier waarop je de antwoorden op beweringen verzamelt (elk item heeft een waarde). Dichotoom: kiezen uit twee antwoorden; ja of nee, juist of fout. Semantische responsvorm: De antwoordmogelijkheden zijn gelegen tussen twee uitersten en zijn er meer dan 2 (volledig akkoord – totaal niet akkoord, …). Multiple choice: Keuze uit verschillende antwoorden. (A-B-C-D, …) Forced choice: gedwongen keuze uit keuzemogelijkheden. Grafische responsschaal: antwoord gelegen tussen twee uitersten, deze keer dmv aanduiding op een lijn. (vb. altijd nooit) Checklist / rating scale: in een vooropgestelde lijst antwoorden aanduiden, opsomming van alle antwoordmogelijkheden. Scoringsidex: = aantal correcte / benodigde tijd. 8 PSYCHODIAGNOSTIEK (MEET)SCHAAL = verzameling van mogelijke categorieën of scores van een variabele scores voor de verschillende objecten bekomen we via welbepaalde procedure, regels (niet elk item heeft een waarde) Doel: een bepaald psychologisch construct in meting brengen (inschalen). Daarbij wordt gebruik gemaakt van een of andere antwoordschaal / responsvorm. Veelal geeft de som over de verschillende vragen (items) de score op de meetschaal. (vb. Beck Depression Inventory = meetschaal die de ernst van depressie (=construct) meet d.m.v. vragen in een semantische responsvorm ) 4. Dimensionaliteit DIMENSIONALITEIT VAN MEETSCHALEN: Schalen kunnen bestaan uit één of meerdere dimensies: Uniedimensionale schalen; voorstelling adhv 1 lijn/ as (vb. lengte, gewicht,…) belangrijke schalen; Thurstone schaal: methode van gelijke intervallen / Likert schaal: summatief inschalen / Guttman schaal: cumulatief inschalen Twee - dimensionale schalen; voorstelling adhv 2 lijnen / assen (vb. intelligentie [verbaal vs performaal], sociale oriëntatie) Multi - dimensionale schalen; voorstelling adhv 3of meer lijnen / assen (vb. causale attributie: controleerbaarheid vs stabiliteit vs locus) LIKERT SCHAAL = (meet)schaaltype: Bepaalde regel over verband tussen het te meten onderliggend construct en de wijze waarop antwoorden op de items van een schaal worden gegeven (Vb. Meetschaal voor de kwaliteit van gehechtheidsrelatie van jongeren met ouders). Schaalscore = som van cijfers die horen bij de antwoorden (na correctie voor negatief geformuleerde items) Likert schaal of Summatieve schaal. Schaalscore is dus de meetwaarde voor een construct (vb. kwaliteit relatie). Regel bij Likert schaal: voor elk item neemt de kans dat de mate waarin iemand ermee akkoord gaat toe of af, afhankelijk van de positie van die persoon op de dimensie van het construct. Stappen bij constructie van unidimensionele Likert schaal: Definitie van unidimensionele construct Groot aantal items opstellen die aansluiten bij definitie. (items zijn uitspraken die mensen moeten beoordelen gaande van ‘niet akkoord’ tot ‘akkoord’) Items voorleggen aan proefgroep (< populatie waarop men schaal wil toepassen) Analyse itemscores en schaalscores van proefgroep. (vb. r tussen itemscores en schaalscore / r tussen items onderling [bij unidimensionele schaal: hoog en allemaal even sterk]). 5. Meetniveau (pg 53-57) Variabelen (vb. geslacht, opleidingsniveau, …) waarden (man – vrouw, BaO - SO - HO, …). Meetniveau? Gevolgen voor toegelaten wiskundige bewerkingen. NOMINAAL: Getallen of labels om kenmerken te classificeren, getallen hebben geen numerieke betekenis, getallen niet gebruiken om 9 PSYCHODIAGNOSTIEK rekenkundige bewerkingen uit te voeren (wel frequenties van elke categorie, modus) (vb. geslacht, partijkeuze, DSM-IV, …). ORDINAAL: Categorieën kan men rangordenen, het verschil tussen twee waarden heeft geen betekenis, geen gemiddelde berekenen (wel mediaan, rangcorrelatie Spearman) (vb. opleidingsniveau, sio-economische status, …) INTERVAL: afstanden tussen twee waarden hebben betekenis, meeteenheid, geen absoluut nulpunt, gewone wiskundige bewerkingen (gemiddelde, sd, Pearson correlatie, …) zijn toegelaten (vb. °C, geboortejaar, …). RATIO (VERHOUDING): absoluut nulpunt, verhouding tussen twee waarden is zinvol (vb. lengte, reactietijd, aantallen, …). ORDINAAL NOMINAAL ordening onderscheid onderscheid geslacht INTERVAL gelijke verschillen ordening onderscheid opleidingsniveau geboortejaar RATIO absoluut nulpunt gelijke verschillen ordening onderscheid reactietijd Bepaling van meetniveau is niet altijd eenvoudig en kan onderwerp van discussie zijn! Wat blijkt soms? Wanneer men variabelen die strikt genomen ordinaal zijn (bv. likert schalen) toch behandelt als variabelen op intervalniveau (bv. Pearson r berekenen) levert dit toch plausibele resultaten op. Sommige auteurs menen dat een test een meetniveay empirisch moet ‘verdienen’. 6. Scoring, transformatiemeetwaarden (pg. 43-45, 172-186) RUWE SCORES EN TRANSFORMATIEMEETWAARDEN: Ruwe score = basisscore waarin testresultaat in eerste instantie wordt uitgedrukt. Nadeel ‘ruwe scores’: Ruwe scores hebben op zichzelf geen betekenis. Ze hebben alleen betekenis wanneer we meer weten zoals, aantal items in de test, moeilijkheid van de items, behaalde score van anderen transformatiemeetwaarden ipv. ruwe scores: ruwe scores transformeren zodat betekenis duidelijker is. Transformatiemeetwaarde = aangepaste ruwe score die interpreteerbaar is. Transformatie onafhankelijk van anderen: Absolute transformatiemeetwaarden Transformatie afhankelijk van anderen: Toevallige vergelijkende transformatiemeetwaarden = toevallige referentiegroep & Normen = representatieve referentiegroep (representatieve steeproef = steekproef is een goede afspiegeling van de populatie) ABSOLUTE TRANSFORMATIEMEETWAARDEN: Percentage juist: % = 100 x (aantal correcte antwoorden/totaal aantal items) Prestatie van persoon vergelijken met ‘perfecte’ prestatie (Vb. Jan heeft op rekentest 25 juiste antwoorden op 40 items, dus Jan heeft 100 x (25/40) = 62.5%). Nadeel ‘percentage juist’: Betekenis van ‘percentage juist’ op zichzelf is moeilijk te interpreteren omdat je geen informatie hebt over moeilijkheidsgraad van de test kunnen we pas te weten komen door vergelijken met anderen. Vergelijking met leeftijd (‘Verhoudingsnormen’): IQ = mentale leeftijd / chronologische leeftijd *100. Mentale leeftijd < score op intelligentie test (zie Binet-Simon test; mentaal niveau of mentale 10 PSYCHODIAGNOSTIEK leeftijd, de test wordt bij 300 kinderen afgenomen en per leeftijdsgroep wordt nagegaan hoeveel kinderen een item goed beantwoorden). Nadeel ‘IQ (vgl met leeftijd)’: niet bruikbaar boven leeftijd 15-16 jaar (testscores zijn niet meer zo verschillend voor verschillende leeftijden), niet eenvoudig om mentale leeftijd te bepalen bij een test. daarom: Deviatie – IQ (opmerking: IQ is in strikte zin geen absolute transformatiemeetwaarde!). VERGELIJKENDE TRANSFORMATIEMEETWAARDEN: Voordeel: impact van moeilijkheid van test vermindert voor de interpretatie van een score. Toevallige vergelijkende transformatiemeetwaarden: Nadeel: interpretatie is afhankelijk van kwaliteit van samenstelling toevallige referentiegroep. Rangnummers: ruwe scores rangordenen. Zelfde ruwe score rangnummers = rekenkundig gemiddelde van betrokken rangnummers. Nadeel: interpretatie van rangnummers is moeilijk als je niets weet over de groepsgrootte. Interpretatie is afhankelijk van de kwaliteit of aard van de groep. Fractielen; percentielen, vigintielen, decielen, quartielen: Fractielen = indelen van de verdeling van verkregen scores in gelijke fracties volgens een bepaalde regel. niet meer afhankelijk van groepsgrootte. (decielen zijn 10 gelijke delen, percentielen zijn 100 gelijke delen, vigintielen zijn 20 gelijke delen, quartielen zijn 4 gelijke delen). Voordelen; grootte van de referentiegroep zit vervat in een fractielen, gemakkelijk toepasbaar, inzichtelijk en makkelijk te begrijpen. Nadelen; kwaliteit van de referentiegroep, afstanden tussen de ruwe scores blijven niet bewaard (geen gemiddelde percentiel), fractielen zijn sterk afhankelijk van de verdeling (er is geen vergelijking mogelijk tussen prestaties op twee veerschillende tests). Samengevat: afstanden tussen fractielen zijn moeilijk naar waarde in te schatten. Standaardscore: Score wordt vergeleken met groep (zoals bij fractielen) maar er wordt rekening gehouden met de kenmerken van de verdeling van de scores in de groep (nl. gemiddelde en standaarddeviatie). Standaardscore = aantal standaard deviatie verschil tussen meetwaarde en gemiddelde. Standaardiseren = transformeren naar ‘deviatie - scores’ (Vb. Standaardscore = Z score). Standaarddeviatie = mate van spreiding. Z-score: Lineair (hoeveel standaardafwijkingen ligt de ruwe score boven of onder het gemiddelde in de waargenomen verdeling?) vs. Genormaliseerd (waargenomen verdeling wordt eerst omgezet naar een normaalverdeling. Hoeveel standaardafwijkingen ligt de score boven of onder 11 PSYCHODIAGNOSTIEK het gemiddelde in de normaalverdeling?). T-score, deviatie IQ- scores, stanines (breedte ven een stanine = stdev/2, gemiddelde ven de verdeling ligt in het midden van de 5de stanine[slide]), C-score (zelfde als stanines, maar meer klassen) variaties op de Z-score! Normen: Norm = transformatiemeetwaarden die werden bekomen voor een representatieve referentiegroep (vb. Vlamingen, leeftijdsgroep). Normeren = vastleggen van de normen van een test door test af te nemen bij een representatieve steekproef. Ruwe scores vergelijken met norm, onafhankelijk van prestatie in toevallige groep: leeftijdsnormen (gewicht en lengte), klasnormen, percentielnormen, standaardnormen. PROFIELEN IPSATIEVE SCORES (pg69): Normscores: scores vergelijken met prestaties van een representatieve groep. Ipsatieve scores: scores van individu vergelijken met eigen prestaties op andere facetten geen externe norm. Gebruik: gedwongen antwoorden (vb. interessetest, sterke vs. zwakke kanten). Nadelen: geen persoonlijke waardering alle items. Men is gedwongen de ene activiteit boven de andere te kiezen terwijl men beide even prettig of onprettig kan vinden. Afstand tussen de voorkeuren komt niet tot uiting (een klein verschil in voorkeur wordt in de ipsatieve scores sterk overtrokken, schaalscores zijn niet onafhankelijk: kiezen voor A = minden punten voor B). NORM-, CRITERIUM- EN COMMUNICATIEGEORIËNTEERDE INSTRUMENTEN: interpretatie van testresultaten: Normgeoriënteerde instrumenten of ‘Norm referenced’ test: normgroep of referentiegroep, vergelijkende transformatiewaarden (vb. T-score, IQ-score, C-scores, …). Gebruik binnen diagnostisch proces: screening grote groepen, bepalen van de aanwezigheid en ernst van een afwijking of achterstand (vb. intelligentietest, CBCL, …). Criteriumgeoriënteerde instrumenten: = ‘Criterion referenced’ test of (criterium) toetsen. Vergelijking tussen het gedrag van de onderzochte persoon met gewenst gedrag; vastgelegd doel. Gebruik binnen onderwijscontext en diagnostisch proces (plannen van interventie) (vb. prestatietoets, examen, …). Communicatiegeoriënteerde instrumenten: = Communicationreferenced tests. Doel: het ontdekken ven het individueel beleven en functioneren van de onderzochte persoon. Geen vergelijking met groep of expliciet criterium (vb. onderzoek binnen sociaalemotioneel domein). 7. Aard van het gedrag: testindelingen (pg. 76-113, 116-119) Instrumenten en tests die betrouwbare, precieze en valide informatie verstrekken over eigenschappen, kenmerken of gedragingen van personen, ontwikkeling van personen en kenmerken van de omgeving. Verschillende soorten tests categorisatie van tests. Verschillende soorten classificatiesystemen. Soorten psychologische instrumenten: test (verzameling verbale, performale en/of motorische opdrachten of een 12 PSYCHODIAGNOSTIEK toestel om één of meer variabele te meten), vragenlijst (aantal vragen en/of beweringen dat één of meer variabelen meet), (klinische) beoordelingsschaal (schriftelijke gedragsbeoordeling mbv observatie, het betreft concrete omschrijvingen van gedrag), evaluatieschaal (aantal vragen en/of beweringen om variabelen te meten met doel personeel, trainingen, onderwijs te evalueren), batterij (combinatie van verschillende tests of vragenlisten, die ook elk afzonderlijk kunnen worden gebruikt), (meet) schaal (aantal beweringen dat slechts één variabele meet), … TESTGEDRAG OF ‘PERFORMANCE’: Prestatieniveau tests of ‘maximum’ performance: een goed en een fout antwoord, geeft de mate van iets (niveau) (vb. intelligentie, vaardigheden, geheugen, redeneren, inzicht of schoolprestatie, …) Tests voor gedragswijze (‘typical’): geen goede of foute antwoorden, een kwaliteitsmeting – wat persoon ervan vindt (vb. neuroticisme, extraversie, persoonlijkheid, temperament, obsessie, depressie, angst, …). zie slides!! INDIVIDUELE VS. GROEPSTESTS: Individuele tests; Voordelen: observatie, zeer veel informatie. Nadelen: hoge kost, rol van onderzoeker is complex. Groepstests; voordelen: efficiënter, economischer, minder tijdsintensief, eenvoudige vergelijking, beperkte rol van onderzoeker. TYPE ITEM: (item: taak, opdracht of vraag) Antwoordvorm: open of vrije antwoordvorm (antwoord zelf produceren), gesloten of keuze -antwoordvorm (vb. meerkeuze of multiple choice, semantische responsvorm, …). Aard van antwoord: discreet (Dichotoom, polytoom, vb. ben je tevreden met je werk? JA-NEE) – continu (vb. responstijd). TESTMATERIAAL: Papier- en potloodtests: antwoord aankruisen of antwoord geven op vraag (vb. persoonlijkheidsvragenlijst). Tests met speciaal materiaal: opdrachten via speciaal materiaal zoals puzzels, blokken, spelmateriaal, computergestuurde testen (vb. intelligentietests, projectieve tests, persoonlijkheidstests en neuropsychologische tests op PC). CATEGORIEËN (COTAN = Commissie voor Tests Aangelegenheden Nederland, bevat testbeschrijvingen en beoordelingen): Persoon Situatie Tests: situaties, vaardigheden en attitudes, gedragscategorieën (oa cognitie, aandacht, perceptie, emotie, …). Persoonlijkheidstests: vaardigheden en attitudes, gedragscategorieën. Situatie Tests: situaties. 8. Standaardisatie (pg. 42, 146-151) Standaardisatie in testafname en scoring & verwerking handleiding van de tests. Gestandaardiseerde afname: tests en items afnemen volgens precies voorgeschreven condities, het doel is objectieve vergelijking tussen personen. zelfde condities voor alle personen in de testafname: testsituatie (lokaal, licht, warmte, geluid, ruimte, 13 PSYCHODIAGNOSTIEK aanwezigheid van afleiders, …), testmateriaal (testboekjes, puzzels, blokjes, toetsenbord, monitor, …), testinstructies (evenveel tijd, niet meer of minder hulp bieden, zelfde afbreekregels, …), houding en gedrag van de testleider. En zelfde condities voor alle personen voor de verwerking: scoring (voorgeschreven richtlijnen, objectief), normering. Uitzonderingen: ‘testing the limits’, leerpotentieel-tests (prestaties onder standaardconditie vgl met prestatie onder conditie met hulp), ongestructureerde observatie & computergestuurd testen (papier en potloodtest: volledige testafname. – computergestuurd testen: mogelijkheid stoppen tot betrouwbare schatting dmv items volgens oplopende moeilijkheidsgraad en discriminerende waarde). Hoofdstuk 3: Betrouwbaarheid 1. Betrouwbaarheid als alledaags begrip Gebruik in uitspraken over personen of zaken (vb. Mijn auto is helemaal niet betrouwbaar want er is regelmatig een probleem. Steeds, nooit, … verwijzen naar mate van betrouwbaarheid). betrouwbaarheid verwijst naar de consistentie van iets, herhaalbaarheid in identieke situaties, naar een zeker mate van vertrouwen. Drie betekenissen van betrouwbaarheid mbt personen: Kenmerk dat gewaardeerd wordt: te vertrouwen, eerlijk, je kan er beroep op doen, … Persoonlijkheidskenmerk waarop mensen verschillen: sommige mensen vinden we betrouwbaar, anderen niet. = het gevolg vaan hoe we mensen zien over verschillende situaties heen (thuis, op werk, in vriendenkring) en over de tijd heen (vroeger, nu). Verband met Big Five persoonlijkheidskenmerken: betrouwbaarheid ~ consciëntieusheid. Verantwoord vaststellen van kenmerken van personen: betrouwbaarheid als kenmerk van het instrument waarmee je kenmerken van personen vaststelt. Onbetrouwbaar: fouten maken bij het vaststellen/de meting van kenmerken betrouwbaarheid van instrumenten: metingen zijn consistent of herhaalbaar, metingen bevatten weinig onsystematische/toevallige meetfouten. 2. Betrouwbaarheid van instrumenten (pg. 190-194) KLASSIEKE TESTTHEORIE (KTT): Kwantitatieve modellen ontstaan uit de testleer en de statistiek. Testleer of psychometrie: een verzameling van modellen om bepaalde eigenschappen van items- en testscores af te beelden en te toetsen. Enkele belangrijke modellen zijn de KTT en de Moderne testtheorie of Item Respons theorie (IRT). Vertrekpunt KTT: (vb. vragenlijst trek - angst, hercodering items hoe hoger de somscore, hoe meer trek – angst.) Vragenlijst bij dezelfde persoon afnemen een paar dagen bij herhaald testen van hetzelfde kenmerk – terwijl het kenmerk ongewijzigd blijft – is de kans groot dat je niet dezelfde somscore ( KTT) bekomt. Meetfouten: Bij herhaling test bij dezelfde persoon andere somscore bekomen. Dit kan komen door: persoon (vb. psychisch, fysisch), omgeving (vb. licht, temperatuur, tijdstip), procedure 14 PSYCHODIAGNOSTIEK (vb. instructie, verwerking) = toevallige omstandigheden die leiden tot onsystematische meetfouten. uitgangspunt KTT: variatie in somscore is het gevolg van onsystematische (toevallige, random) meetfouten. het is wenselijk dat testscores zo weinig mogelijk beïnvloed worden door toevallige omstandigheden. Onsystematische meetfouten: de ene keer ligt de score hoger, de andere keer lager; niet altijd zelfde, systematische invloed. Meetfouten kunnen ook systematisch zijn: operationalisering van het beoogde construct is niet perfect, je meet ook een beetje iets anders dan je wil meten (vb. motoriek bij intelligentietest); heeft een systematische, regelmatige invloed bij elke testafname. DUS: testscore = beoogde construct + systematische meetfouten + onsystematische meetfouten. KTT: schatting van grootte van random meetfout (onsystematische) bij test, geen aandacht aan systematische meetfouten. Model en assumpties Model A: herhaalde metingen bij dezelfde persoon. Xij: geobserveerde testscore van persoon i op moment j. Ti: ‘ware’ score van persoon i (true score). Eij: toevallige meetfout van persoon i op moment j (Error). Ti: ‘Ware’ score van persoon i. Onafhankelijk van het moment waarop je de test afneemt van persoon i (daarom geen j index). Gemiddelde testscore over een groot aantal (q) denkbeeldige onafhankelijke replicaties bij persoon i. Omwille van niet-systematische meetfouten zal de geobserveerde testscore (X) de ene keer wat groter zijn en de andere keer wat kleiner. Gevolg: de positieve en negatieve afwijkingen in de geobserveerde scores tov de ‘ware’ scores zullen elkaar opheffen. Assumptie: KTT gaat ervan uit dat afnames onderling onafhankelijk zijn (vb. geen geheugeneffecten, geen leereffecten). Realistisch? Eij: meetfout van persoon i op moment j. De verwachte waarde van alle toevallige meetfouten is 0. De toevallige fouten kunnen net zo goed leiden tot een geobserveerde testscore die de ‘ware’ score zowel overschat als onderschat. S(Ei): standaardmeetfout van persoon i = standaarddeviatie (spreidingsmaat) van de foutencomponent Ei. We weten dat Ēij = 0 en Eij = Xij – Ti dus S(Ei) = de afwijking van de testscores van persoon i op momenten j tov de ‘ware’ score van persoon i. = indicatie voor hoe ‘goed’ we gemeten hebben bij persoon i een kleine standaardmeetfout betekent dat de metingen dicht bij Ti liggen, een grote standaardmeetfout betekent dat er veel fluctuatie op de metingen zit tov Ti. S(Ei) = S(Xi) De standaarddeviatie van de meetfout van persoon i (standaardmeetfout) = de standaarddeviatie van alle metingen (geobserveerde scores) bij persoon i. We hebben het liefst dat deze waarde zo klein mogelijk is. Assumptie: in KTT gaat men ervan uit dat de 15 PSYCHODIAGNOSTIEK standaardmeetfout voor alle personen dezelfde is op bepaalde test. Realistisch (vb. minder vaardigheid leidt tot meer gokken)? Waarom heeft KTT deze assumptie nodig? In realiteit is het niet mogelijk om van één bepaalde persoon heel veel keren de test af te nemen om de standaardmeetfout te kunnen berekenen. Oplossing: we nemen van een zeer grote groep personen de test één maal af; op basis van die gegevens kunnen we dan iets te weten komen over de standaardmeetfout van de test. Model B: metingen bij verschillende personen in populatie op één moment (j valt weg in model B). Xj = geobserveerde testscore van persoon i. Ti = ‘ware’ score van persoon i (true score). Ei = toevallige meetfout van persoon i (Error). Assumptie 1: de gemiddelde meetfout in een populatie van n personen is gelijk aan 0. Assumptie 2: in een groep personen correleert de meetfout nergens mee tenzij ze zelf deel uitmaakt van wat gemeten wordt. r(E,T) = 0 Geen verband tussen meetfout en ware score. De meetfout is immers niet systematisch. Personen met een hoge T hebben geen systematische grotere of kleinere E dan personen met een lage T (Realistisch?). r(E,X)>0 Er is een positief verband tussen E en X. E maakt immers deel uit van X. Dus hoe hoger E, hoe hoger X; hoe lager E, hoe lager X. r(E,Y)=0 geen verband tussen meetfout en willekeurige variabele waarvan E geen deel uitmaakt. In een groep personen is de gemiddelde geobserveerde score gelijk aan de gemiddelde ‘ware’ score, immers Ē=0. Variantie van geobserveerde scores S²(X)=S²(T)+S²(E). Waarom KTT nodig?: Betrouwbaarheid testscore gemeten in populatie van personen = S²(T)/S²(X). Betrouwbaarheid: zekerheid, herhaalbaarheid, consistentie. Standaardmeetfout van testscore. Enkele bezwaren bij KTT: De standaardmeetfout is voor iedereen gelijk (vb. mensen met meer vaardigheid zullen minder ‘gokken’ op prestatietest met meerkeuzevragen dus S(E) is kleiner). Men kijkt enkel naar de somscore op een test, twee personen met zelfde somscore kunnen op een verschillende manier tot die somscore komen. Dit is enkel gerechtvaardigd als ieder item in de test uitwisselbaar is met de andere items. Maar dit is meestal niet het geval (vb. sommige items zijn moeilijker dan andere in een vaardigheidstest; sommige items zijn een betere meting van het construct dat je wil meten dan andere items). 16 PSYCHODIAGNOSTIEK MEETFOUTEN EN KTT: Betrouwbaar instrument: metingen zijn consistent of Niet valied, Niet valied, Niet betrouwbaar Betrouwbaar herhaalbaar en bevatten weinig onsystematische/toevallige meetfouten. Testscore = beoogde construct (plaats van persoon op construct dat je wil meten) + Valied, Matig valied, systematische meetfouten (operationalisering Betrouwbaar Niet betrouwbaar van construct is niet perfect validiteit = meten we wat we willen meten?) + onsystematische meetfout (toevalsfouten: persoon, omgeving, procedure betrouwbaarheid = Bekomen we dezelfde testscore als we dezelfde test herhaaldelijk bij dezelfde persoon afnemen?). betrouwbaarheid en validiteit gaan beide over het beperken van meetfouten, maar gaan elk over een andere soort meetfout. Model B hoe kleiner de spreiding van onsystematische fouten, hoe ‘herhaalbaarder’ (=betrouwbaarder) je meting is. Betrouwbaarheid = hoeveel van de variantie van de geobserveerde testscores X is afkomstig uit de variantie van de ware scores T? Een hoge S(E) betekent: een grote standaarddeviatie van de onsystematische meetfouten bij herhaalde metingen (maw herhaalbaarheid is laag), S(E) speelt een rol bij het baplen van betrouwbaarheidsintervallen (vb. IQ). Men wil van een test de betrouwbaarheid of de standaardmeetfout kennen. probleem: men kan deze niet berekenen want S²(T) is onbekend gevolg: de betrouwbaarheid van een test moet worden geschat hoe wordt de betrouwbaarheid geschat? Via het bereken van correlaties tussen testscores op twee ‘identieke’ tests (zie methode voor het schatten van betrouwbaarheid). Wanneer er veel onsystematische meetfouten zijn dan zal dit nu eens tot een hogere testscore leiden, en dan eens tot een lagere testscore. Gevolg: r (X1,X2) zal klein zijn als er veel meetfouten zijn, dus r zegt iets over de betrouwbaarheid. METHODEN VOOR HET SCHATTEN VAN BETROUWBAARHEID Test-hertestmethode: dezelfde test twee maal afnemen van dezelfde personen met een tussentijd. r(X afname1, X afname2) = schatting van betrouwbaarheid = S²(T)/S²(X) = rxx’ (stabiliteit) = stabiliteitscoëfficiënt. Nadelen: niet geschikt om betrouwbaarheid te schatten van tests die constructen meten die niet stabiel zijn over tijd (vb. gemoedstoestand) rxx’ wordt dan immers ook bepaald voor verandering op construct (T), Niet geschikt om betrouwbaarheid te schatten van tests waar een leer- (mensen leren uit oefeningen uit de 1ste afname; treedt vooral op bij inzichtopgaven) of geheugeneffect (opgaven die duidelijk in het oog springen worden onthouden en bij volgende afname sneller herkend en opgelost) kan optreden, geen probleem voor rxx’ indien leer- en geheugeneffect voor iedereen op dezelfde wijze zou gebeuren, maar in realiteit verschillen mensen hierin! deze effecten treden vooral een rol wanneer tijdsinterval tussen twee testafnames klein is. Een te groot tijdsinterval houdt dan weer het risico in dat sommige mensen ondertussen veranderd zijn op het construct dat je wil meten waardoor rxx’ geen goede maat is voor betrouwbaarheid. Parallellvormmethode: twee inwisselbare maar niet identieke tests afnemen van dezelfde personen (ipv twee replicaties van 17 35 PSYCHODIAGNOSTIEK dezelfde test). problemen ivm leer- en geheugeneffecten verminderen. Wanneer zijn twee testen parallell? Ti1 = Ti2 de ware score van een persoon op test 1 is dezelfde als de ware score op test 2 dit kan je echter nooit nagaan criteria waaraan de testscores X1 en X2 moeten voldoen: de gemiddeldes van de testen moeten gelijk zijn, hun variantie moet gelijk zijn, en de correlatie met een andere test moeten ook overeenkomen! r(X1,X2) = schatting van betrouwbaarheid = S²(T)/S²(X) = rxx’ = paralleltestbetrouwbaarheid. Nadelen: paralleltesten maken is niet zo eenvoudig: items moeten gelijkwaardig zijn maar mogen niet identiek zijn (dus je moet vragen hebben die er anders uitzien maar hetzelfde meten), vaak nog wel mogelijk voor cognitieve of vaardigheidstests, maar vaak moeilijk voor persoonlijkheidsvragenlijsten. In praktijk zullen twee paralleltests niet perfect parallel zijn. Met gevolg dat de betrouwbaarheid wordt overschat. Opmerking: paralleltests worden soms gebruikt bij hertesting van een persoon (vb. evaluatie na hulpverlening). Splitsingsmethode: één test afnemen bij alle personen en test splitsen in parallelle helften. Werkwijze: eerst volledige test afnemen, dan score op helft 1 en score op helft 2 berekenen voor iedere persoon, daarna de correlatie tussen score op helft 1 en score op helft 2 berekenen, en als laatste de correlatie op correlatie om betrouwbaarheid van de hele test te schatten. r(X helft1, X helft2) = schatting voor betrouwbaarheid = S²(T)/S²(X) = rxx’ (equivalentiecoëfficiënt). Een splitsing in de eerste helft van de items en de laatste helft van de items is niet aan te raden: vermoeidheid, verveling, leereffecten in de 2de helft waardoor de 2de helft niet als parallelversie van de 1ste helft kan worden beschouwd + wanneer de test van makkelijke naar moeilijke items gaat, kan de 1ste helft van de test beroep doen op andere vaardigheden ( andere T) dan de 2de helft. Een splitsing volgen de odd-even methode is geschikter! Men moet een correctie toepassen op de r tussen beide helften, welke? De betrouwbaarheid van een halve test is lager dan de betrouwbaarheid van de hele test omdat de somscores op een kortere test minder stabiel zijn dan de scores op een langere test. Als er zich een toevallige meetfout (vb. vergissing, gelukte gok) voordoet dan heeft dit een grotere impact op de somscore van kortere tests dan op langere tests. Spearman Brown Prophecy Formule; r22 (betrouwbaarheid van hele test) = 2rxx’/1+rxx’ (betrouwbaarheid van halve test). Er is ook een invloed van testlengte op betrouwbaarheid met hoeveel items moet een test verlengd worden om een gewenste betrouwbaarheid te krijgen? zie slides en formules! Interne consistentiemethode: uitgangspunt: items zijn onderling inwisselbaar (onderling parallel). Elk item kan als een deel van een test worden beschouwd. Analoog aan de gedachte uit de halveringsmethode. Het gevolg is dat de scores op de items worden gebruikt. Men gaat na wat de samenhang (covariantie) is van alle items onderling. Formule van Cronbach (Cronbach’s alpha), 18 PSYCHODIAGNOSTIEK formule voor gebruik bij niet-dichotome items. Kuder-Richardson 20 (KR20), formule voor gebruik bij dichotome items. Beide waarden worden gebruikt als schatter van de betrouwbaarheid van een test. Betrouwbaarheid (rxx’) ≥ alpha, deze maat voor interne consistentie van de test geeft een onderschatting voor de ‘echte’ betrouwbaarheid van de test. Ondergrens voor de betrouwbaarheid want de waarde is gelijk of groter dan alpha. Opmerking: vaak gebruikt als maat voor homogeniteit of uni-dimensionaliteit FOUT Chronbach’s alpha is een toenemende functie van het aantal items, bij testverlenging nadert alpha naar 1. GEBRUIK VAN BETROUWBAARHEID Betrouwbaarheidsinterval: in de praktijk één meting, rond die meting een zone … gebruik makend van onze kennis, uitzetten van een zone waarbinnen de ware score in … % van de gevallen zal vallen. zie slides!! Verband tussen betrouwbaarheid en S(E): hoe hoger de betrouwbaarheid, hoe kleiner de standaardmeetfout ↔ hoe lager de betrouwbaarheid, hoe groter de standaardmeetfout. zie slides!! Betrouwbaarheid van verschilscores: wanneer zijn twee scores verschillend? Gebruikt bij voor en na meting van één persoon, verschil tussen twee personen, verschil tussen twee verschillende tests. zie slides!! Problemen van betrouwbaarheid bij KTT: zie bezwaren tegen KTT mbt betrouwbaarheid: restriction of range! De schatting van de betrouwbaarheid is gevoelig voor de variantie in de steekproef. Regressie naar het gemiddelde: Een statistisch fenomeen, opeenvolgende metingen in een populatie neigen meer naar de gemiddelde waarde. Als een score fluctueert, dwz niet perfect betrouwbaar is, gaat bij een herhaalde meting de score van een groep hoge scores per definitie omlaag en bij een groep lage scoorders omhoog. Deze verandering is een gevolg ven het feit dat een test niet perfect betrouwbaar is (vb. hertesting met gelijkwaardige IQ-tests). Niet alle betrouwbaarheidsindexen zijn zinvol bij alle soorten tests (vb. NOOIT de splitsingsmethode of interne consistentie bij snelheidstests gebruiken! de niet beantwoorde items krijgen allen een 0 waarde en correleren onderling hoog. Correlatie (betrouwbaarheid) verhoogd kunstmatig.) Oplossing: test-retest methode, parallelvorm methode, werken met de TIJD als score. 3. Vuistregels voor beoordeling van betrouwbaarheidscoëfficiënten Hoe hoog moet een betrouwbaarheidscoëfficiënt zijn? Vuistregels bij vraagstelling die betrekking hebben op: Belangrijke beslissingen op individueel niveau: r < .80 onvoldoende, .80 ≤ r <.90 voldoende, r ≥ .90 goed Minder belangrijke beslissingen: r < .70 onvoldoende, .70 ≤ r < .80 voldoende, r ≥ .80 goed 19 PSYCHODIAGNOSTIEK Wetenschappelijk onderzoek: r < .60 onvoldoende, .60 ≤ r < .70 voldoende, r ≥ .70 goed Hoofdstuk 4: Validiteit 1. Validiteit als alledaags begrip (pg. 328 – 329) Doen van ‘geldige’ uitspraken over gedragingen van personen, gebeurtenissen en zaken. In psychodiagnostiek: geldige, ware of valide uitspraken over (probleem) gedrag, cognities en gevoelens van cliënten, validiteit heeft betrekking op tests en instrumenten. Betrouwbaarheid van een test is een noodzakelijke maar niet voldoende voorwaarde voor een goede validiteit: hoge betrouwbaarheid ~ goede herhaalbaarheid ~ kleine standaardmeetfout, noodzakelijkheid (alleen een betrouwbare test kan valide zijn), voorwaardelijkheid (een betrouwbare test is niet altijd valide). 2. Validiteit van instrumenten (pg. 329-346, 388-392) BETROUWBAARHEID VS. VALIDITEIT: Betrouwbaarheid Exactheid bij meten Toevallige fouten Spreiding meetfouten S(E) Te berekenen Term gebruikt voor: metingen Validiteit Juistheid van beslissing: geschikt, betekenisvol, nuttig Systematische fouten: fouten die ontstaan door systematisch iets anders te meten (operationalisering niet perfect) Bias Proces: geen formules Term gebruikt voor: conclusies, afleidingen, generalisaties, besluiten VALIDITEIT ALS PSYCHOMETRISCH BEGRIP: Waarheid: juistheid, nuttigheid, accuraatheid, interpreteerbaarheid, voorspellend vermogen en bijdrage aan beslissingen, … De mate waarin een test aan zijn doel beantwoordt. Validiteit speelt niet alleen een rol bij tests (vb. geneeskunde: hoge bloeddruk (= predictor) voorspelt hart- en vaatziekten (= criterium)). Test validiteit verwijst naar: de mate waarin de vertaling van een theoretisch, abstract begrip naar een meetbare eenheid geslaagd is (hoe goed beantwoordt de test aan zijn doel?), maw validiteit is in hoeverre een test meet wat het beweert te meten, in hoeverre het mogelijk is geldige gevolgtrekkingen uit de testscores te maken. Validering van een test is een proces zonder einde. Validiteit is een verzamelterm: meerder vormen van validiteit. Men maakt een onderscheid tussen verschillende soorten validiteit die elk op een andere manier onderzocht worden. Centraal bij validiteit staan twee aspecten (doelen): test als voorspeller van ander gedrag (de mate waarin een test toelaat om een correcte uitspraak te doen over gedrag buiten de testsituatie predictieve validiteit [criterium]) vs. test als operationalisering (meetbaar maken van constructen) van een psychologisch begrip, meten van een eigenschap (de mate waarin een 20 PSYCHODIAGNOSTIEK testscore daadwerkelijk een goede indicator is het construct dat de test beoogt te meten begripsvaliditeit [constructvaliditeit/begripsvaliditeit]). psychologische constructen zijn niet altijd direct waarneembaar. DIMENSIES VAN VALIDITEIT: vier bronnen van evidentie Testinhoud (inhoudsvaliditeit): de test moet die bepaalde kennisinhoud, rekenvaardigheid of karaktertrek dekken. Inhoud verwijst naar de volledigheid waarmee iets wordt gemeten. De representativiteit van de testinhoud. Analyse van antwoordprocessen (construct/begripsvaliditeit): de test moet een goede representatie zijn van de kennis, vaardigheid of karaktertrek die we willen meten. Antwoord en responsprocessen nagaan. De test meet het volledige construct en niets anders (vb. vaststellen van rekenvaardigheid zonder beroep te doen op leesvaardigheid). Interne structuur van de test (construct/begripsvaliditeit): relatie tussen items, tussen subgroepen van items, tussen items en de volledige test, tussen verschillende deelconstructen in een test … (vb. nagaan of verschillende groepen van mensen verschillende presteren). Relatie test met externe variabelen (criterium/predictieve validiteit): externe variabele: ander construct waarmee je een samenhang of juist geen samenhang verwacht (vb. schoolsucces, partnerkeuze, succes, …). VERSCHILLENDE VORMEN VAN VALIDITEIT Construct validiteit (begripsvaliditeit): de mate waarin een testscore een concrete weergave s van wat men wenst te meten (vb. intelligentie en niet schoolse kennis). Het gaat om de aanwijzingen die aantonen dat de test werkelijk het meetinstrument is van datgene wat de test bedoelt te meten. Probleem: betekenis van een begrip ligt niet altijd vast, betekenis kan verband houden met andere zaken, andere termen en begrippen kunnen een min of meer gelijke betekenislading dekken. meerdere operationalisaties mogelijk, meestal is geen enkele volledig. Dus een test moet het construct meten, het volledige construct en niets anders dan het construct dat het bedoelt te meten! Constructen zijn niet wederzijds uitsluitend, ze bestaan in een net van overlappende betekenissen. De betekenis van een construct = relatie (verschil/gelijkenis) aangeven met gelijkaardige constructen. Convergente validiteit: mate waarin twee begrippen , die theoretisch met elkaar verbonden, ook in de werkelijkheid met elkaar samenhangen of correleren. Mate waarin twee methoden convergent dezelfde eigenschap meten metingen van gelijkaardige constructen moeten hoog correleren. Congruente validiteit (of soortgenootvaliditeit): gelijkheid in vorm. Correlatie tussen twee tests die precies hetzelfde onderwerp meten met gelijke methode. Speciale situatie van convergente validiteit (vb. Amsterdamse Biografische Vragenlijst [schaal 21 PSYCHODIAGNOSTIEK neuroticisme] vs. Eysenck Personality Inventory [schaal neuroticisme]). Discriminante validiteit: mate waarin twee begrippen, die theoretisch geen relatie hebben, ook in de werkelijkheid geen correlatie vertonen. Mate waarin twee methoden iets verschillend meten. Specificiteit van een test metingen van theoretische verschillen constructen moeten laag correleren. Multitrait – Multimethod matrix: een benadering ontwikkeld door Campbell en Fiske (1959). Convergent and discriminant validtion by the mutlitrait-multimethod matrix. Een matrix (tabel) van correlaties zondanig opgesteld dat de construct validiteit van een instrument kan worden onderzocht. Integreert zowel convergente als discriminante validiteit. Neemt aan dat je meerdere kenmerken meet met meerdere methodes. Principes uit de MTMM matrix: convergentie (dingen die theoretische moeten samengaan gaan ook samen bij meting), divergentie/discriminatie (dingen die theoretische niet mogen samengaan gaan ook niet samen bij meting). Stap 1: betrouwbaarheid moet de hoogste coëfficiënten bevatten. Stap 2: convergente validiteit > nonsense correlaties. Stap 3: convergente validiteit > discriminante validiteit. Voordelen: beschouwt simultaan convergente en discriminante validiteit , benadrukt het belang van de methode bij onderzoek en meten (methode als foutenbron). Nadelen: moeilijk om praktisch volledig uit te werken, geen algemene validiteitcoëfficiënt beschikbaar. Inhoudsvaliditeit (content validity): mate waarin een itemverzameling representatief is voor een (specifiek) omschreven domein. Inhoud verwijst naar de volledigheid waarmee iets wordt gemeten. Representativiteit van de test: analoog aan de relatie steekproef-populatie, mate waarin de inhoud van een test een representatieve steekproef vormt uit het geheel aan kennis, vaardigheid of gedrag dat de test beoogt te meten, itemverzameling moet alle niveaus dekken met goede vragen. mate waarin de test volledig en omvattend het construct in kaart brengt. Toepassingen op werkgebied: er wordt meer nadruk gelegd op de inhoudsvaliditeit bij testen die bepaalde vaardigheden en kennis toetsen (vb. arbeid of onderwijscontext). Bepaling van de inhoudsvaliditeit: kwalitatief; is vooral een werk van oordelen en zorgvuldig construeren en niet van rekenen, bij de bepaling van de inhoud van een test kan een theoretisch model zeer nuttig zijn. (2dimensioneel) Verschil inhoudsvaliditeit en constructvaliditeit : inhoudsvaliditeit richt zich alleen op de volledigheid waarmee een test een construct meet, zonder enige uitspraak te doen over wat het construct precies is; inhoudsvaliditeit (gaat uit van de rationale van waaruit de test is ontstaan, uitgaande van de kennis over het betreffende domein) vs. constructvaliditeit (aanwijzingen die aantonen dat de test verband houdt met het construct dat deze beoogt te meten). 22 PSYCHODIAGNOSTIEK Criterium validiteit: hangen prestaties op een test samen met prestaties in real-live (externe) situaties? Voorspellen van extern criterium in heden of toekomst. Twee methoden: Concurrente validiteit: wordt beoordeeld door na te gaan in hoeverre de testresultaten corresponderen met gelijktijdig beschikbare criteriumgegevens. Criterium wordt op zelfde moment gemeten als testprestaties (predicator) (vb. correlatie tussen testresultaten werknemers en gelijktijdige prestatie beoordeling op de werkvloer door baas). Predictieve validiteit: wordt vastgesteld door na te gaan in welke mate de voorspellingen obv testprestatie worden bevestigd door gegevens of observaties verzameld op een later tijdstip. Criterium wordt op later moment gemeten als testprestaties (predictor) correlaties tussen testprestatie en toekomstig criterium (vb. toelatingsproef arts met als doel selectie van studenten met grotere slaagkansen. Verwachting: hoge cijfers op toelatingsproef hogere cijfers op examen hoger slagingspercentage). Absolute eis = een hoog positieve correlatie (zelden aanwezig, zelden onderzocht vooraf). Samenvattend validiteit: de vraag of we met een valide meting te maken hebben van gedragingen, cognitie, motivatie en emotie, beantwoorden we meestal door een vermoeden uit te spreken wat een construct is (vb. angst). We maken er items (vragen) bij en analyseren deze. Daarna zeggen we vb. dat we iets over angst weten (constructvaliditeit), dat we geen belangrijke dingen zijn vergeten (inhoudsvaliditeit) en dat we er iets aan hebben (criteriumvaliditeit) want we kunnen er zinvol mee voorspellen (vb. iemands gedrag bij vreemden). 3. Problemen bij criteriumvaliditeit Criteriumvaliditeit: streven om bij selectie en plaatsing zo weinig mogelijk fouten te maken. Echter enkele problemen bij criteriumvaliditeit: Soorten criteria: het ene criterium is moeilijker te voorspellen dan het andere; 1ste onderscheid: specifiek vs. globaal criterium , 2de onderscheid in typen criteria: onmiddellijk (immediatie vb. resultaten examens), tussentijds (intermediate vb. slaagkans afstuderen), uiteindelijk (ultimate vb. goede hulpverlener). Betrouwbaarheid van criteriummeting: meting van criteriumprestaties in de praktijk: criteria worden vaak minder betrouwbaar gemeten dan constructen (geoperationaliseerd via predictor), risico’s aan menselijk oordeel (oordeel expert) als criterium. testcriterium correlaties (kenmerken van de steekproef): correlaties zijn gevoelig voor de omvang en variantie van de steekproef (restriction of range), testcriterium relatie wordt berekend door twee continue variabelen. Face validity: ~ “liefde op het eerste gezicht”, heeft betrekking op wat een test op het eerst gezicht meet, met name relatie (correlatie) tussen bepaalde predictor en criterium volgens subjectieve indruk zonder hiervoor empirische steun te hebben. 23 PSYCHODIAGNOSTIEK 4. Vuistregels voor de beoordeling validiteit VALIDITEITSCOËFFICIËNT: belangrijk om interpretaties te maken obv testscores: correlatie tussen de testscore en één of ander extern criterium, tussen 1 en -1, hoe dichter bij waarde 1, hoe beter! Hoe hoog met een validiteitcoëfficiënt zijn? Dat hangt af van de onderzoeksvraag. Vuistregel Cohen (1977): r = .10 (laag), r = .30 (gemiddeld), r = .50 (hoog). PREDICTIEVE VALIDITEIT EN INTERPRETATIE: Meta analyse van Meyer (2001): 125 meta-studies (criteriumvaliditeit van psychologische en medische meetinstrumenten [predictieve tests en criteria]), 800 steekproeven, 144 correlaties. Conclusie: gemiddelde predictie: r = .32, standaard deviatie: .19, zelden boven r = .50. Predictieve validiteitcoëfficiënt in vergelijking met: Betrouwbaarheidscoëfficiënten: wenselijke minimummaat: .70 à .80. Mate dat test gelijk is aan zichzelf. Absolute grens van correlatie 1: predictieve validiteitscoëfficiënt zegt iets over de mate van invloed die een aspect heeft op een ander. Waarde 1 zal nooit bereikt worden in validiteitsonderzoek. Convergente validiteitscoëfficiënt (monomethode coëfficiënten): coëfficiënten worden verkregen door twee tests die hetzelfde kenmerk meten en dit doen op dezelfde manier, met elkaar te correleren. Waarden liggen hier meestal op .50 of hoger. Verhoogde correlatie door gedeelde methode en kenmerk. Waarom zoveel lage validiteitscoëfficiënten: lage criterium betrouwbaarheid, restriction of range, … Hoofdstuk 5: Het nemen van beslissingen op grond van tests Handboek pg. 396-398, 402-406 + tekst ‘Validity for decisions: criterion related validity’ pg. 178185, 190-197 • Base rate = basis verhouding (toevalskans): Base rate = 76/100 = .76 of 76%. De kans op een succesvolle kandidaat is 76%. Verhouding van succesvolle kandidaten (in een job = criterium) tot het totale aantal (100) zonder het gebruik van een test. In voorbeeld: (A + B) / (A+B+C+D). Basisverhouding: mate van voorkomen van een kenmerk in een random populatie. Percentage geschikte kandidaten wanneer men niet zou selecteren maar volgens toeval (of allen) zou aannemen. • Selectieratio: Testselectieverhouding: Verhouding van het aantal testpositieven (= vraag) tot het totale aantal (100) (= aanbod). Percentage kandidaten dat wordt aangenomen. In voorbeeld: (B+D) / (A+B+C+D). Selectieratio = 84/100 = .84 of 84%. We gebruiken een cutoff van 6 zodat we de beste 84 personen selecteren (obv test). • Succesratio = Succesverhouding: Verhouding van de “positieve treffers” (terecht aangenomen kandidaten) tot het aantal dat een positief testresultaat behaalde. Percentage succesvolle kandidaten binnen de aangenomen groep. In voorbeeld: B/ (B+D) De kans op job succes met gebruik van de test is dus 72/84 = 0.86. 24 PSYCHODIAGNOSTIEK • Vals Negatieven (False negatives): personen die voldoen aan het criterium, maar niet worden weerhouden door de test (A: ‘positieve missers’) • Vals Positieven (False positives): personen die geselecteerd worden met de test maar niet slagen voor criterium (maw. niet voldoen id praktijk) (D: ‘negatieve missers’) (vals alarm) • Sensitiviteit van een test: proportie personen die werkelijk goed zijn en die ook als zodanig door de test worden herkend (B: ‘positieve treffers’ of true positives) • Specificiteit van een test: proportie slechte kandidaten die ook als zodanig door de test werden herkend (C: ‘negatieve treffers’ of true negatives ) • Beïnvloedende factoren: Base rate ligt vast. Andere cut-off (vb. andere selectieratio): Andere sensitiviteit, Andere specificiteit, Andere vals negatieven/vals positieven. Andere kritische criteriumscore (vb. lagere/hogere eisen): Andere sensitiviteit, Andere specificiteit, Andere vals negatieven/vals positieven. • Base rate (toevalskans): In voorbeeld: verhouding van succesvolle kandidaten (in een job = criterium) tot het totale aantal (100) zonder het gebruik van een test. Base rate = 76/100 = .76 of 76%. De kans op een succesvolle kandidaat is 76%. Belang van Base rates: Hoge base rate (90% - 100%): zinloos om te testen. Elke kandidaat is goed. Extreem lage base rate (witte raven): zinloos om te testen, zelfs niet met de allerhoogste validiteitscoëfficiënt. 25