De genormaliseerde T

advertisement
2010 | 9 MGv | 65 | 684 - 695
edwin de beurs
De genormaliseerde T-score
Een ‘euro’ voor testuitslagen
Om in de gaten te houden of een behandeling goed werkt, zijn
verschillende meetinstrumenten in omloop. Deze zijn echter niet
compatibel, waardoor het moeilijk is om resultaten te vergelijken.
De huidige behandelpraktijk meet, maar weet nog niet. Er is een
standaardmaat nodig die de ‘wisselkoersen’ omzeilt.
In de ggz in Nederland wordt het steeds meer een goede gewoonte om
regelmatig vast te stellen wat de aard of de ernst van de klachten van
een patiënt zijn, en of de geboden behandeling wel het gewenste effect
heeft. Daarbij worden verschillende testen ingezet. Bij de behandeling
van veel voorkomende psychiatrische aandoeningen, zoals stemmings- en
angststoornissen, is vooral de meetmethode met zelfrapportagevragenlijsten
populair. De patiënt geeft voor een reeks symptomen of klachten aan in
hoeverre deze de afgelopen periode optraden. Naast instrumenten met
een generieke meetpretentie, zoals de scl-90 die geschikt is voor alle
stoornissen in dit zorgdomein, is er nog een keur aan stoornisspecifieke
vragenlijsten, bijvoorbeeld voor de paniekstoornis, de sociale fobie of
persoonlijkheidsstoornissen.
Zelfrapportage-instrumenten worden voornamelijk gebruikt bij
de evaluatie van zorgprogramma’s in een ambulante setting. Patiënten
in ambulante zorg zijn doorgaans goed in staat hun eigen situatie of
klachten te beoordelen en kunnen zo’n vragenlijst dus goed invullen. Bij
ernstige psychiatrische aandoeningen zoals psychotische stoornissen is dat
beoordelingsvermogen vaak aangetast. In de zorg voor deze patiënten worden
dan ook meestal beoordelingsschalen gebruikt, zoals de honos, mansa en
can (Mulder e.a., 2010). Dit zijn vragenlijsten die worden ingevuld door de
de genormaliseerde t-score
Kader 1
Soorten zelfrapportagevragenlijsten
In de ggz worden generieke en stoornisspecifieke vragenlijsten gebruikt. De meest gebruikte zijn generieke
vragenlijsten die naar algemene klachten vragen. De patiënt moet voor een reeks symptomen of klachten aangeven in hoeverre deze de afgelopen periode optraden. Voorbeelden hiervan zijn de Symptom Checklist (scl-90,
Arrindell & Ettema, 1986) en de verkorte variant hiervan, de Brief Symptom Inventory (bsi; De Beurs & Zitman,
2006). In toenemende mate wordt tegenwoordig de Outcome Questionnaire gebruikt (oq-45; De Jong e.a., 2008).
Andere vragenlijsten die worden toegepast zijn de Vier Dimensies Klachtenlijst (4dkl; Terluin, 1996), de Hospital
Anxiety Depression Scale (hads; Spinhoven e.a., 1997) en de Depressie Angst Stress Schaal (dass; De Beurs e.a.,
2001). Recentelijk geïntroduceerde vragenlijsten zijn de Clinical Outcomes in Routine Evaluation-Outcome
Measure (core-om; Barkham e.a., 2005) en de Korte Klachten Lijst (kkl; Lange & Appelo, 2007).
Er zijn ook verschillende stoornisspecifieke vragenlijsten. De vragen in deze lijsten zijn toegesneden op een
bepaalde stoornis. Voor stemmingstoornissen bijvoorbeeld de bdi (Bouman e.a., 1985) of de ids (Nolen &
Dingemans, 2009); voor de paniekstoornis de pol (De Beurs e.a., 2005); voor obsessieve-compulsieve stoornis de
Padua (Van Oppen, 1992); voor sociale fobie de ioa (Van Dam-Baggen & Kraaimaat, 2003); voor posttraumatische
stressstoornis de ies (Brom & Kleber, 1985); voor persoonlijkheidsstoornissen de dapp-bq (Van Kampen e.a., 2010)
en de sipp (Verheul e.a., 2008). Voor minder vaak voorkomende stoornissen, zoals eetstoornissen, is er de edi (Van
Strien, 2002). Stoornisspecifieke vragenlijsten hebben doorgaans iets betere psychometrische kenmerken (indien
toegepast bij de juiste doelgroep) en zijn gevoeliger voor verandering, maar hebben een smaller toepassingsgebied dan generieke lijsten.
De scl-90 en de bsi bieden naast een totaalscore die staat voor algemeen niveau van psychopathologie, ook
gedetailleerde informatie over specifieke klachtgebieden zoals lichamelijke klachten, stemmingsklachten, angstklachten en fobische vermijding. De oq biedt op klachtgebied alleen een algemene score (de oq-sd), maar heeft
als voordeel dat ook verbeteringen in de kwaliteit van interpersoonlijke relaties (familie, vrienden, oq-ir) en
maatschappelijk functioneren (op werk of opleiding, oq-sr) uitgevraagd worden. De dass heeft naast een totaalscore specifieke schalen voor angst, depressie en stress. Met name de laatste schaal is interessant voor indicatiestelling en effectmeting van hulpverlening bij arbeidsgerelateerde problematiek (De Beurs e.a., 2010). De core-om
biedt naast een algemene score voor de ernst van de klachten ook een subschaal over risico’s (op terugval). De
kkl is aangenaam kort met 13 items voor klachten en een open vraag, maar dit levert een wel erg globale meting
op.
Ten slotte is nog een belangrijk kenmerk dat sommige lijsten in het publieke domein en gratis beschikbaar zijn,
terwijl andere alleen zijn te bekomen via een uitgever. De normering en documentatie van commerciële lijsten
is doorgaans wat beter. Echter, naast dat het gebruik van commercieel beschikbare vragenlijsten enige kosten
en administratieve last met zich meebrengt, is een groeiend probleem dat uitgevers meer en meer toestemming
weigeren om vragenlijsten middels populaire (web)applicaties, zoals NetQ-rom, QuestManager of roqua aan respondenten aan te bieden.
685
de beurs
behandelaar of door een onafhankelijke beoordelaar over de patiënt, meestal
aan de hand van een kort interview met de patiënt.
Iedere vragenlijst heeft specifieke voor- en nadelen en er zijn
inhoudelijke verschillen tussen de instrumenten (zie kader 1). De
uiteindelijke keuze van het instrument wordt bepaald door de doelen die
met de behandeling worden nagestreefd: symptoomreductie, toegenomen
vaardigheden, toegenomen kwaliteit van leven, et cetera. Behandelaars (en
onderzoekers) kunnen verschillende opvattingen hebben over de doelstelling
van behandeling. Maar alle behandelaars zijn het erover eens dat al deze
verschillende meetinstrumenten een Babylonische spraakverwarring
opleveren zodra we met elkaar uitkomsten willen uitwisselen. Een
behandelaar die gewend is aan scl-90-scores communiceert niet gemakkelijk
over de ernst van klachten van een patiënt met een collega die altijd de oq
(Outcome Questionnaire) gebruikt. De huidige situatie in de ggz laat zich wat
dat betreft vergelijken met de manier waarop in Europa over de prijzen van
goederen of diensten werd gesproken voordat de euro werd ingevoerd. Sinds
2002 behoren wisselkoersen en omrekenen van geld in de euro-landen tot het
verleden, en dat is ontegenzeggelijk te danken aan de invoering van de euro.
Zoiets is ook wenselijk voor meetinstrumenten die gebruikt worden
voor therapie-uitkomst. Vervangen van ‘wisselkoersen’ voor de uitkomsten
van veelgebruikte vragenlijsten door een gemeenschappelijke uitkomstmaat,
zal het gebruik van meetinstrumenten in de ggz bovendien verder
kunnen stimuleren. In dit artikel stel ik een nieuwe valuta, een ‘euro’ voor
uitkomstmaten in de ggz voor: de genormaliseerde T-score.
Verschillende indelingen
Testresultaten van meetinstrumenten of vragenlijsten zijn onderling niet
zomaar te vergelijken, omdat ze uitgaan van verschillende schalen. De
totaalscore op de scl-90 heeft een theoretisch bereik van 90 tot 450 punten
(de somscore van 90 items met een mogelijke score van 1 tot 5), de oq-sd
(Outcome Questionnaire-Symptom Distress subschaal) heeft een bereik van 0
tot 100 (de somscore van 25 items met een mogelijke score van 0 tot 4), en de
totaalscore op de bsi (Brief Symptom Inventory) heeft een bereik van 0,00 tot
4,00 (gemiddelde score op 53 items met een mogelijke score van 0 tot 4). Deze
schalen zijn betrekkelijk willekeurig gekozen en een score krijgt pas betekenis
wanneer je de schaal kent en weet hoe bijvoorbeeld een gemiddelde patiënt
scoort.
Om een algemenere betekenis aan een uitkomst van een test te geven
zijn verscheidene schaalvrije indelingen van scores voorgesteld. Met schaalvrij
de genormaliseerde t-score
wordt hier bedoeld: los van de schaal van de oorspronkelijke ruwe scores op
het meetinstrument. Heel bekend is de percentielscore. Deze is gebaseerd
op een verdeling van scores van een populatie in honderd gelijke delen. Een
percentielscore van 95 houdt bijvoorbeeld in dat de respondent in de extreme
5% van de populatie scoort en dat slechts 5% van de populatie nog hoger
scoort. Andere indelingen zijn stanines (negen gelijke intervallen van elk een
halve standaarddeviatie breed) of kwartielen (telkens een interval van een
kwart van de populatie). ‘Normtabellen’ maken eigenlijk ook gebruik van een
schaalvrije indeling van scores. Daarin wordt een betekenis aan uitkomsten
op een vragenlijst toegekend met begrippen als ‘zeer hoog’, ‘hoog’,
‘bovengemiddeld’ et cetera. Aan deze indeling ligt vaak een percentielscore
ten grondslag van respectievelijk 5% (zeer laag), 20%, 40%, 60%, 80% en 95%
(zeer hoog).
Ten slotte zijn er indelingen van scores gebaseerd op de schaalvrije
standaardscore of Z-score. Z-scores worden berekend door van de ruwe score
het populatiegemiddelde af te trekken en het resultaat te delen door de
standaardafwijking. Dit resulteert in een score met een gemiddelde van 0 en
een standaarddeviatie van 1.De T-score is daar een voorbeeld van.
De T-score
Al in de jaren twintig van de vorige eeuw stelde McCall (1922) als schaalvrije
score de T-score voor. De keuze voor de letter T was een eerbewijs aan Edward
Tellegen en Lewis Terman, aartsvaders in de Amerikaanse psychologie die
zich vooral bezighielden met meten in de onderwijspsychologie. Er zijn twee
varianten van de T-score: de lineaire T-score en de genormaliseerde T-score
(zie ook Klugh, 2006).
Lineaire T-score
De lineaire T-score is in feite een directe omzetting van de Z-score. De Z-score
heeft een gemiddelde van 0 en een standaarddeviatie van 1. Een score met
een gemiddelde van 0 is echter wat lastig in het dagelijks gebruik. De helft
van de patiënten heeft een negatieve score en de meeste patiënten hebben
een decimaal in hun score. Om tot een wat handzamere score te komen stelde
McCall voor de Z-score te vermenigvuldigen met 10 en op te hogen met 50
punten: de lineaire T-score. Per definitie is het gemiddelde van de T-score
dus 50 en de standaarddeviatie [10.1] Uitgaande van een normaalverdeling
corresponderen T-scores met percentielscores zoals weergegeven in tabel 1.
De betekenis zoals vaak gebruikt in normtabellen is ook weergegeven in tabel
1: de hoogste 5% van de scores is ‘zeer hoog’, van 80 tot 95% is ‘hoog’, van 60
687
de beurs
tot 80% is ‘bovengemiddeld’, van 40 tot 60% is ‘gemiddeld’, enzovoorts. Om
‘gevoel’ te krijgen voor de betekenis van de T-score is in het rechtergedeelte
van tabel 1 voor opeenvolgende T-scores weergegeven hoe hoog de
bijpassende percentielscore is. De meeste patiënten hebben een T-score tussen
de 30 en de 70 (95% van de patiënten); 99,73% scoort tussen 20 en 80. Scores
buiten dit bereik zijn dus zeer uitzonderlijk.
Tabel 1
Onderlinge verhouding van percentielscores, Z-scores en T-scores en hun betekenis
Uitgaande van percentielen:
Uitgaande van T-scores:
Percentiel
Z-score
T-score
0,01
-3,090
19,10
0,5
-2,576
24,24
1
-2,326
26,74
5
-1,645
33,55
10
-1,282
37,18
20
-0,842
41,58
30
-0,524
44,76
40
-0,253
47,47
50
0,000
50,00
60
0,253
52,53
70
0,524
55,24
80
0,842
58,42
90
1,282
62,82
95
1,645
66,45
99
2,326
73,26
99,5
2,576
99,9
3,090
Betekenis
T-score
Z-score
Percentiel
10
-4,00
0,00
15
-3,50
0,02
20
-3,00
0,13
25
-2,50
0,62
30
-2,00
2,28
35
-1,50
6,68
40
-1,00
15,87
45
-0,50
30,85
50
0,00
50,00
55
0,50
69,15
60
1,00
84,13
65
1,50
93,32
70
2,00
97,72
75
2,50
99,38
80
3,00
99,87
75,76
85
3,50
99,97
80,90
90
4,00
99,99
Zeer laag
Laag
Beneden gemiddeld
Gemiddeld
Boven gemiddeld
Hoog
Zeer hoog
Het omzetten van een ruwe score naar een T-score is eenvoudig wanneer de
ruwe scores normaal verdeeld zijn, dat wil zeggen als hun frequentieverdeling
het bekende klokvormige beeld geeft: de meeste scores bevinden zich rond
het gemiddelde en zijn symmetrisch verdeeld. Dit is bijvoorbeeld het geval bij
de schaal voor Symptomatic Distress van de oq. De oq-sd-schaal heeft bij een
ambulante klinische populatie2 een gemiddelde waarde van M oq-sd = 48,5
en een standaarddeviatie van 15,9 (De Beurs e.a., 2001). De T-score wordt in
dit geval berekend als T = ((ruwe score – 48,5)/15,9)*10) + 50. Een oq-sd-score
van 485T=50; 645T=60; 325T=40, et cetera. Op de site van het MGv
de genormaliseerde t-score
(www.trimbos.nl/mgv) en die van kznbenchmarking (www. kznbenchmarking.
nl) staan gedetailleerdere gegevens voor de omzetting van ruwe scores, T-scores
en percentielscores voor de oq-sd en andere instrumenten.
Een vragenlijst met niet-normaal verdeelde scores is de bsi. Bij nietnormaal verdeelde scores is het beeld asymmetrisch. In figuur 2 op pagina 691
wordt linksboven de frequentieverdeling van bsi-totaalscores weergegeven
van een omvangrijke dataset (9895 patiënten van ggz Rivierduinen met een
stemmings-, angst of somatoforme stoornis, gemeten voorafgaande aan hun
behandeling). De gemiddelde totaalscore is Mbsi-tot =1,18, sd= 0,73. Er is een
normaalverdeling over de frequentieverdeling geprojecteerd. Duidelijk is dat
de verdeling van de ruwe bsi-scores niet voldoet aan het klokvormige beeld van
de normaalverdeling. De theoretische range van de scores loopt van 0,00 tot
4,00. Het rekenkundige midden van de schaal ligt bij 2,00, maar slechts weinig
patiënten scoren boven 2,00. De verdeling is niet symmetrisch, maar ‘scheef
naar rechts’. Dit betekent dat een verschuiving in ruwe score van 3,00 naar 2,00
geringer is dan een verschuiving van 1,50 naar 0,50 in termen van de relatieve
positie in de populatie.
Genormaliseerde T-score
Bij een niet-normale verdeling van de oorspronkelijke ruwe scores geeft een
lineaire omzetting naar T-scores ook niet-normaal verdeelde T-scores. De
directe relatie met percentielscores gaat dan verloren. In dit geval moet een
genormaliseerde T-score bepaald worden (Anastasi, 1976; Klugh 2006; McCall,
1922). Normaliseren is nodig om een standaardscore weer in het juiste
perspectief te plaatsen (een T-score van 30 staat gelijk aan de laagste 2,3 %
van de populatie) en is ook een voorwaarde voor eenvoudige rekenkundige
bewerkingen van scores; om het effect van een behandeling te bepalen
moet je een verschilscore tussen begin- en eindmeting kunnen berekenen.
Zo’n rekenkundige bewerking vereist op zijn minst een intervalschaal, wat
betekent dat een verschuiving van 60 naar 50 van dezelfde omvang is als een
verschuiving van 50 naar 40.
De aanpak om ruwe scores te normaliseren is al in 1922 door McCall
voorgesteld en staat in de literatuur ook wel bekend als ‘area transformation’
(McCall, 1922, zie kader 2 voor een stap-voor-stap uiteenzetting van de
procedure.) Op de website www.kznbenchmarking.nl is voor de meest
voorkomende genormaliseerde T-scores de corresponderende ruwe score (of
range van ruwe scores) op verschillende vragenlijsten weergegeven.
In figuur 1 is de normaalverdeling weergegeven en daaronder de
verhouding van T-scores met de schalen van de vier meest gebruikte uitkomst
instrumenten, de oq-sd, de dass, de scl-90, en de bsi. Bij de totaalscores
op de scl-90, bsi en dass is normalisering toegepast. In Tabel 2 worden de
689
de beurs
formules voor de omzetting van ruwe scores naar (genormaliseerde) T-scores
gegeven. Voor de oq-sd is normaliseren niet nodig en volstaat een lineaire
transformatie; het effect van normalisering bij de dass-scores is eigenlijk
minimaal. De ruwe scores op dit instrument zijn ook nagenoeg normaal
verdeeld. Bij de scl-90 en de bsi heeft normaliseren wel een duidelijk effect.
Figuur 1
Normaalverdeling, T-score en (sub)schalen van de oq, dass, scl-90 en bsi
Tabel 2
Formules voor T-score-berekening voor vier meetinstrumenten
Schaal
omrekenfactor
Bron van data
bsi
2,06x3 - 11,66x2 + 31,24x + 27,89
N = 9895 van ggz Rivierduinen
scl-90
31,43 * Ln(x)- 114,08
N = 1250 van ggz Ingeest
oq-sd
0,63x + 19,69
N = 759 van ggz Rivierduinen
dass
-0,01x2 + 0,94x + 29,89
N = 1500 van Interapy
Kader 2
Van ruwe schaalscores naar genormaliseerde T-scores
Het omzetten van ruwe schaalscores naar genormaliseerde T-scores bestaat uit de volgende stappen. Eerst
worden alle percentielscores in de relevante populatie bepaald (percentile ranks). Dit betekent dat in de frequentieverdeling van scores gezocht wordt naar de grenswaarde waarboven 1% van de patiënten scoort, waarboven
2% scoort, enzovoorts. Elke percentielwaarde krijgt zo een bijbehorende ruwe score. De percentielscores hebben
per definitie een vaste relatie met standaardscores volgens de standaardnormale verdeling (een percentielscore
van 2,5 heeft een Z-waarde van 1,96; 5%=1,65; 10%=1,28; 50%=0,00 etc, zie Tabel 1). De percentielscores kunnen dus
direct vertaald worden naar Z-scores. Deze Z-scores worden met 10 vermenigvuldigd en met 50 opgehoogd om
uiteindelijk T-scores te krijgen. De wiskundige vergelijking voor de relatie tussen ruwe scores en genormaliseerde
T-scores kan bepaald worden middels curve estimation, bijvoorbeeld met de regression module van spss. We zetten daarvoor de ruwe bsi-scores af tegen de genormaliseerde T-scores (Figuur 2, linksonder).
de genormaliseerde t-score
Figuur 2
Frequentieverdeling van totaalscores op de bsi voor normalisering en erna
691
Een optimale passendheid (fit) wordt bij de bsi bereikt met een derdemachtsvergelijking. Voor de bsi-totaalscore
is deze vergelijking y= 2,06x3 - 11,66x2 + 31,24x + 27,89. Hierin is x de ruwe score en y de genormaliseerde T-score.
Met deze vergelijking is voor elke mogelijke score op de bsi de corresponderende genormaliseerde T-score te
bepalen. De resulterende T-score heeft weer een gemiddelde van 50, een standaarddeviatie van 10 en is normaal
verdeeld (zie rechtsboven in Figuur 2). De schaal is pas na normalisering te beschouwen als een echte intervalschaal en er mogen nu rekenkundige bewerkingen op toegepast worden. Zoals uit de curve linksonder in Figuur
2 valt op te maken is er voor ruwe scores tussen 1,00 en 3,00 sprake van een bijna lineaire relatie met de T-score;
voor scores onder de 1,00 en boven de 3,00 is de relatie duidelijk anders. De s-vormige relatie tussen ruwe scores
en genormaliseerde T-scores komt vooral tot uiting in een oprekking van de schaal in het lage scorebereik en
inkrimping rond het midden. Het instrument wordt met deze ingreep dus gevoeliger gemaakt voor het scorebereik waarin de meeste patiënten scoren.
Dat het ook echt ‘klopt’ met de T-score wordt beschreven in Kader 3. Hier
wordt aan de hand van data van een groep patiënten die zowel de oq als de
bsi hebben ingevuld, geïllustreerd dat genormaliseerde T-scores op beide
instrumenten goed overeenkomen en dat de samenhang tussen uitkomsten
door T-score conversie nog iets toeneemt.
de beurs
Kader 3
Overeenkomst tussen T-scores van de oq en de bsi
Bij een groep van 759 patiënten van ggz Rivierduinen met angst-, stemmings- en somatoforme stoornissen werd
voorafgaande aan de behandeling zowel de oq als de bsi afgenomen. De gemiddelde voormetingsscore op de oqsd-schaal bij deze groep patiënten is Moq-sd = 43,1 (sd=15,7); op de bsi-totaalscore is de gemiddelde score Mbsitot = 0,98 (sd=0,64). De correlatie tussen de ruwe scores is r = 0,81, p < 0,001, wat de convergente validiteit van de
twee instrumenten onderstreept. Na conversie in genormaliseerde T-scores bedraagt de gemiddelde
Toq-sd = 47,1 (sd=9,9) en de gemiddelde Tbsi-tot = 47,3 (sd=9,1). De twee T-scores komen dus goed overeen
(getoetst met een t-toets voor gepaarde waarnemingen: t (758)= 1,17, p = 0,16). De correlatie tussen beide uitkomstmaten is na T-score conversie nog iets hoger: r = 0,83, p < 0,001. Dat laatste laat zich verklaren doordat de
relatie tussen de ruwe scores van de oq-sd en de bsi niet lineair is (vanwege de niet-normale verdeling van de
bsi-scores) en die tussen de genormaliseerde T-scores wel.
Verschilscores nodig
Het effect van behandeling in de ggz wordt doorgaans uitgedrukt in
het verschil tussen de testscore op een vragenlijst voorafgaande aan
de behandeling, en de testscore bij afsluiting. Het gaat hier dus om
verschilscores. Een verandering in ruwe score op de scl-90 van 180 naar
130 (een verschilscore van 50 punten, wat betekent: minder klachten en een
gebruikelijk effect van behandeling) staat gelijk aan 0,8 standaarddeviatie
verschuiving. In percentielscores staat deze verschuiving gelijk aan een
verschuiving van 46% naar 14% ofwel van ‘gemiddelde score vergeleken
met alle patiënten’ naar ‘laag vergeleken met alle patiënten’. De totaalscore
op de bsi wordt met name in de lagere regionen van scores sensitiever voor
verandering. Hetzelfde gaat op voor de scl-90. De omzetting in T-scores
correspondeert met een pre- en postverschil in T-score van 49 naar 39, 10
punten oftewel 1,0 standaarddeviatie verschil. De effectgrootte groeit dus
na T-score-omzetting van 0,8 naar 1,0. Deze toename in gevoeligheid van
de behandelde patiënt voor verandering is een resultaat van oprekking van
de schaal in het gebied waar de meeste respondenten scoren en maakt het
meetinstrument dus geschikter om therapie-effect aan te tonen.
In de inleiding werden ook beoordelingsschalen zoals de honos
en de mansa genoemd. Voor dit artikel is deze groep instrumenten
buiten beschouwing gebleven en niet als illustratiemateriaal gebruikt.
De voorgestelde methode om te komen tot genormaliseerde T-scores en
de voordelen van T-scores boven ruwe scores zijn echter net zo goed van
toepassing bij beoordelingsschalen.
de genormaliseerde t-score
Praktijkvoordeel
De ggz-praktijk zal baat hebben bij een eenduidige maat om testuitslagen
over de ernst van de klachten van een patiënt in uit te drukken. Om
uitkomsten op verschillende instrumenten onderling direct te kunnen
vergelijken moeten er twee bewerkingen worden toegepast op de ruwe scores:
standaardiseren en normaliseren. Standaardiseren zet ruwe scores om in
standaardscores (Z-scores) met een gemiddelde van 0 en een standaarddeviatie
van 1. Door normaliseren krijgen scheve frequentieverdelingen een
normaalverdeling en wordt de meetschaal een ware intervalschaal. Dit is
een vereiste voor eenvoudige rekenkundige bewerkingen zoals het verschil
berekenen tussen een voor- en een nameting rond een behandeling.
De genormaliseerde T-score is zowel gestandaardiseerd als
genormaliseerd, wat betekent dat er bruikbare en begrijpelijke verschillen
tussen voor- en nameting van de effecten van een behandeling mee zijn
te verkrijgen. De T-score heeft een gemiddelde waarde van 50 en een
standaarddeviatie van 10. 95% van de patiënten heeft een score tussen de 30
en de 70. Bijkomend voordeel is dat meetinstrumenten met een niet-normale
frequentieverdeling gevoeliger worden voor het detecteren van verandering in
ernst van de klachten.
Breed gebruik van de voorgestelde ‘euro’ voor testuitslagen zal enige
inspanning en gewenning vergen van het ggz-veld. Het grote voordeel is
echter dat het de eenduidigheid bij het beoordelen van testuitslagen ten
goede komt en er een handzame schaalvrije grootheid voor therapie-effect
ontstaat. Voor het uitdrukken van intellectuele vaardigheden beschikken we
al ruim een eeuw over standaardisering met de iq-score; een vergelijkbare
standaardisering op het gebied van psychische klachten zal vooral voor de
gebruikers van testuitslagen een welkome vooruitgang zijn.
n
693
de beurs
1
Noten
Maandblad Geestelijke volksgezondheid, 61,
We zijn allemaal vertrouwd met een vergelijkba-
120-141.
re grootheid, de iq-score, die feitelijk een Z-score
e.a. (2005). De Outcome Questionnaire (oq-45): een
opgehoogd. De gemiddelde Nederlander heeft
meetinstrument voor meer dan alleen psychische
een iq van 100, 68% van de Nederlanders heeft
klachten. De Psycholoog, 40, 53-63.
een iq tussen 85 en 115.
2
Beurs, E. de, Hollander-Gijsman, M. den, Buwalda, V.,
is met 15 vermenigvuldigd en met 100 punten
Beurs, E. de, Smit, J.H., & Comijs, H. (2005). De Paniek
Als uitgangspunt voor standaardiseren is geko-
Opinie Lijst (pol). De betrouwbaarheid en validi-
zen voor het gemiddelde en standaarddeviatie
teit van een cognitieve maat voor paniekstoornis.
van een klinische populatie. Dat is in zekere
Gedragstherapie, 38, 141-155.
zin arbitrair: men zou ook kunnen kiezen voor
Beurs, E. de, Van Dyck, R., Marquenie, L.A., e.a. (2001).
het gemiddelde en standaarddeviatie van een
De dass: een vragenlijst voor het meten van
‘normale populatie’, bijvoorbeeld een steekproef
depressie, angst en stress. Gedragstherapie, 34,
uit de bevolking. De reden en rechtvaardiging
35-53.
om toch te kiezen voor de klinische populatie is
Beurs, E. de, Zweden, S. van, & Hamming, C. (2010).
dat meetinstrumenten zoals de scl-90 en de oq
De bruikbaarheid van de dass voor evaluatie
vooral bedoeld zijn om de ernst van klinische
van de behandeling van arbeidsgerelateerde
fenomenen in kaart te brengen. Deze instrumen-
psychische klachten. Tijdschrift voor Bedrijfs- en
ten dienen dan ook gecalibreerd te zijn op de
klinische populatie en daaruit vloeit logisch voort
Verzekeringsgeneeskunde, 18, 103-109.
Bouman, T.K., Luteijn, F., Albersnagel, F.A. & van der
de klinische populatie een gemiddelde Z-score
Ploeg, F.A.E. (1985). Enige ervaringen met de Beck
van 0 toe te wijzen. Gezonde respondenten zullen
Depression Inventory (bdi). Gedrag, 13, 3-24.
dus doorgaans lager scoren (een hele tot anderhalve standaarddeviatie lager).
Brom, D., & Kleber, R.J. (1985). De Schok Verwerkings
Lijst. Nederlands Tijdschrift voor de Psychologie,
40, 164-168.
Dam-Baggen, R. van, & Kraaimaat, F.W. (2003).
Literatuur
Anastasi, A. (1976). Psychological Testing. New York:
MacMillan.
Arrindell, W.A., & Ettema, J.H.M. (1986). scl-90.
Handleiding bij een multidimensionele psychopathologie-indicator. Lisse: Swets & Zeitlinger.
Barkham, M., Gilbert, N., Connell, J., e.a. (2005).
Suitability and utility of the core-om and core-a
for assessing severity of presenting problems in
psychological therapy services based in primary
Inventory of Interpersonal Situations (iss). In J.
Hoyer & J. Margraf (Eds.), Angstdiagnostik, pp.267271. Berlin: Springer Verlag.
Gulliksen, H. (1950). Theory of Mental Tests. New York:
John Wiley & Sons.
Jong, K.de, Nugter, M.A., Polak, M., e.a. (2008).
De Nederlandse versie van de Outcome
Questionnaire (oq-45): Een crossculturele validatie. Psychologie & Gezondheid, 36, 35-45.
Kampen, D. van & de Beurs, E. (2010). dapp-bq dimen-
and secondary care settings. British Journal of
sionale assessment van persoonlijkheidspatho-
Psychiatry, 186, 239-246.
logie, inclusief Nederlandse screeningsversie.
Beurs, E. de, & Zitman, F.G. (2006). De Brief Symptom
Inventory (bsi): De betrouwbaarheid en validiteit
van een handzaam alternatief voor de scl-90.
Amsterdam: Hogrefe.
Klugh, H.E. (2006). Normalized T Scores. In S. Kotz,
C.B. Read, N. Balakrishnan, & B. Vidakovic (Eds.),
de genormaliseerde t-score
Encyclopedia of Statistical Sciences, 2nd edition.
van behandelingen niet vergelijkbaar zijn. Om de
New York: John Wiley & Sons.
communicatie te vergemakkelijken stelt de auteur
Lange, A., & Appeloo, M. (2007). Korte klachten lijst (kkl)
handleiding. Houten: Bohn Stafleu Van Lochum.
McCall, W.A. (1922). How to measure in education. New
York: Macmillan.
Mulder, C.L., Gaag, M. van der, Bruggeman, R., e.a.
een conversie van scores voor die is gebaseerd op
standaardscores: genormaliseerde T-scores. Dit slaat
twee vliegen in een klap: uitkomsten worden direct
vergelijkbaar en de omzetting zorgt voor een score
met een normale verdeling. Zo ontstaat een inter-
(2010). Routine ontkomen monitoring voor
valschaal waarmee het verschil tussen een testscore
patiënten met ernstige psychiatrische aandoe-
voor en na de behandeling eenduidig is te interpre-
ningen; een consensusdocument. Tijdschrift voor
teren. De implicaties van deze standaardisering zijn
Psychiatrie, 52, 169-179.
vooral van belang voor de praktijk van alledag en voor
Nolen, W.A., & Dingemans, P.M.A.J. (2004).
alle behandelaars die gebruikmaken van meetinstru-
Meetinstrumenten bij stemmingsstoornissen.
menten. De T-scoreconversie wordt gedemonstreerd
Tijdschrift voor Psychiatrie, 10, 681-686.
bij de scl-90, de bsi, de oq-45 en de dass (zie figuur 1).
Oppen, P. van (1992). Obsessions and compulsions:
Op de sites (www.trimbos.nl/mgv) en www.kznbench-
dimensional structure, reliability, convergent
marking.nl wordt een tabel geboden waarin voor elke
and divergent validity of the Padua Inventory.
ruwe score op deze instrumenten de bijbehorende
Behaviour Research and Therapy, 30, 631-637.
T-score kan worden opgezocht.
Spinhoven, Ph., Ormel, J., Vloekers, P.P.A., e.a. (1997).
A validation study of the Hospital Anxiety and
Personalia
Depression Scale (hads) in different groups of
Dr E. de Beurs (1959) was belast met opzet en uitvoe-
Dutch subjects. Psychological Medicine, 27, 363-
ring van Routine Outcome Monitoring op het lumc en
370.
bij Rivierduinen. Hij werkt nu als inhoudelijk directeur
Strien, T. van (2002). edi-ii Eating Disorder Inventory - ii
(edi-iiI-nl Nederlandse versie) Lisse: Swets Test
bij Kenniscentrum Zorg Nederland (kzn) te Bilthoven.
[email protected]
Publishers.
Terluin, B. (1996). De Vierdimensionale Klachtenlijst
(4dkl). Huisarts en Wetenschap, 39, 538-547.
Verheul, R., Andrea, H., Berghout, C., e.a. (2008).
Reageer op dit artikel via
Severity indices of personality problems (sipp118): Development, factor structure, reliability
and validity. Psychological Assessment, 20, 23-34
Samenvatting
E. de Beurs
‘De genormaliseerde T-score. Een ‘euro’ voor testuitslagen’
Het documenteren van effect van behande-
ling in de ggz neemt toe. Er worden verschillende
meetinstrumenten gebruikt die elk uitgaan van een
eigen schaal, waardoor testresultaten en uitkomsten
www.trimbos.nl/mgv
695
Download