Themadag 2011 Toets en itemanalyse

advertisement
Expertiseteam
Themadag Digitale
Toetsenbank
Toetsing
1 december 2011
Alex van Essen
Toets- en itemanalyse
Eerst een stukje over
toetskwaliteit
Toetsen
► Een toets is een steekproef, een momentopname.
► Er kan van alles misgaan, hoeft niet aan de toets te liggen.
Toetsen - criteria
Een goede toets is:
► Betrouwbaar
► Valide
► Bruikbaar
Toetsen – criteria: betrouwbaarheid
► Kwaliteit van toets zelf
 Vragen eenduidig en goed geformuleerd (allerlei criteria)
 Toets en toetsvragen moeten discrimineren (onderscheid
tussen goede en zwakke leerlingen)
 Voldoende aantal vragen
► Omstandigheden
 Ruimte en rust
 Beschikbaarheid hulpmiddelen
 Beschikbare tijd
► Beoordeling resultaat (voorkomen van invloed door de
beoordelaar)
 Gesloten vragen met eenduidig antwoord
 Open vragen met antwoordmodel
Betrouwbaar = bij herhaalde afname onder
dezelfde omstandigheden geeft een zelfde resultaat
Betrouwbaarheid en cesuur
10
5,5 (of 6,0)
Proportie leerlingen die
slaagt.
cijfer
1
0,0 (of 1,0)
raadscore
score
cesuurscore
maximale score
Toetsen – criteria: validiteit
► Begripsvaliditeit
 Is de toets representatief voor de leerdoelen?
► Inhoudsvaliditeit
 Is de toets representatief voor de leerstof?
► Criteriumvaliditeit
 Heeft de toets een voorspellende waard?
(met name van belang bij centrale examens,
toelatingsexamens)
Valide = meet wat je wilde weten
Toetsen – criteria: bruikbaarheid
► Is de toets doelmatig (efficient)?
 De inspanningen (voorbereidingen, afname en beoordeling
door docenten en leerlingen) moeten opwegen tegen de
winst aan validiteit en betrouwbaarheid van de resultaten.
► Is de toets transparant?




Is direct duidelijk wat gevraagd wordt?
Goede instructie?
Nette lay-out?
Afname, waardering, correctie, bekendmakingen helder?
Bruikbaarheid = mate van efficiency en doorzichtigheid
van de toets
Toets(vragen) ontwikkelen
►
►
►
►
Maak een analyse van de leerstof
Maak een toetsmatrijs
Bepaal welke wijze van toetsen het meest geschikt is
Bepaal het soort vragen die het meest geschikt zijn (op
onderdelen)
► Stel de vragen samen
► Stel de toets samen
► Bepaal de cesuur
► Toetsafname, analyseer, evalueer en stel bij
Toets(vragen) ontwikkelen
► Creatief proces
► Eerst grof, dan verfijnen
► Bijschaven
► Overleg en feedback zijn zeer belangrijk (laat collega’s,
vakgenoten de toetsvragen afnemen)
Toets(vragen) ontwikkelen
Wat is een goede vraag?
► Goede vragen ontlokken een ‘gericht’ denkproces
► Goede vragen maken onderscheid tussen leerlingen die
de stof wel en die de stof niet begrijpen
► Goede vragen zijn in principe niet te moeilijk en niet te
makkelijk
► Goede vragen stimuleren de leerling om zijn of haar best
te doen
Toets- en itemanalyse
Statistiek
Toets- en itemanalyse
Statistische informatie (normen):
(de belangrijkste)
► Itemanalyse




Vraagmoeilijkheid  P-waarde
A-waarde (afleiders)
Onderscheidingsvermogen  Rit-waarde
D-waarde of D-index
► Toetsanalyse
De aantallen
resultaten moeten
voldoende groot
zijn.
Hoe groter de
aantallen, des te
veelzeggender is
de informatie.
 Betrouwbaarheid  Cronbach’s Alpha (α)
Normen dienen als indicatie. Met name de vragen die als
“slecht” worden gekwalificeerd vereisen de aandacht.
Itemanalyse
Item-analyse: de P-waarde
Wordt bepaald door het aandeel van de leerlingen die de
vraag correct hebben beantwoord.
► Nummer tussen 0 en 1
► Bijv. als 90 van 100 leerlingen de vraag goed hebben
beantwoord  p-waarde is 0,90
► > 0,90 te makkelijk
< 0,10 te moeilijk
van 0,25 – 0,85 zijn “goede”
Gemiddelde “norm” bij een toets met MC4-vragen is
0,65
In QMP: P Value Proportion Correct
Item-analyse: de P-waarde - normen
Vraagvorm
Optimale P-waarde
(Crocker & Algina)
Open
0,50
Gesloten
Optimale P-waarde
(Lord)
2 alternatieven
0,75
0,85
3 alternatieven
0,68
0,77
4 alternatieven
0,63
0,74
5 alternatieven
0,60
0,70
Normen gelden voor het gemiddelde van een toets.
Uit pedagogische overwegingen mag er variatie zijn (bijv. beginnen met
makkelijke vragen).
Een aantal makkelijke: onderscheid maken tussen “slechte” en “zeer slechte”
leerlingen.
Een aantal moeilijke: onderscheid maken tussen “goede” en “zeer goede”
leerlingen.
Item-analyse: de P-waarde – Formatieve toets
► Extreme P-waarden zijn meer interessant.
► Hoge p-waarden kunnen aangeven dat de eindterm
van een onderdeel wordt beheerst.
► Lage P-waarden kunnen aangeven dat de leerlingen
de eindtermen (nog) niet beheersen.
Kan inzicht geven in de mate waarin leerlingen
de eindtermen hebben behaald.
Item-analyse: de A-waarde
Ratio van de afleider
► Nummer tussen 0 en 1
► Goede afleiders : A-waarden allemaal ongeveer gelijk
(allemaal even aantrekkelijk)
A-waarde ideale afleider : (1 – P-waarde) / k
(k=aantal alternatieven)
► Als A-waarde < 0,02 dan is deze niet goed
Kan komen door slechte afleider, maar ook bijv. door
‘test-wiseness’.
In QMP: Proportion Selected van de Outcomes
Item-analyse: de A-waarde
Test-wiseness:
‘a subject’s capacity to utilize the characteristics and formats of the
test and/or the test-taking situation to receive a high score’
(Millman e.a.)
Wat is het grootste voordeel van het gebruik van chroom in de
productie van staal?
Chroom maakt staal …
a)
b)
c)
d)
Transparant.
roestvrij.
zwaar.
flexibel.
Item-analyse: de A-waarde – Formatieve toets
A-waarden kunnen inzicht geven in misvattingen die een leerling
heeft over een bepaald onderwerp.
Item-analyse: de Rit-waarde
Verband tussen de vraagscore en de toetsscore.
► Hoge correlatie  leerlingen die hoog scoren bij de
vraag scoren ook hoog bij de test
► Nummer tussen -1 en +1
In QMP: Item Total Discrimination
Item-analyse: de Rit-waarde
Rit-waarde
Betekenis
<0
Slecht
De hoogscoorders beantwoorden de vraag fout
en de laagscoorders goed.
Verwijderen of geheel aanpassen.
ongeveer 0
Geen verband te zien
Verwijderen of geheel aanpassen.
tussen 0 en 0,20
Weinig verband - middelmatig
tussen 0,20 en 0,30
Gemiddeld verband - voldoende
tussen 0,30 en 0,45
Sterk verband - goed
> 0,45
Zeer sterk verband – zeer goed
Item-analyse: de D-waarde
Onderscheid (discriminatie) t.o.v. hoge- en lage
scoorders
► Hoe groter de discriminatie, des te beter meet de
vraag wat je wilt weten
► Nummer tussen -1 en +1
In QMP: Item Discrimination
Item-analyse: de D-waarde
D-waarde
Betekenis
<0
Slecht
De laagscoorders scoren op zo’n vraag HOGER dan
de hoogscoorders. Dus andersom dan wat je wilt.
Waarom is de vraag. Hoogscoorders raken in de war?
tussen 0 en 0,15
Matig
Afleiders niet goed? Verkeerd gesteld?
tussen 0,15 en 0,30
Redelijk
tussen 0,30 en 0,50
Goed discriminerend
> 0,50
Sterk discriminerend
Toetsanalyse
Toetsanalyse: Cronbach’s Alpha
In hoeverre zijn de vragen betrouwbaar (t.o.v. elkaar),
meten ze dezelfde zaken. Bij elke nieuw afgenomen toets
weer?
► Hoge waarde  Hoge betrouwbaarheid
► Nummer tussen -1 en +1
In de literatuur kunnen de normen iets afwijken van elkaar.
Toetsanalyse: Cronbach’s Alpha
Summatieve toets:
Waarde
Kwalificatie
< 0,65
Slecht / middelmatig
tussen 0,65 en 0,80
Middelmatig / voldoende
tussen 0,80 en 0,90
Voldoende / goed
> 0,90
Goed / zeer goed
Formatieve toets:
Waarde
Kwalificatie
< 0,60
Onvoldoende
tussen 0,60 en 0,80
Voldoende / goed
> 0,80
Goed / zeer goed
Toetsanalyse: Cronbach’s Alpha - invloeden
► Hoe goed discrimineren de vragen?
Bij meer goede discriminerende vragen een hogere α
► Er mogen niet teveel te makkelijke en te moeilijke vragen
zitten in de toets.
(te makkelijke en te moeilijke vragen discrimineren minder)
► Het aantal van de vragen heeft invloed.
Bij meer vragen  hogere betrouwbaarheid.
(heeft meer individuele meetpunten)
► Te weinig alternatieven bij de vragen (gokken)
► Aantal deelnemers  meer  hogere betrouwbaarheid.
► Onjuiste groep deelnemers
Toetsanalyse: Cronbach’s Alpha - invloeden
► Toetsinhoud. Verschillende domeinen, onderwerpen.
In hoeverre hangen de vragen samen?
Worden er teveel zaken gemeten?
Opvangen door topicrapportage.
► Voortijdig afbreken of niet op tijd klaar komen of andere
storingen
► (In)consistentie van ingestelde vraagscore
► Willekeurige vragen in toets
► Diversiteit in vraagtypen
Vragen ?
Download