Expertiseteam Themadag Digitale Toetsenbank Toetsing 1 december 2011 Alex van Essen Toets- en itemanalyse Eerst een stukje over toetskwaliteit Toetsen ► Een toets is een steekproef, een momentopname. ► Er kan van alles misgaan, hoeft niet aan de toets te liggen. Toetsen - criteria Een goede toets is: ► Betrouwbaar ► Valide ► Bruikbaar Toetsen – criteria: betrouwbaarheid ► Kwaliteit van toets zelf Vragen eenduidig en goed geformuleerd (allerlei criteria) Toets en toetsvragen moeten discrimineren (onderscheid tussen goede en zwakke leerlingen) Voldoende aantal vragen ► Omstandigheden Ruimte en rust Beschikbaarheid hulpmiddelen Beschikbare tijd ► Beoordeling resultaat (voorkomen van invloed door de beoordelaar) Gesloten vragen met eenduidig antwoord Open vragen met antwoordmodel Betrouwbaar = bij herhaalde afname onder dezelfde omstandigheden geeft een zelfde resultaat Betrouwbaarheid en cesuur 10 5,5 (of 6,0) Proportie leerlingen die slaagt. cijfer 1 0,0 (of 1,0) raadscore score cesuurscore maximale score Toetsen – criteria: validiteit ► Begripsvaliditeit Is de toets representatief voor de leerdoelen? ► Inhoudsvaliditeit Is de toets representatief voor de leerstof? ► Criteriumvaliditeit Heeft de toets een voorspellende waard? (met name van belang bij centrale examens, toelatingsexamens) Valide = meet wat je wilde weten Toetsen – criteria: bruikbaarheid ► Is de toets doelmatig (efficient)? De inspanningen (voorbereidingen, afname en beoordeling door docenten en leerlingen) moeten opwegen tegen de winst aan validiteit en betrouwbaarheid van de resultaten. ► Is de toets transparant? Is direct duidelijk wat gevraagd wordt? Goede instructie? Nette lay-out? Afname, waardering, correctie, bekendmakingen helder? Bruikbaarheid = mate van efficiency en doorzichtigheid van de toets Toets(vragen) ontwikkelen ► ► ► ► Maak een analyse van de leerstof Maak een toetsmatrijs Bepaal welke wijze van toetsen het meest geschikt is Bepaal het soort vragen die het meest geschikt zijn (op onderdelen) ► Stel de vragen samen ► Stel de toets samen ► Bepaal de cesuur ► Toetsafname, analyseer, evalueer en stel bij Toets(vragen) ontwikkelen ► Creatief proces ► Eerst grof, dan verfijnen ► Bijschaven ► Overleg en feedback zijn zeer belangrijk (laat collega’s, vakgenoten de toetsvragen afnemen) Toets(vragen) ontwikkelen Wat is een goede vraag? ► Goede vragen ontlokken een ‘gericht’ denkproces ► Goede vragen maken onderscheid tussen leerlingen die de stof wel en die de stof niet begrijpen ► Goede vragen zijn in principe niet te moeilijk en niet te makkelijk ► Goede vragen stimuleren de leerling om zijn of haar best te doen Toets- en itemanalyse Statistiek Toets- en itemanalyse Statistische informatie (normen): (de belangrijkste) ► Itemanalyse Vraagmoeilijkheid P-waarde A-waarde (afleiders) Onderscheidingsvermogen Rit-waarde D-waarde of D-index ► Toetsanalyse De aantallen resultaten moeten voldoende groot zijn. Hoe groter de aantallen, des te veelzeggender is de informatie. Betrouwbaarheid Cronbach’s Alpha (α) Normen dienen als indicatie. Met name de vragen die als “slecht” worden gekwalificeerd vereisen de aandacht. Itemanalyse Item-analyse: de P-waarde Wordt bepaald door het aandeel van de leerlingen die de vraag correct hebben beantwoord. ► Nummer tussen 0 en 1 ► Bijv. als 90 van 100 leerlingen de vraag goed hebben beantwoord p-waarde is 0,90 ► > 0,90 te makkelijk < 0,10 te moeilijk van 0,25 – 0,85 zijn “goede” Gemiddelde “norm” bij een toets met MC4-vragen is 0,65 In QMP: P Value Proportion Correct Item-analyse: de P-waarde - normen Vraagvorm Optimale P-waarde (Crocker & Algina) Open 0,50 Gesloten Optimale P-waarde (Lord) 2 alternatieven 0,75 0,85 3 alternatieven 0,68 0,77 4 alternatieven 0,63 0,74 5 alternatieven 0,60 0,70 Normen gelden voor het gemiddelde van een toets. Uit pedagogische overwegingen mag er variatie zijn (bijv. beginnen met makkelijke vragen). Een aantal makkelijke: onderscheid maken tussen “slechte” en “zeer slechte” leerlingen. Een aantal moeilijke: onderscheid maken tussen “goede” en “zeer goede” leerlingen. Item-analyse: de P-waarde – Formatieve toets ► Extreme P-waarden zijn meer interessant. ► Hoge p-waarden kunnen aangeven dat de eindterm van een onderdeel wordt beheerst. ► Lage P-waarden kunnen aangeven dat de leerlingen de eindtermen (nog) niet beheersen. Kan inzicht geven in de mate waarin leerlingen de eindtermen hebben behaald. Item-analyse: de A-waarde Ratio van de afleider ► Nummer tussen 0 en 1 ► Goede afleiders : A-waarden allemaal ongeveer gelijk (allemaal even aantrekkelijk) A-waarde ideale afleider : (1 – P-waarde) / k (k=aantal alternatieven) ► Als A-waarde < 0,02 dan is deze niet goed Kan komen door slechte afleider, maar ook bijv. door ‘test-wiseness’. In QMP: Proportion Selected van de Outcomes Item-analyse: de A-waarde Test-wiseness: ‘a subject’s capacity to utilize the characteristics and formats of the test and/or the test-taking situation to receive a high score’ (Millman e.a.) Wat is het grootste voordeel van het gebruik van chroom in de productie van staal? Chroom maakt staal … a) b) c) d) Transparant. roestvrij. zwaar. flexibel. Item-analyse: de A-waarde – Formatieve toets A-waarden kunnen inzicht geven in misvattingen die een leerling heeft over een bepaald onderwerp. Item-analyse: de Rit-waarde Verband tussen de vraagscore en de toetsscore. ► Hoge correlatie leerlingen die hoog scoren bij de vraag scoren ook hoog bij de test ► Nummer tussen -1 en +1 In QMP: Item Total Discrimination Item-analyse: de Rit-waarde Rit-waarde Betekenis <0 Slecht De hoogscoorders beantwoorden de vraag fout en de laagscoorders goed. Verwijderen of geheel aanpassen. ongeveer 0 Geen verband te zien Verwijderen of geheel aanpassen. tussen 0 en 0,20 Weinig verband - middelmatig tussen 0,20 en 0,30 Gemiddeld verband - voldoende tussen 0,30 en 0,45 Sterk verband - goed > 0,45 Zeer sterk verband – zeer goed Item-analyse: de D-waarde Onderscheid (discriminatie) t.o.v. hoge- en lage scoorders ► Hoe groter de discriminatie, des te beter meet de vraag wat je wilt weten ► Nummer tussen -1 en +1 In QMP: Item Discrimination Item-analyse: de D-waarde D-waarde Betekenis <0 Slecht De laagscoorders scoren op zo’n vraag HOGER dan de hoogscoorders. Dus andersom dan wat je wilt. Waarom is de vraag. Hoogscoorders raken in de war? tussen 0 en 0,15 Matig Afleiders niet goed? Verkeerd gesteld? tussen 0,15 en 0,30 Redelijk tussen 0,30 en 0,50 Goed discriminerend > 0,50 Sterk discriminerend Toetsanalyse Toetsanalyse: Cronbach’s Alpha In hoeverre zijn de vragen betrouwbaar (t.o.v. elkaar), meten ze dezelfde zaken. Bij elke nieuw afgenomen toets weer? ► Hoge waarde Hoge betrouwbaarheid ► Nummer tussen -1 en +1 In de literatuur kunnen de normen iets afwijken van elkaar. Toetsanalyse: Cronbach’s Alpha Summatieve toets: Waarde Kwalificatie < 0,65 Slecht / middelmatig tussen 0,65 en 0,80 Middelmatig / voldoende tussen 0,80 en 0,90 Voldoende / goed > 0,90 Goed / zeer goed Formatieve toets: Waarde Kwalificatie < 0,60 Onvoldoende tussen 0,60 en 0,80 Voldoende / goed > 0,80 Goed / zeer goed Toetsanalyse: Cronbach’s Alpha - invloeden ► Hoe goed discrimineren de vragen? Bij meer goede discriminerende vragen een hogere α ► Er mogen niet teveel te makkelijke en te moeilijke vragen zitten in de toets. (te makkelijke en te moeilijke vragen discrimineren minder) ► Het aantal van de vragen heeft invloed. Bij meer vragen hogere betrouwbaarheid. (heeft meer individuele meetpunten) ► Te weinig alternatieven bij de vragen (gokken) ► Aantal deelnemers meer hogere betrouwbaarheid. ► Onjuiste groep deelnemers Toetsanalyse: Cronbach’s Alpha - invloeden ► Toetsinhoud. Verschillende domeinen, onderwerpen. In hoeverre hangen de vragen samen? Worden er teveel zaken gemeten? Opvangen door topicrapportage. ► Voortijdig afbreken of niet op tijd klaar komen of andere storingen ► (In)consistentie van ingestelde vraagscore ► Willekeurige vragen in toets ► Diversiteit in vraagtypen Vragen ?