Toekomst: Adaptief toetsen?

Op 12 oktober heb ik de ‘Masterclass Adaptief toetsen’ van Surfnet bezocht. Deze bijeenkomst heeft mij inzicht gegeven in hoe je adaptieve toetsen kunt opzetten.

Wat is adaptief toetsen?

Adaptief toetsen is een toets waarbij de moeilijkheidsgraad van de vragen zich aanpast aan de kandidaat op basis van de antwoorden die gegeven worden (Bonefaas, 2012). Met andere woorden, hoe meer vragen de kandidaat goed beantwoordt, hoe hoger het niveau van de volgende vragen en andersom. Na een vastgesteld aantal vragen wordt bepaald op welk niveau de kandidaat de stof beheerst.

Hoe maak je een toets adaptief?

In de Masterclass zijn drie methodes besproken:

  1. Branching
  2. Computer Adaptive Testing
  3. Elo-rating systeem

1. Branching

Je bepaalt per vraag de moeilijkheidsgraad. Bijvoorbeeld met behulp van een (range van) p-waarde. De p-waarde is het percentage kandidaten dat deze vraag juist beantwoord heeft. Hoe hoger de p-waarde, hoe makkelijker de vraag. Hoe lager de p-waarde, hoe moeilijker de vraag. Bij een rekenopgave zou je de moeilijkheidsgraad bijvoorbeeld kunnen koppelen aan het aantal rekenstappen dat je moet doen om de opgave op te lossen. Hoe meer rekenstappen, hoe moeilijker de vraag.

Je groepeert de vragen met vergelijkbare moeilijkheidsgraad in kleine deeltoetsen. Hierna bepaal je de relaties tussen de toetsen.

Bijvoorbeeld:

Een kandidaat maakt vragen op niveau drie. Heeft de kandidaat minder dan 65% goed, gaat de kandidaat een niveau terug. Heeft de kandidaat meer dan 65% goed, gaat hij een niveau omhoog. Nadat de kandidaat deze vervolgvragen heeft gemaakt, wordt opnieuw bepaald hoeveel antwoorden de kandidaat goed heeft. Op basis hiervan krijgt de kandidaat vragen van een moeilijker of makkelijker niveau. Na een vastgesteld aantal vragen eindigt de toets. Op dit moment wordt duidelijk op welk niveau de kandidaat de stof beheerst.

Het nadeel van deze werkwijze is dat de toetsconstructeur veel beslissingen moet nemen. Bijvoorbeeld op welke wijze de moeilijkheidsgraad wordt bepaald en op welk moment de kandidaat een niveau omhoog of omlaag gaat.

Dat kan vast handiger! 

2. Computer Adaptive Testing (CAT)

Bij CAT wordt per vraag gekeken welke vervolgvraag aangeboden moet worden. Hier wordt rekening gehouden met de moeilijkheidsgraad van de vraag (p-waarde) maar ook met de geschatte vaardigheid van de kandidaat.

Bijvoorbeeld:

Hoe lager de vaardigheid van één van de kandidaat en hoe moeilijker de vraag, hoe kleiner de kans dat een kandidaat de vraag goed beantwoordt. Heeft de kandidaat de vraag tegen verwachting goed gemaakt, gaat de geschatte vaardigheid van een kandidaat omhoog en krijgt hij een moeilijkere vraag aangeboden. Het niveau van de vraag is blijkbaar verkeerd vastgesteld en wordt door het antwoord van de kandidaat automatisch naar beneden bijgesteld.

Een tweede voorbeeld. De kandidaat heeft een hoge vaardigheid en krijgt een makkelijke vraag aangeboden. Je zou verwachten dat deze kandidaat de vraag goed beantwoordt. Maakt de kandidaat de vraag fout, gaat de vaardigheid van een kandidaat omlaag en wordt het niveau van de vraag naar beneden bijgesteld.

Na een vastgesteld aantal vragen wordt bepaald op welk niveau de kandidaat op dat moment de stof beheerst. De rekentoets voor toelating tot de PABO werkt op deze wijze.

Om per vraag de p-waarde en vaardigheid te kunnen bepalen, moet veel informatie verzameld worden. Hiervoor moet het examen aan een groep van minimaal 500 (potentiële) kandidaten worden voorgelegd. Dit vergt een flinke investering. Alleen wanneer je de adaptieve toets op grote schaal kunt inzetten, is dit rendabel.

Dit klinkt al beter. Maar het kan vast nog handiger en voordeliger!

3. Elo-rating systeem

Het Elo-rating systeem maakt in de basis gebruik van dezelfde gegevens als bij het CAT, namelijk p-waardes en de vaardigheid. Het grootste verschil is dat de p-waardes en vaardigheid niet van te voren worden vastgesteld.

Hoe werkt het? 

Bij CAT worden de p-waarde en het vaardigheidsniveau bepaald op basis van de gegevens van de gemaakte examens van een grote groep kandidaten. Bij het Elo-rating systeem worden deze waardes aangepast per antwoord op de vraag. Maakt een kandidaat de vraag goed dan gaat de vaardigheid van een student omhoog en moeilijkheidsgraad van een vraag omlaag. Onder andere De Rekentuin werkt met deze methode. In onderstaande video wordt de werking van het Elo-rating systeem duidelijk uitgelegd.

Oefenweb Explanimation from Oefenweb on Vimeo.

Het nadeel is dat in het begin de werkelijke vaardigheid en p-waarde van de vragen nog niet bepaald zijn. Wanneer een vraag vaker is afgenomen, weet je meer over de vraag. De waardes gaan steeds meer stabiliseren. Voordat het systeem met meer zekerheid iets kan zeggen over het niveau van de kandidaat moet het examen door een behoorlijk aantal kandidaten gemaakt zijn. In het begin is het resultaat van de toets dus niet erg betrouwbaar. Daarom wordt deze vorm van adaptief toetsen vooral gebruikt bij low-stake testing (toetsen waarbij de gevolgen van zakken niet groot zijn).

Toekomst?!

Hoe mooi zou het zijn als een Elo-rating systeem gebruikt kan worden voor high-stake testing (testen waaraan bijvoorbeeld een diploma of kwalificatie gekoppeld is)! Een systeem dat het niveau van de vragen automatisch bepaalt en bijstelt. Om de waardes te laten stabiliseren, zullen de vragen eerst voorgelegd moeten worden aan een aantal kandidaten. Op deze wijze kan de kwaliteit van de vraag ook meteen getest worden.

 

Wie weet, in de toekomst…..

 

 

Geplaatst in adaptief toetsen, itemanalyse, online toetsing, tussentijds toetsen

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

* Copy This Password *

* Type Or Paste Password Here *

De volgende HTML tags en attributen zijn toegestaan: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>