Open vragen automatisch nakijken: sprookje of werkelijkheid?

Afgelopen zaterdag stuurde Jelmer Evers de volgende tweet:

grade test

 

 

 

 

 

 

 

Zou het echt waar zijn?

Op Twitter ontspon zich een levendige discussie over de (on)mogelijkheid van het automatisch nakijken.

In werkelijkheid gebeurt het: in Rotterdam met CODAS, het softwaresysteem.

Al in 2003 werd al op Digitale Didactiek hierover gepubliceerd.

Wat doet CODAS?

 

Het softwareprogramma kijkt essayvragen na op basis van een steekproef. Door een deel van de gemaakte toetsen na te kijken zorg je voor de ijkpunten van het programma. Je rangschikt de studenten van goed naar slecht. Individuele opdrachten kun je met een + of – beoordelen, zodat het programma ‘leert’ wat goed en slecht is in de uitwerking.

Nadat je dit voor een aantal studenten gedaan hebt, check je of de beoordeling consistent is. Op grond van de rangschikking van het nagekeken werk bepaal je de zak/slaaggrens.

CODAS kan met behulp van de gegeven ijkpunten het overige werk nakijken.

Dit klinkt als een sprookje.

Zijn er geen nadelen?

 

Jazeker.

 

CODAS is alleen te gebruiken bij ‘talige’ toetsen dus niet bij vragen met formules en dergelijke. Vooral voor beschrijvende opdrachten.

Het is ongeschikt voor essay opdrachten waarin om creativiteit gevraagd wordt.

De uitwerking van de open vragen moet digitaal zijn en minstens 300 woorden bevatten.

Het ‘leren’ van de juiste uitkomst aan het software programma is tijdsintensief en loont zich alleen bij grote aantallen studenten. Denk aan minimaal 100 studenten.

 

Na deze tijdsinvestering is het wenselijk dat je de open vragen kunt hergebruiken. Dat kan gemakkelijk wanneer je digitaal toetst.

Wat is het effect van computer beoordelingen?

 

Het voordeel is dat de beoordelingen meer consistent en betrouwbaar zijn. Dat is logisch wanneer je met zoveel zorg je eerste beoordelingen doet en daarna een beoordelingsmodel vaststelt, dan ben je consistenter. Ook op papier.

CODAS moet leren beoordelen. Een computer is altijd betrouwbaarder en consistenter dan een menselijke beoordelaar omdat hij zich aan de regels houdt. Een corrector denkt misschien: ‘hij bedoelt het goed, ik begrijp het wel.’ Daar heeft een computer geen last van.

Nu weet ik het niet meer:

is het nu sprookje of werkelijkheid?

 

Het is werkelijkheid, maar het lijkt nog een sprookje. Het is nog te complex en arbeidsintensief om op grote schaal ingezet te worden.

Het advies voor betrouwbaar beoordelen van open vragen is: investeer in een goed helder correctiemodel zodat alle menselijke beoordelaars zo consistent mogelijk scoren.

Overigens is ook in de Twitter verwijzing van Jelmer de Amerikaanse software afhankelijk van ongeveer 100 beoordelingen. Daarmee kun je de software ‘leren’ hoe de teksten  beoordeeld moeten worden. Kritiek vanuit de VS:

“They cannot measure the essentials of effective written communication: accuracy, reasoning, adequacy of evidence, good sense, ethical stance, convincing argument, meaningful organization, clarity, and veracity, among others.”

Geplaatst in beoordelen, beoordelingsexamen, online examinering, online toetsing

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

* Copy This Password *

* Type Or Paste Password Here *

De volgende HTML tags en attributen zijn toegestaan: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>