Weg met correctoren

Deze week werden de examenuitslagen bekend. Voor veel geslaagden en hun docenten een prachtig moment. :)

Als docent vervult het je van trots dat je de brugpiepers van ooit,de volwassen wereld in kan laten gaan. Hopelijk met voldoende goede bagage om in die wereld vooruit te kunnen.

Soms gaat een docent heel ver in zijn wens om leerlingen los te maken. Dat werd deze week nog pijnlijk duidelijk op een particuliere school. Een economie docent manipuleerde de antwoorden van leerlingen. De school heeft overigens direct na het examen het examenwerk gekopieerd. Hierdoor was het eenvoudig vast te stellen dat de docent de antwoorden gewijzigd had.

Arme studenten zij moeten het examen overdoen.

Dat begrijp ik dan weer niet.

Ze hadden toch kopieën van het examenwerk dan hadden ze die toch na kunnen kijken?

Het geeft maar weer aan dat corrigeren en doceren twee verschillende dingen zijn.

Je wilt het HALO-effect voorkomen. Je wilt voorkomen dat een docent denkt:

Ja maar Pietje weet dit wel ik heb het daar pas nog over gehad dus hij bedoelt dit goed.

En vervolgens krijgt Pietje 8 van de 10 punten in plaats van de 3 die hij verdient op grond van het gegeven antwoord.

In toetssoftware kun je correctoren koppelen aan examenwerk zonder dat ze de naam van de kandidaat zien. Ze worden ook niet afgeleid door een hiëroglyfen handschrift, want alles is getypt. Dat leest makkelijk weg.

 

Objectieve correctie

Van belang is dan ook dat een correctie zo objectief mogelijk plaats vindt.

Dat is wel heel moeilijk.

Wanneer je digitaal toetst krijg je de beschikking over veel data. Heel veel data.

Alles wat je er in stopt kun je er ook weer uit halen

roep ik dan blij. Die data kun je dus ook voor open vragen uit de database halen.

En logischerwijs voor de scoring van de corrector. (Of voor het gebruik van beoordelingsaspecten.)

Dat is dan wel weer griezelig.

Dus je kunt zomaar iets van een corrector vinden wanneer je digitaal toetst?

Ja dat kan.

Je kunt bijvoorbeeld ontdekken dat een corrector altijd een roze bril op zet bij de correctie.

En let op: de meeste van onze gebruikers stellen de software zo in dat de corrector geen idee heeft wie de kandidaat is.

Dat is op een school of een school examen wel heel wat anders.

De conclusie luidt dan ook dat correctoren zichzelf meenemen in de correctie.

Sommige mensen willen het beste zien in mensen en anderen moeten daar zeer duidelijk van overtuigd worden en zijn dus veel strenger.

En nu?

Klinkt allemaal tamelijk hopeloos….

Als corrector kun je het eigenlijk niet goed doen.

Je bent of te streng of niet streng genoeg.

Eigenlijk wil je dat als ik examenwerk beoordeel dat mijn collega beoordelaar tot exact hetzelfde resultaat komt.

Omdat dat vaak niet zo is hebben we in TeleToets een uitgebreide correctielogistiek die het mogelijk maakt om twee tot vier correctoren te koppelen aan examenwerk. Daarbij kun je in de bepaling van het eindresultaat de meest afwijkende score weglaten. Of je kiest voor de gemiddelde score. Zo zijn er 11 mogelijkheden om tot een einduitslag te komen met meerdere correctoren.

correctie

Nadeel hiervan is dat de kosten van het examen oplopen. Drie correctoren is duurder dan één corrector. Voor het systeem maakt het niets uit. TeleToets rekent gewoon uit wat je ingesteld hebt.

Je kan wel analyseren wie de corrector is met de meeste genegeerde scores.

Dat zou wel eens degene met de roze bril kunnen zijn.

Wat te doen?

Het is niet allemaal hopeloos.

Door correctoren/beoordelaars goed te instrueren gaan ze beter beoordelen. Intervisie helpt ook. En wees bewust van de beoordelaars subjectiviteit.

 

Geplaatst in Andriessen, beoordelen, onderwijs, online examination, online examinering, online toetsing, TeleToets

190.000 examenafnames op papier

Afgelopen zaterdag was het weer zover: deel 3 van de CFA toets.

De CFA toets?

De CFA toets is een driedelige toets van het Amerikaanse Chartered Finance Analyst Instituut (CFA) voor investeren en beleggen. Het is een examen dat nog op papier afgenomen wordt. Voor kandidaten betekent dit een hele dag schrijven.

Wat een marteling!

Meer lezen over dit mysterieuze examen: dat kan hier.

Het examen is aan strenge regels gebonden.

Deze regels worden voorgelezen aan het begin van het examen. Maar let op:

Achteraf kan je examen altijd ongeldig verklaard worden.

Dat is geen kleinigheid. Want voor dit examen zet je je sociale leven opzij. De voorbereiding kost zo’n 300 uur.

Op het blog 300hours vond ik deze grafiek over overtredingen bij het CFA examen:

CFA

Achteraf hoort de kandidaat pas dat hij bijvoorbeeld teveel naar links gekeken heeft.

CFA fraude

Je moet dan bewijzen dat je dat niet gedaan hebt.

Ga er maar aanstaan.

Het beste en veiligste is om je goed aan de regels te houden.

Hier staan goede tips om achteraf problemen bij dit examen te voorkomen.

 

Waarom vertel ik dit nu allemaal?

 

Omdat ik zo verbaasd ben.

In de eerste plaats wordt een enorme operatie opgetuigd om spieken te voorkomen. De 190.000 kandidaten wereldwijd zitten in verschillende tijdzones en mogen de vragen niet van elkaar horen. Daarom mag je ook beslist niet praten over het examen en/of op fora exameninhoud delen. Dan wordt je examen ongeldig verklaard.

In de tweede plaats zijn de examens dikke telefoonboeken die met potlood ingevuld moeten worden.

Potlood vergeten?

Jammer dan.

Het roept bij mij één vraag op:

Waarom wordt deze toets niet digitaal afgenomen met random examens?

Dat zou een aantal zaken oplossen.

Wanneer de toets als SAAS oplossing aangeboden wordt is enkel een browser (en een laptop/PC/tablet met internetverbinding) nodig om de toets af te nemen. De hele papieren logistieke operatie wordt overbodig. De kans dat vragen op straat komen is veel kleiner geworden want de examens zijn voor niemand inzichtelijk, behalve voor de toetsconstructeurs. Alle handelingen die met de papieren examens plaats vinden hebben in principe een risico in zich.

De strenge eisen achteraf kunnen misschien blijven, maar de kans op afkijken is veel kleiner als je weet dat je buurman een ander examen heeft. Over die strenge eisen zal in een ander blog nog eens wat schrijven want ik vind daar wel iets van :).

Ik vraag me af of we in Nederland een examen kennen wat dergelijke regels hanteert.

Ik hoor het graag.

 

 

 

 

Geplaatst in beoordelen, online examination, online examinering

Ondubbelzinnige examenvragen?

Zoals uit onze blogs op deze website wel blijkt:

Het maken van een goed examen is een vak apart.

Hoe moeilijk het is om een goed examen te maken, heb ik als student vaak ervaren. Bij het beantwoorden van een open vraag in een tentamen heb ik me regelmatig moeten verplaatsen in de toetsconstructeur. Ik vroeg steeds af:

Wat wil de examenmaker dat ik op deze open vraag antwoord?

Dat ik mezelf deze vraag moest stellen, bewijst dat de open vragen in deze examens niet altijd even sterk waren. De vragen waren op meerdere manieren te interpreteren.

Het is voor een vragenmaker heel moeilijk ondubbelzinnige vragen te bedenken. De vraag moet zo helder zijn dat je hem maar op één manier kunt interpreteren. Je moet een vraag bedenken waar alle informatie in staat om de vraag goed te kunnen beantwoorden. Maar ook niet te veel informatie. Dit leidt de student af. Al met al veel kwaliteitsaspecten waar een toetsconstructeur bij iedere vraag rekening mee moet houden.

Bijvoorbeeld:

Welke kleur jurk had koningin Maxima aan op Koningsdag?

Op het eerste gezicht lijkt dit een heldere vraag. Je denkt meteen aan de laatste Koningsdag. Ga je verder nadenken, dan kom je erachter dat je informatie mist.

Namelijk het jaartal! Ieder jaar heeft zij natuurlijk een andere jurk.

Dit is een eenvoudig voorbeeld, maar dit soort ‘constructiefouten’ komen vaak voor.

Hoe kun je dit voorkomen?

6 Tips:

  1. Voordat je de examenvraag formuleert, schrijf eerst het antwoordmodel op. Schrijf volledig uit welk antwoord je van de student verwacht.
  2. Bedenk dan welke vraag en eventueel extra informatie de student nodig heeft om dit antwoord op te schrijven. Geef de student voldoende informatie waarmee je de gewenste kennis activeert. Kennis mag als bekend verondersteld worden, maar alleen als deze kennis onderdeel is van de lesstof.
  3. Stel een concrete vraag. Zorg dat een student de vraag maar op één manier kan lezen en dat een vraag niet voor meerdere interpretaties vatbaar is.
  4. Let op met het gebruik van vakjargon. Gebruik alleen vakjargon uit de lesstof. Ga er niet zomaar vanuit dat ander vakjargon buiten de lesstof bekend is bij de student.
  5. Geef antwoordrestricties. Hiermee voorkom je dat een student hele verhalen gaat opschrijven waarin je zelf het goede antwoord moet zoeken. Geef bijvoorbeeld aan hoeveel redenen ze moeten noemen of hoeveel woorden het antwoord mag beslaan.

De belangrijkste tip is de volgende:

Leg nieuwe examenvragen aan andere mensen voor.

Bij voorkeur mensen die niet de kennis hebben die jij bezit. Omdat jij bepaalde voorkennis bezit, kun je een vraag anders lezen als iemand die deze kennis niet bezit. Zij kunnen samen met jou vaststellen of de open vraag volledig en ondubbelzinnig geformuleerd is. Hoe goed jij ook bent in het maken van examenvragen, dit risico ligt altijd op de loer……

 

Geplaatst in kwaliteit, onderwijs, vraagsoorten

Mannen zijn zieker

De griepgolf is bijna over.

Opnieuw ging het over: Mannen zijn zieker dan vrouwen.

Naast een aantal wetenschappelijke verklaringen heeft het ook te maken met perceptie.

Hoe bedoel je?

Nou dit:

griep

Veel heeft te maken met waarnemen: wat zie je. Hoe gedraagt jouw vriend of vriendin zich. Hoe gingen ze bij je thuis om met griep? Artikelen in nieuwsrubrieken kunnen je waarnemingen bevestigen. Al deze ervaringen kleuren je waarneming en maken dat je een stereotype beeld krijgt over mannen en ziek zijn.

De vraag is natuurlijk of het terecht is.

Wat?

Nou of jouw beeld een eerlijk beeld is.

Wat heeft dit eigenlijk te maken met toetsen?

Alles.

Hoezo?

Ook bij toetsen heb je te maken met waarnemen.

Je kijkt naar de examenresultaten van een kandidaat en als beoordelaar (corrector/docent) vind je er iets van.

Natuurlijk dat is mijn vak!

Ja, maar heb je je wel gerealiseerd dat je met jouw eigen kleuring van de waarheid te maken hebt?

Dat doet zich ook voor bij het corrigeren van examen werk.

Begin dit jaar verscheen in De Morgen dit artikeltje:

Academici pleiten voor naamloze examens

Deze academici zijn zich bewust van de vooroordelen op basis van naam en geslacht. De bewustwording van vooroordelen is één ding de objectivering een andere.

Maar hoe doe je dat een beoordeling objectiveren?

Tips voor objectiever oordelen

  1. Het beoordelen van examens die geanonimiseerd zijn helpt bij een objectiever oordeel.
  2. Bij voorkeur digitale examens. Examens zien er dan allemaal hetzelfde uit. Een beoordelaar kan ook een vooroordeel op basis van het handschrift hebben.
  3. Vooraf een toets laten maken door een collega geeft inzicht in mogelijke interpretatiefouten van kandidaten.
  4. Intervisie tussen beoordelaars helpt bij het bewust worden van vooroordelen.
  5. Een beoordelingsmodel zorgt voor een meer gelijke beoordeling tussen kandidaten. Bij iedere kandidaat wordt op dezelfde punten gelet.

Gaat het zo wel altijd goed?

Nee. Je zal je bewust moeten blijven van vooroordelen. Vooral onbewuste vooroordelen zijn daarbij gevaarlijk.

Maar ja mannen zijn dan ook altijd zieker ;)

 

Meer lezen:

HALO en HORN knock-out

Anoniem je toets maken

Corrigeren is moeilijk

 

Geplaatst in beoordelen, beoordelingsexamen, onderwijs, online examinering, online toetsing

Check: weergave digitale toets

Wist je dat je digitale toets er op verschillende manieren uit kan zien?

Opvallend genoeg weten de meeste mensen dat niet.

Examenbureaus en scholen die gebruik maken van een digitale toets zijn vooral bezig met het gebruikersgemak aan de achterkant.

Aan de administratiezijde.

In mijn optiek klopt dat niet.

Het aller- maar dan ook aller- belangrijkste is het gemak voor de kandidaat.

De kandidaat moet ongestoord examen doen. Ongestoord en vanuit de toetssoftware bezien zo eenvoudig mogelijk.

Oh bedoel je dat, maar dat is simpel toch?

Even een proeftoetsje laten maken en ze weten het.

 

Was het maar zo’n feest.

Meestal zie je dat vragen op dezelfde manier als bij een papieren toets aangeboden worden. Ik bedoel daarmee dat de vragen op papier zo nauwkeurig mogelijk overgenomen worden in de toetssoftware.

Kijk maar in dit voorbeeld van QMP

qmpvoorbeeld

De kandidaat kan alleen naar boven en beneden in het scherm. Je ziet rechts een scrollbalk en die arme kandidaat moet zich een weg scrollen door het examen. Alsof het een heel lang papier is.

Een soort keukenrol vol examenteksten.

Dat kan anders

Beter is dit voorbeeld uit Remindotoets:

remindo

Per scherm zie je één vraag. Weliswaar nog net zo als op papier, maar slechts één vraag per scherm.

Geen keukenrol dus.

Dat kan beter

In een pilot met onze toetssoftware (TeleToets) werd duidelijk dat onze weergave van toetsen de beste is voor digitale afname. Leerlingen die snel afgeleid waren bleken binnen de normale examentijd de toets te kunnen maken.

De toets zag er per vraag ongeveer zo uit:

teletoets

 

 

Zonder enige vorm van oefening kon iedereen de toets maken.

Alle functies waren duidelijk.

In de evaluatie gaven leerlingen aan dat de toets prettig en overzichtelijk was.

Dit zijn de sterke punten:

  1. De opbouw van een item is altijd hetzelfde. Links de casus, rechts de vraag en de mogelijkheid tot antwoord. Wanneer er geen casus is, staat de vraag links en het antwoord rechts.
  2. Duidelijke help functie.
  3. Heldere navigatie knoppen en overzicht van de gehele toets.
  4. Tijdaanduiding.
  5. Arceer functionaliteit.
  6. Alle informatie per vraag op één scherm (bij voorkeur zonder scrollbalken).

Voeg daar nog aan toe dat TeleToets zeer stabiel draait en je begrijpt waarom iedereen zo blij met ons is :) (beetje reclame maken mag wel).

TeleToets is niet de enige die het op deze wijze doet. Ook Facet is op deze wijze vorm gegeven.

Kijk maar:

facet
Nadeel hier: rechts en links zijn grote stukken wit bij een grote monitor.

De eigenlijke toets schaalt niet mee met de grootte van de monitor.

Ik vermoed dat hier door het CVTE bewust voor gekozen is zodat de toets voor alle kandidaten er hetzelfde uit ziet.

Voor alle geïnteresseerden in toetssoftware heb ik de volgende tip:

Check de weergave van de toets.

 

Geplaatst in online examination, online examinering, online toetsing, QMP, RemindoToets, TeleToets

Nieuws in de strijd tegen fraude

Nou ja, nieuws in de strijd tegen fraude?

Het is wel oud nieuws.

Waar gaat het om?

Om dit bericht:

10000vragen

 

Grappig :)

Twee jaar geleden schreef ik dit: Fraude bestrijding vanuit de toets.

Nog eerder schreef ik Fraude en beveiliging draconische maatregelen.

De essentie van beide blogs:

Zorg voor een grote itembank. Wanneer je meer dan genoeg items hebt kun je steeds unieke examens maken. De samenwerking tussen de vijf hogescholen is bijzonder, want samen hebben ze meer toetsvragen dan ieder alleen.

Voor iedere vraag die je aanlevert, krijg je er vier terug.

Dat zet zoden aan de dijk.

Iedere hogeschool levert vragen aan en krijgt vier keer zoveel vragen terug. Op die manier kun je wel een itembank van een paar honderd of duizend vragen maken.

Samenwerken loont!

De redenering is als volgt:

Wanneer je in staat bent alle vragen uit je hoofd te leren dan beheers je de stof ook.

In sommige opleidingen wordt hier al gebruik van gemaakt. Je kan de toegang tot examenvragen kopen. Dan kun je met de vragen eindeloos oefenen. Je weet zeker dat deze vragen ook gebruikt worden in de toets.

Een voldoende is haalbaar door:

  • de stof goed te leren en
  • te oefenen met de toetsvragen of
  • alle examenvragen en antwoorden uit je hoofd te leren.

Ik vraag me nu wel af of ze bij die vijf hogescholen geïnspireerd zijn door mijn blogs :)

Geplaatst in fraude, itembank, online examinering, online toetsing

Toekomst: Adaptief toetsen?

Op 12 oktober heb ik de ‘Masterclass Adaptief toetsen’ van Surfnet bezocht. Deze bijeenkomst heeft mij inzicht gegeven in hoe je adaptieve toetsen kunt opzetten.

Wat is adaptief toetsen?

Adaptief toetsen is een toets waarbij de moeilijkheidsgraad van de vragen zich aanpast aan de kandidaat op basis van de antwoorden die gegeven worden (Bonefaas, 2012). Met andere woorden, hoe meer vragen de kandidaat goed beantwoordt, hoe hoger het niveau van de volgende vragen en andersom. Na een vastgesteld aantal vragen wordt bepaald op welk niveau de kandidaat de stof beheerst.

Hoe maak je een toets adaptief?

In de Masterclass zijn drie methodes besproken:

  1. Branching
  2. Computer Adaptive Testing
  3. Elo-rating systeem

1. Branching

Je bepaalt per vraag de moeilijkheidsgraad. Bijvoorbeeld met behulp van een (range van) p-waarde. De p-waarde is het percentage kandidaten dat deze vraag juist beantwoord heeft. Hoe hoger de p-waarde, hoe makkelijker de vraag. Hoe lager de p-waarde, hoe moeilijker de vraag. Bij een rekenopgave zou je de moeilijkheidsgraad bijvoorbeeld kunnen koppelen aan het aantal rekenstappen dat je moet doen om de opgave op te lossen. Hoe meer rekenstappen, hoe moeilijker de vraag.

Je groepeert de vragen met vergelijkbare moeilijkheidsgraad in kleine deeltoetsen. Hierna bepaal je de relaties tussen de toetsen.

Bijvoorbeeld:

Een kandidaat maakt vragen op niveau drie. Heeft de kandidaat minder dan 65% goed, gaat de kandidaat een niveau terug. Heeft de kandidaat meer dan 65% goed, gaat hij een niveau omhoog. Nadat de kandidaat deze vervolgvragen heeft gemaakt, wordt opnieuw bepaald hoeveel antwoorden de kandidaat goed heeft. Op basis hiervan krijgt de kandidaat vragen van een moeilijker of makkelijker niveau. Na een vastgesteld aantal vragen eindigt de toets. Op dit moment wordt duidelijk op welk niveau de kandidaat de stof beheerst.

Het nadeel van deze werkwijze is dat de toetsconstructeur veel beslissingen moet nemen. Bijvoorbeeld op welke wijze de moeilijkheidsgraad wordt bepaald en op welk moment de kandidaat een niveau omhoog of omlaag gaat.

Dat kan vast handiger! 

2. Computer Adaptive Testing (CAT)

Bij CAT wordt per vraag gekeken welke vervolgvraag aangeboden moet worden. Hier wordt rekening gehouden met de moeilijkheidsgraad van de vraag (p-waarde) maar ook met de geschatte vaardigheid van de kandidaat.

Bijvoorbeeld:

Hoe lager de vaardigheid van één van de kandidaat en hoe moeilijker de vraag, hoe kleiner de kans dat een kandidaat de vraag goed beantwoordt. Heeft de kandidaat de vraag tegen verwachting goed gemaakt, gaat de geschatte vaardigheid van een kandidaat omhoog en krijgt hij een moeilijkere vraag aangeboden. Het niveau van de vraag is blijkbaar verkeerd vastgesteld en wordt door het antwoord van de kandidaat automatisch naar beneden bijgesteld.

Een tweede voorbeeld. De kandidaat heeft een hoge vaardigheid en krijgt een makkelijke vraag aangeboden. Je zou verwachten dat deze kandidaat de vraag goed beantwoordt. Maakt de kandidaat de vraag fout, gaat de vaardigheid van een kandidaat omlaag en wordt het niveau van de vraag naar beneden bijgesteld.

Na een vastgesteld aantal vragen wordt bepaald op welk niveau de kandidaat op dat moment de stof beheerst. De rekentoets voor toelating tot de PABO werkt op deze wijze.

Om per vraag de p-waarde en vaardigheid te kunnen bepalen, moet veel informatie verzameld worden. Hiervoor moet het examen aan een groep van minimaal 500 (potentiële) kandidaten worden voorgelegd. Dit vergt een flinke investering. Alleen wanneer je de adaptieve toets op grote schaal kunt inzetten, is dit rendabel.

Dit klinkt al beter. Maar het kan vast nog handiger en voordeliger!

3. Elo-rating systeem

Het Elo-rating systeem maakt in de basis gebruik van dezelfde gegevens als bij het CAT, namelijk p-waardes en de vaardigheid. Het grootste verschil is dat de p-waardes en vaardigheid niet van te voren worden vastgesteld.

Hoe werkt het? 

Bij CAT worden de p-waarde en het vaardigheidsniveau bepaald op basis van de gegevens van de gemaakte examens van een grote groep kandidaten. Bij het Elo-rating systeem worden deze waardes aangepast per antwoord op de vraag. Maakt een kandidaat de vraag goed dan gaat de vaardigheid van een student omhoog en moeilijkheidsgraad van een vraag omlaag. Onder andere De Rekentuin werkt met deze methode. In onderstaande video wordt de werking van het Elo-rating systeem duidelijk uitgelegd.

Oefenweb Explanimation from Oefenweb on Vimeo.

Het nadeel is dat in het begin de werkelijke vaardigheid en p-waarde van de vragen nog niet bepaald zijn. Wanneer een vraag vaker is afgenomen, weet je meer over de vraag. De waardes gaan steeds meer stabiliseren. Voordat het systeem met meer zekerheid iets kan zeggen over het niveau van de kandidaat moet het examen door een behoorlijk aantal kandidaten gemaakt zijn. In het begin is het resultaat van de toets dus niet erg betrouwbaar. Daarom wordt deze vorm van adaptief toetsen vooral gebruikt bij low-stake testing (toetsen waarbij de gevolgen van zakken niet groot zijn).

Toekomst?!

Hoe mooi zou het zijn als een Elo-rating systeem gebruikt kan worden voor high-stake testing (testen waaraan bijvoorbeeld een diploma of kwalificatie gekoppeld is)! Een systeem dat het niveau van de vragen automatisch bepaalt en bijstelt. Om de waardes te laten stabiliseren, zullen de vragen eerst voorgelegd moeten worden aan een aantal kandidaten. Op deze wijze kan de kwaliteit van de vraag ook meteen getest worden.

 

Wie weet, in de toekomst…..

 

 

Geplaatst in adaptief toetsen, itemanalyse, online toetsing, tussentijds toetsen

En de boer hij ploegde voort….

De eerste associatie die ik met zaaien heb is  deze:

en de boer hij ploegde voort.

Na het ploegen volgt immers het zaaien (of poten) van gewas.

Wist je dat in  de toetswereld ook gesproken wordt over het zaaien en oogsten van items?

Ook dan moet je zorgen voor een ondergrond.

Een geploegd land.

Een itembank op orde. 

Wanneer je goede examens kan samenstellen, kun je daar ook nieuwe items inbrengen. Nieuwe items die nog niet meetellen.

Items waarvan je als vragen ontwikkelaar eens kan kijken of ze doen wat je ervan verwacht.

Kortom zaai-items.

We onderscheiden twee manieren van items testen op de kwaliteit en moeilijkheidsgraad:

  1. pre-testen
  2. zaaien

Pre-test

Bij pre-testen maak je gebruik van een doelgroep die zoveel mogelijk lijkt op de doelgroep die het echte examen moet gaan maken. Wanneer je in staat bent zo’n testgroep alvast de nieuwe items te laten maken heb je snel inzicht in de kwaliteit en moeilijkheidsgraad van je toets. Je kunt daarna de toets samenstellen met vooraf geteste vragen.

Nadeel is dat het moeilijk is om een vergelijkbare groep een examen te laten maken. Meestal hangt er voor hen niet hetzelfde gewicht aan. Wanneer je normaal voor een examen slaagt, kan of mag je meestal iets. Dat is voor deze pre-testgroepen niet zo.

Zaaien

Zaaien van items betekent dat je vragen meegeeft aan een echt examen. De vragen zijn niet te onderscheiden van de echte vragen. De kandidaat weet dus niet of hij een zaai-item of een echte vraag beantwoordt. Zaaien doe je eigenlijk net als de boer, je zorgt ervoor dat de aarde helemaal klaar is om het zaaigoed te ontvangen.

In de toets: de zaai-items zijn onderdeel van de toets en vallen niet op voor kandidaten tussen de echte vragen.

Bij een papieren examen kun je je eenvoudig voorstellen hoe dat gaat. Je stelt het immers helemaal zelf samen.

Ook met toetssoftware is dat mogelijk.

TeleToets

In TeleToets kun je bij het samenstellen van een vaste versie de zaai-items tussen gewone items plaatsen.

vaste versie

 

Random examens met zaai-items:

Daarnaast heb je de mogelijkheid om bij random examens de zaai-items tussen de vragen te tonen.random pretest

In dit geval worden maximaal 26 vragen gesteld in de toets.

Daarvan worden afhankelijk van de random trekking maximaal 2 cases met in totaal 4 vragen als pretest getrokken.

Minimaal zijn er 22 echte toetsvragen.

Intermezzo

Let op in onze applicatie worden zaai-items en pre-testitems als hetzelfde gezien.

De technische afhandeling is immers hetzelfde: ze tellen niet mee in de uitslag.

Sommige toetsapplicaties geven de mogelijkheid om vragen nul punten mee te geven. Daarmee creëren ze de mogelijkheid tot zaai-items. Helaas zijn deze items meestal niet herkenbaar in de itembank.

In TeleToets zijn ze wel herkenbaar (aan de [P] voor het itemID):

pre test

 

 

 

 

Zaai-items onderaan de toets

Soms wil je liever dat de zaai-items als laatste gesteld worden bij een overigens random toets. 

pre-test onderaanDat kan ook.

In dit geval stel je in hoeveel toetsvragen minimaal en maximaal getrokken mogen worden.

Dan bepaal je de lengte van de toets (28).

Tenslotte stel je in hoeveel casussen gesteld mogen worden als pretestvraag.

In dit geval twee. Deze twee komen aan het eind van de toets.

Wanneer een kandidaat in tijdnood is maakt hij deze vragen niet. De echte toets hoeft er dan niet onder te leiden.

 

 

 

 

 

 

 

Overdenking

Veel examenbureaus aarzelen enorm bij de inzet van zaai-items.

Ze zijn bang dat kandidaten het niet eerlijk vinden.

Of dat deelnemers aan een examen in tijdnood komen door de extra vragen.

Dat laatste is eenvoudig op te lossen. Door de examentijd iets te verlengen ontstaat de mogelijkheid om te zaaien.

Persoonlijk denk ik dat het zaaien van items tot betere examens leidt. Betere examens zijn voor zowel examenbureau als kandidaat plezierig dus waarom niet?

Uiteindelijk is het met zaaien van items dus net als met die zaaiende boer:

wanneer je geduld hebt komen er mooie en goede vragen op.

Geplaatst in Andriessen, itembank, kwaliteit, moeilijkheidsgraad, pre-test, vraagsoorten, zaai-item

Online proctoring, goed idee?

Wat is dat?

Online proctoring?

Online proctoring is het online toezicht houden op bijvoorbeeld een examenkandidaat die een toets aan het maken is.

Dat klinkt interessant. En dat is het ook.

Wij hebben een test gedaan met ProctorExam.

Bij ProctorExam wordt volgens drie principes toezicht gehouden:

  1. Light
  2. Classic
  3. Pro

Je ziet hier overzichtelijk de verschillen:

proctor verschillen

 

ProctorExam kwam al in het Belgische nieuws:

 

Natuurlijk waren we geïnteresseerd.

Hoe werkt het nou en werkt het goed genoeg voor ons?

 

Pilot

We hebben een pilot gedaan en ProctorExam aan de allerzwaarste Andriessen eisen onderworpen.

Je moet weten dat we nu toetslocaties aanbieden door het hele land met getrainde toezichthouders.

We hechten enorm aan ongestoorde examenafnames en aan het voorkomen van fraude.

De concurrentie voor ProctorExam is zwaar.

 

Praktijk

Het geheel werkt fantastisch precies zoals in de demo video’s. Kijk maar even hier.

In praktijk blijkt het voor sommige deelnemers wel lastig te zijn om de juiste dingen te doen en het examen goed op te starten.

Wanneer je niet zo ICT vaardig bent is het opstarten van het examen voor sommige deelnemers een onoverkomelijke hobbel. Je moet namelijk een plug-in installeren in je browser. Deze plug-in zorgt ervoor dat je je beeldscherm deelt. Dat gaat makkelijk. plug-in

Daarnaast moet je een app op je telefoon installeren. In bedrijfssituaties of op scholen kan dit een nare vertraging geven wanneer je de rechten niet hebt om dit soort aanpassingen op je telefoon te doen. Verder hoef je gelukkig niets te installeren.

Ikzelf had de ervaring dat ik het examen niet mocht opstarten omdat er meerdere tabbladen geopend waren. Het bleek hier te gaan om de chatbox (helpfunctie) met ProctorExam. Het is vervelend dat je dan niet meteen in de gaten hebt wat er aan de hand is. Je wilt dat een kandidaat zijn examen zo ongestoord mogelijk maakt. Ik kan me voorstellen dat je hier zenuwachtig van wordt.

De meeste mensen die meededen aan de pilot kregen een melding dat de verbinding niet goed genoeg was. Desondanks konden ze het examen gewoon maken en bleek ook achteraf geen probleem in de proctoring. Deze melding is een advies en desgewenst geeft de live proctor nog advies om de verbinding te verbeteren.

Reactie op de lay-out van Proctorexam:

Was gewoon goed

En dat is ook zo.

Toch zou ik nu niet adviseren om ProctorExam gelijk te gebruiken voor high-stake examens.

Het lukte mij om ongemerkt een screencast van het examen te maken. Daarmee ligt de inhoud van een examen op straat.

Conclusie

ProctorExam is zeer geschikt om gelijktijdig een groter aantal examens af te nemen. Met name in een situatie waarbij de kandidaat zijn eigen laptop mee neemt (BYOD) en toezicht is geregeld kan de lightversie van proctorexam een waardevolle aanvulling zijn.

Examens in het buitenland zijn geschikt om met ProctorExam af te nemen (zie ook het voorbeeld in het VTM filmpje). Persoonlijk zou ik hierbij live proctoring adviseren (de PRO versie), dit garandeert het beste dat er geen fraude gepleegd kan worden.

Het is wel zo dat examens waar veel van afhangt nu nog niet geschikt zijn voor ProctorExam. Enerzijds omdat je voor de kandidaat zeker moet zijn van de techniek. Anderzijds omdat je wilt voorkomen dat je vragen bekend worden.

Natuurlijk wil je ook voorkomen dat de kandidaat fraude kan plegen, bijvoorbeeld door te spieken. Met name bij de Classic variant en de Light variant (zonder toezicht)  lijkt dit wel mogelijk.

 

 

 

 

Geplaatst in online examination, online examinering, proctoring

Over p-, a- en Ritwaarden revisited

De meest gelezen blog op onlineexamineren is de blog over p-, a- en Ritwaarden.

Het is ook de meest geciteerde blog :)

Ik begrijp dat wel.

Het blijft moeilijk om de p-, a- en Rit-waarde goed in de grip te hebben.

sleutel

 

Vandaar dat ik het nog een keertje overdoe.

Ik leg het nog eens uit maar dan anders.

Een item (vraag) is meestal opgebouwd uit:

  • De stam, de vraag zelf.
  • Het antwoord, de sleutel.
  • En de afleiders

Om te beginnen met de laatste, de makkelijkste, de afleiders.

 

Afleider

De a van a-waarde verwijst naar de afleider.

In toetssoftware wordt vaak de term afleideranalyse gebruikt. Ook als je geen gebruik maakt van toetssoftware kun je eenvoudig een afleideranalyse maken.

Je telt eenvoudig het aantal antwoorden per gekozen antwoord alternatief. Dan bereken je per antwoordalternatief het percentage kandidaten dat voor deze variant gekozen heeft.

Rekenvoorbeeld:

Antwoord Gesteld Weegfactor Gekozen Percentage
Afleider A 205 1 1 0,49
Afleider B 205 1 50 24,39
Afleider C 205 1 65 31,70
Sleutel D (Goed) 205 1 89 43,41

Oké, en nu?

Je ziet hier dat één afleider nauwelijks gekozen wordt.

Weglaten dus.

Wanneer je deze toetsvraag nogmaals gebruikt, laat je dit alternatief weg. Het heeft geen toegevoegde waarde.

Afleider B en C hebben dusdanig hoge waarden dat je je af kan vragen of je de kandidaat niet aan het misleiden bent. Het verschil met het juiste antwoord is klein. Je moet in ieder geval nog eens goed naar de inhoud van deze afleiders kijken.

Of:

Je stelt vast dat de kandidaten het niet begrepen hebben.

De sleutel

De sleutel is het goede antwoord. In bovenstaand voorbeeld is de sleutel antwoordalternatief D. De bijbehorende p-waarde is 0,43.

De p-waarde is de proportie goede antwoorden. De p-waarde geeft de moeilijkheidsgraad van een item weer. De Gruijter (2008) zegt daarover:

Eigenlijk is de p-waarde een gemakkelijkheidindex: de index is immers de proportie goede antwoorden.

Een lage p-waarde wijst erop dat maar weinig mensen de vraag goed beantwoord hebben. Mogelijk was de vraag moeilijk. Of is de vraag foutief gesteld, een constructiefout in de vraag bijvoorbeeld.

Een hele hoge p-waarde geeft aan dat bijna iedereen de vraag goed gemaakt heeft. Dat kan betekenen dat de vraag heel gemakkelijk was. Het kan ook betekenen dat iedereen alles heel goed heeft begrepen.

Tja en wat moet je er dan mee?

Eigenlijk wil je dan wel graag zien hoe de vraag het in de rest van de toets deed. Hebben de mensen die dit item goed gemaakt hebben de toets gehaald? En andersom zijn de mensen die deze vraag niet goed deden gezakt?

Dat kun je bekijken met de Rit-waarde.

Rit-waarde

De Rit-waarde is de items test correlatie of de item totaal correlatie.

Het uitgangspunt is dat we denken dat de goede kandidaat meer vragen goed zal beantwoorden dan de slechte kandidaat. We willen dus dat een vraag het onderscheid maakt tussen goede en slechte kandidaten. Daarom kijken we naar de totaalscore op de toets.

We verwachten dat de totaalscore van de toets en de score op het item een positief verband hebben, dus hoger dan 0,20 bijvoorbeeld.

Wanneer de Rit-waarde nul is draagt het item niet bij aan het onderscheid tussen de goede en slechte kandidaten. Dat doet zich bijvoorbeeld voor wanneer iedereen de vraag goed beantwoord heeft. De p-waarde is dan één. De Rit-waarde is nul. Ook wanneer niemand de vraag goed heeft is de Rit-waarde nul.

Maar wat nu wanneer je een p-waarde van 0,24 hebt en een Rit waarde van -0,068?

Je kan in ieder geval zeggen dat hier sprake is van een moeilijke vraag.

Deze vraag maakt geen onderscheid tussen de kandidaten met een hoge en een lage score. Dat willen we juist wel.

In dit geval moet je de vraag goed gaan bekijken, zitten er bijvoorbeeld constructiefouten in de vraag?

Bij nader inzien kan het zijn dat een vraag ervaren wordt als misleidend. De kandidaat wordt op het verkeerde been gezet. In dat geval zul je de vraag moeten herzien. Soms is ook het verkeerde alternatief als juist aangegeven. Ook dat kan leiden tot vreemde p- en Rit-waarden.

Je kunt de p- en de Rit-waarde in een grafiek uitzetten. In deze grafiek zie je dan de verschillende items:

vraaganalyse

De items in de rode vlakken moeten in ieder geval onder de loep genomen worden.

Verder valt hier op dat er wel erg veel makkelijke items zijn (hoge p-waarden). De norm voor een acceptabele Rit waarde varieert. In de literatuur wordt over het algemeen de volgende normering aangehouden:

 

0.40 en hoger zeer goed
0.30 – 0.39 goed
0.20 – 0.29 twijfelachtig
0.19 en lager slecht

 

Kortom:

Het is altijd zinvol om een analyse van p-,a- en Rit-waarden te doen. Hoe summier ook. 

Wanneer je vervolgens wat met deze analyse doet zal de kwaliteit van je toets omhoog gaan.

Geplaatst in itemanalyse, itembank, moeilijkheidsgraad, online examinering