Mannen zijn zieker

De griepgolf is bijna over.

Opnieuw ging het over: Mannen zijn zieker dan vrouwen.

Naast een aantal wetenschappelijke verklaringen heeft het ook te maken met perceptie.

Hoe bedoel je?

Nou dit:

griep

Veel heeft te maken met waarnemen: wat zie je. Hoe gedraagt jouw vriend of vriendin zich. Hoe gingen ze bij je thuis om met griep? Artikelen in nieuwsrubrieken kunnen je waarnemingen bevestigen. Al deze ervaringen kleuren je waarneming en maken dat je een stereotype beeld krijgt over mannen en ziek zijn.

De vraag is natuurlijk of het terecht is.

Wat?

Nou of jouw beeld een eerlijk beeld is.

Wat heeft dit eigenlijk te maken met toetsen?

Alles.

Hoezo?

Ook bij toetsen heb je te maken met waarnemen.

Je kijkt naar de examenresultaten van een kandidaat en als beoordelaar (corrector/docent) vind je er iets van.

Natuurlijk dat is mijn vak!

Ja, maar heb je je wel gerealiseerd dat je met jouw eigen kleuring van de waarheid te maken hebt?

Dat doet zich ook voor bij het corrigeren van examen werk.

Begin dit jaar verscheen in De Morgen dit artikeltje:

Academici pleiten voor naamloze examens

Deze academici zijn zich bewust van de vooroordelen op basis van naam en geslacht. De bewustwording van vooroordelen is één ding de objectivering een andere.

Maar hoe doe je dat een beoordeling objectiveren?

Tips voor objectiever oordelen

  1. Het beoordelen van examens die geanonimiseerd zijn helpt bij een objectiever oordeel.
  2. Bij voorkeur digitale examens. Examens zien er dan allemaal hetzelfde uit. Een beoordelaar kan ook een vooroordeel op basis van het handschrift hebben.
  3. Vooraf een toets laten maken door een collega geeft inzicht in mogelijke interpretatiefouten van kandidaten.
  4. Intervisie tussen beoordelaars helpt bij het bewust worden van vooroordelen.
  5. Een beoordelingsmodel zorgt voor een meer gelijke beoordeling tussen kandidaten. Bij iedere kandidaat wordt op dezelfde punten gelet.

Gaat het zo wel altijd goed?

Nee. Je zal je bewust moeten blijven van vooroordelen. Vooral onbewuste vooroordelen zijn daarbij gevaarlijk.

Maar ja mannen zijn dan ook altijd zieker ;)

 

Meer lezen:

HALO en HORN knock-out

Anoniem je toets maken

Corrigeren is moeilijk

 

Geplaatst in beoordelen, beoordelingsexamen, onderwijs, online examinering, online toetsing

Check: weergave digitale toets

Wist je dat je digitale toets er op verschillende manieren uit kan zien?

Opvallend genoeg weten de meeste mensen dat niet.

Examenbureaus en scholen die gebruik maken van een digitale toets zijn vooral bezig met het gebruikersgemak aan de achterkant.

Aan de administratiezijde.

In mijn optiek klopt dat niet.

Het aller- maar dan ook aller- belangrijkste is het gemak voor de kandidaat.

De kandidaat moet ongestoord examen doen. Ongestoord en vanuit de toetssoftware bezien zo eenvoudig mogelijk.

Oh bedoel je dat, maar dat is simpel toch?

Even een proeftoetsje laten maken en ze weten het.

 

Was het maar zo’n feest.

Meestal zie je dat vragen op dezelfde manier als bij een papieren toets aangeboden worden. Ik bedoel daarmee dat de vragen op papier zo nauwkeurig mogelijk overgenomen worden in de toetssoftware.

Kijk maar in dit voorbeeld van QMP

qmpvoorbeeld

De kandidaat kan alleen naar boven en beneden in het scherm. Je ziet rechts een scrollbalk en die arme kandidaat moet zich een weg scrollen door het examen. Alsof het een heel lang papier is.

Een soort keukenrol vol examenteksten.

Dat kan anders

Beter is dit voorbeeld uit Remindotoets:

remindo

Per scherm zie je één vraag. Weliswaar nog net zo als op papier, maar slechts één vraag per scherm.

Geen keukenrol dus.

Dat kan beter

In een pilot met onze toetssoftware (TeleToets) werd duidelijk dat onze weergave van toetsen de beste is voor digitale afname. Leerlingen die snel afgeleid waren bleken binnen de normale examentijd de toets te kunnen maken.

De toets zag er per vraag ongeveer zo uit:

teletoets

 

 

Zonder enige vorm van oefening kon iedereen de toets maken.

Alle functies waren duidelijk.

In de evaluatie gaven leerlingen aan dat de toets prettig en overzichtelijk was.

Dit zijn de sterke punten:

  1. De opbouw van een item is altijd hetzelfde. Links de casus, rechts de vraag en de mogelijkheid tot antwoord. Wanneer er geen casus is, staat de vraag links en het antwoord rechts.
  2. Duidelijke help functie.
  3. Heldere navigatie knoppen en overzicht van de gehele toets.
  4. Tijdaanduiding.
  5. Arceer functionaliteit.
  6. Alle informatie per vraag op één scherm (bij voorkeur zonder scrollbalken).

Voeg daar nog aan toe dat TeleToets zeer stabiel draait en je begrijpt waarom iedereen zo blij met ons is :) (beetje reclame maken mag wel).

TeleToets is niet de enige die het op deze wijze doet. Ook Facet is op deze wijze vorm gegeven.

Kijk maar:

facet
Nadeel hier: rechts en links zijn grote stukken wit bij een grote monitor.

De eigenlijke toets schaalt niet mee met de grootte van de monitor.

Ik vermoed dat hier door het CVTE bewust voor gekozen is zodat de toets voor alle kandidaten er hetzelfde uit ziet.

Voor alle geïnteresseerden in toetssoftware heb ik de volgende tip:

Check de weergave van de toets.

 

Geplaatst in online examination, online examinering, online toetsing, QMP, RemindoToets, TeleToets

Nieuws in de strijd tegen fraude

Nou ja, nieuws in de strijd tegen fraude?

Het is wel oud nieuws.

Waar gaat het om?

Om dit bericht:

10000vragen

 

Grappig :)

Twee jaar geleden schreef ik dit: Fraude bestrijding vanuit de toets.

Nog eerder schreef ik Fraude en beveiliging draconische maatregelen.

De essentie van beide blogs:

Zorg voor een grote itembank. Wanneer je meer dan genoeg items hebt kun je steeds unieke examens maken. De samenwerking tussen de vijf hogescholen is bijzonder, want samen hebben ze meer toetsvragen dan ieder alleen.

Voor iedere vraag die je aanlevert, krijg je er vier terug.

Dat zet zoden aan de dijk.

Iedere hogeschool levert vragen aan en krijgt vier keer zoveel vragen terug. Op die manier kun je wel een itembank van een paar honderd of duizend vragen maken.

Samenwerken loont!

De redenering is als volgt:

Wanneer je in staat bent alle vragen uit je hoofd te leren dan beheers je de stof ook.

In sommige opleidingen wordt hier al gebruik van gemaakt. Je kan de toegang tot examenvragen kopen. Dan kun je met de vragen eindeloos oefenen. Je weet zeker dat deze vragen ook gebruikt worden in de toets.

Een voldoende is haalbaar door:

  • de stof goed te leren en
  • te oefenen met de toetsvragen of
  • alle examenvragen en antwoorden uit je hoofd te leren.

Ik vraag me nu wel af of ze bij die vijf hogescholen geïnspireerd zijn door mijn blogs :)

Geplaatst in fraude, itembank, online examinering, online toetsing

Toekomst: Adaptief toetsen?

Op 12 oktober heb ik de ‘Masterclass Adaptief toetsen’ van Surfnet bezocht. Deze bijeenkomst heeft mij inzicht gegeven in hoe je adaptieve toetsen kunt opzetten.

Wat is adaptief toetsen?

Adaptief toetsen is een toets waarbij de moeilijkheidsgraad van de vragen zich aanpast aan de kandidaat op basis van de antwoorden die gegeven worden (Bonefaas, 2012). Met andere woorden, hoe meer vragen de kandidaat goed beantwoordt, hoe hoger het niveau van de volgende vragen en andersom. Na een vastgesteld aantal vragen wordt bepaald op welk niveau de kandidaat de stof beheerst.

Hoe maak je een toets adaptief?

In de Masterclass zijn drie methodes besproken:

  1. Branching
  2. Computer Adaptive Testing
  3. Elo-rating systeem

1. Branching

Je bepaalt per vraag de moeilijkheidsgraad. Bijvoorbeeld met behulp van een (range van) p-waarde. De p-waarde is het percentage kandidaten dat deze vraag juist beantwoord heeft. Hoe hoger de p-waarde, hoe makkelijker de vraag. Hoe lager de p-waarde, hoe moeilijker de vraag. Bij een rekenopgave zou je de moeilijkheidsgraad bijvoorbeeld kunnen koppelen aan het aantal rekenstappen dat je moet doen om de opgave op te lossen. Hoe meer rekenstappen, hoe moeilijker de vraag.

Je groepeert de vragen met vergelijkbare moeilijkheidsgraad in kleine deeltoetsen. Hierna bepaal je de relaties tussen de toetsen.

Bijvoorbeeld:

Een kandidaat maakt vragen op niveau drie. Heeft de kandidaat minder dan 65% goed, gaat de kandidaat een niveau terug. Heeft de kandidaat meer dan 65% goed, gaat hij een niveau omhoog. Nadat de kandidaat deze vervolgvragen heeft gemaakt, wordt opnieuw bepaald hoeveel antwoorden de kandidaat goed heeft. Op basis hiervan krijgt de kandidaat vragen van een moeilijker of makkelijker niveau. Na een vastgesteld aantal vragen eindigt de toets. Op dit moment wordt duidelijk op welk niveau de kandidaat de stof beheerst.

Het nadeel van deze werkwijze is dat de toetsconstructeur veel beslissingen moet nemen. Bijvoorbeeld op welke wijze de moeilijkheidsgraad wordt bepaald en op welk moment de kandidaat een niveau omhoog of omlaag gaat.

Dat kan vast handiger! 

2. Computer Adaptive Testing (CAT)

Bij CAT wordt per vraag gekeken welke vervolgvraag aangeboden moet worden. Hier wordt rekening gehouden met de moeilijkheidsgraad van de vraag (p-waarde) maar ook met de geschatte vaardigheid van de kandidaat.

Bijvoorbeeld:

Hoe lager de vaardigheid van één van de kandidaat en hoe moeilijker de vraag, hoe kleiner de kans dat een kandidaat de vraag goed beantwoordt. Heeft de kandidaat de vraag tegen verwachting goed gemaakt, gaat de geschatte vaardigheid van een kandidaat omhoog en krijgt hij een moeilijkere vraag aangeboden. Het niveau van de vraag is blijkbaar verkeerd vastgesteld en wordt door het antwoord van de kandidaat automatisch naar beneden bijgesteld.

Een tweede voorbeeld. De kandidaat heeft een hoge vaardigheid en krijgt een makkelijke vraag aangeboden. Je zou verwachten dat deze kandidaat de vraag goed beantwoordt. Maakt de kandidaat de vraag fout, gaat de vaardigheid van een kandidaat omlaag en wordt het niveau van de vraag naar beneden bijgesteld.

Na een vastgesteld aantal vragen wordt bepaald op welk niveau de kandidaat op dat moment de stof beheerst. De rekentoets voor toelating tot de PABO werkt op deze wijze.

Om per vraag de p-waarde en vaardigheid te kunnen bepalen, moet veel informatie verzameld worden. Hiervoor moet het examen aan een groep van minimaal 500 (potentiële) kandidaten worden voorgelegd. Dit vergt een flinke investering. Alleen wanneer je de adaptieve toets op grote schaal kunt inzetten, is dit rendabel.

Dit klinkt al beter. Maar het kan vast nog handiger en voordeliger!

3. Elo-rating systeem

Het Elo-rating systeem maakt in de basis gebruik van dezelfde gegevens als bij het CAT, namelijk p-waardes en de vaardigheid. Het grootste verschil is dat de p-waardes en vaardigheid niet van te voren worden vastgesteld.

Hoe werkt het? 

Bij CAT worden de p-waarde en het vaardigheidsniveau bepaald op basis van de gegevens van de gemaakte examens van een grote groep kandidaten. Bij het Elo-rating systeem worden deze waardes aangepast per antwoord op de vraag. Maakt een kandidaat de vraag goed dan gaat de vaardigheid van een student omhoog en moeilijkheidsgraad van een vraag omlaag. Onder andere De Rekentuin werkt met deze methode. In onderstaande video wordt de werking van het Elo-rating systeem duidelijk uitgelegd.

Oefenweb Explanimation from Oefenweb on Vimeo.

Het nadeel is dat in het begin de werkelijke vaardigheid en p-waarde van de vragen nog niet bepaald zijn. Wanneer een vraag vaker is afgenomen, weet je meer over de vraag. De waardes gaan steeds meer stabiliseren. Voordat het systeem met meer zekerheid iets kan zeggen over het niveau van de kandidaat moet het examen door een behoorlijk aantal kandidaten gemaakt zijn. In het begin is het resultaat van de toets dus niet erg betrouwbaar. Daarom wordt deze vorm van adaptief toetsen vooral gebruikt bij low-stake testing (toetsen waarbij de gevolgen van zakken niet groot zijn).

Toekomst?!

Hoe mooi zou het zijn als een Elo-rating systeem gebruikt kan worden voor high-stake testing (testen waaraan bijvoorbeeld een diploma of kwalificatie gekoppeld is)! Een systeem dat het niveau van de vragen automatisch bepaalt en bijstelt. Om de waardes te laten stabiliseren, zullen de vragen eerst voorgelegd moeten worden aan een aantal kandidaten. Op deze wijze kan de kwaliteit van de vraag ook meteen getest worden.

 

Wie weet, in de toekomst…..

 

 

Geplaatst in adaptief toetsen, itemanalyse, online toetsing, tussentijds toetsen

En de boer hij ploegde voort….

De eerste associatie die ik met zaaien heb is  deze:

en de boer hij ploegde voort.

Na het ploegen volgt immers het zaaien (of poten) van gewas.

Wist je dat in  de toetswereld ook gesproken wordt over het zaaien en oogsten van items?

Ook dan moet je zorgen voor een ondergrond.

Een geploegd land.

Een itembank op orde. 

Wanneer je goede examens kan samenstellen, kun je daar ook nieuwe items inbrengen. Nieuwe items die nog niet meetellen.

Items waarvan je als vragen ontwikkelaar eens kan kijken of ze doen wat je ervan verwacht.

Kortom zaai-items.

We onderscheiden twee manieren van items testen op de kwaliteit en moeilijkheidsgraad:

  1. pre-testen
  2. zaaien

Pre-test

Bij pre-testen maak je gebruik van een doelgroep die zoveel mogelijk lijkt op de doelgroep die het echte examen moet gaan maken. Wanneer je in staat bent zo’n testgroep alvast de nieuwe items te laten maken heb je snel inzicht in de kwaliteit en moeilijkheidsgraad van je toets. Je kunt daarna de toets samenstellen met vooraf geteste vragen.

Nadeel is dat het moeilijk is om een vergelijkbare groep een examen te laten maken. Meestal hangt er voor hen niet hetzelfde gewicht aan. Wanneer je normaal voor een examen slaagt, kan of mag je meestal iets. Dat is voor deze pre-testgroepen niet zo.

Zaaien

Zaaien van items betekent dat je vragen meegeeft aan een echt examen. De vragen zijn niet te onderscheiden van de echte vragen. De kandidaat weet dus niet of hij een zaai-item of een echte vraag beantwoordt. Zaaien doe je eigenlijk net als de boer, je zorgt ervoor dat de aarde helemaal klaar is om het zaaigoed te ontvangen.

In de toets: de zaai-items zijn onderdeel van de toets en vallen niet op voor kandidaten tussen de echte vragen.

Bij een papieren examen kun je je eenvoudig voorstellen hoe dat gaat. Je stelt het immers helemaal zelf samen.

Ook met toetssoftware is dat mogelijk.

TeleToets

In TeleToets kun je bij het samenstellen van een vaste versie de zaai-items tussen gewone items plaatsen.

vaste versie

 

Random examens met zaai-items:

Daarnaast heb je de mogelijkheid om bij random examens de zaai-items tussen de vragen te tonen.random pretest

In dit geval worden maximaal 26 vragen gesteld in de toets.

Daarvan worden afhankelijk van de random trekking maximaal 2 cases met in totaal 4 vragen als pretest getrokken.

Minimaal zijn er 22 echte toetsvragen.

Intermezzo

Let op in onze applicatie worden zaai-items en pre-testitems als hetzelfde gezien.

De technische afhandeling is immers hetzelfde: ze tellen niet mee in de uitslag.

Sommige toetsapplicaties geven de mogelijkheid om vragen nul punten mee te geven. Daarmee creëren ze de mogelijkheid tot zaai-items. Helaas zijn deze items meestal niet herkenbaar in de itembank.

In TeleToets zijn ze wel herkenbaar (aan de [P] voor het itemID):

pre test

 

 

 

 

Zaai-items onderaan de toets

Soms wil je liever dat de zaai-items als laatste gesteld worden bij een overigens random toets. 

pre-test onderaanDat kan ook.

In dit geval stel je in hoeveel toetsvragen minimaal en maximaal getrokken mogen worden.

Dan bepaal je de lengte van de toets (28).

Tenslotte stel je in hoeveel casussen gesteld mogen worden als pretestvraag.

In dit geval twee. Deze twee komen aan het eind van de toets.

Wanneer een kandidaat in tijdnood is maakt hij deze vragen niet. De echte toets hoeft er dan niet onder te leiden.

 

 

 

 

 

 

 

Overdenking

Veel examenbureaus aarzelen enorm bij de inzet van zaai-items.

Ze zijn bang dat kandidaten het niet eerlijk vinden.

Of dat deelnemers aan een examen in tijdnood komen door de extra vragen.

Dat laatste is eenvoudig op te lossen. Door de examentijd iets te verlengen ontstaat de mogelijkheid om te zaaien.

Persoonlijk denk ik dat het zaaien van items tot betere examens leidt. Betere examens zijn voor zowel examenbureau als kandidaat plezierig dus waarom niet?

Uiteindelijk is het met zaaien van items dus net als met die zaaiende boer:

wanneer je geduld hebt komen er mooie en goede vragen op.

Geplaatst in Andriessen, itembank, kwaliteit, moeilijkheidsgraad, pre-test, vraagsoorten, zaai-item

Online proctoring, goed idee?

Wat is dat?

Online proctoring?

Online proctoring is het online toezicht houden op bijvoorbeeld een examenkandidaat die een toets aan het maken is.

Dat klinkt interessant. En dat is het ook.

Wij hebben een test gedaan met ProctorExam.

Bij ProctorExam wordt volgens drie principes toezicht gehouden:

  1. Light
  2. Classic
  3. Pro

Je ziet hier overzichtelijk de verschillen:

proctor verschillen

 

ProctorExam kwam al in het Belgische nieuws:

 

Natuurlijk waren we geïnteresseerd.

Hoe werkt het nou en werkt het goed genoeg voor ons?

 

Pilot

We hebben een pilot gedaan en ProctorExam aan de allerzwaarste Andriessen eisen onderworpen.

Je moet weten dat we nu toetslocaties aanbieden door het hele land met getrainde toezichthouders.

We hechten enorm aan ongestoorde examenafnames en aan het voorkomen van fraude.

De concurrentie voor ProctorExam is zwaar.

 

Praktijk

Het geheel werkt fantastisch precies zoals in de demo video’s. Kijk maar even hier.

In praktijk blijkt het voor sommige deelnemers wel lastig te zijn om de juiste dingen te doen en het examen goed op te starten.

Wanneer je niet zo ICT vaardig bent is het opstarten van het examen voor sommige deelnemers een onoverkomelijke hobbel. Je moet namelijk een plug-in installeren in je browser. Deze plug-in zorgt ervoor dat je je beeldscherm deelt. Dat gaat makkelijk. plug-in

Daarnaast moet je een app op je telefoon installeren. In bedrijfssituaties of op scholen kan dit een nare vertraging geven wanneer je de rechten niet hebt om dit soort aanpassingen op je telefoon te doen. Verder hoef je gelukkig niets te installeren.

Ikzelf had de ervaring dat ik het examen niet mocht opstarten omdat er meerdere tabbladen geopend waren. Het bleek hier te gaan om de chatbox (helpfunctie) met ProctorExam. Het is vervelend dat je dan niet meteen in de gaten hebt wat er aan de hand is. Je wilt dat een kandidaat zijn examen zo ongestoord mogelijk maakt. Ik kan me voorstellen dat je hier zenuwachtig van wordt.

De meeste mensen die meededen aan de pilot kregen een melding dat de verbinding niet goed genoeg was. Desondanks konden ze het examen gewoon maken en bleek ook achteraf geen probleem in de proctoring. Deze melding is een advies en desgewenst geeft de live proctor nog advies om de verbinding te verbeteren.

Reactie op de lay-out van Proctorexam:

Was gewoon goed

En dat is ook zo.

Toch zou ik nu niet adviseren om ProctorExam gelijk te gebruiken voor high-stake examens.

Het lukte mij om ongemerkt een screencast van het examen te maken. Daarmee ligt de inhoud van een examen op straat.

Conclusie

ProctorExam is zeer geschikt om gelijktijdig een groter aantal examens af te nemen. Met name in een situatie waarbij de kandidaat zijn eigen laptop mee neemt (BYOD) en toezicht is geregeld kan de lightversie van proctorexam een waardevolle aanvulling zijn.

Examens in het buitenland zijn geschikt om met ProctorExam af te nemen (zie ook het voorbeeld in het VTM filmpje). Persoonlijk zou ik hierbij live proctoring adviseren (de PRO versie), dit garandeert het beste dat er geen fraude gepleegd kan worden.

Het is wel zo dat examens waar veel van afhangt nu nog niet geschikt zijn voor ProctorExam. Enerzijds omdat je voor de kandidaat zeker moet zijn van de techniek. Anderzijds omdat je wilt voorkomen dat je vragen bekend worden.

Natuurlijk wil je ook voorkomen dat de kandidaat fraude kan plegen, bijvoorbeeld door te spieken. Met name bij de Classic variant en de Light variant (zonder toezicht)  lijkt dit wel mogelijk.

 

 

 

 

Geplaatst in online examination, online examinering, proctoring

Over p-, a- en Ritwaarden revisited

De meest gelezen blog op onlineexamineren is de blog over p-, a- en Ritwaarden.

Het is ook de meest geciteerde blog :)

Ik begrijp dat wel.

Het blijft moeilijk om de p-, a- en Rit-waarde goed in de grip te hebben.

sleutel

 

Vandaar dat ik het nog een keertje overdoe.

Ik leg het nog eens uit maar dan anders.

Een item (vraag) is meestal opgebouwd uit:

  • De stam, de vraag zelf.
  • Het antwoord, de sleutel.
  • En de afleiders

Om te beginnen met de laatste, de makkelijkste, de afleiders.

 

Afleider

De a van a-waarde verwijst naar de afleider.

In toetssoftware wordt vaak de term afleideranalyse gebruikt. Ook als je geen gebruik maakt van toetssoftware kun je eenvoudig een afleideranalyse maken.

Je telt eenvoudig het aantal antwoorden per gekozen antwoord alternatief. Dan bereken je per antwoordalternatief het percentage kandidaten dat voor deze variant gekozen heeft.

Rekenvoorbeeld:

Antwoord Gesteld Weegfactor Gekozen Percentage
Afleider A 205 1 1 0,49
Afleider B 205 1 50 24,39
Afleider C 205 1 65 31,70
Sleutel D (Goed) 205 1 89 43,41

Oké, en nu?

Je ziet hier dat één afleider nauwelijks gekozen wordt.

Weglaten dus.

Wanneer je deze toetsvraag nogmaals gebruikt, laat je dit alternatief weg. Het heeft geen toegevoegde waarde.

Afleider B en C hebben dusdanig hoge waarden dat je je af kan vragen of je de kandidaat niet aan het misleiden bent. Het verschil met het juiste antwoord is klein. Je moet in ieder geval nog eens goed naar de inhoud van deze afleiders kijken.

Of:

Je stelt vast dat de kandidaten het niet begrepen hebben.

De sleutel

De sleutel is het goede antwoord. In bovenstaand voorbeeld is de sleutel antwoordalternatief D. De bijbehorende p-waarde is 0,43.

De p-waarde is de proportie goede antwoorden. De p-waarde geeft de moeilijkheidsgraad van een item weer. De Gruijter (2008) zegt daarover:

Eigenlijk is de p-waarde een gemakkelijkheidindex: de index is immers de proportie goede antwoorden.

Een lage p-waarde wijst erop dat maar weinig mensen de vraag goed beantwoord hebben. Mogelijk was de vraag moeilijk. Of is de vraag foutief gesteld, een constructiefout in de vraag bijvoorbeeld.

Een hele hoge p-waarde geeft aan dat bijna iedereen de vraag goed gemaakt heeft. Dat kan betekenen dat de vraag heel gemakkelijk was. Het kan ook betekenen dat iedereen alles heel goed heeft begrepen.

Tja en wat moet je er dan mee?

Eigenlijk wil je dan wel graag zien hoe de vraag het in de rest van de toets deed. Hebben de mensen die dit item goed gemaakt hebben de toets gehaald? En andersom zijn de mensen die deze vraag niet goed deden gezakt?

Dat kun je bekijken met de Rit-waarde.

Rit-waarde

De Rit-waarde is de items test correlatie of de item totaal correlatie.

Het uitgangspunt is dat we denken dat de goede kandidaat meer vragen goed zal beantwoorden dan de slechte kandidaat. We willen dus dat een vraag het onderscheid maakt tussen goede en slechte kandidaten. Daarom kijken we naar de totaalscore op de toets.

We verwachten dat de totaalscore van de toets en de score op het item een positief verband hebben, dus hoger dan 0,20 bijvoorbeeld.

Wanneer de Rit-waarde nul is draagt het item niet bij aan het onderscheid tussen de goede en slechte kandidaten. Dat doet zich bijvoorbeeld voor wanneer iedereen de vraag goed beantwoord heeft. De p-waarde is dan één. De Rit-waarde is nul. Ook wanneer niemand de vraag goed heeft is de Rit-waarde nul.

Maar wat nu wanneer je een p-waarde van 0,24 hebt en een Rit waarde van -0,068?

Je kan in ieder geval zeggen dat hier sprake is van een moeilijke vraag.

Deze vraag maakt geen onderscheid tussen de kandidaten met een hoge en een lage score. Dat willen we juist wel.

In dit geval moet je de vraag goed gaan bekijken, zitten er bijvoorbeeld constructiefouten in de vraag?

Bij nader inzien kan het zijn dat een vraag ervaren wordt als misleidend. De kandidaat wordt op het verkeerde been gezet. In dat geval zul je de vraag moeten herzien. Soms is ook het verkeerde alternatief als juist aangegeven. Ook dat kan leiden tot vreemde p- en Rit-waarden.

Je kunt de p- en de Rit-waarde in een grafiek uitzetten. In deze grafiek zie je dan de verschillende items:

vraaganalyse

De items in de rode vlakken moeten in ieder geval onder de loep genomen worden.

Verder valt hier op dat er wel erg veel makkelijke items zijn (hoge p-waarden). De norm voor een acceptabele Rit waarde varieert. In de literatuur wordt over het algemeen de volgende normering aangehouden:

 

0.40 en hoger zeer goed
0.30 – 0.39 goed
0.20 – 0.29 twijfelachtig
0.19 en lager slecht

 

Kortom:

Het is altijd zinvol om een analyse van p-,a- en Rit-waarden te doen. Hoe summier ook. 

Wanneer je vervolgens wat met deze analyse doet zal de kwaliteit van je toets omhoog gaan.

Geplaatst in itemanalyse, itembank, moeilijkheidsgraad, online examinering

Andriessen International blog

Meet our international blog: Sisto Andriessen International

So, is a randomised test fair?

It depends.

A randomised test can be totally fair but it can also be biased.

A test is biased when the results have consequences that unfairly advantage or disadvantage test takers.

Is it possible to determine whether a test is fair? Whether it is equally difficult for all candidates?

Yes it is. But only in hindsight.

An analysis of the average p-value of the test is of great help in establishing the fairness of the test. When the average p-values ​​are spread across a broad range then it is highly likely that several tests had varying levels of difficulty.

Read more.

Geplaatst in Sisto

Innovatieve vraagsoort: video hotspotvraag

Eerder zei ik het al:

Marketing is niet onze sterkste kant!

Sebastiaan de Klerk verzorgde een presentatie op de CAA conferentie.

Hij heeft een (PhD) onderzoek gedaan in samenwerking met Explain en het RCEC (promotores: Theo Eggen en Bernard Veldkamp).

 

Zijn onderzoek gaat over:

The psychometric evaluation of a multimedia-based performance assessment in vocational education.

In Examens van mei 2015 werd hierover al door Sebastiaan gepubliceerd: Voordelen en uitdagingen voor toetsing in computersimulaties.

Computersimulaties

Computersimulaties bieden de mogelijkheid om een kandidaat snel in een situatie te brengen waarbij hij zijn oordeel kan geven. Een computer heeft de mogelijkheid om video aan te bieden.

Hieronder een voorbeeld van Explain:

Explain 1

Met de film wordt een soort multiple selectvraag (meer uit meer vraag) gemaakt. De correctie vindt plaats op basis van het aanklikken van de knop in de juiste tijdsperiode.

Ik zei al: wij zijn niet goed in marketing.

Sinds eind 2013 hebben we in TeleToets de video hotspotvraag.

Met behulp van de video hotspotvraag kun je:

  • de kandidaat kritische incidenten laten aangeven in de tijd (net als de knop in het bovenstaande voorbeeld),
  • de kandidaat hotspot (gebeurtenis/actie/locatie) in de video laten aangeven,
  • de vraag automatisch laten corrigeren,
  • aanvullende open of gesloten vragen stellen aan de kandidaat.

Ik zal je in een screenshot een voorbeeld laten zien voor de kandidaat:

videohotspotvraag

 

De kandidaat moet op play klikken en de video gaat lopen.

Tijdens het afspelen van de video kan de kandidaat door een muisklik aangeven waar bijvoorbeeld Mount Fuji ligt.

Administratiezijde

Aan de administratiezijde ziet dat er zo uit:

videohotspotvraag

De rode hotspot is het juiste gebied om de rode marker te plaatsen.

De vraag wordt automatisch na gekeken. Daarbij wordt op de tijd gelet en op de locatie van de marker. Rechts kun je zien dat in de periode tussen 10 en 11.67 seconden Mount Fuji in beeld is.

Het is ook mogelijk een bewegende hotspot in te stellen. In dit voorbeeld vaart het bootje van links naar rechts. De hotspot volgt het bootje.

videohotspot_boot
Daarnaast kun je meerdere hotspots toevoegen aan een video. In dit geval zijn drie hotspots gedefinieerd.

Je kunt verschillende instellingen doen bij de video hotspotvraag:

videhotspotvraag_instellingen

 

 

 

 

 

 

Scoring

Scoring van de video hotspotvraag gaat als volgt (voor TeleToets gebruikers wel bekend):

 

videohotspot_scoring

Daarnaast kunnen natuurlijk aanvullende vragen gesteld worden zoals open vragen en/of gesloten vragen.

Deze nieuwe vraagsoort is bijvoorbeeld handig bij kritische incidenten.

Voor de technici onder ons: er wordt gebruik gemaakt van HTML5 in plaats van Flash. Daarmee is de vraag alleen in Chrome en Firefox af te nemen.

Wil je bovenstaande vraag ervaren als kandidaat?

Ons voorbeeldexamen met verschillende vraagsoorten laat als opgave 18 de videohotspotvraag zien.

 

Wil je meer informatie? Aarzel niet en neem contact met ons op: consultancy@andriessen.nl

Geplaatst in beoordelen, online examination, online examinering, video hotspotvraag

Programmeerfoutje PE-plus examen blijkt hulpmiddel

Onderstaande blog van Dik van Velzen is integraal overgenomen:

Een klein programmeerfoutje kan grote gevolgen hebben. Zo is een programmeerfoutje in de software van de PE-Plusexamens er de oorzaak van dat de goed-geïnformeerde kandidaat wel heel gemakkelijk het examen kan behalen. Je moet alleen de truc kennen.

Die truc is dat je alle antwoorden bij een examenvraag moet selecteren en vervolgens op de rechtermuisknop moet klikken. Het juiste antwoord of – als meer antwoorden juist zijn – de juiste antwoorden lichten dan op. Vervolgens moet je nog een keer klikken om de selectie ongedaan te maken en kun je de vraag beantwoorden op de gebruikelijke manier. Met dit verschil dat je inmiddels het juiste antwoord weet. Bij rekenvragen waar de kandidaat zelf een getal moet invullen, werkt de methode jammer genoeg niet. Daar moet je zelf op het juiste antwoord zien te komen. Een troostrijke gedachte is daarbij dat er in geen enkel PE-Plusexamen zoveel rekenvragen zitten, dat je op het fout beantwoorden van die vragen kunt zakken.

Hoe lang dit programmeerfoutje al in de PE-Plusexamens zit, is niet bekend. Mogelijk al vanaf de aanvang van deze examens begin 2014. Het foutje is pas onlangs bij toeval ontdekt. (Denk ik. Als het eerder is ontdekt, dan door iemand die daar zorgvuldig zijn mond over heeft gehouden.) DUO, verantwoordelijk voor de examensoftware, is inmiddels op de hoogte, maar wil geen enkel bericht hierover bevestigen of ontkennen. Ook niet hoe lang het duurt voor dit programmeerfoutje alsnog is hersteld. Dat begrijp ik dan ook wel weer. Gelet op de aflopende termijn van de PE-Plusexamens is het natuurlijk geen optie om het afleggen van PE-Plusexamens op te schorten tot het systeem op orde is. Maar reken maar dat er hard aan wordt gewerkt om deze bug er zo snel mogelijk uit te krijgen.

In elk geval kan het foutje geen nadelige gevolgen hebben voor degenen die inmiddels PE-Plusexamens hebben gedaan. Er gaan geen examens ongeldig worden verklaard, ook al omdat vermoedelijk maar enkele kandidaten van dit ‘hulpmiddel’ op de hoogte waren en hooguit nog een beperkte groep hiervan gebruik kan maken. Op termijn zijn er ook geen nadelige effecten, omdat voor alle behaalde diploma’s geldt dat tussen 1 april 2017 en 1 april 2019 opnieuw een PE-examen moet worden afgelegd. En tegen die tijd is het probleem al lang opgelost.

 

Ik schoot in de lach.1-april

Hahahaha

Wat een goeie grap.

Mijn fantasie sloeg ook op hol.

Als het nou eens waar was?

Als iedereen het nou geloofde?

Ik vrees dat de toezichthouders de komende tijd dan veel last hebben van mensen die met de rechtermuisknop eindeloos klikken.

Op zoek naar het juiste antwoord.

En dat juiste antwoord komt echt niet!

 

Neem van mij aan dat DUO geen software accepteert met een dergelijk programmeerfoutje.

 

 

Geplaatst in online examination, online examinering, online toetsing