Over p-, a- en Ritwaarden revisited

De meest gelezen blog op onlineexamineren is de blog over p-, a- en Ritwaarden.

Het is ook de meest geciteerde blog :)

Ik begrijp dat wel.

Het blijft moeilijk om de p-, a- en Rit-waarde goed in de grip te hebben.

sleutel

 

Vandaar dat ik het nog een keertje overdoe.

Ik leg het nog eens uit maar dan anders.

Een item (vraag) is meestal opgebouwd uit:

  • De stam, de vraag zelf.
  • Het antwoord, de sleutel.
  • En de afleiders

Om te beginnen met de laatste, de makkelijkste, de afleiders.

 

Afleider

De a van a-waarde verwijst naar de afleider.

In toetssoftware wordt vaak de term afleideranalyse gebruikt. Ook als je geen gebruik maakt van toetssoftware kun je eenvoudig een afleideranalyse maken.

Je telt eenvoudig het aantal antwoorden per gekozen antwoord alternatief. Dan bereken je per antwoordalternatief het percentage kandidaten dat voor deze variant gekozen heeft.

Rekenvoorbeeld:

Antwoord Gesteld Weegfactor Gekozen Percentage
Afleider A 205 1 1 0,49
Afleider B 205 1 50 24,39
Afleider C 205 1 65 31,70
Sleutel D (Goed) 205 1 89 43,41

Oké, en nu?

Je ziet hier dat één afleider nauwelijks gekozen wordt.

Weglaten dus.

Wanneer je deze toetsvraag nogmaals gebruikt, laat je dit alternatief weg. Het heeft geen toegevoegde waarde.

Afleider B en C hebben dusdanig hoge waarden dat je je af kan vragen of je de kandidaat niet aan het misleiden bent. Het verschil met het juiste antwoord is klein. Je moet in ieder geval nog eens goed naar de inhoud van deze afleiders kijken.

Of:

Je stelt vast dat de kandidaten het niet begrepen hebben.

De sleutel

De sleutel is het goede antwoord. In bovenstaand voorbeeld is de sleutel antwoordalternatief D. De bijbehorende p-waarde is 0,43.

De p-waarde is de proportie goede antwoorden. De p-waarde geeft de moeilijkheidsgraad van een item weer. De Gruijter (2008) zegt daarover:

Eigenlijk is de p-waarde een gemakkelijkheidindex: de index is immers de proportie goede antwoorden.

Een lage p-waarde wijst erop dat maar weinig mensen de vraag goed beantwoord hebben. Mogelijk was de vraag moeilijk. Of is de vraag foutief gesteld, een constructiefout in de vraag bijvoorbeeld.

Een hele hoge p-waarde geeft aan dat bijna iedereen de vraag goed gemaakt heeft. Dat kan betekenen dat de vraag heel gemakkelijk was. Het kan ook betekenen dat iedereen alles heel goed heeft begrepen.

Tja en wat moet je er dan mee?

Eigenlijk wil je dan wel graag zien hoe de vraag het in de rest van de toets deed. Hebben de mensen die dit item goed gemaakt hebben de toets gehaald? En andersom zijn de mensen die deze vraag niet goed deden gezakt?

Dat kun je bekijken met de Rit-waarde.

Rit-waarde

De Rit-waarde is de items test correlatie of de item totaal correlatie.

Het uitgangspunt is dat we denken dat de goede kandidaat meer vragen goed zal beantwoorden dan de slechte kandidaat. We willen dus dat een vraag het onderscheid maakt tussen goede en slechte kandidaten. Daarom kijken we naar de totaalscore op de toets.

We verwachten dat de totaalscore van de toets en de score op het item een positief verband hebben, dus hoger dan 0,20 bijvoorbeeld.

Wanneer de Rit-waarde nul is draagt het item niet bij aan het onderscheid tussen de goede en slechte kandidaten. Dat doet zich bijvoorbeeld voor wanneer iedereen de vraag goed beantwoord heeft. De p-waarde is dan één. De Rit-waarde is nul. Ook wanneer niemand de vraag goed heeft is de Rit-waarde nul.

Maar wat nu wanneer je een p-waarde van 0,24 hebt en een Rit waarde van -0,068?

Je kan in ieder geval zeggen dat hier sprake is van een moeilijke vraag.

Deze vraag maakt geen onderscheid tussen de kandidaten met een hoge en een lage score. Dat willen we juist wel.

In dit geval moet je de vraag goed gaan bekijken, zitten er bijvoorbeeld constructiefouten in de vraag?

Bij nader inzien kan het zijn dat een vraag ervaren wordt als misleidend. De kandidaat wordt op het verkeerde been gezet. In dat geval zul je de vraag moeten herzien. Soms is ook het verkeerde alternatief als juist aangegeven. Ook dat kan leiden tot vreemde p- en Rit-waarden.

Je kunt de p- en de Rit-waarde in een grafiek uitzetten. In deze grafiek zie je dan de verschillende items:

vraaganalyse

De items in de rode vlakken moeten in ieder geval onder de loep genomen worden.

Verder valt hier op dat er wel erg veel makkelijke items zijn (hoge p-waarden). De norm voor een acceptabele Rit waarde varieert. In de literatuur wordt over het algemeen de volgende normering aangehouden:

 

0.40 en hoger zeer goed
0.30 – 0.39 goed
0.20 – 0.29 twijfelachtig
0.19 en lager slecht

 

Kortom:

Het is altijd zinvol om een analyse van p-,a- en Rit-waarden te doen. Hoe summier ook. 

Wanneer je vervolgens wat met deze analyse doet zal de kwaliteit van je toets omhoog gaan.

Geplaatst in itemanalyse, itembank, moeilijkheidsgraad, online examinering

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

*

* Copy This Password *

* Type Or Paste Password Here *

De volgende HTML tags en attributen zijn toegestaan: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>