‘Mijn onderzoek geeft een wetenschappelijk onderbouwd antwoord op de vraag welk cesuurbepalingsproces het beste past bij de landelijke kennistoetsen’
Op 2 juni jl. is Monika Vaheoja, senior psychometricus bij 10voordeleraar, gepromoveerd aan de Universiteit Twente op haar proefschrift Setting Standards in Small Samples. Dit onderzoek heeft geleid tot nieuwe inzichten in het leggen van de zak/slaaggrens bij toetsen met kleine aantallen deelnemers. Wij spraken met Monika.
Wat is je achtergrond?
‘Ik werk sinds 2013 bij 10voordeleraar en ben verantwoordelijk voor de psychometrische kwaliteit van de landelijke kennistoetsen. Daarvoor was ik docent bij de afdeling Methoden en Technieken aan de Universiteit Leiden.’
‘Voor 10voordeleraar is het essentieel om de psychometrische kwaliteit van de landelijke kennistoetsen te borgen.’
Wat was de aanleiding van het promotieonderzoek?
‘Ik ben met dit promotieonderzoek begonnen, omdat ik graag een wetenschappelijk onderbouwd antwoord op de vraag van de Raad voor de Kwaliteitsborging Lerarenopleidingen wilde geven over welk cesuurbepalingsproces het beste bij de landelijke kennistoetsen van 10voordeleraar past. Vanuit mijn eerdere ervaringen wist ik dat itemresponstheorie hier het beste bij zou moeten passen, alleen de grote vraag was of dat bij de kleine steekproeven kan. De landelijke kennistoets is een high-stake-examen, want er hangt voor een student veel af van de zak/slaagbeslissing. Daarom is het belangrijk dat we vanuit 10voordeleraar er alles aan doen om de psychometrische kwaliteit van de landelijke kennistoetsen hoog te houden en dat het proces hoe de beslissingen genomen worden valide, betrouwbaar en eerlijk is. Het promotieonderzoek is belangrijk voor 10voordeleraar, omdat hiermee een wetenschappelijk onderbouwd cesuurbepalingsproces is bepaald.’
Waar was je promotieonderzoek op gericht?
‘Mijn promotieonderzoek was gericht op het bepalen en handhaven van de zak/slaaggrens (cesuur) op examens waar de deelnemersaantallen per examen klein zijn, denk aan vijftig deelnemers per toetsversie. Bij dergelijke kleine steekproeven worden geavanceerde statistische technieken afgeraden, zoals de itemresponstheorie. Ik liet echter zien dat het gebruik van de itemresponstheorie, specifiek het een-parameter-logistische-model (OPLM), een eerlijkere cesuurscore op de nieuwe toetsversie kan bepalen dan de klassieke testtheorie equivaleringsmethode circle-arc. Een eerlijke cesuurscore betekent dat “de kans voor slagen volledig afhangt van de geleverde prestatie van de kandidaat en niet van de gebruikte cesuurbepalingsmethode of de moeilijkheid van de toets”.’
Je hebt ook de Cohen- en Angoffmethode geëvalueerd?
‘Klopt, in mijn proefschrift heb ik ook de Cohen- en de Angoffmethode geëvalueerd in het eerlijke vermogen om de cesuurscore te bepalen. Uit deze vergelijking bleek dat de cesuurscore die bepaald was met de Cohenmethode eerlijker was dan de cesuurscore die op elke afzonderlijke examenversie was bepaald met de Angoffmethode waar een normeringspanel bij betrokken is. Aan de andere kant ervaarden de lerarenopleiders hun betrokkenheid bij de normeringspanels positief en gaven zij aan dat het hen een gevoel van transparantie over de inhoud van de toets gaf.’
‘De ontstane procesbeschrijving is inmiddels al toegepast bij de landelijke kennistoets van de tweedegraadslerarenopleiding wiskunde.’
Hoe ben je aan de slag gegaan?
‘In het proefschrift is de itembank van Landelijke Kennistoets Wiskunde van de tweedegraadslerarenopleiding als voorbeeld gebruikt om te demonstreren hoe de cesuurscore - die door de inhoudelijke experts tijdens de Angoff-normeringspanel is bepaald - door middel van de itemresponstheorie vervolgens gehandhaafd kan worden. Op deze manier kan een eerlijke cesuurscore op elke daarna volgende examenversie worden bepaald. Ondanks dat bij dit onderzoek andere itembanken niet zijn meegenomen, is de ontstane procesbeschrijving ook toepasbaar bij andere vakken. Bij de Landelijke Kennistoets Wiskunde van de afgelopen toetsronde is de eerste cesuurscore al bepaald met de voorgestelde cesuurbepalingsmethode door middel van itemresponstheorie. Natuurkunde volgt hierna.’
Hoe heb je het doen van een promotieonderzoek ervaren?
‘Het doen van promotieonderzoek vraagt veel. Ik heb dit naast mijn gezin en werk gedaan. Gelukkig mocht ik er in de laatste jaren één dag per week vanuit 10voordeleraar aan besteden, waardoor ik het onderzoek binnen 5,5 jaar heb kunnen afronden. Het was zeker geen makkelijke opgave en mijn promotoren stelde hoge eisen ‑ ik had het voor geen goud willen missen, maar ben wel blij dat het erop zit.’
Theo Eggen, lid van de Raad voor de Kwaliteitsborging Lerarenopleidingen: ‘Dit proefschrift gaat misschien over het belangrijkste onderdeel van de examens bij het meten van de kennis in het onderwijs. Hoe zorgen we ervoor dat de uitslag op een examen van de leerlingen of de studenten voor een bepaald vak niet afhangt van wanneer en welke versie van het examen wordt gemaakt, maar alleen van de waarde van de geleverde prestatie? Waar en hoe moeten we de grens voldoende/onvoldoende (de cesuur) leggen zodat de beslissing eerlijk wordt genomen? Het is een onderwerp dat goede, maar ook minder goede, praktijkvoorbeelden kent en van wetenschappelijk theorie maar beperkte aandacht heeft gehad.’
Cees van der Vleuten, lid van de Raad voor de Kwaliteitsborging Lerarenopleidingen: ‘Ik vind het prachtig dat er een wetenschappelijk verantwoord stuk is uitgekomen op basis waarvan we onze beslissingen in de praktijk nog beter kunnen baseren.’
Cohenmethode
Cohencesuurbepalingsmethode (Cohen-Schotanus & Van der Vleuten, 2009) berekent de cesuur aan de hand van een relatief referentiepunt. Dat referentiepunt is de toetsscore op het 95ste percentiel van de toetsscores. De cesuur is in essentie 60% van deze percentielscore en er wordt gecorrigeerd voor gokken.
Angoffmethode
Bij de Angoffmethode (Angoff, 1971) worden de inhoudsdeskundigen gevraagd tijdens normeringspanelsessie volgens een strak protocol om op iedere toetsvraag afzonderlijk een inschatting te maken van moeilijkheid voor de zogenoemde grensstudent. Een grensstudent is een fictieve student die het onderwijs over de kennisbasis doorlopen heeft, enigszins voorbereid voor de toets is en de toets voor het eerst gaat maken. Deze grensstudent heeft nét de minimale kennis waardoor hij voor de toets zal behoren te slagen. De som van de inschattingen per panellid geeft de cesuurscore voor elk deelnemer en de gemiddelde over alle panelleden geeft de cesuurscore voor de toets.
Itemresponstheorie
Itemresponstheorie behoort tot de moderne testtheorie waarbij een mathematisch model de kans op een goed antwoord van een student met gegeven vaardigheid statistisch wordt geschat (Hambleton, Swaminathan & Rogers (1991)). Itemresponstheorie maakt het mogelijk om zuivere effecten in kennisniveau/vaardigheid te onderzoeken, ongeacht welke cesuurmethode per toetsversie is gebruikt of hoe moeilijk een toetsversie is geweest.
Referenties
Angoff, W. (1971). Scales, norms and equivalent scores. In R. Thorndike, Educational Measurement (pp. 508–600). Washington, DC: American Council on Education.
Cohen-Schotanus, J. & Van der Vleuten, C. (2010). A standard setting method with the best performing students
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory. Newbury Park, CA: Sage Press.