Tip 63: Waarom moeilijk beoordelen als het ook eenvoudig kan? (D-PAC)

i.s.m. Maarten Goossens (Onderzoeker,  Faculteit Sociale Wetenschappen)

Je gebruikt criteria en rubrics om te beoordelen (zie tip 62 en tip 42 uit 50 onderwijstips)? Dan volgt dit waarschijnlijk uit je drang naar objectiviteit bij het beoordelen en dat is op zich mooi. Maar misschien herken je volgende situaties wel?

  • Je leest een opdracht van een student en door je ervaring schat je de waarde van het werk op een 12 op 20. Als je de optelsom van de gehanteerde criterialijst maakt, kom je echter op 15 op 20 uit. Dat is toch echt wel te veel! Hou je vast aan de objectieve criteria en geef je de student een 15, of pas je hier en daar wat aan zodat de optelsom toch 12 wordt?
  • Je vraagt jezelf af wat er nu toch juist bedoeld wordt met de omschrijving van die ene of meerdere criteria?
  • Je begint goed geluimd aan de stapel examens, maar na verloop van tijd is het toch wel genoeg geweest met die hardnekkige fout! Het humeur gaat er op achteruit en de punten van de studenten ook.

Wel, mocht je jezelf in één of meerdere van bovenstaande situaties herkennen, dan is dat niet vreemd. Wetenschappelijk onderzoek heeft namelijk aangetoond dat er heel wat kanttekeningen gemaakt kunnen worden bij het ontwikkelen én bij het gebruik van criteria (Bloxham, 2009; Sadler, 2009). Zo is het definiëren van de te meten competentie vaak problematisch. Hoe omschrijven we creativiteit zodat iedereen er hetzelfde onder verstaat (zie tip 42)? En kunnen we alle aspecten van b.v. samenwerken wel vatten in een omschrijving? Ook het gebruik van de rubric kan problematisch zijn, zoals bovenstaande situaties beschrijven.

De paarsgewijze vergelijkingsmethode kan erin slagen om de genoemde moeilijkheden weg te werken. Hieronder verduidelijken we wat paarsgewijze vergelijking is en gaan we in op enkele concrete toepassingen.

 

Paarsgewijze vergelijking

Laming (2014) stelt dat elk oordeel het gevolg is van een vergelijking. Als je bijvoorbeeld het werk van een student moet beoordelen, vergelijk je het werk ofwel met het werk van een andere studenten ofwel  met je interne standaard. Ook als je gebruik maakt van objectieve standaarden zoals criteria, ben je aan het vergelijken. Je vergelijkt ofwel met die standaard, ofwel met andere taken die je tegen de standaard hebt afgezet. Met andere woorden, vergelijken is impliciet aan beoordelen.

Paarsgewijs vergelijken maakt deze impliciete vergelijking net expliciet. De methode vindt zijn oorsprong in de wet van Thurstone (1927). Die stelt dat mensen beter en betrouwbaarder zijn in het vergelijken van twee objecten en in het aanwijzen welke meer/ beter is, dan in het toekennen van absolute scores aan een enkel object.

We illustreren dit met een voorbeeld:

Je krijgt een vreemd voorwerp in je handen en men vraagt je om het gewicht te schatten. Een moeilijke taak. Je voelt dat je een stap in het ongewisse moet zetten en bovendien is de kans zeer klein dat je het exacte gewicht kan bepalen.  Als we je echter 2 voorwerpen geven en je vragen welke van de twee is het zwaarst, is dit een zeer eenvoudige taak waarvan je het gevoel hebt die tot een goed einde te brengen. Bovendien is de kans zeer groot dat je het juist hebt.

Bij de methode van paarsgewijze vergelijking maken meerdere beoordelaars telkens keuzes uit paren van objecten. Deze paren worden ad random samengesteld uit alle te beoordelen objecten. Concreet betekent dit in een onderwijssetting dat meerdere docenten paren van taken van verschillende studenten met elkaar vergelijken en aan geven welke van de twee nu de beste is in functie van een bepaalde competentie. Veel duidelijker, eenvoudiger en met een betrouwbaar resultaat.

Aan de hand van deze keuzes kan een betrouwbare rangorde worden opgesteld van de minst goede taak tot de beste taak. Deze methode doet ook bewust beroep op je expertise als beoordelaar. Het is jouw expertise die de beoordeling leidt. Hierbij word je niet gedwongen door een vooraf bepaalde bril (b.v. criterialijst) te kijken. Doordat er door verschillende beoordelaars in verschillende paren meerdere keren naar eenzelfde taak wordt gekeken, worden veel meer aspecten van de competentie meegenomen in de uiteindelijke beoordeling. Op deze manier wordt de validiteit van deze methode gewaarborgd (zie tip 19).

 

Toepassingen binnen onderwijs

In het onderwijs wordt paarsgewijs vergelijken gebruikt voor het beoordelen van producten uit verschillende contexten waaronder wiskundige producten, schrijfproducten, ontwerpproducten, presentaties, enz. Een bijkomend voordeel van paarsgewijze vergelijking is dat de taken zeer open kunnen zijn. Je bent bij de ontwikkeling niet meer gebonden door de vraag: “Hoe gaan we dit nu scoren?”. Zo is bijvoorbeeld een redenering niet juist of fout, maar kan je wel aangeven welke van de twee redereringen de sterkste is, ook al komt die misschien niet tot de juiste uitkomst omdat er ergens een rekenfoutje gemaakt is.

Paarsgewijs vergelijken zou je ook als werkvorm kunnen toepassen binnen je klaspraktijk. Door twee voorbeelden te presenteren, kan je studenten aanzetten om op zoek te gaan naar waarom de ene nu beter is dan de andere. Doordat studenten kunnen vergelijken vallen de verschillende karakteristieken per tekst hard op. Zo heeft, bijvoorbeeld, de ene tekst een veel duidelijkere structuur dan de andere. En in het volgende paar valt op dat de argumentatie in tekst twee meer steek houdt dan die van tekst een. Zo bouwen studenten op een eenvoudige manier zelf kwaliteitscriteria op.

Als je paarsgewijs vergelijken wil inzetten als beoordelingsmethode is er echter ondersteuning nodig. Deze ondersteuning kan geboden worden door de D-PAC tool (Digitaal Platform voor het Assessment van Competenties). Deze tool is ontworpen door onderzoekers van de universiteit Antwerpen, de universiteit Gent en imec om onderzoek naar paarsgewijze vergelijking mogelijk te maken.

 

Concrete toepassingen

Aangezien paarsgewijze vergelijking een eenvoudige(re) taak is die zonder veel training en inleiding ingezet kan worden, leent het zich uitermate voor peer assessments (zie ook tip 17 en tip 61). Studenten hoeven ook geen absolute uitspraken te doen over het werk van mede studenten en alles verloopt anoniem. Hierdoor zal de weerstand  tegen peer assessment en het gevoel van onveiligheid dat bij peer assessments kan leven, verdwijnen.

Hieronder volgen 2 concrete beschrijvingen van peerassessments die gebruik hebben gemaakt van paarsgewijze vergelijking  via de technologie van D-PAC.

 

Peerassessment van mood boards in interieurarchitectuur.

(Een mood board is een beeld waarin een bepaalde emotie wordt uitgedrukt, vaak gebruikt om op een visuele manier te communiceren met de klant over sferen, gevoelens, organisatiewaarden,…)

De studenten interieurarchitectuur van de UA krijgen jaarlijks de opdracht om in groep mood boards te ontwikkelen. Al enkele jaren worden deze werken klassikaal besproken met als doel dat studenten leren inschatten wanneer een werk nu kwalitatief is. Een moeizaam en tijdrovend proces. Om dit proces efficiënter en vlotter te laten verlopen werd een peer assessment in D-PAC opgezet. Op deze manier zouden de studenten alle mood boards thuis beoordelen en becommentariëren.

In concreto werden de mood boards van de studenten opgeladen in het D-PAC systeem. Via een log-in kregen de studenten toegang tot het digitaal platform (online). Het systeem stelde automatisch en ad random paren samen van de ingestuurde werken en stuurde deze uit naar de betrokken studenten. De studenten moesten nu het beste van de 2 mood boards aan duiden en vervolgens sterke en werkpunten per mood board aangeven. Om evidente redenen kregen zij nooit het eigen werk te beoordelen. Ze kregen hiervoor een week de tijd. Telkens ze opnieuw inlogden, gingen ze verder waar ze gebleven waren totdat het vooropgestelde aantal vergelijkingen gemaakt was.

Aan de hand van alle keuzes van de studenten, genereerde D-PAC een rangorde van het werk dat studenten als minst kwalitatief inschatten tot meest kwalitatief. De verkregen rangorde was voor de docent de basis om de mood boards in groep te bespreken. Hiervoor werden de resultaten in D-PAC op groot scherm geprojecteerd en klassikaal besproken. Zowel de rangorde zelf (wordt wat studenten als kwalitatief goed inschatten ook zo gezien door de docent?) als de ingegeven feedback (op welke aspecten hebben studenten daarvoor gelet en wat zijn hun argumenten?) werden hiervoor gebruikt. Nadien werd deze feedback ook aan de respectievelijke groepen bezorgd zodat zij hiermee het mood board konden bijsturen.

 

Reductie workload via peer assessment

Als we u zeggen dat de verbeterlast voor docenten hoger onderwijs zeer groot is, vertellen we niets nieuw. In de zoektocht naar het reduceren van die werklast besloot een docent van de UHasselt om D-PAC in te zetten voor een peer assessment. Hierbij moesten de 100 betrokken studenten een paper schrijven en die uploaden in D-PAC. Vervolgens werden hieruit automatisch random paren geselecteerd die de studenten werden voorgelegd ter beoordeling. Ook hier moesten de studenten elke paper voorzien van feedback. Dit resulteerde in een rangorde van de werken en voor elk afzonderlijk werk feedback van een 10-tal medestudenten.

Voordien beoordeelde de docent de papers met een ‘pass/fail’-systeem. Op het moment van de formatieve beoordeling ging de docent na of de paper al voldeed aan de eindcompetentie. Zo ja, dan kreeg de paper een ‘pass’, indien niet kreeg de paper een ‘fail’. De papers werden door de docent ook van feedback voorzien.

In eerste instantie liep deze ‘pass/fail’ beoordelingsmethode nog parallel met het peerassessment in D-PAC. Van de 100 papers kregen er 14 een ‘fail’. Deze 14 ‘fails’ vielen allen in de 20 laagst genoteerde papers op de rangorde die het resultaat was van de vergelijkingen van de studenten in D-PAC. M.a.w. deze papers werden door de studenten dus ook aanzien als minder kwalitatief. Bovendien bleek dat de feedback die de studenten op de papers gaven zeer kwalitatief was en vergelijkbaar was met de feedback die de docent had gegeven. Op basis van deze resultaten besliste de docent om voortaan de papers enkel nog via peer assessment te beoordelen en te voorzien van feedback. Ter controle diende de docent enkel nog de onderste 40% van de rangorde te na te kijken om te zien of er geen onterechte ‘fails’ tussen zaten en om de cesuur te bepalen. Dit leverde de docent een aanzienlijke tijdswinst op.

 

Meer weten?

Over D-pac

www.d-pac.be

Wil u graag eens experimenteren met de D-PAC technologie of de mogelijkheden voor uw organisatie wil verkennen, neem dan contact op via d-pac@uantwerpen.be

Over criteria en rubrics

Over de paarsgewijze vergelijking

  • Mortier, A. V., Lesterhuis, M., Vlerick, P., & Maeyer, S. D. (2015). Comparative judgment within online assessment: exploring students feedback reactions. In E. Ras & D. J. Brinke (Eds.), Computer Assisted Assessment. Research into E-Assessment (pp. 69–79). Springer International Publishing.
  • Pollitt, A. (2012a). Comparative judgement for assessment. International Journal of Technology and Design Education, 22(2), 157–170.
  • Pollitt, A. (2012b). The method of adaptive comparative judgement. Assessment in Education: Principles, Policy & Practice, 19(3), 281–300.
  • Thurstone, L. L. (1927). A law of comparative judgment. Psychological Review, 34(4), 273–286.

Algemeen

Voor UAntwerpen-personeelsleden         

  • Op het infocenter onderwijs vind je nog enkele good practices van peerassessment (ook d.m.v. paarsgewijze vergelijking) aan de Universiteit Antwerpen.

 

(Onderwijstip oktober 2017)