i.s.m. Prof. Annemiek Snoeckx (Faculteit Geneeskunde en Gezondheidswetenschappen, UAntwerpen)
1. Meerkeuzevragen in evaluatie en onderwijs
Examens vormen een belangrijk instrument om het leerproces en de verworven kennis en vaardigheden van studenten te evalueren. Afhankelijk van de leerdoelen kunnen verschillende vormen van evaluatie worden ingezet, zoals mondelinge of schriftelijke examens, open vragen of praktische proeven. Voor het testen van feitenkennis, inzicht en toepassingen zijn meerkeuzevragen bijzonder geschikt. Ze worden dan ook vaak gebruikt,
zowel in formatieve als in summatieve evaluaties. Er zijn verschillende vormen, afhankelijk van het doel: vragen met verklaringen of beste/slechtste antwoord toetsen inzicht en kritisch denken, terwijl herordeningsvragen- of matchingvragen relaties en processen beoordelen. (Sabbe E, 2013; NBME,2024).
Het gebruik van meerkeuzevragen biedt een aantal voordelen. Ze maken het mogelijk om in beperkte tijd een grote groep studenten te evalueren, met een objectieve beoordeling en een brede dekking van de leerstof. Ze helpen bovendien onderscheid te maken tussen volledige en gedeeltelijke kennis, omdat goed ontworpen afleiders typische denkfouten of onvolledig begrip kunnen blootleggen. De digitalisering van examens versterkt deze efficiëntie nog verder.
De kwaliteit van meerkeuzevragen hangt sterk af van de formulering. Elke vraag bestaat uit een stam, het juiste antwoord en meerdere afleiders. De stam bevat de probleemstelling en moet duidelijk, beknopt en eenvoudig zijn. Het gebruik van negatieve formuleringen of overbodige informatie wordt best vermeden. De alternatieven moeten grammaticaal aansluiten bij de stam, geloofwaardig en inhoudelijk verschillend zijn en ongeveer even lang. Drie alternatieven vormen doorgaans een goed evenwicht tussen leesbaarheid en betrouwbaarheid (Sabbe E, 2013; NBME, 2024).
Het opstellen van goede meerkeuzevragen is een zeer tijdsintensief proces, zeker in combinatie met de vele andere academische verantwoordelijkheden waar docenten dagelijks mee te maken hebben. Omwille van de tijdsinvestering, worden examenvragen vaak meerdere jaren hergebruikt. Dat is begrijpelijk, maar het brengt ook risico’s met zich mee. Kennis evolueert, curricula veranderen en vragen kunnen daardoor verouderen. Nieuwe, actuele vragen ontwikkelen blijft dus noodzakelijk. Nieuwe technologieën, zoals generatieve artificiële intelligentie (GenAI) bieden potentieel om in dit proces te helpen en zo docenten te ondersteunen (Artsi Y et al., 2024; UNESCO, 2023).
2. Artificiële intelligentie en large language models
De recente vooruitgang in GenAI biedt indrukwekkende mogelijkheden in natuurlijke taalverwerking, vooral dankzij de ontwikkeling van large language models (LLM’s). Deze modellen, zoals bijvoorbeeld ChatGPT, GPT-4 en Claude, zijn getraind op enorme hoeveelheden tekst. Ze kunnen nieuwe tekst genereren, vragen beantwoorden en informatie structureren op een manier die verrassend menselijk en accuraat aanvoelt. De toepassing van GenAI wekt groeiende interesse in domeinen waar kennisdeling centraal staat, zoals het onderwijs. GenAI kan leren ondersteunen, kennis toegankelijker maken en taken verlichten, waardoor meer ruimte ontstaat voor persoonlijke begeleiding. Tegelijk vraagt deze ontwikkeling om na te denken over hoe we menselijke expertise het best kunnen combineren met de mogelijkheden van AI. Zo wordt GenAI niet alleen een technologische innovatie, maar ook een motor voor vernieuwing in het onderwijs (Hang CN et al., 2023).
In deze onderwijstip wordt ingegaan op welke manier je als docent LLMs kan gebruiken voor meerkeuzevragen, waar je op moet letten en hoe je praktisch te werk gaat.
3. Wat kunnen LLMs betekenen voor examens met meerkeuzevragen?
LLMs kunnen docenten op verschillende manieren ondersteunen (Artsi Y et al, 2024; UNESCO, 2023):
Efficiënter en slimmer vragen opstellen
Eén van de grootste voordelen van GenAI is de snelheid. Waar het handmatig opstellen van een vraag veel tijd kost, kan een LLM veel sneller meerdere concept- of voorbeeldvragen genereren. Wanneer de tijdsinvestering minder wordt, laat dit toe om grotere aantallen vragen te ontwikkelen. Dit laat toe de turnover van vragen te verhogen en je databank met examenvragen regelmatig te vernieuwen. Zo blijft je materiaal up-to-date.
Het gebruik van LLMs reikt verder dan het opstellen van nieuwe vragen. LLMs kunnen ook gebruikt worden op bestaande sets van meerkeuzevragen om:
- grotere bestaande sets van vragen te reviseren en te structureren.
- verschillende versies van bestaande vragen te herwerken naar verschillende moeilijkheidsgraden.
- verschillende versies van een examen samen te stellen met een gelijkwaardige moeilijkheidsgraad.
Kwaliteitsbewaking
Het beoordelen van de kwaliteit van meerkeuzevragen vergt tijd en expertise, waarbij het een uitdaging is om vragen op een gelijke en consequente manier te beoordelen en dit proces zo eenvoudig en tijdsefficiënt mogelijk te maken. Het beoordelen van meerkeuzevragen in functie van IWF’s (Item writing flaws) is zeer uitdagend in grote vragensets. IWFs zijn fouten of tekortkomingen in de manier waarop meerkeuzevragen opgesteld zijn, zoals onduidelijke formuleringen, negatieve vraagstellingen, ongelijk opgebouwde antwoordopties,… LLMs zouden in de toekomst een rol kunnen spelen bij het systematisch screenen en standaardiseren van vragen, waardoor de validiteit en betrouwbaarheid van examens beter gewaarborgd blijven. LLMs kunnen daarnaast ook grammaticale en taalkundige fouten corrigeren, zodat er minder nabewerking nodig is.
Meer variatie en betere leerervaring
GenAI maakt het eenvoudiger om vragen te variëren of aan te passen aan verschillende doelgroepen. Hierdoor kan je als docent examens opstellen die beter aansluiten bij diverse studentengroepen of niveaus. Zo kunnen eerstejaarsstudenten bijvoorbeeld meer basisgerichte kennisvragen krijgen, terwijl masterstudenten complexere casusvragen en interpretatieopdrachten krijgen. GenAI opent zo de deur naar meer formatieve toetsing, waarbij studenten sneller gepersonaliseerde oefenvragen krijgen met directe feedback.
Verrijkte feedback voor studenten
Uit onderzoek blijkt dat meerkeuzevragen het meeste leerrendement opleveren wanneer studenten niet alleen het juiste antwoord zien, maar ook uitleg krijgen waarom dit antwoord correct is en waarom de andere opties fout zijn. In de praktijk wordt dit zelden toegepast, omdat de tijdsinvestering voor het maken van extra (oefen)vragen al behoorlijk groot is, laat staan de uitgebreide feedback bij vragen. LLMs kunnen hier een rol spelen door automatisch verklaringen te genereren bij alle antwoordopties (Ch’en PY et al., 2025).
4. Uitdagingen: wat moet je weten als je LLMs gebruikt?
Naast de voordelen die het gebruik van LLMs kan opleveren, zijn er ook belangrijke aandachtspunten waar je als docent rekening mee moet houden (Law AKK et al., 2025; Rincon EHH et al., 2025; Ahmed A et al., 2025)
Algemene aandachtspunten bij LLM-gebruik
- Beperkte actualiteit: De meeste modellen hebben geen toegang tot het internet en zijn enkel getraind op data 2021-2023. Nieuwe inzichten, curricula of richtlijnen van na die datum ontbreken dus, tenzij je werkt met een model dat specifiek toegang heeft tot recente informatie.
- Betrouwbaarheid van de output: GenAI kan soms foutieve of niet-onderbouwde antwoorden genereren die wel overtuigend klinken, de zogeheten ‘hallucinaties’. Controle door de docent blijft dus noodzakelijk.
- Bronvermelding en transparantie: LLMs verwijzen zelden naar duidelijke bronnen. Voor onderwijsmateriaal en toetsing is dit evident cruciaal. Het is dan ook belangrijk dat je zelf nagaat of de inhoud correct en relevant is.
- Bias en ethiek: Omdat de modellen getraind zijn op enorme datasets, kunnen er vooroordelen en verkeerde representaties insluipen in de output.
- Privacy en vertrouwelijkheid: Vermijd het delen van gevoelige of identificeerbare informatie over studenten, collega’s,…
- Afhankelijkheid: GenAI kan veel werk uit handen nemen, maar mag niet de plaats innemen van de docent. Het blijft belangrijk om zelf didactische keuzes te maken en kritisch te blijven.
- Toegankelijkheid en implementatie: Hoe GenAI verantwoord en praktisch ingebed kan worden in de onderwijspraktijk is nog niet altijd duidelijk. Ook vragen over logistiek, kosten en opleiding van docenten dienen nog verder uitgeklaard te worden.
Aandachtspunten bij het gebruik van LLMs voor meerkeuzevragen
- Wetenschappelijke evidentie: Onderzoek naar GenAI-gegenereerde meerkeuzevragen staat nog in de kinderschoenen. Het aantal studies over dit onderwerp is beperkt. Bovendien zijn de meeste studies uitgevoerd in het Engels en vaak in een gecontroleerde setting, niet in de echte onderwijspraktijk. Voor andere talen bestaan er eerste aanwijzingen dat GenAI ook daar bruikbaar kan zijn, maar harde conclusies ontbreken nog.
- Moeilijkheidsgraad: Er is wetenschappelijke evidentie dat GenAI-gegenereerde vragen vaker eenvoudiger zijn dan die van ervaren docenten. Dit maakt dat ze minder geschikt zijn om hogere-orde cognitieve vaardigheden (zoals toepassen of analyseren) te toetsen.
- Discriminatievermogen: Aansluitend aan de moeilijkheidsgraad is ook het discriminatievermogen van AI-vragen minder goed. GenAI-vragen maken nog onvoldoende onderscheid tussen studenten die goed of minder goed presteren.
- Kwaliteit van de afleiders: De plausibiliteit van foutieve antwoordopties of afleiders blijft een zwak punt. Te doorzichtige of ongeloofwaardige afleiders verminderen de toetswaarde.
- Rationales en feedback: Hoewel GenAI verklaringen kan genereren, zijn die vaak te oppervlakkig of minder genuanceerd. Daardoor is hun bruikbaarheid als leerfeedback voorlopig beperkt.
- Rol van de docent: GenAI kan nuttig zijn om templates of eerste versies van vragen te maken, maar het volledig overlaten van de vraagontwikkeling van GenAI is momenteel niet aan de orde. Een doorgedreven review, verfijning, en validatie door de docent blijft essentieel.
5. Hoe praktisch aan de slag met LLMs voor meerkeuzevragen?
Het belang van goede prompts
Wanneer je als docent LLMs inzet voor het ontwikkelen van meerkeuzevragen, begint alles bij de prompt. Een prompt is de instructie die je aan het model geeft: hoe duidelijker, specifieker en gestructureerder die instructie is, hoe beter de kwaliteit van de output. Dit proces, vaak ‘prompt engineering’ genoemd, is een nieuw vakgebied waarin onderzocht wordt hoe je modellen zo kan aansturen dat ze relevante, bruikbare en veilige antwoorden geven (Kiyak YS et al., 2024; Ch’en et al., 2025; Artsi et al., 2024).
Kernprincipes voor effectief promptgebruik
Wees heel specifiek
Hoe meer detail je in je prompt stopt, hoe gerichter het antwoord. Bijvoorbeeld: vermeld het vakgebied, het onderwijsniveau, het type examen en de verwachte output.
Geef context
Voorzie het model van een referentietekst of cursusmateriaal en vraag om vragen en antwoorden enkel daarop te baseren. Dit verhoogt de relevantie en vermindert de kans op fouten.
Splits complexe taken op
Dit zorgt voor een beter controleerbare output. Het laat ook toe om elke stap in het proces te evalueren en bij te sturen.
Itereer en verfijn
Gebruik de output van de eerste prompt als basis en vraag het model om verbeteringen of alternatieven. Geef aan wat je hierbij beoogt vb. maak de vraag moeilijker, herwerk de afleiders,…
Vraag om beknopte onderbouwing
Laat het model kort motiveren hoe het tot het antwoord kwam en zichzelf controleren op ontbrekende aannames of inconsistenties. Dit levert vaak meer consistente antwoorden op.
Gebruik externe hulpmiddelen waar mogelijk
Sommige modellen laten koppelingen toe met databanken of zoekfuncties om recente of domeinspecifieke informatie op te halen, vb. verbinding met wetenschappelijke databanken zoals PubMed, koppeling met recente beleidsdocumenten of richtlijnen vb. WHO-publicatie,…
Evalueer systematisch
Vergelijk de output met – zo mogelijk – standaardvragen of bestaand materiaal, en toets eventueel aan gekende criteria.
Stappenplan voor het opstellen van meerkeuzevragen met LLMs
Op basis van de bovenstaande principes kan je als docent volgens een stappenplan te werk gaan. Dit helpt om de voordelen van GenAI te benutten, maar tegelijk de gekende uitdagingen (zoals de kwaliteit van afleiders of eenvoudige vragen) onder controle te houden (Kiyak YS et al., 2024; Bhowmick AY et al., 2023).
Stap 1. Selecteer de inhoud
- Kies een leerdoel of een stuk lesmateriaal.
Stap 2. Genereer vragen
- Formuleer een duidelijke prompt waarin je het onderwerp, het niveau van de studenten en het gewenste type vraag omschrijft.
- Laat het LLM op basis van de input een reeks mogelijke vraagstellingen maken.
- Controleer als docent of de vragen correct, relevant en duidelijk geformuleerd zijn.
Stap 3. Formuleer correcte antwoorden
- Vraag het model per vraag om een correct antwoord te genereren.
- Controleer inhoudelijk of dit juist is en goed aansluit bij het leerdoel.
Stap 4. Genereer afleiders
- Laat het LLM meerdere foute antwoordopties creëren die plausibel zijn en inhoudelijk dicht tegen het correcte antwoord aanleunen.
- Beoordeel zelf de kwaliteit: zijn ze geloofwaardig en niet te doorzichtig?
- Als je 3 afleiders nodig hebt, kan je overwegen om het LLM er 5 te laten geven. Zo kan jij kiezen wat je de beste afleiders vindt voor de gestelde vraag (zie stap 6).
Stap 5. Voeg rationales toe
- Vraag het model om een korte uitleg te geven waarom een antwoord correct is en waarom de andere antwoorden fout zijn.
- Gebruik dit als basis voor feedback, maar lees steeds kritisch na.
Stap 6. Filter en verfijn
- Selecteer de vragen die inhoudelijk kloppen, de juiste moeilijkheidsgraad hebben en voldoen aan kwaliteitscriteria.
- Herformuleer waar nodig en verwijder zwakke items.
Stap 7. Itereer en breid uit
- Gebruik de sterkste vragen als sjablonen voor nieuwe prompts.
- Vraag het model varianten te maken, of examensets met vergelijkbare moeilijkheidsgraad.
Stap 8. Test en evalueer
- Vergelijk de GenAI-gegenereerde vragen met bestaande examenvragen.
- Evalueer of ze voldoen aan je toetsdoelen en of ze studenten voldoende uitdagen.
Voor UAntwerpen personeel - na inloggen:
6. Wat brengt de toekomst?
Het gebruik van LLMs voor het maken van meerkeuzevragen staat nog maar in zijn kinderschoenen, waarbij er voorlopig ook nog maar weinig wetenschappelijk onderzoek over bestaat. Bovendien is de literatuur die er is vaak gebaseerd op het gebruik van de Engelse taal en is het onderzoek uitgevoerd in een specifieke onderzoekssetting, zonder duidelijke vertaalslag naar de praktijk.
Tegelijk ontwikkelen modellen zich razendsnel en volgen de ontwikkelingen elkaar in een hoog tempo op. Nieuwe generaties GenAI-modellen (vb. OpenAI’s reasoning models of DeepSeek-R1) kunnen al beter redeneren en stap voor stap hun antwoord opbouwen.
Daarnaast zijn er ook eerste systemen die speciaal gemaakt zijn om docenten te helpen bij toetsontwikkeling, zoals Questgen, QuizRise,... (Hang CN et al., 2023).
De toekomst ziet er dus veelbelovend uit, waarbij er zeker het vertrouwen is dat met AI er opportuniteiten zullen zijn om docenten te kunnen ondersteunen bij het ontwikkelen, herwerken en evaleren van meerkeuzevragen. Voor docenten betekent dit dat experimenteren zinvol is, maar dat kritische evaluatie en menselijke validatie onmisbaar blijven.
7. Conclusie
LLMs kunnen het opstellen van meerkeuzevragen versnellen en verrijken, maar hun output vormt slechts een vertrekpunt. Menselijke controle blijft essentieel om kwaliteit en didactische waarde te garanderen. De technologie ontwikkelt zich razendsnel, dus experimenteren en kritisch leren zijn cruciaal. Wacht niet tot GenAI perfect is, maar begin er vandaag mee, experimenteer en probeer uit, evalueer kritisch en ontdek gaandeweg hoe het jou kan ondersteunen.
Meer weten?
Sterk aanbevolen literatuur
- Ahmed A, Kerr E, O'Malley A. Quality assurance and validity of AI-generated single best answer questions. BMC Med Educ. 2025 Feb 25;25(1):300. doi: 10.1186/s12909-025-06881-w.
- Artsi Y, Sorin V, Konen E, Glicksberg BS, Nadkarni G, Klang E. Large language models for generating medical examinations: systematic review. BMC Med Educ. 2024 Mar 29;24(1):354. doi: 10.1186/s12909-024-05239-y.
- Bhowmick AK, Jagmohan A, Vempaty A, Dey P, Hall L, Hartman J, Kokku R, Maheshwari
- H. Automating question generation from educational text. arXiv [Preprint]. 2023 Sep 26 [cited 2025 Oct 11]. Available from: https://arxiv.org/abs/2309.15004
- Ch'en PY, Day W, Pekson RC, Barrientos J, Burton WB, Ludwig AB, Jariwala SP, Cassese
- T. GPT-4 generated answer rationales to multiple choice assessment questions in undergraduate medical education. BMC Med Educ. 2025 Mar 4;25(1):333. doi: 10.1186/s12909-025-06862-z.
- Hang CN, Tan CW, Yu P-D. MCQGen: A large language model-driven MCQ generator for personalized learning. IEEE Access. 2023;11:1-12. doi:10.1109/ACCESS.2024.3420709
- Kıyak YS, Emekli E. ChatGPT prompts for generating multiple-choice questions in medical education and evidence on their validity: a literature review. Postgrad Med J. 2024 Oct 18;100(1189):858-865. doi: 10.1093/postmj/qgae065.
- Law AK, So J, Lui CT, Choi YF, Cheung KH, Kei-Ching Hung K, Graham CA. AI versus human-generated multiple-choice questions for medical education: a cohort study in a high-stakes examination. BMC Med Educ. 2025 Feb 8;25(1):208. doi: 10.1186/s12909-025-06796-6.
- National Board of Medical Examiners. NBME item-writing guide: Constructing written test questions for the health sciences. 6th ed. Philadelphia (PA): National Board of Medical Examiners; 2024. Available from: https://www.nbme.org
- Rincón EHH, Jimenez D, Aguilar LAC, Flórez JMP, Tapia ÁER, Peñuela CLJ. Mapping the use of artificial intelligence in medical education: a scoping review. BMC Med Educ. 2025 Apr 12;25(1):526. doi: 10.1186/s12909-025-07089-8.
- Sabbe E, Lesage E. Meerkeuzetoetsen: praktische handleiding voor leerkrachten en docenten. Antwerpen: Garant; 2012. 82 p.
- United Nations Educational, Scientific and Cultural Organization (UNESCO). Guidance for generative AI in education and research. Paris: UNESCO; 2023. ISBN: 978-92-3-100612-8. Available from: https://doi.org/10.54675/EWZM9535
Achtergrondliteratuur
- Arif T, Asthana S, Collins-Thompson K. Generation and assessment of multiple-choice questions from video transcripts using large language models. In: Proceedings of the Eleventh ACM Conference on Learning @ Scale (L@S ’24). Atlanta (GA): ACM; 2024. p. 1–7. doi:10.1145/3657604.3664714
- Başaranoğlu M, Akbay E, Erdem E. AI-generated questions for urological competency assessment: a prospective educational study. BMC Med Educ. 2025;25:611. doi:10.1186/s12909-025-07202-x
- Cheung BHH, Lau GKK, Wong GTC, Lee EYP, Kulkarni D, Seow CS, et al. ChatGPT versus human in generating medical graduate exam multiple choice questions—A multinational prospective study (Hong Kong S.A.R., Singapore, Ireland, and the United Kingdom). PLoS One. 2023;18(8):e0290691. doi:10.1371/journal.pone.0290691
- Demeester T, Beckmann L. Distractor generation for multiple-choice questions with predictive prompting and large language models. Commun Comput Inf Sci. 2025;2134:48–63.
- Griot M, Vanderdonckt J, Yuksel D, Hemptinne C. Multiple choice questions and large language models: a case study with fictional medical data. arXiv preprint. arXiv:2406.02394. 2024.
- Mistry NP, Saeed H, Rafique S, Le T, Obaid H, Adams SJ. Large language models as tools to generate radiology board-style multiple-choice questions. Acad Radiol. 2024;31(11):3872–8. doi:10.1016/j.acra.2024.06.046
- Moore S, Nguyen HA, Chen T, Stamper J. Assessing the quality of multiple-choice questions using GPT-4 and rule-based methods. Carnegie Mellon University; 2023.
- Safranek CW, Sidamon-Eristoff AE, Gilson A, Chartash D. The role of large language models in medical education: applications and implications. JMIR Med Educ. 2023;9:e50945. doi:10.2196/50945
- Sawamura S, Kohiyama K, Takenaka T, Sera T, Inoue T, Nagai T. Potential of large language models in generating multiple-choice questions for the Japanese National Licensure Examination for Physical Therapists. Cureus.2025;17(2):e79183. doi:10.7759/cureus.79183
- Tomova M, Roselló Atanet I, Sehy V, Sieg M, März M, Mäder P. Leveraging large language models to construct feedback from medical multiple-choice questions. SciRep. 2024;14:27910. doi:10.1038/s41598-024-79245-x
- Tran A, Angelikas K, Rama E, Okechukwu C, Macneil S. Generating multiple choice questions for computing courses using large language models. In: 2023 IEEE Frontiers in Education Conference (FIE). IEEE; 2023. doi:10.1109/FIE58773.2023.10342898
- Verghese BG, Iyer C, Borse T, Cooper S, White J, Sheehy R. Modern artificial intelligence and large language models in graduate medical education: a scoping review of attitudes, applications & practice. BMC Med Educ.2025;25:730. doi:10.1186/s12909-025-07321-5
- Wu S, Koo M, Blum L, Black A, Kao L, Fei Z, Scalzo F, Kurtz I. Benchmarking open-source large language models, GPT-4, and Claude 2 on multiple-choice questions in nephrology. NEJM AI. 2024;1(2). doi:10.1056/AIdbp2300092
- Elkins S, Kochmar E, Serban I, Cheung JCK. How useful are educational questions generated by large language models? arXiv preprint. arXiv:2304.06638. 2023