摘要:Hintergrund: Damit Multiple Choice Prüfungen über die reinen Prüfungsergebnisse hinausgehende Schlussfolgerungen zulassen, müssen sie für die jeweiligen Interpretationsabsichten inhaltlich gültig sein und hinreichend zuverlässig messen.Die vorliegende Studie geht der Frage nach, ob von Prüfungsexperten mit Dozierenden geführte Itemanalysebesprechungen eine Steigerung der Validität und Reliabilität nachfolgender Prüfungen bewirken. Methoden: Diese Itemanalysebesprechungen wurden im dritten Studienjahr Humanmedizin an der Universität Zürich 2007 erstmalig flächendeckend eingeführt.Um deren Einfluss auf spätere Prüfungen zu untersuchen, wurden die Semesterabschlussprüfungen vor und nach dieser Intervention hinsichtlich verschiedener Validitäts- und Reliabilitätskriterien (inhaltliche Relevanz, taxonomische Stufe, psychometrische Kennwerte) miteinander verglichen.Andere Bedingungen wie beispielsweise Objektivität und inhaltliche Repräsentativität wurden konstant gehalten. Ergebnisse: Nach Einführung der Itemanalysebesprechungen wiesen die Prüfungsfragen einen Trend zu höherer Relevanz auf.Die taxonomische Einstufung blieb unverändert.Hingegen stiegen sowohl die Trennschärfen als auch die Reliabilitätskoeffizienten signifikant an und es mussten weniger Prüfungsfragen wegen ungünstiger psychometrischer Eigenschaften aus der Prüfungsbewertung eliminiert werden. Schlussfolgerung: Von Prüfungsexperten angeleitete Itemanalysebesprechungen mit Dozierenden stellen ein wertvolles Instrument zur Qualitätsverbesserung von Multiple Choice Prüfungen insbesondere hinsichtlich der Reliabilität dar.