文章基本信息

标题：Análisis del examen profesional de la Facultad de Medicina de la UNAM: Una experiencia de evaluación objetiva del aprendizaje con la teoría de respuesta al ítem
其他标题：Analysis of the professional exam at UNAM Faculty of Medicine: An experience in objective assessment of learning with item response theory
本地全文：下载
作者：Delgado-Maldonado, Laura ; Sánchez-Mendiola, Melchor
期刊名称：Investigación en educación médica
印刷版ISSN：2007-5057
出版年度：2012
卷号：1
期号：3
页码：130-139
出版社：Universidad Nacional Autónoma de México, Facultad de Medicina
摘要：Introducción: El examen profesional es la evaluación sumativa de altas consecuencias, más importante de la carrera de médico cirujano. Una fuente de evidencia de validez del examen es el análisis psicométrico de los reactivos, para el que tradicionalmente se ha utilizado la Teoría Clásica de los Test (TCT), la cual tiene algunas desventajas, que la Teoría de Respuesta al Ítem (TRI) pretende resolver. El presente estudio reporta el análisis del Examen Profesional Teórico de la Facultad de Medicina de la UNAM con la TRI. Objetivo: Explorar los beneficios del uso de la TRI, para documentar evidencia de validez en un examen de altas consecuencias en educación médica. Método: Se efectuó el análisis psicométrico del Examen Profesional Teórico de la Facultad de Medicina de la UNAM, aplicado en 2008. La prueba consistió en un examen de opción múltiple acerca de seis áreas de conocimiento: Medicina interna, Pediatría, Gineco-obstetricia, Urgencias médicas, Cirugía y Medicina familiar, evaluadas con 420 reactivos de opción múltiple. Se calcularon confiabilidad, dificultad y discriminación con la TCT. Se utilizó el modelo de tres parámetros de la TRI. Con las dos aproximaciones se seleccionaron los mejores ítems, y se estimó la longitud de la prueba con la fórmula de Spearman-Brown. Resultados: El examen fue respondido por 882 sustentantes, tuvo un índice de dificultad de 0.55 y una confiabilidad de 0.93. Con el modelo de 3pl-TRI, el examen es informativo en niveles de habilidad cercanos al promedio en la escala theta. El parámetro de discriminación promedio (a) fue 0.67, el parámetro de dificultad (b) fue 1.21, y el parámetro de seudoadivinación (c) fue 0.18. Se encontró que es posible reducir el número de reactivos de la prueba, manteniendo una alta confiabilidad. La mayoría de los ítems en la prueba original (84%) tuvieron un buen ajuste al modelo 3pl-TRI, y en la versión acortada la gran mayoría (97%) tuvieron un ajuste similar. Discusión y conclusiones: El Examen Profesional Teórico de la Facultad de Medicina cubre los requisitos teóricos de número de reactivos y sustentantes, para aplicar el modelo de TRI. Se obtuvo evidencia de validez de constructo y un panorama psicométrico del instrumento, útil para la planeación de versiones subsecuentes. El examen puede reducirse en longitud haciéndolo más eficiente, sin perder precisión en la estimación de los niveles de habilidad de los sujetos ni validez de contenido.
其他摘要：Introduction: The end-of-career Professional Exam is a high-stakes summative assessment done at UNAM's Faculty of Medicine in Mexico, to certify that undergraduate medical students have achieved the knowledge level required to enter practice as a general physician. One source of validity evidence is the exam's internal structure, studied with item analysis. Classical Measurement Theory (CMT) has traditionally been used for this purpose, but it has several disadvantages that Item Response Theory (IRT) intends to solve. This report describes the use of the IRT model in the analysis of the written Professional Exam at UNAM's Faculty of Medicine. Objective: To explore the benefits of using the IRT model to obtain validity evidence for a high-stakes achievement test in a medical school. Method: A psychometric analysis of the written Professional Exam at UNAM's Faculty of Medicine was performed in 2008. The test was a written 420-item multiple-choice question exam that covers Internal medicine, Pediatrics, Obstetrics and gynecology, Emergency medicine, Surgery and Family medicine. CMT elements were calculated: reliability, difficulty and discrimination. The three-parameter IRT model was used. With these calculations the best items were selected, and the length of the test was estimated with Spearman-Brown's prophecy formula. Results: The exam was taken by 882 medical students, had mean difficulty index of 0.55 and reliability of 0.93. With the 3pl-IRT model, it was found that the test was particularly informative in ability levels close to the mean in the theta scale. The average discrimination parameter (a) was 0.67, the difficulty parameter (b) was 1.21, and the seudo-guessing parameter (c) was 0.18. A shortened version of the test (250 items) was designed using the information obtained, maintaining a high reliability. A majority of the items in the original test (84%) had a good fit to the 3pl-IRT model, and in the shortened version almost all of them (97%) had an appropriate model fit. Discussion and conclusions: The written Professional Test at UNAM's Faculty of Medicine fulfills the conceptual requirements (item number, examinees' sample size) to apply the IRT model in its item analysis. This information augments the validity evidence of the exam's score inferences and interpretations, and provides a psychometric panorama of the instrument that is useful to plan subsequent versions of the exam. The exam can be reduced in length making it more efficient, without losing precision in the estimation of the subjects' ability level or content validity.
关键词：Teoría de respuesta al ítem;teoría clásica de los test;evaluación sumativa;preguntas de opción múltiple;exámenes de altas consecuencias;educación médica de pregrado
其他关键词：Item response theory;classical measurement theory;summative assessment;multiple-choice questions;high-stakes assessment;undergraduate medical education