摘要:Tanto en la investigación aplicada como en la práctica clínica es habitual tener que evaluar el cambio que experimentan los pacientes como consecuencia del tratamiento que reciben. En este trabajo se valora el com-portamiento de varios métodos estadísticos diseñados para estimar ese cambio. La valoración se ha centrado en un aspecto al que todavía no se le ha prestado atención: la tasa de falsos positivos. Para ello, se ha simulado una situación de no-cambio (diseño pre-post sin cambio entre el pre y el post) y se ha valorado el comportamiento de nueve estadísticos distintos en ese escenario. Se han utilizado tres tamaños muestrales distintos (25, 50 y 100) y se han simulado 1000 muestras de cada tamaño. Para evaluar el comportamiento de los estadísticos elegidos se ha calculado el porcentaje de veces que cada estadístico ha detectado un cambio. Puesto que la situa-ción simulada es de no-cambio, cualquier alerta de cambio debe ser consi derada un falso positivo. Los resultados obtenidos son bastante llamativos: ninguno de los nueve estadísticos evaluados ofrece un comportamiento aceptable. Únicamente se consiguen resultados aceptables cuando se trabaja con la desviación típica de las diferencias pre-post y se aplican criterios clá-sicos en lugar de los propuestos por la literatura relacionada con la significa-ción clínica.
其他摘要:In applied research and in clinical practice we often need to as-sess the change experienced by patients as a result of the treatment they have received. This paper assesses the performance of several statistical methods designed to estimate such change. This study focuses on one as-pect that still has not received attention: the rate of false positives. We have simulated a situation of no-change (pre-post design with no change be-tween pre and post) in which the behavior of nine different statistics have been evaluated. Three different sample sizes (25, 50 and 100) were used and 1000 samples of each size were simulated. To evaluate the behavior of the chosen statistics we have calculated the percentage of times that each statistic has detected change. Since no-change is the simulated situation, any occurrence of change should be considered a false positive. Results are quite striking: none of the nine statistics evaluated offers an acceptable behavior. Good performance is achieved only when the standard deviation of pre-post differences and the traditional criteria are used and not when those proposed by the literature related to the clinical significance are used.