examen-800x500_c
“Siéntense y no den la vuelta al examen hasta que se les indique. Disponen de una hora, los fallos restan 0’25 y el aprobado se establece en el 75% de las 10 mejores notas. Buena suerte”.

Cada año esta frase se repite en decenas de aulas de Medicina españolas. Y cada año se acompaña de caras de cabreo, desesperación y, finalmente, resignación de los estudiantes ante la perspectiva de enfrentarse a un examen en el que su aprobado o suspenso dependerá de las notas de sus compañeros.

Es un tema que choca a cualquiera ajeno a la Facultad y el Grado de Medicina, y con razón. Fuera de esta carrera y nuestro país, no conozco apenas (por no decir ningún) otro ejemplo de esta peculiar exigencia para superar un exámen final. En algunas facultades (como la de servidor), este tipo de medidas les han ganado la fama de “duras”, “competitivas” o el mal aplicado “de élite”. Por algo llamamos (y pocas veces con cariño) a mi alma mater “UAMtánamo”.

Con los años uno acaba oyendo de todo por parte de los profesores sobre por qué aplican esta curiosa exigencia. “Así os preparáis para el MIR”. “Esto es el Gauss de toda la vida y corrige para la dificultad del exámen”. “En lugar de quejaros tanto deberíais estudiar más y aprobar” (confieso que le tengo especial cariño a esta última).

Pero, ¿en qué se basa este método? ¿De veras afecta de forma negativa a nuestro expediente? ¿Fomenta la competitividad? ¿O puede ser que hasta nos estén beneficiando al “corregir” para la dificultad del examen, como argumentan algunos? En este post intentaremos dar respuesta a estas preguntas. Para ello, debemos empezar por lo más importante. ¿Qué és y cómo se establece un punto de corte?

¿Qué entendemos por punto de corte?

Al contrario de lo que estamos acostumbrados desde el instituto, hay un mundo más allá de “el aprobado es un 5″. Y es que el campo de la evaluación de habilidades conforma toda una disciplina denominada psicometría. Aplicado a nuestro terreno, muchos obvian que hay revistas enteras dedicas a este y otros temas relacionados con la educación médica, que abarcan desde cuántas opciones son idóneas en una pregunta tipo test sobre un caso clínico hasta cómo enseñar y evaluar la exploración cardiovascular. Estos temas han sido debatidos e investigados con ensayos clínicos y meta-análisis rigurosos.

En 2008, la AMEE (Asociación Europea de Educación Médica) publicó una guía específica sobre cómo establecer y mantener los niveles de exigencia en los exámenes tipo test, el tipo de exámen más extendido en la carrera. Para los que os interese el tema, recomiendo encarecidamente la lectura de dicha guía, en la que me he basado para gran parte de este post.

La primera parte de la guía nos introduce el concepto de proceso de establecimiento del estándar, que definen con bastante sencillez como “el proceso de determinar cúanto es suficiente”. En educación médica, esto se relaciona clásicamente con el concepto de competencia. Ya os podéis imaginar que la competencia no es una variable dicotómica, sino que se mide en una escala continua, ya que dos alumnos pueden ser “suficientemente buenos” suturando pero variar considerablemente en su nivel de sultura con haciendo nudos.

Valorar la competencia es un proceso más complicado de lo que parece.

Por lo tanto, cuando hablamos de estándar, nivel de aprobado o punto de corte nos estamos refiriendo a un punto en dicha escala de competencia o evaluación, fijado de forma artificial, que nos permite separar a los alumnos que presentan un rendimiento aceptable de un rendimiento no-aceptable. En otras palabras, el punto de corte es el punto en la escala a partir del cuál establecemos la separación entre competencia e incompetencia.

Al transformar una variable contínua tan compleja como la competencia en una variable dicotómica “Aprobado/Suspenso” artificial, vamos a incurrir en error. De tal forma que, al igual que en cualquier prueba clínica, podemos tener falsos positivos (aprobar a un alumno incompetente) o falsos negativos (suspender a un alumno competente). Estos falsos positivos y negativos se concentran en las puntuaciones cercanas al punto de corte elegido.

Casi todos los autores coinciden en que es mucho más grave cometer un error falso positivo (certificar que un cirujano es apto para operar cuando no lo es) que un falso negativo (obligar a dicho cirujano competente a recertificarse). El establecimiento del punto de corte en Medicina no sólo tiene el potencial de alterar la vida y planes del alumno, sino de afectar a las vidas de quienes los alumnos certificados como competentes tendrán en sus manos. De ahí la importancia de ser rigurosos en el establecimiento y control de los puntos de corte. Lo que nos lleva a:

Estableciendo el punto de corte: métodos basados en criterios y métodos basados en la media/norma

Antes de diferenciar estos dos métodos, hay que partir de dos premisas. La primera, y muy importante, es que no existe y (seguramente) nunca existirá un “gold standard” en el que no esté implícito una valoración humana. Esto es así, y se resume en los “profesores majos o estrictos” de toda la vida. En el futuro cercano o previsible, existirá un componente subjetivo intrínseco al proceso de evaluación. Sin embargo, debe ser nuestro objetivo reducir al máximo el error de medición y la variabilidad en el que incurrimos por este hecho.

La segunda, y en relación con esta última, es que el establecimiento de un estándar sujeto a valoración humana no puede ni debe ser equivalente al establecimiento de un estándar de forma arbitraria o caprichosa. Para que el punto de corte sea adecuado, el método para establecer este debe ser justo, defensible, validado por estudios, práctico en sus resultados y transparente en su aplicación (Cusimano 1996; Norcini 2003; Cizek 2006). Por esta razón, y debido a la variación en el nivel de dificultad de las pruebas de distintos años, tampoco se podría justificar mantener un punto constante o arbitrario, sea un 5 o 7, a partir del cual se realizen juicios de competencia/incompetencia.

11194472_975731612437150_8704413670066292264_o
Sea cual sea el método, los estudiantes de Medicina nos hemos acostumbrado a recibir el aprobado “raspado”, sea con la nota que sea, cómo bendición divina. Viñeta de “Reglas Médicas”.

Por esta misma razón choca tanto que los argumentos (o falta de los mismos) que se esgrimen para defender el aprobado en el x% de las 10 mejores notas se basen en el “siempre se ha hecho así”. Si lo trasladásemos a la práctica asistencial de nuestros profesores, sería el equivalente a que recetasen un fármaco o realizasen una intervención con un nivel de evidencia V, grado de recomendación D (“consenso” de expertos).

Sin embargo, el establecimiento del nivel de aprobado en función del rendimiento de la clase no una invención. De hecho es uno de los dos grandes métodos que existen para la fijación del punto de corte. Estos son los “Criterion Based Methods” o métodos basados en criterios, en el que se establece un estandar absoluto independiente del rendimiento de los alumnos, y los “Norm-referenced methods” o métodos basados en la media (o norma). El aprobado con el “x%” de las “y” mejores notas entraría dentro de los métodos basados en la media.

Pero, ¿eso significa que lo están haciendo bien los profesores estableciendo el aprobado en función del rendimiento de la clase? Rotundamente, no. Seamos meridianamente claros en este aspecto. Está demostrado que los métodos de evaluación basados en la media, ya sea el 70% de las 10 mejores mejores notas o el 50% de las 5 mejores, no son adecuados para realizar juicios de competencia o incompetencia (Holmes, 1986; Norcini, 1994; Boulet et al., 2003) . Si hay un mensaje que quisiera transmitir con este post, sería éste.

La función de las Facultades de Medicina es actuar como garantes de la competencia de sus graduados. En el caso de Medicina, eso implica certificar que egresamos con los conocimientos y competencias establecidas por el plan de estudios y el BOE. El aprobado en una materia es la certificación oficial de la adquisición de dichos conocimientos y competencias. Dependerá del criterio experto de los profesores (“jueces”) establecer un baremo más o menos estricto para valorar la adquisición de dichas competencias, pero nunca debe o puede depender del rendimiento de los compañeros. La evaluación basada en la media no ata el punto de corte a la adquisición de competencias. La evaluación basada en criterios, sí.

Considerad un examen en el que tu nota dependa del rendimiento de los demás. En función de si tu grupo fuese débil o fuerte, el % de aprobados/suspensos no variaría (la línea roja se desplazaría). Sin embargo, en ese caso no se estaría asegurando la adquisición de competencia (línea roja fija, evaluación basada en criterios)

Al igual, que antes hablábamos de que podría haber evidencia nivel V grado D, ahora estaríamos hablando de una recomendación IA o IB fuerte en CONTRA. Y todo esto sin valorar la idoneidad de que un sólo examen teórico sea el baremo empleado para decidir si un alumno es competente o no en una asignatura. Sin embargo, esta metodología se sigue empleando en muchas Facultades de Medicina españolas, lo que nos lleva a la pregunta:

¿De dónde y por qué surgío este método de fijación del punto de corte?

Hemos mencionado por qué es (o debería ser) obligatorio evaluar en función de criterios y no del rendimiento o la media para la certificación de competencia. Sin embargo, son muchas las Facultades que emplean esta metodología, lo que planteá la duda de sí hay algún fundamento o razonamiento detrás de evaluar en función del rendimiento y no de criterios.

Para mi sorpresa al investigar el tema, resulta que sí. Y tiene sus orígenes en los Países Bajos y en un profesor cuyo nombre es Janke Cohen, de la Facultad de Medicina de la Universidad de Groningen, y quien prestó su nombre al llamado “Método de Cohen” (Cohen‐Schotanus, 2010) para el establecimiento del estándar.

El problema de los métodos basados en criterios es que muchas veces son complejos y costosos. No es la finalidad de este post analizar los distintos tipos de sistemas basados en criterios (el más empleado es el método de Angoff), pero estos se basan en procedimientos largos que requieren la participación del máximo número de profesores posible para asegurar su validez. Es entendible que la aplicación de estos sea vea dificultada por la falta de recursos y la necesidad de repetir el procedimiento anualmente.

Para atajar este problema, Cohen ideó un sistema cuyo objetivo era alcanzar un compromiso entre la evaluación basada en criterios y la basada en la media. Para ello, decidió buscar un factor común y estable en el complicado procedimiento del elección del punto de corte, y que permitiese ajustar los resultados en función de la complejidad de la prueba. Y lo encontró en los mejores estudiantes, o como aquí los conocemos, “las 10 mejores notas”.

Según Cohen, el rendimiento de los mejores estudiantes, aquellos que han dominado la materia, debería ser relativamente constante y resistente a los cambios de metodología de año a año. Sin embargo, su rendimiento en el exámen debería verse afectado invariablemente por la dificultad de este. Por lo tanto, Cohen planteó un método que se basaba en el rendimiento de los mejores estudiantes (percentil 95, suponiendo distribución normal) como factor.

La fórmula simplificada, eliminando la correción para el azar que en España se suele computar directamente en el sumatorio de puntos es la siguiente:

Nota de corte = 0.6 x (Media en % del p95)

Os suena de algo? He aquí el gérmen del famoso “aprobado en el 75% de las 10 mejores notas”. Sin embargo, y cómo es habitual en nuestro medio, hemos pervertido el modelo de Cohen, que de por sí presentaba serios problemas de planteamiento, para acabar con nuestra “interpretación” particular.

Por qué el método de Cohen no es una solución aceptable

Seguramente os haya llamado la atención que la media se multiplica por 0,6. En mi Facultad, dependiendo de la asignatura, ese 0,6 es un 0,7 o 0,75. ¿De dónde sale esta factor corrector? ¿Por qué el 75% de las 10 mejores y no el 70%? La respuesta es decepcionantemente simple, y aparece en el artículo de Cohen donde describe su propio método. Es completamente arbitrario. Cohen eligío un 0,6% por que es la nota de aprobado que más se empleaba en los Paises Bajos. Al igual que con nuestra interpretación, incumple una de las premisas esenciales de el establecimiento del estándar, el de no arbriteriedad.

12029563_1049162141760763_6013121785831304589_o
El establecimiento del nivel de aprobado corresponde en muchos casos a criterios arbitrarios, o, como en este caso, maldad absoluta. Viñeta de “Reglas Médicas”.

De hecho, no existe ningún componente basado en criterios en el cálculo de la nota, con lo que ya no podríamos hablar de un sistema de compromiso, sino un sistema basado en la norma. Y ya hemos comentado por qué no son aceptables los sistemas que no son basados en criterios. Sin embargo, no sólo es una cuestión de sistema basado en norma vs basado en criterios. En el artículo donde Cohen expuso su sistema, hizo un análisis retrospectivo pormenorizado sobre exámenes históricos del efecto que su método tendría sobre la variabilidad de los porcentajes de aprobado. Demostró que con su método existía menor variabilidad en los grupos de suspensos/aprobados entre años y mayor porcentaje de aprobados.

Carecemos de cualquier estudio similar para nuestro medio. Sin dicho análisis, y sin tener en cuenta el efecto que tiene el ajuste del multiplicador de 0.6 a 0.75 (¡15% de diferencia!), es irresponsable suponer que este método tiene validez en nuestro entorno para la evaluación de estudiantes de Medicina españoles. Y tampoco se puede demostrar que “salva o aprueba a muchos alumnos al corregir para la dificultad”, ya que al cambiar el factor corrector y al carecer de estudios es imposible realizar esa afirmación.

Otro gran problema del método de Cohen es su elección de los “10 mejores expedientes” como factor corrector. No se puede asegurar que la media del percentil 95 sea un indicador fiable de la dificultad del examen. Esto se debe a varias razones:

  • La epidemia de plagio que existe en las Facultades de Medicina. Si no se es capaz de certificar la validez de las 10 mejores notas al carecer de normativa sancionadora contra el plagio o medidas anti-plagio como distintos modelos de exámen,  no se pueden emplear los mejores expedientes cómo factor corrector.
  • Dependiendo del diseño del exámen, es perfectamente posible que el método de Cohen produzca falsos negativos (suspensos) desmesurados en el caso de que el examen no discrimine adecuadamente entre estudiantes “buenos” y “malos”.
  • En el artículo original de Cohen, se demostró menor variabilidad (validez interna), pero en ningún momento se llegó a analizar la relación entre el punto de corte y el nivel de competencia deseable (validez externa), algo fundamental para poder elegir una herramienta que se empleará para discriminar entre estudiantes competentes e incompetentes.

Además de factores metodológicos, hay que tener en cuenta factores prácticos y éticos. Uno de los más perjudiciales es el efecto que tiene pasar de un 7 sobre 10 a un 5 de 10 en tu expediente, al haberse establecido el aprobado en un 7. Hay una razón por la que tenemos los peores expedientes de todas las facultades de España, por muchos que luego compensemos con creces en el examen MIR. Por otra parte, dicho sistema genera muchísima competitividad y frustración interna el “competir” contra tus compañeros para poder aprobar. De hecho, muchos paises anglosajones están adaptando sistemas de aprobado/suspenso sin notas para sus programas de Medicina, que han demostrado reducir niveles de estrés, aumentar la cohesión de grupo y no impactar negativamente en su nivel de habilidades. Posición diametralmente opuesta a la nuestra.

Cómo resumen, carecemos de la evidencia y la solidez metodológica necesaria como para emplear el método de Cohen con un modificador de 0,7 o 0,75 para establecer el punto de corte en nuestro medio.

¿Qué alternativas existen?

“¿Entonces, qué hacemos para corregir para el nivel de dificultad del examen?”. Hay varias soluciones. Por una parte, un examen bien construido empleando criterios (usando el método de Angoff o similares) de por sí establece un nivel de aprobado que no debería necesitar de ajuste. En caso de necesitarlo, hay varios métodos que se pueden aplicar, además de la posibilidad de anular preguntas con un porcentaje de fallos superior al 95% (poco discriminatorias). La guía de la AMAA incluye un método para el ajuste de preguntas empleando “preguntas marcador” o repetidas entre años para estimar el nivel de dificultad del examen respecto a otros años.

Método usado por el “Royal College of Surgeons” de Australia en la corrección de sus exámenes de certificación

Sobre qué método basado en criterios se debería emplear, cómo hemos mencionado antes, no hay consenso. La guía de la AMAA recomienda un método “pragmático” basado en preguntas clasificadas según su nivel de importancia y dificultad. Otros abogan por un método de Cohen modificado, que establece el factor correcto y el percentil a través de análisis histórico de exámenes previos.

Método “pragmático” para establecer la nota de corte de un examen.

Para terminar, me gustaría recordar que este es un sólo fragmento del complejísimo entramado que es el desarrollo y empleo de pruebas de evaluación. Tenemos muchos deberes pendientes en el establecimiento de pesos, calendario de exámenes, evaluación contínua, evaluación práctica y muchos otros temas igual o incluso más importantes que este. Siempre recordando que el objetivo de los exámenes de la carrera no es ordenar a los alumnos de peor a mejor, sino certificar la adquisición o no de competencias.

Lo que está claro es que tenemos que cambiar nuestro enfoque hacia la docencia. Debemos pasar de el “siempre se ha hecho así” y “yo soy el catedrático” a un análisis somero, basado en la evidencia y completo de nuestra metodología de evaluación.

Espero que hayáis disfrutado con el post :). ¿Qué opinaís sobre los métodos de evaluación en las Facultades de Medicina españolas? Dejad vuestro comentario abajo.

10
10
10
10
Sobre campanas y exámenes: El aprobado en Medicina

Un pensamiento en “Sobre campanas y exámenes: El aprobado en Medicina

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *