De sensibilidades y especificidades o el arte de la lectura de situaciones y mediciones

Hace tiempo que dirigí estudios epidemiológicos de los trastornos mentales en la infancia. Estudiábamos población general, o población de los niños y niñas que acudían a consultas de los pediatras.

 

Teníamos varias formas de hacerlo: una era contar y hacer palotes en grupos de cuatro que tachábamos con el quinto palote, así cada grupo eran cinco casos, eran los ancestros de la investigación epidemiológica en este país. Se podría decir que era una epidemiología de “contadores”.

 

Luego con la llegada de los estudios de Rutter y Goldberg aprendimos lo que era la investigación en doble fase, la primera pretendía determinar las características de la población estudiada o muestra y los instrumentos a utilizar debían ser inespecíficos o generales, pues lo que se determinaría es si eran “caso” o “no caso”. Estas escalas que utilizamos las llamábamos de “screening”, así, en inglés y todo. Luego en la segunda fase se realizaba una evaluación concreta y más específica en las poblaciones seleccionadas de caso, no caso y los casos dudosos.

 

El problema se centraba en cómo seleccionar y clasificar la muestra a partir de los resultados obtenidos de las escalas de screening, para lo que se obtenía una puntuación en esas escalas y se consideraba “caso” a partir de una puntuación determinada que se llamaba “punto de corte”.  Si estaba claramente con una cifra muy superior era caso, si era inferior era no caso. El problema se situaba en puntuaciones muy cercanas al punto de corte, eran los casos dudosos que había que estudiar con más profundidad en la segunda fase, donde ya se introducía el concepto de caso que representaba un nivel más específico que el de puntuación en la escala.

 

Los diferentes estudios ponían de manifiesto que sobre una misma muestra, la puntuación de la escala clasificaba de forma diferente a los resultados que se obtenían, esta diferencia se debía a modificar el punto de corte. Si el punto de corte era muy bajo, había muchos casos y la prueba tenía mucha sensibilidad, cualquier desviación era detectada. Si el punto de corte era muy alto se seleccionaban pocos casos, porque la puntuación exigía una gran especificidad para sobrepasar el punto de corte.

 

Al relacionar la puntuación del screening con el criterio de caso en la segunda fase, se observaron cuatro grupos de casos estudiados: los que puntuaban tanto en la escala como en la entrevista eran los casos-casos; si la puntuación era baja y no cumplían los criterios de caso entonces era la población “normal”. Los otros dos grupos tenían un gran interés científico a la hora de poder clasificar a las poblaciones: en un grupo se puntuaba positivo en la prueba de screening, pero no cumplían los criterios de caso en la segunda fase, es decir eran sujetos que habían obtenido una falsa positividad. Por fin, el cuarto grupo se refería a aquellos que no habían puntuado en la prueba de screening y cumplían los criterios de casos en la segunda fase, este grupo eran los falsos negativos.

 

¿A qué se atribuye la existencia de estos dos últimos grupos? Aquí entran los conceptos de sensibilidad y especificidad en referencia al punto de corte. Si en la selección de los casos nos basamos en la sensibilidad, obtendremos un número de casos a estudiar muy elevado, pero muchos de esos casos serán falsamente positivos, por lo que la tasa (número de casos problema en relación a la población) aparentará más alta de lo que en realidad es, se crea una alarma en la población innecesaria.

 

Si, por el contrario, seleccionamos un punto de corte elevado entonces lo sobrepasan muy pocos sujetos, porque se ha elegido ser muy específicos en la selección de esa muestra. En la segunda fase los que han sobrepasado el punto de corte serán, con mucha probabilidad, caso-caso, pero entre los que se encuentran con puntuaciones inferiores al punto de corte tan exigente habrá un número determinado de casos que no han puntuado en la prueba de screening, es decir son casos falsamente negativos.

 

En otras palabras: a mayor sensibilidad mayor probabilidad de tener falsos positivos y a mayor especificidad la posibilidad mayor es para los falsos negativos. Por ello hay que saber equilibrar la sensibilidad con la especificidad a la hora de elegir el punto de corte de una prueba de screening.

 

He dirigido varias Tesis Doctorales con esta metodología y siempre se obtenían resultados que justificaban la clasificación en estos cuatro grupos referidos con anterioridad. Un dato es que siempre aparecen falsos positivos y falsos negativos cuando empleamos pruebas estándar. Por lo tanto, en rigor científico de análisis, si solamente utilizamos pruebas estándar tenemos posibilidad de dar por positivo un negativo o de dar por negativo un positivo y esa posibilidad será tanto mayor en uno u otro sentido, según variemos el punto de corte. De hecho, el error más común es creer que por puntuar en la escala “h” o “b” se padece tal o cuál diagnóstico, no es un criterio riguroso, puntuar no es diagnosticar y hay que tenerlo en cuenta.

 

Algo similar a lo referido con anterioridad acontece con los programas de evaluación del plagio. Estos programas solamente son el equivalente a nuestras pruebas de screening y, por lo tanto, su resultado, su porcentaje es una convención, un consenso, pero no es una verdad absoluta, no diagnostica directamente. El resultado dependerá de los filtros que se seleccionen y lo que se quiera evaluar. Subir el número de filtros es incrementar la exigencia, se mostrará más específico a la hora de seleccionar y, es posible, que acontezcan falsos negativos. Si pongo filtros muy laxos, entonces se baja la exigencia en la selección porque se incrementa la sensibilidad de la prueba, pero se obtendrán muchos falsos positivos.

 

Luego está el factor tiempo, no podemos decir plagio de una obra X si la comparamos con una Y que ha sido publicada con posterioridad a X. En este caso Y se basa en X y tendrá un elevado número de coincidencias porque tanto el objetivo, como la metodología es diferente, pero el autor puede transcribir parte o todo lo crea conveniente de X a Y. En otras ocasiones las coincidencias se basan en que la obra Y es una recopilación de textos previos (los ingleses lo denominan “collected paper”), las publicaciones posteriores a una Tesis Doctoral tienen esta característica, una cosa es la Tesis y otra la explotación académica o de divulgación de ella. Es decir no existe el plagio retroactivo.

 

Es de rigor mental citar de forma clara y exacta a los autores de la idea, unas veces puede hacerse de forma general y otra más textual para lo que, en este último caso, se entrecomilla la cita. En el primer caso se refiere a un comentario de contenido general y la cita puede ser común a uno o varios autores. Las citas bibliográficas habitualmente se realizan con un método acordado internacionalmente por un grupo de publicaciones relevantes de cada especialidad. En todas ellas tienen gran desacuerdo con las citas de contenidos orales, no escritos pues se pasa de la absoluta tolerancia a la más estricta exigencia.

 

Por cierto, estamos queriendo hacer una lectura a posteriori de un tiempo superior a un lustro de aspectos que han tomado relevancia y exigencia en época muy reciente. Hay que tener honestidad mental para realizar los análisis de forma contextualizada a lo que sucedía en los tiempos determinados.

 

Algo inaceptable es querer que un documento académico obtenga una calificación nueva cuando ya ha sido calificado con los criterios que en aquél entonces se exigieran. Como universitario no se puede tolerar cuando se hace de forma simple y alarmista, plagada de errores conceptuales y metodológicos y por personas sin la formación adecuada.