En 1925, un estadístico llamado Ronald Fisher propuso un criterio práctico para decidir si un experimento merecía atención. Como ejemplo, sugirió el umbral de p = 0,05: si un resultado tenía menos de un 5% de probabilidad de aparecer por azar en un mundo donde no existiera ningún efecto real, tal vez valía la pena seguir investigando.

No lo presentó como una prueba de verdad. No lo presentó como una frontera entre lo real y lo falso. Lo presentó como una guía.

Un siglo después, ese número —0,05— se había convertido en uno de los árbitros más poderosos de la ciencia.

El mecanismo

El valor p responde a una pregunta específica: si no existiera ningún efecto real, ¿qué tan probable sería observar un resultado como este por azar?

Lo que no responde es una pregunta mucho más interesante: ¿el efecto es real?

Sin embargo, durante décadas, resultados con p menor a 0,05 tuvieron muchas más probabilidades de publicarse, circular y convertirse en conocimiento aceptado que resultados con p mayor a 0,05.

El problema apareció cuando ese umbral estadístico se combinó con los incentivos académicos.

Los estudios positivos se publican. Los negativos suelen quedar en el cajón. Y los investigadores tienen decenas de decisiones analíticas posibles — pequeñas diferencias que pueden ser suficientes para mover un resultado de un lado al otro de la frontera.

La consecuencia no es necesariamente fraude. Es algo más difícil de detectar: un sistema que genera más resultados positivos de los que probablemente existen.

Cuando la crisis de replicación intentó poner a prueba algunos de esos hallazgos, una parte importante no volvió a aparecer.

No porque el valor p fuera inútil.

Sino porque terminó utilizándose para responder preguntas que nunca fue diseñado para responder.

Para seguir leyendo

Si el valor p ayuda a decidir cuándo un resultado merece atención, hay otra pregunta igual de importante: ¿qué ocurre cuando aquello que decidimos medir no representa realmente el fenómeno que nos interesa?

Keep Reading