En este momento estás viendo The value of p-value

El valor del valor p

El valor del valor p ("p-value")

"p <0,05" no es suficiente...

by Lum3n from Pexels

La interpretación del valor p es uno de los temas más incomprendidos en ciencia y estadística, no solo por el público en general sino también por los academicos. Esto conduce a publicaciones de baja calidad y noticias engañosas, con la consiguiente desconfianza en la ciencia. Simplemente decir "p<0.05 = bueno" y "valor-p≥0.05 = malo" es una simplificación excesivamente peligrosa.

Este artículo trata de depurar algunos conceptos, centrándose en:

  1. Distribución y descripción de datos
  2. Prueba de hipótesis
  3. El valor del valor p ("p-value")
  4. Limitaciones prácticas del valor p
  5. ¿Cómo elegir el metodo para calcular el valor p?

1. Distribución y descripción de datos

Tomemos, por ejemplo, la altura de hombres adultos comparativamente a las mujeres. Empíricamente, todos sabemos que, en promedio, los hombres son más altos que las mujeres (estamos hablando de números grandes). Pero, ¿y si no supiéramos esto y nos preguntáramos…?

¿Hay alguna diferencia entre la altura de los hombres adultos y las mujeres adultas?

Para responder a esta pregunta de manera objetiva, tenemos que diseñar un estudio para probar una hipótesis.

Después de tomar muestras de 100 hombres y 100 mujeres, enumeramos su altura (en cm) en una tabla, llegando a los siguientes números...

M= masculino; F= femenino (se muestran apenas 11 de las 200 observaciones)

Digamos que la altura se distribuye normalmente y encontramos los siguientes resultados:

SD= Desvio estándard

En esta muestra, el hombre promedio es 6 cm más alto que la mujer promedio (178–172).

Normally and other distributions will be approached in another publication…

¿Es probable que la diferencia en nuestra muestra se observe en la población general?

2. Prueba de hipótesis

Cuando entramos en el mundo de las pruebas de hipótesis (al menos en las estadísticas clásicas, aquí no tocaremos las estadísticas bayesianas), tenemos que pensar en dos hipótesis.

  • H0: Hipótesis nula : la hipótesis de ausencia de diferencia predeterminada que intentamos rechazar. En este ejemplo específico; NO hay diferencia en la altura promedio de hombres y mujeres.
  • H1: Hipótesis alternativa la hipótesis de la diferencia. En este ejemplo, hay una diferencia en la altura promedio de hombres y mujeres. Tenga en cuenta que estamos diciendo que hay una diferencia sin decir quién es más alto (esta es la llamada prueba p de dos colas).

Aquí tenemos 4 hipótesis posibles:

  • Verdadero positivo: Encontramos una diferencia (rechazamos la H0) cuando hay una diferencia real. Aquí interesa el Poder; La posibilidad de detectar un efecto/diferencia cuando realmente hay un efecto/diferencia.
  • Verdadero negativo: no encontramos diferencia (no rechazamos la H0) cuando no hay una diferencia real
  • Falso positivo: Encontramos una diferencia (rechazamos H0) cuando no hay una diferencia real. Error tipo 1 (α).
  • Falso negativo: No encontramos diferencia (no rechazamos H0) cuando hay una diferencia real. Error tipo 2 (β).
Curva azul = distribución H0 (nula); Curva roja = distribución H1 (alternativa); α = error tipo 1; β = error tipo 2

Por lo general, α (error de tipo 1) tiene un valor de 0,05, lo que significa que aceptamos un 5 % de probabilidad de error de tipo 1 (falso positivo) y β (error de tipo 2) tiene un valor superior a 0,8 o 0,9 , lo que significa que aceptamos un cambio del 20 % o del 10 %, respectivamente, de tener un error de tipo 2 (falso negativo).

De hecho, según el corte que elijamos (la posición de la línea vertical punteada), existe un compromiso entre los errores de tipo 1 y tipo 2. Pero ese será tema de otro artículo…

Pero hasta ahora solo abordamos la distribución de datos, la prueba de hipótesis y los errores de tipo 1 y tipo 2. ¿Dónde están los valores p? Solo espera, al final, todo tendrá sentido

3. El valor del valor p ("p-value")

Al probar las diferencias, el valor p solo nos dice una cosa. ¿Es la diferencia sabueso estadísticamente significativa?

Un valor p de 0.04 significa que hay un 4% de encontrar los resultados que encontramos si la hipótesis nula fuera verdadera

En otras palabras…

  • Un valor de p de 0,30 significa que si la hipótesis nula fuera cierta (p. ej., no hay diferencia de altura entre los grupos), hay un 30 % de probabilidad de encontrar los resultados observados. Esto suena como un evento probable.
  • Un valor p de 0,04 significa que si la hipótesis nula fuera cierta (no hay diferencia de altura entre los grupos), solo hay un 4 % de posibilidades de encontrar los resultados que encontramos. Esto no parece un evento probable, lo que significa que es más probable que estos resultados se encuentren en una distribución alternativa (si hubiera una diferencia entre los grupos).

Un valor p por sí mismo NO tiene significado, necesita una pregunta significativa y, en consecuencia, una hipótesis subyacente para probar: la pesca de datos no es ciencia

Cómo saber si el resultado encontrado es estadísticamente significativo. Introducción el error tipo 1...

Si el valor p (el resultado que obtenemos) es más bajo que el límite para α (el valor que definimos a priori, que suele ser 0,05), decimos;

  • Que nos sintamos cómodos aceptando un 5% de posibilidades de tener un falso positivo;
  • Si valor de p<α (por ejemplo, valor de p=0,04), rechazamos la hipótesis nula y decimos que hay una diferencia estadísticamente relevante, pero si valor de p≥α (p. ej., valor de p=0,30) no podemos rechazar la hipótesis nula y no hay una diferencia estadísticamente relevante.

Cuando fallamos en rechazar nuestra hipótesis nula, no la estamos "aceptando". La prueba de hipótesis nula no nos permite aceptar una "hipótesis nula" ni proporcionar evidencia de que la hipótesis nula es verdadera. Solo fallamos en proporcionar evidencia de que es falso.

4. Limitaciones prácticas del valor p

Entonces, la próxima vez que vea un valor p, pregúntese. ¿Qué estás probando aquí? Lo que es más importante, los valores p no son una forma universal de probar una hipótesis, necesitamos verificar todas estas otras cosas;

  1. ¿A quién representa esta muestra? ¿Qué pasa con la validez intrínseca y extrínseca? Si estoy estudiando altura en adultos no puedo concluir nada sobre niños.
  2. ¿Qué fuentes de sesgo pueden estar presentes? ¿He evaluado una muestra representativa o estoy evaluando la estatura de personas que tienen una enfermedad que acorta su estatura?
  3. ¿Qué formas de confusión pueden estar presentes?
  4. ¿Los autores eligen una prueba válida para calcular el valor p? Por ejemplo, distribuciones normales y no normales... Una prueba t de Student no es una opción adecuada para una variable continua que no tiene una distribución normal.
  5. ¿Cuál es el poder de prueba? ¿Los autores informan el poder de la prueba? Una regla general es tener al menos 80% o 90% de poder, o un cambio de 20% a 10% de error tipo 2 (β) respectivamente (potencia = 1-β).
  6. Por último, pero no menos importante. ¿La diferencia es clínicamente significativa? Podría realizar una prueba y afirmar que el "Fármaco mágico A" reduce la presión arterial en comparación con el placebo, debido al valor p<0,05. Sin embargo, si la diferencia media es de solo 2 mmHg en la presión arterial sistólica, es posible que esto no sea un efecto relevante.

Por favor, nunca compre el argumento de venta "hay una tendencia hacia" "hay una tendencia" para un valor p de 0,06. Los valores de p se definen a priori, por lo que solo puede haber una respuesta Sí/No. No existe tal cosa como casi significativo.

5. ¿Cómo elegir el metodo para calcular el valor p?

El truco es... no hay necesidad de memorizar todas las pruebas. Solo intente comprender el tipo de variables que está evaluando y sepa cómo usar una buena "hoja de trucos" para escribir la sintaxis en el software estadístico. de tu preferencia.

Elegir la prueba estadística correcta en SAS, Stata, SPSS y R

La siguiente tabla muestra las pautas generales para elegir un análisis estadístico. Destacamos que estos son generales…

stats.idre.ucla.edu

Este sitio web de UCLA es una fuente increíble con toda la sintaxis que necesita; Stata, SAS, R y SPSS.

1. Dependencia de las observaciones

  • Observaciones independientes
  • Observaciones dependientes

2. Tipo de variables a comparar

  • Continuo
  • Discreta

3. ¿Cuántos grupos (niveles)?

  • 2 grupos
  • Más de 2 grupos

Se trata de tomar las decisiones correctas. El software de análisis estadístico es excelente para hacer lo que pides. Si ingresa una variable binaria (donde 0 = es "ausencia de evento" y 1 = "presencia de evento") y le pide a su software que ejecute una prueba como si fuera una variable continua, el programa asumirá que está usando una variable continua que va de 0 a 1 y muestra un resultado. Para obtener más información sobre la sintaxis y los errores semánticos, consulta este artículo.

Disclaimer

Todos los ejemplos proporcionados tienen fines educativos y no necesariamente transmiten el estado del arte actual. Ninguna parte de esta información pretende proporcionar ningún consejo médico.