¿Qué es la importancia estadística? Valor P definido y cómo calcularlo

Los valores de p son uno de los conceptos más utilizados en el análisis estadístico. Los utilizan investigadores, analistas y estadísticos para extraer conocimientos de los datos y tomar decisiones informadas.

Junto con la significación estadística, también son uno de los conceptos más utilizados e incomprendidos en el análisis estadístico.

Este artículo explicará:

  • cómo se utiliza un valor de p para inferir significancia estadística
  • cómo se calculan los valores de P
  • y cómo evitar algunos conceptos erróneos comunes

Resumen: prueba de hipótesis

La prueba de hipótesis es un enfoque estándar para extraer conocimientos de los datos. Se utiliza en prácticamente todas las disciplinas cuantitativas y tiene una rica historia que se remonta a más de cien años.

El enfoque habitual para la prueba de hipótesis es definir una pregunta en términos de las variables que le interesan. Luego, puede formular dos hipótesis opuestas para responderla.

  • La hipótesis nula afirma que no existe una relación estadísticamente significativa entre las variables
  • La hipótesis alternativa afirma que existe una relación estadísticamente significativa entre las variables

Por ejemplo, supongamos que está probando si la cafeína afecta la productividad de la programación. Hay dos variables que le interesan: la dosis de cafeína y la productividad del grupo de desarrolladores de software.

La hipótesis nula sería:

  • "La ingesta de cafeína no tiene un efecto significativo en la productividad de la programación".

La hipótesis alternativa sería:

  • "La ingesta de cafeína tiene un efecto significativo sobre la productividad".

La palabra "significativo" tiene aquí un significado muy específico. Se refiere a una relación entre variables que existen debido a algo más que al azar .

En cambio, la relación existe (al menos en parte) debido a diferencias o efectos "reales" entre las variables.

El siguiente paso es recopilar algunos datos para probar las hipótesis. Esto podría obtenerse de un experimento o encuesta, o de un conjunto de datos al que tenga acceso.

El último paso es calcular una estadística de prueba a partir de los datos. Este es un número único que representa alguna característica de sus datos. Los ejemplos incluyen la prueba t, la prueba de chi-cuadrado y la prueba de Kruskal-Wallis, entre muchos otros.

Exactamente cuál calcular dependerá de la pregunta que esté haciendo, la estructura de sus datos y la distribución de sus datos.

Aquí hay una práctica hoja de referencia para su referencia.

En el ejemplo de la cafeína, una prueba adecuada podría ser una prueba t de dos muestras.

Terminará con una única estadística de prueba de sus datos. Todo lo que queda por hacer es interpretar este resultado para determinar si apoya o rechaza la hipótesis nula.

Aquí es donde entran en juego los valores P.

¿Qué tan improbable es esta estadística?

Recuerde que ha calculado una estadística de prueba, que representa alguna característica de sus datos. Quiere saber si apoya o rechaza la hipótesis nula.

El enfoque adoptado es asumir que la hipótesis nula es verdadera. Es decir, suponga que no existen relaciones significativas entre las variables que le interesan.

Luego, mire los datos que ha recopilado. ¿Qué tan probable sería su estadística de prueba si la hipótesis nula realmente fuera cierta?

Volvamos al ejemplo de consumo de cafeína de antes.

  • Digamos que los niveles de productividad se dividieron en partes iguales entre los desarrolladores, independientemente de si bebían cafeína o no (gráfico A). Es probable que este resultado se produzca por casualidad si la hipótesis nula fuera cierta.
  • Sin embargo, suponga que casi toda la productividad más alta se observó en los desarrolladores que bebían cafeína (gráfico B). Este es un resultado más "extremo" y es poco probable que ocurra por casualidad si la hipótesis nula fuera cierta.

Pero, ¿qué tan 'extremo' debe ser un resultado antes de que se considere demasiado improbable para respaldar la hipótesis nula?

Esto es lo que le permite estimar un valor P. Proporciona una respuesta numérica a la pregunta: "si la hipótesis nula es verdadera, ¿cuál es la probabilidad de un resultado tan extremo o más extremo?"

Los valores de P son probabilidades, por lo que siempre están entre 0 y 1.

  • Un valor de P alto indica que es probable que los resultados observados ocurran por casualidad bajo la hipótesis nula.
  • Un valor de P bajo indica que es menos probable que los resultados se produzcan por casualidad bajo la hipótesis nula.

Por lo general, se elige un umbral para determinar la significancia estadística. Este umbral a menudo se denota α.

Si el valor de P está por debajo del umbral , sus resultados son " estadísticamente significativos ". Esto significa que puede rechazar la hipótesis nula (y aceptar la hipótesis alternativa).

No existe un umbral único adecuado para todas las aplicaciones. Por lo general, se utilizará un umbral arbitrario que sea apropiado para el contexto.

Por ejemplo, en campos como la ecología y la evolución, es difícil controlar las condiciones experimentales porque muchos factores pueden afectar el resultado. También puede resultar difícil recolectar muestras de gran tamaño. En estos campos, a menudo se utilizará un umbral de 0,05.

En otros contextos como la física y la ingeniería, un umbral de 0,01 o incluso menor será más apropiado.

Ejemplo de chi-cuadrado

En este ejemplo, hay dos variables (ficticias): región y afiliación a partidos políticos. Utiliza la prueba Chi-cuadrado para ver si existe una relación entre la región y la pertenencia a un partido político.

Puede cambiar el número de miembros de cada grupo.

  • Hipótesis nula: "no existe una relación significativa entre la región y la pertenencia a un partido político"
  • Hipótesis alternativa: "existe una relación significativa entre la región y la pertenencia a partidos políticos"

Pulsa el botón "volver a ejecutar" para probar diferentes escenarios.

Conceptos erróneos comunes y cómo evitarlos

Hay varios errores que incluso los profesionales experimentados cometen a menudo sobre el uso de los valores P y la prueba de hipótesis. Esta sección tendrá como objetivo aclararlos.

La hipótesis nula no es interesante : si los datos son buenos y el análisis se realiza correctamente, entonces es una conclusión válida por derecho propio.

Una pregunta que valga la pena responder debe tener una respuesta interesante, sea cual sea el resultado.

❌ El valor P es la probabilidad de que la hipótesis nula sea verdadera ; un valor P representa "la probabilidad de que los resultados sean verdaderos, dada la hipótesis nula". Esto no es lo mismo que "la probabilidad de que la hipótesis nula sea cierta, dados los resultados".

P (Datos | Hipótesis) ≠ P (Hipótesis | Datos)

Esto significa que un valor de P bajo le dice: "si la hipótesis nula es cierta, estos resultados son poco probables". No le dice: "si estos resultados son ciertos, la hipótesis nula es poco probable".

Puede utilizar el mismo umbral de significación para múltiples comparaciones ; recuerde la definición del valor P. Es la probabilidad de observar una determinada estadística de prueba solo por casualidad.

Si usa un umbral de α = 0.05 (o 1 en 20) y lleva a cabo, digamos, 20 pruebas estadísticas ... podría esperar por casualidad encontrar un valor P bajo.

Debería utilizar un umbral más bajo si está realizando múltiples comparaciones. Existen métodos de corrección que le permitirán calcular cuánto más bajo debería ser el umbral.

El umbral de significación significa cualquier cosa : es completamente arbitrario. 0.05 es solo una convención. La diferencia entre p = 0.049 yp = 0.051 es prácticamente la misma que entre p = 0.039 yp = 0.041.

Esta es una de las mayores debilidades de la prueba de hipótesis de esta manera. Te obliga a trazar una línea en la arena, aunque no es fácil trazar ninguna línea.

Por lo tanto, siempre considere los umbrales de importancia por lo que son: totalmente arbitrarios.

La importancia estadística significa que el azar no juega ningún papel, ni mucho menos. A menudo, hay muchas causas para un resultado determinado. Algunos serán aleatorios, otros menos.

Encontrar una causa no aleatoria no significa que explique todas las diferencias entre sus variables. Es importante no confundir la significación estadística con el "tamaño del efecto".

❌ Los valores de P son la única forma de determinar la significancia estadística ; existen otros enfoques que a veces son mejores.

Además de las pruebas de hipótesis clásicas, considere otros enfoques, como el uso de factores de Bayes o el riesgo falso positivo.