Quizás recuerdes este simple mantra de tu clase de estadísticas:
"La correlación no implica causa."Entonces, tal vez crea que sabe lo que significa esta frase.
Por ejemplo, si estudiaste mucho en estadística, obtuviste una buena calificación y luego ingresaste a la universidad, debe significar que ingresaste a la universidad porque obtuviste una buena calificación en la clase de estadística.
Si bien esa calificación, junto con las habilidades que aprendió, probablemente ayudó, no puede ignorar los otros factores en juego, y probablemente no puede argumentar que su calificación de Estadísticas fue la causa de su aceptación en la universidad.

Lo primero es lo primero: ¿por qué confundimos la correlación con la causalidad?
Es fácil pensar que solo porque dos cosas parecen relacionadas, una debe ser la causa de la otra. Pero esa puede ser una suposición tonta y a veces peligrosa.
Por ejemplo, suponga que está tratando de averiguar qué hace que la gente esté menos gruñona. Realiza un estudio que encuentra que, cuando las personas duermen al menos x horas por noche, son menos gruñones.
Pero, ¿ha tenido en cuenta todos los factores aquí? Quizás también comenzaron a hacer más ejercicio como consecuencia de haber descansado bien, y esto es lo que alteró sus estados de ánimo.
No todos los ejemplos son tan benignos, y algunos son francamente sin sentido.
Para ilustrar cuán engañoso puede ser asumir que la correlación implica causalidad, eche un vistazo al siguiente gráfico de Correlaciones espurias de Tyler Vigen:

Si bien existe una fuerte correlación entre estos dos factores, dudo que pueda argumentar efectivamente que uno causó el otro. Quizás esto sea un desafío para que la gente lo pruebe y lo pruebe.
Aquí hay otra joya de la colección de Tyler:

Mira esa hermosa correlación. Pero sería difícil argumentar que, solo porque alguien comiera más queso, sería más probable que se enredara fatalmente en sus sábanas.
¿Qué es la correlación en las estadísticas?
Según el diccionario, una correlación es una relación o conexión mutua entre dos o más cosas (o variables), especialmente una que no se espera basándose únicamente en el azar.
Usémoslo en una oración: el enorme tamaño de mis tomates de cosecha propia parece correlacionarse con la lluvia adicional que tuvimos este verano.
Ahora, aquí estoy asumiendo que, debido a que llovió un poco más de lo habitual, mis plantas de tomate se volvieron locas y produjeron tomates monstruosos.
¿Pero es ese el único factor? ¿Qué pasa con el abono rico en nutrientes que usé en mis camas elevadas? ¿Qué pasa con la calidad de las plantas que compré en el vivero? ¿Qué pasa con mi cuidadosa poda y cuidado?
Como puede ver, aunque existe una correlación entre mis tomates grandes y nuestro verano lluvioso, esto no implica necesariamente una causalidad.
¿Qué es la causalidad en las estadísticas?
Es hora de otra definición. La causalidad , según el diccionario, es el acto o agencia que produce un efecto.
Seamos un poco más específicos. La causalidad significa que existe una relación entre dos eventos donde un evento afecta al otro. En estadística, cuando el valor de un evento - o variable - sube o baja debido a otro evento o variable, podemos decir que hubo causalidad. A provocó que ocurriera B.
¿Qué tal un ejemplo para este? Tal vez trabajes por cuenta propia para una revista que paga por palabra. Cuanto más larga sea la historia (y más palabras contenga), más te pagarán.
Por tanto, existe una correlación directa entre la cantidad de palabras que escribe y la cantidad que le pagan. Pero también hay causalidad (porque escribiste más, te pagaron más).
¿Por qué es tan fácil equivocarse?
¿Por qué es tan fácil pensar que la correlación implica causalidad? Bueno, si dos cosas parecen relacionadas, tendemos a asociarlas y asumimos que se impactan entre sí. Cuando hace frío, la gente pasa más tiempo adentro. Durante las vacaciones, los centros comerciales están llenos. Cuando toma ibuprofeno, su dolor de cabeza desaparece.
Si bien estas circunstancias ciertamente están relacionadas, y algunas incluso pueden implicar causalidad, no necesariamente resisten el análisis científico.
Hay algunas razones por las que podríamos inferir erróneamente la causalidad de la correlación.
¿Qué es una variable de confusión?
En primer lugar, es posible que tenga una variable de confusión en la mezcla. Esta es una variable que afecta tanto a las variables independientes como a las dependientes en su relación y, por lo tanto, confunde su capacidad para determinar la naturaleza de esa relación.
Por ejemplo, si una nueva familia se muda a un vecindario y el crimen aumenta, los residentes de esa área pueden asumir que se debe a esa nueva familia. Pero, ¿y si, al mismo tiempo, se abriera un centro de detención cerca? Esa es la causa más probable del aumento de la delincuencia.
¿Qué es la causalidad inversa?
En segundo lugar, es posible que se trate de una causalidad inversa . Esto sucede cuando, en lugar de asumir correctamente que A causa B, los confunde y asume que B causa A.
Puede ser difícil imaginar cómo sucede esto, pero piense en cómo funcionan los paneles solares. Producen más energía cuando el sol está más tiempo en el cielo.
Pero el sol ya no está en el cielo porque los paneles están produciendo más energía. Los paneles están produciendo más energía porque el sol brilla por períodos de tiempo más largos.
¿Qué es una coincidencia?
En tercer lugar, no debemos olvidar el poder de la coincidencia . Cuando suceden dos cosas al mismo tiempo, es tentador ver la causalidad. Pero al igual que ese gráfico tonto de arriba, con las arcadas y los grados CS, muchos son solo coincidencias.
Al final, ¿por qué nos importa?
Quizás esté tratando de averiguar si un determinado medicamento nuevo hace que los pacientes se sientan mejor. O le gustaría saber qué hace que las personas compren un determinado producto.
Cualquiera que sea su motivación, a menudo es muy útil averiguar si A causa B, junto con cómo y por qué.
Pero como hemos visto, no es tan fácil. Tienes que controlar tantos factores como puedas, reducir la probabilidad de confusión de variables y coincidencias, y reducir los datos a lo que sea relevante.
No entraremos en la cuestión filosófica más profunda de cómo podemos realmente establecer la causalidad sin lugar a dudas. Eso es para otro momento.
Al menos ahora sabe que, aunque dos eventos o variables puedan parecer relacionados, no significa que uno tenga un efecto causal directo sobre el otro.