
¿Qué es la regresión?
La regresión es uno de los procesos de análisis de datos más importantes y más utilizados. En pocas palabras, es un método estadístico que explica la fuerza de la relación entre una variable dependiente y una o más variables independientes.
Una variable dependiente podría ser una variable o un campo que está tratando de predecir o comprender. Una variable independiente podrían ser los campos o puntos de datos que cree que pueden tener un impacto en la variable dependiente.
Al hacerlo, responde un par de preguntas importantes:
- ¿Qué variables importan?
- ¿Hasta qué punto importan estas variables?
- ¿Qué tan seguros estamos de estas variables?
Tomemos un ejemplo ...
Para explicar mejor los números en la tabla de regresión, pensé que sería útil utilizar un conjunto de datos de muestra y analizar los números y su importancia.
Estoy usando un pequeño conjunto de datos que contiene GRE (una prueba que los estudiantes toman para ser considerados para la admisión en las escuelas de posgrado en los EE. UU.) Puntajes de 500 estudiantes y sus posibilidades de admisión en una universidad.
Porque chance of admittance
depende de GRE score
, chance of admittance
es la variable dependiente y GRE score
es la variable independiente.

Línea de regresión
Dibujar una línea recta que describa mejor la relación entre los puntajes GRE de los estudiantes y sus posibilidades de admisión nos da la línea de regresión lineal . Esto se conoce como línea de tendencia en varias herramientas de BI. La idea básica detrás de dibujar esta línea es minimizar la distancia entre los puntos de datos en una coordenada x dada y la coordenada y a través de la cual pasa la línea de regresión.

La línea de regresión nos facilita la representación de la relación. Se basa en una ecuación matemática que asocia el coeficiente xy la intersección con el eje y.
La intersección con el eje Y es el punto en el que la línea interseca el eje y en x = 0. También es el valor que el modelo tomaría o predeciría cuando x es 0.
Los coeficientes proporcionan el impacto o el peso de una variable en todo el modelo. En otras palabras, proporciona la cantidad de cambio en la variable dependiente para un cambio de unidad en la variable independiente.
Calcular la ecuación de la línea de regresión
Para averiguar la intersección con el eje y del modelo, extendemos la línea de regresión lo suficiente hasta que interseca el eje y en x = 0. Esta es nuestra intersección con el eje y y está alrededor de -2,5. Es posible que el número no tenga sentido para el conjunto de datos en el que estamos trabajando, pero la intención es mostrar solo el cálculo de la intersección con el eje y.

El coeficiente para este modelo será simplemente la pendiente de la línea de regresión y se puede calcular obteniendo el cambio en la admitancia sobre el cambio en las puntuaciones GRE.

En el ejemplo anterior, el coeficiente sería simplemente
m = (y2-y1) / (x2-x1)Y en este caso, estaría cerca de 0,01.
La fórmula y = m * x + b nos ayuda a calcular la ecuación matemática de nuestra línea de regresión. Sustituyendo los valores de la intersección y la pendiente que obtuvimos al extender la línea de regresión, podemos formular la ecuación:
y = 0.01x - 2.48-2.48 es un valor de intersección y más preciso que obtuve de la tabla de regresión como se muestra más adelante en esta publicación.
Esta ecuación nos permite pronosticar y predecir la posibilidad de admisión de un estudiante cuando se conoce su puntaje GRE.
Ahora que tenemos los conceptos básicos, saltemos a la lectura e interpretación de una tabla de regresión.
Leer una tabla de regresión
La tabla de regresión se puede dividir aproximadamente en tres componentes :
- Análisis de varianza (ANOVA): proporciona el análisis de la varianza en el modelo, como sugiere el nombre.
- Estadísticas de regresión: proporcionan información numérica sobre la variación y qué tan bien el modelo explica la variación para los datos / observaciones dados.
- Salida residual: proporciona el valor predicho por el modelo y la diferencia entre el valor real observado de la variable dependiente y su valor predicho por el modelo de regresión para cada punto de datos.
Análisis de varianza (ANOVA)

Grados de libertad (df)
La regresión gl es el número de variables independientes en nuestro modelo de regresión. Dado que solo consideramos los puntajes GRE en este ejemplo, es 1.
La gl residual es el número total de observaciones (filas) del conjunto de datos restado por el número de variables que se estiman. En este ejemplo, se estiman tanto el coeficiente de puntuación GRE como la constante.
Gl residual = 500 - 2 = 498
Total gl : es la suma de la regresión y los grados de libertad residuales, que equivale al tamaño del conjunto de datos menos 1.
Suma de cuadrados (SS)

Regresión SS es la variación total en la variable dependiente que se explica por el modelo de regresión. Es la suma del cuadrado de la diferencia entre el valor predicho y la media del valor de todos los puntos de datos.
∑ (ŷ - ӯ) ²De la tabla ANOVA, la regresión SS es 6.5 y la SS total es 9.9, lo que significa que el modelo de regresión explica aproximadamente 6.5 / 9.9 (alrededor del 65%) de toda la variabilidad en el conjunto de datos.
SS residual : es la variación total en la variable dependiente que el modelo de regresión deja sin explicar. También se denomina Suma de cuadrados de error y es la suma del cuadrado de la diferencia entre los valores reales y predichos de todos los puntos de datos.
∑ (y - ŷ) ²De la tabla ANOVA, la SS residual es aproximadamente 3.4. En general, cuanto menor sea el error, mejor explicará el modelo de regresión la variación en el conjunto de datos, por lo que normalmente querríamos minimizar este error.
SS total : es la suma de ambos, la regresión y el SS residual o cuánto variaría la probabilidad de admisión si NO se toman en cuenta los puntajes de GRE .
Errores cuadrados medios (MS) : son la media de la suma de cuadrados o la suma de cuadrados dividida por los grados de libertad tanto para la regresión como para los residuos.
Regresión MS = ∑ (ŷ - ӯ) ² / Reg. gl Residual MS = ∑ (y - ŷ) ² / Res. dfF - se usa para probar la hipótesis de que la pendiente de la variable independiente es cero. Matemáticamente, también se puede calcular como
F = EM de regresión / EM residualDe lo contrario, esto se calcula comparando el estadístico F con una distribución F con regresión gl en grados del numerador y gl residual en grados del denominador.
Significancia F - no es más que el valor p para la hipótesis nula de que el coeficiente de la variable independiente es cero y, como con cualquier valor p, un valor p bajo indica que existe una relación significativa entre las variables dependientes e independientes.

Error estándar : proporciona la desviación estándar estimada de la distribución de coeficientes. Es la cantidad en la que el coeficiente varía en diferentes casos. Un coeficiente mucho mayor que su error estándar implica una probabilidad de que el coeficiente no sea 0.
t-Stat : es el estadístico t o el valor t de la prueba y su valor es igual al coeficiente dividido por el error estándar.
t-Stat = Coeficientes / Error estándarNuevamente, cuanto mayor es el coeficiente con respecto al error estándar, mayor es el t-Stat y mayor es la probabilidad de que el coeficiente se aleje de 0.
Valor p : el estadístico t se compara con la distribución t para determinar el valor p. Por lo general, solo consideramos el valor p de la variable independiente que proporciona la probabilidad de obtener una muestra tan cercana a la utilizada para derivar la ecuación de regresión y verificamos si la pendiente de la línea de regresión es realmente cero o el coeficiente está cerca coeficiente obtenido.
Un valor p por debajo de 0.05 indica un 95% de confianza en que la pendiente de la línea de regresión no es cero y, por lo tanto, existe una relación lineal significativa entre las variables dependientes e independientes.
Un valor p mayor que 0.05 indica que la pendiente de la línea de regresión puede ser cero y que no hay evidencia suficiente al nivel de confianza del 95% de que existe una relación lineal significativa entre las variables dependientes e independientes.
Dado que el valor p de la variable independiente puntuación GRE es muy cercano a 0, podemos estar extremadamente seguros de que existe una relación lineal significativa entre las puntuaciones GRE y la posibilidad de admisión.
95% inferior y superior : dado que usamos principalmente una muestra de datos para estimar la línea de regresión y sus coeficientes, son en su mayoría una aproximación de los coeficientes verdaderos y, a su vez, la línea de regresión verdadera. Los límites inferior y superior del 95% dan el 95º intervalo de confianza de los límites inferior y superior para cada coeficiente.
Dado que el intervalo de confianza del 95% para las puntuaciones de GRE es 0,009 y 0,01, los límites no contienen cero, por lo que podemos tener una confianza del 95% en que existe una relación lineal significativa entre las puntuaciones de GRE y la posibilidad de admisión.
Tenga en cuenta que se usa ampliamente un nivel de confianza del 95%, pero es posible un nivel diferente al 95% y se puede configurar durante el análisis de regresión.
Estadísticas de regresión

R² (R cuadrado) : representa la potencia de un modelo. Muestra la cantidad de variación en la variable dependiente que explica la variable independiente y siempre se encuentra entre los valores 0 y 1. A medida que aumenta R², el modelo explica más variación en los datos y mejora la predicción del modelo. Un R² bajo indicaría que el modelo no se ajusta bien a los datos y que una variable independiente no explica bien la variación en la variable dependiente.
R² = Suma de cuadrados de regresión / Suma total de cuadradosSin embargo, R cuadrado no puede determinar si las estimaciones y predicciones de los coeficientes están sesgadas, por lo que debe evaluar las gráficas de residuos, que se analizan más adelante en este artículo.
R-cuadrado tampoco indica si un modelo de regresión es adecuado. Puede tener un valor R cuadrado bajo para un buen modelo o un valor R cuadrado alto para un modelo que no se ajusta a los datos.
R², en este caso, es 65%, lo que implica que los puntajes GRE pueden explicar el 65% de la variación en la probabilidad de ingreso.
R² ajustado - es R² multiplicado por un factor de ajuste. Esto se utiliza al comparar diferentes modelos de regresión con diferentes variables independientes. Este número resulta útil al decidir las variables independientes correctas en modelos de regresión múltiple.
Multiple R - es la raíz cuadrada positiva de R²
Error estándar : es diferente del error estándar de los coeficientes. Ésta es la desviación estándar estimada del error de la ecuación de regresión y es una buena medida de la precisión de la línea de regresión. Es la raíz cuadrada de los errores cuadrados medios residuales.
Std. Error = √ (Res.MS)Salida residual
Los residuos son la diferencia entre el valor real y el valor predicho del modelo de regresión y la salida residual es el valor predicho de la variable dependiente por el modelo de regresión y el residual para cada punto de datos.
Y como sugiere el nombre, un gráfico de residuos es un gráfico de dispersión entre la variable residual y la independiente, que en este caso es el puntaje GRE de cada estudiante.
Un gráfico residual es importante para detectar elementos como heterocedasticidad , no linealidad y valores atípicos . El proceso para detectarlos no se discute como parte de este artículo, pero el hecho de que la gráfica residual de nuestro ejemplo tenga datos dispersos aleatoriamente nos ayuda a establecer el hecho de que la relación entre las variables en este modelo es lineal.

Intención
La intención de este artículo no es construir un modelo de regresión funcional, sino proporcionar un recorrido por todas las variables de regresión y su importancia cuando sea necesario con un conjunto de datos de muestra en una tabla de regresión.
Aunque este artículo proporciona una explicación con una regresión lineal de una sola variable como ejemplo, tenga en cuenta que algunas de estas variables podrían tener más importancia en los casos de múltiples variables u otras situaciones.
Referencias
- Conjunto de datos de admisiones de graduados
- 10 cosas sobre la lectura de una tabla de regresión
- Un repaso sobre el análisis de regresión