Aprenda a seleccionar la regresión lineal de mejor rendimiento para modelos univariados

Descubra qué modelo de regresión lineal es el que mejor se ajusta a sus datos

Inspirado por una pregunta después de mi artículo anterior, quiero abordar un problema que a menudo surge después de probar diferentes modelos lineales: debe elegir qué modelo desea usar. Más específicamente, Khalifa Ardi Sidqi preguntó:

“¿Cómo determinar qué modelo se adapta mejor a mis datos? ¿Solo miro el cuadrado R, SSE, etc.? Como la interpretación de ese modelo (cuadrático, raíz, etc.) será muy diferente, ¿no será un problema? "

La segunda parte de la pregunta se puede responder fácilmente. Primero, busque el modelo que mejor se adapte a sus datos y luego interprete sus resultados. Es bueno que tenga ideas sobre cómo explicar sus datos. Sin embargo, interprete solo el mejor modelo.

El resto de este artículo abordará la primera parte de su pregunta. Tenga en cuenta que voy a compartirmi acercamientosobre comopara seleccionar un modelo. Hay varias formas y otras pueden hacerlo de manera diferente. Pero describiré la forma que mejor funciona para mí.

Además, este enfoque solo se aplica a modelos univariados . Los modelos univariados tienen solo una variable de entrada. Estoy planeando un artículo adicional, donde le mostraré cómo evaluar modelos multivariados con más variables de entrada. Por hoy, sin embargo, centrémonos en los modelos básicos y univariados.

Para practicar y tener una idea de esto, escribí una pequeña ShinyApp. Úselo y juegue con diferentes conjuntos de datos y modelos. Observe cómo cambian los parámetros y obtenga más confianza al evaluar modelos lineales simples. Por último, también puede utilizar la aplicación como marco para sus datos. Cópialo de Github.

Use el R2 ajustado para modelos univariados

Si solo usa una variable de entrada, el adjusted R2valor le da una buena indicación de qué tan bien se desempeña su modelo. Ilustra cuánta variación se explica por su modelo.

A diferencia de lo simple R2, adjusted R2tiene en cuenta el número de factores de entrada. Penaliza demasiados factores de entrada y favorece modelos parsimoniosos.

En la captura de pantalla anterior, puede ver dos modelos con un valor de 71,3% y 84,32%. Aparentemente, el segundo modelo es mejor que el primero. Los modelos con valores bajos, sin embargo, pueden ser útiles porque adjusted R2son sensibles a la cantidad de ruido en sus datos. Como tal, solo compare este indicador de modelos para el mismo conjunto de datos en lugar de compararlo entre diferentes conjuntos de datos.

Por lo general, hay poca necesidad de SSE

Antes de seguir leyendo, asegurémonos de que estamos hablando del mismo SSE. En Wikipedia, SSE se refiere a la suma de errores cuadrados. En algunos libros de texto de estadística, sin embargo, SSE puede referirse a la suma de cuadrados explicada (exactamente lo contrario). Entonces, por ahora, suponga que SSE se refiere a la suma de errores cuadrados.

Por lo tanto, adjusted R2es aproximadamente 1- SSE / SST. Con SST refiriéndose a la suma total de cuadrados.

No quiero profundizar en las matemáticas detrás de esto. Lo que quiero mostrar es que el adjusted R2se calcula con la ESS . Por eso, la SSE generalmente no le brinda información adicional .

Además, el adjusted R2está normalizado de tal manera que siempre está entre cero y uno. Por lo tanto, es más fácil para usted y para otros interpretar un modelo desconocido con un adjusted R275% en lugar de un SSE de 394, aunque ambas cifras podrían explicar el mismo modelo.

¡Eche un vistazo a los términos residuales o de error!

Lo que a menudo se ignora son los términos de error o los denominados residuales. A menudo te dicen más de lo que piensas.

Los residuos son la diferencia entre sus valores predichos y los valores reales.

Su beneficio es que pueden mostrarle tanto la magnitud como la dirección de sus errores. Echemos un vistazo a un ejemplo :

Aquí, intenté predecir un conjunto de datos polinomiales con una función lineal. El análisis de los residuos muestra que hay áreas donde el modelo tiene un sesgo hacia arriba o hacia abajo.

Para t; 100, los residuos están por encima de cero. Entonces, en esta área, los valores reales han sido más altos que los valores predichos; nuestro modelo tiene un sesgo a la baja.50 < x &l

Para 100 < x &lt; 150, sin embargo, los residuos están por debajo de cero. Por lo tanto, los valores reales han sido más bajos que los valores predichos: el modelo tiene un sesgo al alza.

Siempre es bueno saber si su modelo sugiere valores demasiado altos o demasiado bajos. Pero normalmente no desea tener patrones como este.

Los residuos deben ser cero en promedio (como lo indica la media) y deben distribuirse por igual. Predecir el mismo conjunto de datos con una función polinomial de 3 degreessugiere un ajuste mucho mejor:

Además, puede observar si aumenta la varianza de sus errores. En estadística, esto se llama heterocedasticidad. Puede solucionar este problema fácilmente con errores estándar robustos. De lo contrario, es probable que sus pruebas de hipótesis sean incorrectas.

Histograma de residuos

Finalmente, el histograma resume la magnitud de sus términos de error. Proporciona información sobre el ancho de banda de los errores e indica la frecuencia con la que se produjeron.

Las capturas de pantalla anteriores muestran dos modelos para el mismo conjunto de datos. En el histograma de la izquierda , se producen errores dentro de un rango de -338y 520.

En el histograma de la derecha , se producen errores dentro de -293y 401. Entonces, los valores atípicos son mucho más bajos. Además, la mayoría de los errores en el modelo del histograma derecho están más cerca de cero. Por lo que favorecería el modelo correcto.

Resumen

Al elegir un modelo lineal, estos son factores a tener en cuenta:

  • Compare solo modelos lineales para el mismo conjunto de datos.
  • Encuentre un modelo con un R2 ajustado alto
  • Asegúrese de que este modelo tenga residuos distribuidos equitativamente alrededor de cero
  • Asegúrese de que los errores de este modelo estén dentro de un pequeño ancho de banda

Si tiene alguna pregunta, escriba un comentario a continuación o contácteme. Agradezco tus comentarios.