9 algoritmos clave de aprendizaje automático explicados en inglés sencillo

El aprendizaje automático está cambiando el mundo. Google utiliza el aprendizaje automático para sugerir resultados de búsqueda a los usuarios. Netflix lo usa para recomendarte películas para que las veas. Facebook utiliza el aprendizaje automático para sugerir personas que quizás conozcas.

El aprendizaje automático nunca ha sido más importante. Al mismo tiempo, comprender el aprendizaje automático es difícil. El campo está lleno de jerga. Y la cantidad de algoritmos de aprendizaje automático diferentes crece cada año.

Este artículo le presentará los conceptos fundamentales dentro del campo del aprendizaje automático. Más específicamente, discutiremos los conceptos básicos detrás de los 9 algoritmos de aprendizaje automático más importantes en la actualidad.

Sistemas de recomendación

¿Qué son los sistemas de recomendación?

Los sistemas de recomendación se utilizan para encontrar entradas similares en un conjunto de datos.

Quizás el ejemplo más común de recomendación en el mundo real existe dentro de Netflix. Más específicamente, su servicio de transmisión de video recomendará películas y programas de TV sugeridos según el contenido que ya ha visto.

Otro sistema de recomendación es la función "Personas que quizás conozcas" de Facebook, que te sugiere posibles amigos en función de tu lista de amigos existente.

Los sistemas de recomendación completamente desarrollados e implementados son extremadamente sofisticados. También consumen muchos recursos.

Sistemas de recomendación y álgebra lineal

Los sistemas de recomendación completos requieren una formación profunda en álgebra lineal para construir desde cero.

Debido a esto, es posible que haya conceptos en esta sección que no comprenda si nunca antes ha estudiado álgebra lineal.

Sin embargo, no se preocupe: la biblioteca de Python scikit-learn facilita la creación de sistemas de recomendación. Así que no necesitas mucha experiencia en álgebra lineal para construir sistemas de recomendación del mundo real.

¿Cómo funcionan los sistemas de recomendación?

Hay dos tipos principales de sistemas de recomendación:

  • Sistemas de recomendación basados ​​en contenido
  • Sistemas de recomendación de filtrado colaborativo

Los sistemas de recomendación basados ​​en contenido le brindan recomendaciones basadas en la similitud de los elementos con los elementos que ya ha utilizado. Se comportan exactamente como se esperaría que se comportara un sistema de recomendaciones.

Los sistemas de recomendación de filtrado colaborativo producen recomendaciones basadas en el conocimiento de las interacciones del usuario con los elementos. Dicho de otra manera, utilizan la sabiduría de las multitudes. (De ahí el término "colaborativo" en su nombre).

En el mundo real, los sistemas de recomendación de filtrado colaborativo son mucho más comunes que los sistemas basados ​​en contenido. Esto se debe principalmente a que normalmente dan mejores resultados. Algunos profesionales también encuentran que los sistemas de recomendación de filtrado colaborativo son más fáciles de entender.

Los sistemas de recomendación de filtrado colaborativo también tienen una característica única que carecen de los sistemas basados ​​en contenido. Es decir, tienen la capacidad de aprender funciones por sí mismos.

Esto significa que incluso pueden comenzar a identificar similitudes entre elementos en función de atributos que ni siquiera les ha dicho que consideren.

Hay dos subcategorías dentro del filtrado colaborativo:

  • Filtrado colaborativo basado en memoria
  • Filtrado colaborativo basado en modelos

No necesita conocer las diferencias entre estos dos tipos de sistemas de recomendación de filtrado colaborativo para tener éxito en el aprendizaje automático. Basta reconocer que existen múltiples tipos.

Resumen de la sección

Aquí hay un breve resumen de lo que discutimos sobre los sistemas de recomendación en este tutorial:

  • Ejemplos de sistemas de recomendación en el mundo real
  • Los diferentes tipos de sistemas de recomendación y cómo los sistemas de filtrado colaborativo se utilizan con más frecuencia que los sistemas de recomendación basados ​​en contenido.
  • La relación entre los sistemas de recomendación y el álgebra lineal

Regresión lineal

La regresión lineal se utiliza para predecir algunos yvalores en función del valor de otro conjunto de xvalores.

La historia de la regresión lineal

La regresión lineal fue creada en el siglo XIX por Francis Galton.

Galton era un científico que estudiaba la relación entre padres e hijos. Más específicamente, Galton estaba investigando la relación entre la altura de los padres y la altura de sus hijos.

El primer descubrimiento de Galton fue que los hijos tendían a ser aproximadamente tan altos como sus padres. Esto no es de extrañar.

Más tarde, Galton descubrió algo mucho más interesante. La altura del hijo tendía a estar más cerca de la altura promedio general de todas las personas que de su propio padre .

Galton le dio un nombre a este fenómeno: regresión . Específicamente, dijo que “la altura del hijo de un padre tiende a retroceder (o desplazarse hacia) la altura media (promedio)”.

Esto llevó a todo un campo en estadística y aprendizaje automático llamado regresión.

Las matemáticas de la regresión lineal

Al crear un modelo de regresión, todo lo que estamos tratando de hacer es dibujar una línea que esté lo más cerca posible de cada punto en un conjunto de datos.

El ejemplo típico de esto es el "método de mínimos cuadrados" de regresión lineal, que solo calcula la cercanía de una línea en la dirección hacia arriba y hacia abajo.

Aquí hay un ejemplo para ayudar a ilustrar esto:

Un ejemplo de las matemáticas detrás de la regresión de mínimos cuadrados

Cuando crea un modelo de regresión, su producto final es una ecuación que puede usar para predecir el valor y de un valor x, sin conocer el valor y por adelantado.

Regresión logística

La regresión logística es similar a la regresión lineal excepto que, en lugar de calcular un yvalor numérico , estima a qué categoría pertenece un punto de datos.

¿Qué es la regresión logística?

La regresión logística es un modelo de aprendizaje automático que se utiliza para resolver problemas de clasificación.

A continuación, se muestran algunos ejemplos de problemas de clasificación de aprendizaje automático:

  • Correos electrónicos no deseados (¿spam o no spam?)
  • Reclamaciones de seguros de automóviles (¿cancelación o reparación?)
  • Diagnóstico de enfermedades

Cada uno de los problemas de clasificación tiene exactamente dos categorías, lo que los convierte en ejemplos de problemas de clasificación binaria .

La regresión logística es adecuada para resolver problemas de clasificación binaria ; simplemente asignamos a las diferentes categorías un valor de 0y 1respectivamente.

¿Por qué necesitamos la regresión logística? Porque no puede usar un modelo de regresión lineal para hacer predicciones de clasificación binaria. No conduciría a un buen ajuste, ya que está intentando ajustar una línea recta a través de un conjunto de datos con solo dos valores posibles.

Esta imagen puede ayudarlo a comprender por qué los modelos de regresión lineal no son adecuados para problemas de clasificación binaria:

Clasificación de regresión lineal

En esta imagen, y-axisrepresenta la probabilidad de que un tumor sea maligno. Por el contrario, el valor 1-yrepresenta la probabilidad de que un tumor no sea maligno. Como puede ver, el modelo de regresión lineal hace un mal trabajo al predecir esta probabilidad para la mayoría de las observaciones en el conjunto de datos.

Por eso son útiles los modelos de regresión logística. Tienen una curva en su línea de mejor ajuste, lo que los hace mucho más adecuados para predecir datos categóricos.

A continuación, se muestra un ejemplo que compara un modelo de regresión lineal con un modelo de regresión logística utilizando los mismos datos de entrenamiento:

Regresión lineal vs regresión logística

La función sigmoidea

La razón por la cual el modelo de regresión logística tiene un doblez en su curva es porque no se calcula usando una ecuación lineal. En cambio, los modelos de regresión logística se construyen utilizando la función sigmoidea (también llamada función logística debido a su uso en regresión logística).

No tendrá que memorizar la función sigmoidea para tener éxito en el aprendizaje automático. Dicho esto, es útil comprender un poco su apariencia.

La ecuación se muestra a continuación:

La ecuación sigmoidea

La característica principal de la función sigmoidea que vale la pena comprender es la siguiente: no importa qué valor le pase, siempre generará una salida en algún lugar entre 0 y 1.

Uso de modelos de regresión logística para realizar predicciones

Para usar el modelo de regresión lineal para hacer predicciones, generalmente necesita especificar un punto de corte. Este punto de corte suele ser 0.5.

Usemos nuestro ejemplo de diagnóstico de cáncer de nuestra imagen anterior para ver este principio en la práctica. Si el modelo de regresión logística genera un valor por debajo de 0,5, el punto de datos se clasifica como un tumor no maligno. De manera similar, si la función sigmoide da como resultado un valor superior a 0,5, el tumor se clasificaría como maligno.

Uso de una matriz de confusión para medir el rendimiento de la regresión logística

Una matriz de confusión se puede utilizar como herramienta para comparar verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos en el aprendizaje automático.

Las matrices de confusión son particularmente útiles cuando se usan para medir el desempeño de modelos de regresión logística. Aquí hay un ejemplo de cómo podríamos usar una matriz de confusión:

Un ejemplo de matriz de confusión

Una matriz de confusión es útil para evaluar si su modelo es particularmente débil en un cuadrante específico de la matriz de confusión. Por ejemplo, podría tener un número anormalmente alto de falsos positivos.

También puede ser útil en ciertas aplicaciones, para asegurarse de que su modelo funcione bien en una zona especialmente peligrosa de la matriz de confusión.

En este ejemplo de cáncer, por ejemplo, querrá estar muy seguro de que su modelo no tiene una tasa muy alta de falsos negativos, ya que esto indicaría que alguien tiene un tumor maligno que clasificó incorrectamente como no maligno.

Resumen de la sección

En esta sección, tuvo su primera exposición a los modelos de aprendizaje automático de regresión logística.

Aquí hay un breve resumen de lo que aprendió sobre la regresión logística:

  • Los tipos de problemas de clasificación que pueden resolverse mediante modelos de regresión logística.
  • Que la función logística (también llamada función sigmoidea) siempre genera un valor entre 0 y 1
  • Cómo usar puntos de corte para hacer predicciones usando un modelo de aprendizaje automático de regresión logística
  • Por qué las matrices de confusión son útiles para medir el rendimiento de los modelos de regresión logística

K-vecinos más cercanos

El algoritmo de K-vecinos más cercanos puede ayudarlo a resolver problemas de clasificación donde hay más de dos categorías.

¿Cuál es el algoritmo de K-vecinos más cercanos?

El algoritmo de K vecinos más cercanos es un algoritmo de clasificación que se basa en un principio simple. De hecho, el principio es tan simple que se comprende mejor a través del ejemplo.

Imagina que tienes datos sobre la altura y el peso de jugadores de fútbol y de baloncesto. El algoritmo de vecinos más cercanos K se puede utilizar para predecir si un nuevo atleta es un jugador de fútbol o de baloncesto.

Para hacer esto, el algoritmo de K vecinos más cercanos identifica los Kpuntos de datos que están más cerca de la nueva observación.

La siguiente imagen visualiza esto, con un valor K de 3:

Una visualización de k vecinos más cercanos

En esta imagen, los jugadores de fútbol están etiquetados como puntos de datos azules y los jugadores de baloncesto están etiquetados como puntos naranjas. El punto de datos que intentamos clasificar está etiquetado como verde.

Dado que la mayoría (2 de 3) de los puntos de datos de los armarios a los nuevos puntos de datos son jugadores de fútbol azul, entonces el algoritmo de vecinos más cercanos K predecirá que el nuevo punto de datos también es un jugador de fútbol.

Los pasos para construir un algoritmo de K-vecinos más cercanos

Los pasos generales para construir un algoritmo de vecinos K-más cercanos son:

  1. Almacene todos los datos
  2. Calcule la distancia euclidiana desde el nuevo punto de datos xa todos los demás puntos del conjunto de datos
  3. Ordene los puntos en el conjunto de datos en orden creciente de distancia desde x
  4. Predecir utilizando la misma categoría que la mayoría de los Kpuntos de datos más cercanos ax

La importancia de K en un algoritmo de vecinos más cercanos

Aunque puede que no sea obvio desde el principio, cambiar el valor de Ken un algoritmo de K-vecinos más cercanos cambiará la categoría a la que se asigna un nuevo punto.

Más específicamente, tener un Kvalor muy bajo hará que su modelo prediga perfectamente sus datos de entrenamiento y prediga mal sus datos de prueba. De manera similar, tener un Kvalor demasiado alto hará que su modelo sea innecesariamente complejo.

La siguiente visualización hace un excelente trabajo al ilustrar esto:

Valor K y tasas de error

Los pros y los contras del algoritmo de vecinos más cercanos K

Para concluir esta introducción al algoritmo de K-vecinos más cercanos, quería discutir brevemente algunos pros y contras de usar este modelo.

Estas son algunas de las principales ventajas del algoritmo de K vecinos más cercanos:

  • El algoritmo es simple y fácil de entender.
  • Es trivial entrenar el modelo con nuevos datos de entrenamiento.
  • Funciona con cualquier número de categorías en un problema de clasificación.
  • Es fácil agregar más datos al conjunto de datos
  • El modelo acepta solo dos parámetros: Ky la métrica de distancia que le gustaría usar (generalmente distancia euclidiana)

Del mismo modo, estas son algunas de las principales desventajas del algoritmo:

  • Existe un alto costo computacional para hacer predicciones, ya que necesita ordenar todo el conjunto de datos
  • No funciona bien con características categóricas.

Resumen de la sección

Aquí hay un breve resumen de lo que acaba de aprender sobre el algoritmo de k vecinos más cercanos:

  • Un ejemplo de un problema de clasificación (jugadores de fútbol contra jugadores de baloncesto) que el algoritmo de vecinos más cercanos K podría resolver
  • Cómo los K vecinos más cercanos utilizan la distancia euclidiana de los puntos de datos vecinos para predecir a qué categoría pertenece un nuevo punto de datos
  • Por qué el valor de las Kcosas para hacer predicciones
  • Los pros y los contras de usar el algoritmo de vecinos más cercanos K

Árboles de decisión y bosques aleatorios

Los árboles de decisión y los bosques al azar son ejemplos de métodos de árboles.

Más específicamente, los árboles de decisión son modelos de aprendizaje automático que se utilizan para realizar predicciones recorriendo cada característica de un conjunto de datos, una por una. Los bosques aleatorios son conjuntos de árboles de decisión que utilizaron órdenes aleatorios de las características en los conjuntos de datos.

¿Qué son los métodos de árbol?

Antes de profundizar en los fundamentos teóricos de los métodos de árbol en el aprendizaje automático, es útil comenzar con un ejemplo.

Imagina que juegas baloncesto todos los lunes. Además, siempre invitas al mismo amigo a jugar contigo.

A veces viene el amigo. A veces no lo hacen.

La decisión de venir o no depende de numerosos factores, como el clima, la temperatura, el viento y la fatiga. Comienzas a notar estas características y comienzas a rastrearlas junto con la decisión de tu amigo de jugar o no.

Puede utilizar estos datos para predecir si su amigo se presentará o no a jugar baloncesto. Una técnica que podría utilizar es un árbol de decisiones. Así es como se vería este árbol de decisiones:

Un ejemplo de árbol de decisiones

Cada árbol de decisión tiene dos tipos de elementos:

  • Nodes: ubicaciones donde el árbol se divide según el valor de algún atributo
  • Edges: el resultado de una división al siguiente nodo

Se puede ver en la imagen de arriba que hay nodos para outlook, humidityy windy. Hay una ventaja para cada valor potencial de cada uno de esos atributos.

Aquí hay otras dos partes de la terminología del árbol de decisiones que debe comprender antes de continuar:

  • Root: el nodo que realiza la primera división
  • Leaves: nodos terminales que predicen el resultado final

Ahora tiene una comprensión básica de qué son los árboles de decisión. Aprenderemos cómo construir árboles de decisión desde cero en la siguiente sección.

Cómo construir árboles de decisión desde cero

Construir árboles de decisiones es más difícil de lo que imagina. Esto se debe a que decidir en qué características dividir sus datos (que es un tema que pertenece a los campos de Entropía y Ganancia de información) es un problema matemáticamente complejo.

Para abordar esto, los profesionales del aprendizaje automático suelen utilizar muchos árboles de decisión con una muestra aleatoria de características elegidas como división.

Dicho de otra manera, se elige una nueva muestra aleatoria de características para cada árbol en cada división. Esta técnica se llama bosques aleatorios .

En general, los profesionales suelen elegir el tamaño de la muestra aleatoria de características (denotado m) para que sea la raíz cuadrada del número de características totales en el conjunto de datos (denotado p). Para ser concisos, mes la raíz cuadrada de p, y luego se selecciona aleatoriamente una característica específica m.

Si esto no tiene mucho sentido en este momento, no se preocupe. Será más claro cuando finalmente cree su primer modelo de bosque aleatorio.

Los beneficios de utilizar bosques aleatorios

Imagine que está trabajando con un conjunto de datos que tiene una característica muy sólida. Dicho de otra manera, el conjunto de datos tiene una característica que predice mucho más el resultado final que las otras características del conjunto de datos.

Si está creando sus árboles de decisión manualmente, entonces tiene sentido usar esta función como la división superior del árbol de decisión. Esto significa que tendrá varios árboles cuyas predicciones están altamente correlacionadas.

Queremos evitar esto, ya que tomar el promedio de variables altamente correlacionadas no reduce significativamente la varianza. Al seleccionar características al azar para cada árbol en un bosque aleatorio, los árboles se descorrelacionan y se reduce la varianza del modelo resultante. Esta descorrelación es la principal ventaja de utilizar bosques aleatorios sobre árboles de decisión hechos a mano.

Resumen de la sección

Aquí hay un breve resumen de lo que aprendió sobre árboles de decisión y bosques aleatorios en este artículo:

  • Un ejemplo de un problema que podría predecir utilizando árboles de decisión
  • Los elementos de un árbol de decisión: nodes, edges, roots, yleaves
  • Cómo tomar muestras aleatorias de las características del árbol de decisiones nos permite construir un bosque aleatorio
  • Por qué el uso de bosques aleatorios para descorrelacionar variables puede ser útil para reducir la varianza de su modelo final

Máquinas de vectores de soporte

Las máquinas de vectores de soporte son algoritmos de clasificación (aunque, técnicamente hablando, también podrían usarse para resolver problemas de regresión) que dividen un conjunto de datos en categorías basándose en la separación más amplia entre categorías. Este concepto se hará más claro a través de visualizaciones en un momento.

¿Qué son las máquinas de vectores de soporte?

Las máquinas de vectores de soporte, o SVM para abreviar, son modelos de aprendizaje automático supervisados ​​con algoritmos de aprendizaje asociados que analizan datos y reconocen patrones.

Las máquinas de vectores de soporte se pueden utilizar tanto para problemas de clasificación como para problemas de regresión. En este artículo, analizaremos específicamente el uso de máquinas de vectores de soporte para resolver problemas de clasificación.

¿Cómo funcionan las máquinas de vectores de soporte?

Analicemos cómo funcionan realmente las máquinas de vectores de soporte.

Dado un conjunto de ejemplos de entrenamiento, cada uno de los cuales está marcado para pertenecer a una de dos categorías, un algoritmo de entrenamiento de máquinas de vectores de soporte crea un modelo. Este modelo asigna nuevos ejemplos a una de las dos categorías. Esto hace que la máquina de vectores de soporte sea un clasificador lineal binario no probabilístico.

El SVM usa geometría para hacer predicciones categóricas.

Más específicamente, un modelo SVM mapea los puntos de datos como puntos en el espacio y divide las categorías separadas para que estén divididas por una brecha abierta lo más amplia posible. Se predice que los nuevos puntos de datos pertenecerán a una categoría según el lado de la brecha al que pertenecen.

Aquí hay una visualización de ejemplo que puede ayudarlo a comprender la intuición detrás de las máquinas de vectores de soporte:

Como puede ver, si un nuevo punto de datos cae en el lado izquierdo de la línea verde, se etiquetará con la categoría roja. De manera similar, si un nuevo punto de datos cae en el lado derecho de la línea verde, se etiquetará como perteneciente a la categoría azul.

Esta línea verde se llama hiperplano , que es una parte importante del vocabulario para los algoritmos de máquina de vectores de soporte.

Echemos un vistazo a una representación visual diferente de una máquina de vectores de soporte:

En este diagrama, el hiperplano está etiquetado como el hiperplano óptimo . La teoría de la máquina de vectores de soporte define el hiperplano óptimo como aquel que maximiza el margen entre los puntos de datos más cercanos de cada categoría.

Como puede ver, la línea de margen toca tres puntos de datos: dos de la categoría roja y uno de la categoría azul. Estos puntos de datos que tocan las líneas de margen se denominan vectores de soporte y son de donde las máquinas de vectores de soporte obtienen su nombre.

Resumen de la sección

A continuación, se muestra un breve resumen de lo que acaba de aprender sobre las máquinas de vectores de soporte:

  • Que las máquinas de vectores de soporte son un ejemplo de un algoritmo de aprendizaje automático supervisado
  • Que las máquinas de vectores de soporte se pueden utilizar para resolver problemas de clasificación y regresión.
  • Cómo las máquinas de vectores de soporte categorizan puntos de datos utilizando un hiperplano que maximiza el margen entre categorías en un conjunto de datos
  • Que los puntos de datos que tocan las líneas de margen en una máquina de vectores de soporte se denominan vectores de soporte . Estos puntos de datos son de donde las máquinas de vectores de soporte derivan su nombre.

Agrupación de K-medias

La agrupación en clústeres de K-means es un algoritmo de aprendizaje automático que le permite identificar segmentos de datos similares dentro de un conjunto de datos.

¿Qué es la agrupación de K-medias?

La agrupación en clústeres de K-means es un algoritmo de aprendizaje automático no supervisado.

Esto significa que toma datos sin etiquetar e intentará agrupar grupos similares de observaciones dentro de sus datos.

Los algoritmos de agrupación de K-means son muy útiles para resolver problemas del mundo real. A continuación, se muestran algunos casos de uso de este modelo de aprendizaje automático:

  • Segmentación de clientes para equipos de marketing
  • Clasificación de documentos
  • Optimización de rutas de entrega para empresas como Amazon, UPS o FedEx
  • Identificar y reaccionar ante los centros delictivos dentro de una ciudad.
  • Analítica deportiva profesional
  • Predecir y prevenir el ciberdelito

El objetivo principal de un algoritmo de agrupación de K significa es dividir un conjunto de datos en grupos distintos de modo que las observaciones dentro de cada grupo sean similares entre sí.

Aquí hay una representación visual de cómo se ve esto en la práctica:

Una visualización de un algoritmo de agrupación en clústeres de K medias

Exploraremos las matemáticas detrás de un agrupamiento de K-medias en la siguiente sección de este tutorial.

¿Cómo funcionan los algoritmos de agrupación de K-medias?

El primer paso para ejecutar un algoritmo de agrupación de K-means es seleccionar la cantidad de agrupaciones en las que le gustaría dividir sus datos. Este número de clústeres es el Kvalor al que se hace referencia en el nombre del algoritmo.

Elegir el Kvalor dentro de un algoritmo de agrupación de K-means es una elección importante. Hablaremos más sobre cómo elegir un valor adecuado Kmás adelante en este artículo.

A continuación, debe asignar aleatoriamente cada punto de su conjunto de datos a un grupo aleatorio. Esto le da nuestra asignación inicial en la que luego ejecuta la siguiente iteración hasta que los grupos dejan de cambiar:

  • Calcule el centroide de cada grupo tomando el vector medio de puntos dentro de ese grupo
  • Reasigne cada punto de datos al clúster que tiene el centroide más cercano

A continuación, se muestra una animación de cómo funciona esto en la práctica para un algoritmo de agrupación en clústeres de K-medias con un Kvalor de 3. Puede ver el centroide de cada grupo representado por un +carácter negro .

Una visualización de un algoritmo de agrupación en clústeres de K medias

Como puede ver, esta iteración continúa hasta que los clústeres dejan de cambiar, lo que significa que los puntos de datos ya no se asignan a nuevos clústeres.

Elegir un valor de K adecuado para K significa algoritmos de agrupamiento

Elegir un Kvalor adecuado para un algoritmo de agrupación de K-medias es realmente bastante difícil. No existe una respuesta "correcta" para elegir el "mejor" Kvalor.

Un método que los profesionales del aprendizaje automático utilizan a menudo se llama método del codo .

Para usar el método del codo, lo primero que debe hacer es calcular la suma de errores cuadrados (SSE) para su algoritmo de agrupación de K-medias para un grupo de Kvalores. SSE en una K significa que el algoritmo de agrupamiento se define como la suma de la distancia al cuadrado entre cada punto de datos en un grupo y el centroide de ese grupo.

Como ejemplo de este paso, es posible calcular la ESS para Kvalores de 2, 4, 6, 8, y 10.

A continuación, querrá generar una gráfica del SSE contra estos diferentes Kvalores. Verá que el error disminuye a medida que aumenta el Kvalor.

Esto tiene sentido: cuantas más categorías cree dentro de un conjunto de datos, más probable será que cada punto de datos esté cerca del centro de su grupo específico.

Dicho esto, la idea detrás del método del codo es elegir un valor Ken el que el SSE desacelera abruptamente su tasa de disminución. Esta abrupta disminución produce un elbowen el gráfico.

Como ejemplo, aquí hay un gráfico de SSE contra K. En este caso, el método del codo sugeriría usar un Kvalor de aproximadamente 6.

Una visualización de un algoritmo de agrupación en clústeres de K medias

Es importante destacar que 6es solo una estimación de un buen valor de Kuso. Nunca hay un "mejor" Kvalor en un algoritmo de agrupamiento de K-medias. Como ocurre con muchas cosas en el campo del aprendizaje automático, esta es una decisión que depende en gran medida de la situación.

Resumen de la sección

Aquí hay un breve resumen de lo que aprendió en este artículo:

  • Ejemplos de problemas de aprendizaje automático no supervisados ​​que el algoritmo de agrupación en clústeres de K-means es capaz de resolver
  • Los principios básicos de lo que es un algoritmo de agrupación de K-means
  • Cómo funciona el algoritmo de agrupación en clústeres de K-means
  • Cómo utilizar el método del codo para seleccionar un valor apropiado de Ken un modelo de agrupamiento de K-medias

Análisis de componentes principales

El análisis de componentes principales se utiliza para transformar un conjunto de datos con muchas características en un conjunto de datos transformado con menos características donde cada característica nueva es una combinación lineal de las características preexistentes. Este conjunto de datos transformado tiene como objetivo explicar la mayor parte de la varianza del conjunto de datos original con mucha más simplicidad.

¿Qué es el análisis de componentes principales?

El análisis de componentes principales es una técnica de aprendizaje automático que se utiliza para examinar las interrelaciones entre conjuntos de variables.

Dicho de otra manera, el análisis de componentes principales estudia conjuntos de variables con el fin de identificar la estructura subyacente de esas variables.

El análisis de componentes principales a veces se denomina análisis factorial .

Según esta descripción, podría pensar que el análisis de componentes principales es bastante similar a la regresión lineal.

Ese no es el caso. De hecho, estas dos técnicas tienen algunas diferencias importantes.

Las diferencias entre regresión lineal y análisis de componentes principales

La regresión lineal determina una línea de mejor ajuste a través de un conjunto de datos. El análisis de componentes principales determina varias líneas ortogonales de mejor ajuste para el conjunto de datos.

Si no está familiarizado con el término ortogonal , solo significa que las líneas están en ángulo recto (90 grados) entre sí, como el norte, el este, el sur y el oeste en un mapa.

Consideremos un ejemplo para ayudarlo a comprender esto mejor.

Un análisis de componentes principales

Eche un vistazo a las etiquetas de los ejes en esta imagen.

En esta imagen, el componente principal del eje x muestra el 73% de la varianza en el conjunto de datos. El componente principal del eje y explica aproximadamente el 23% de la varianza en el conjunto de datos.

Esto significa que el 4% de la varianza en el conjunto de datos permanece sin explicación. Podría reducir aún más este número agregando más componentes principales a su análisis.

Resumen de la sección

A continuación, se incluye un breve resumen de lo que aprendió sobre el análisis de componentes principales en este tutorial:

  • Ese análisis de componentes principales intenta encontrar factores ortogonales que determinen la variabilidad en un conjunto de datos.
  • Las diferencias entre el análisis de componentes principales y la regresión lineal
  • Cómo se ven los componentes principales ortogonales cuando se visualizan dentro de un conjunto de datos
  • Que agregar más componentes principales puede ayudarlo a explicar más la varianza en un conjunto de datos