Cómo superar la exageración de la IA para convertirse en un ingeniero de aprendizaje automático

Estoy seguro de que has oído hablar de las increíbles aplicaciones de inteligencia artificial que existen, desde programas que pueden vencer a los mejores jugadores de Go del mundo hasta autos sin conductor.

El problema es que la mayoría de la gente se queda atrapada en el bombo de la IA, mezclando discusiones técnicas con filosóficas.

Si está buscando superar el bombo de la inteligencia artificial y trabajar con modelos de datos implementados de manera práctica, entrene para obtener un puesto de ingeniero de datos o ingeniero de aprendizaje automático.

No busque aplicaciones de IA interesantes en los artículos de IA. Búsquelos en los tutoriales de ingeniería de datos o aprendizaje automático.

Estos son los pasos que tomé para construir este pequeño y divertido scraper que construí para analizar la diversidad de género en diferentes bootcamps de codificación. Es el camino que tomé para investigar para el nuevo campamento de entrenamiento en línea AI / ML de Springboard con garantía de trabajo.

Aquí hay una guía paso a paso para ingresar al espacio del aprendizaje automático con un conjunto crítico de recursos adjuntos a cada uno.

1. Empiece a repasar sus prácticas de desarrollo de software y Python

Querrá comenzar adoptando Python, el lenguaje elegido por la mayoría de los ingenieros de aprendizaje automático.

El práctico lenguaje de secuencias de comandos es la herramienta elegida por la mayoría de los ingenieros y científicos de datos. La mayoría de las herramientas para datos se han creado en Python o tienen acceso a la API para facilitar el acceso a Python.

Afortunadamente, la sintaxis de Python es relativamente fácil de aprender. El idioma tiene toneladas de documentación y recursos de capacitación. También incluye soporte para todo tipo de paradigmas de programación, desde programación funcional hasta programación orientada a objetos.

Lo único que puede ser un poco difícil de entender es la tabulación y el espaciado necesarios para organizar y activar su código. En Python, el espacio en blanco realmente importa.

Como ingeniero de aprendizaje automático, trabajaría en equipo para crear aplicaciones complejas, a menudo de misión crítica. Por lo tanto, ahora es un buen momento para actualizar también las mejores prácticas de ingeniería de software.

Aprenda a utilizar herramientas colaborativas como Github. Adquiera el hábito de escribir pruebas unitarias exhaustivas para su código utilizando marcos de prueba como nose. Pruebe sus API con herramientas como Postman. Utilice sistemas de CI como Jenkins para asegurarse de que su código no se rompa. Desarrolle buenas habilidades de revisión de código para trabajar mejor con sus futuros colegas técnicos.

Una cosa para leer : ¿Cuál es el mejor IDE de Python para la ciencia de datos? Realice una lectura rápida para que pueda comprender en qué conjunto de herramientas desea trabajar para implementar Python en conjuntos de datos.

Yo mismo utilizo Jupyter Notebook, ya que viene preinstalado con la mayoría de las bibliotecas de ciencia de datos importantes que usará. Viene con una interfaz interactiva fácil y limpia que le permite editar su código sobre la marcha.

Jupyter Notebook también viene con extensiones que le permiten compartir fácilmente sus resultados con el mundo en general. Los archivos generados también son muy fáciles de trabajar en Github.

Una cosa que hacer : Pandas Cookbook le permite acceder a ejemplos en vivo del marco Pandas, una de las bibliotecas de manipulación de datos más poderosas. Puede trabajar rápidamente con un ejemplo de cómo jugar con un conjunto de datos a través de él.

2. Examinar la teoría y los marcos de aprendizaje automático

Una vez que esté jugando con Python y practicando con él, es hora de comenzar a mirar la teoría del aprendizaje automático.

Aprenderá qué algoritmos utilizar. Tener un conocimiento básico de la teoría detrás del aprendizaje automático le permitirá implementar modelos con facilidad.

Una cosa para leer : Un recorrido por los diez mejores algoritmos para principiantes del aprendizaje automático lo ayudará a comenzar con los conceptos básicos. Aprenderá que no hay "almuerzo gratis". No existe un algoritmo que le dé el resultado óptimo para cada configuración, por lo que tendrá que sumergirse en cada algoritmo.

Una cosa que debe hacer : juegue con el curso interactivo de aprendizaje automático gratuito en Python: desarrolle sus habilidades en Python y comience a implementar algoritmos.

3. Empiece a trabajar con conjuntos de datos y a experimentar

Tienes las herramientas y la teoría en tu haber. Debería pensar en hacer pequeños mini proyectos que puedan ayudarlo a perfeccionar sus habilidades.

Una cosa para leer : eche un vistazo a 19 conjuntos de datos públicos gratuitos para su primer proyecto de ciencia de datos y comience a buscar dónde puede encontrar diferentes conjuntos de datos en la web para jugar.

Una cosa por hacer : Kaggle Datasets le permitirá trabajar con muchos conjuntos de datos disponibles públicamente. Lo bueno de esta colección es que puede ver lo populares que son ciertos conjuntos de datos. También puede ver qué otros proyectos se han creado con el mismo conjunto de datos.

4. Escale sus habilidades de datos con Hadoop o Spark

Ahora que está practicando con conjuntos de datos más pequeños, querrá aprender a trabajar con Hadoop o Spark. Los ingenieros de datos trabajan con datos de nivel de producción en tiempo real y en tiempo real a una escala de terabytes y, a veces, de petabytes. Mejore sus habilidades aprendiendo a través de un marco de big data.

Una cosa para leer : este breve artículo ¿Cómo se acumulan Hadoop y Spark? lo ayudará a analizar Hadoop y Spark y cómo se comparan y contrastan entre sí.

Una cosa que debe hacer : si desea comenzar a trabajar con un marco de big data de inmediato, los cuadernos de Spark Jupyter alojados en Databricks ofrecen una introducción a nivel de tutorial del marco y le permiten practicar con ejemplos de código a nivel de producción.

5. Trabaja con un marco de aprendizaje profundo como TensorFlow

Ha terminado de explorar los algoritmos de aprendizaje automático y de trabajar con las diferentes herramientas de big data que existen.

Ahora es el momento de asumir el tipo de aprendizaje por refuerzo poderoso que ha sido el foco de nuevos avances. Aprenda el marco de trabajo de TensorFlow y estará a la vanguardia del trabajo de aprendizaje automático.

Una cosa para leer : lea ¿Qué es TensorFlow? y comprenda lo que sucede debajo del capó cuando se trata de este poderoso marco de aprendizaje profundo.

Una cosa por hacer : TensorFlow y Deep Learning sin un doctorado es un curso interactivo creado por Google que combina teoría colocada en diapositivas con laboratorios prácticos con código.

6. Empiece a trabajar con grandes conjuntos de datos a nivel de producción.

Ahora que ha trabajado con marcos de aprendizaje profundo, puede comenzar a trabajar hacia grandes conjuntos de datos a nivel de producción.

Como ingeniero de aprendizaje automático, tomará decisiones de ingeniería complejas sobre la administración de grandes cantidades de datos y la implementación de sus sistemas.

Eso incluiría la recopilación de datos de API y web scraping, bases de datos SQL + NoSQL y, cuando las usaría, el uso de marcos de canalización como Luigi o Airflow.

Cuando implemente sus aplicaciones, puede usar sistemas basados ​​en contenedores como Docker para la escalabilidad y confiabilidad, y herramientas como Flask para crear API para su aplicación.

Una cosa para leer : 7 formas de manejar grandes archivos de datos para el aprendizaje automático es un buen ejercicio teórico sobre cómo manejaría grandes conjuntos de datos y puede servir como una práctica lista de verificación de tácticas para usar.

Una cosa que debe hacer : Big Data Sets disponibles públicamente es una lista de lugares donde puede obtener conjuntos de datos muy grandes, listos para practicar sus nuevas habilidades de ingeniería de datos.

7. Practique, practique, practique, desarrolle un portafolio y luego un trabajo

Finalmente, ha llegado a un punto en el que puede crear modelos de aprendizaje automático que funcionen. El siguiente paso para avanzar en su carrera de aprendizaje automático es encontrar un trabajo en una empresa que posea esos grandes conjuntos de datos para que pueda aplicar sus habilidades todos los días a un problema de aprendizaje automático de vanguardia.

Una cosa para leer : 41 preguntas esenciales de la entrevista de aprendizaje automático (con respuestas) lo ayudarán a practicar el conocimiento que necesita para dominar una entrevista de aprendizaje automático.

Una cosa que hacer : salir y encontrar reuniones dedicadas al aprendizaje automático o la ingeniería de datos en Meetup; es una excelente manera de conocer a compañeros en el espacio y posibles gerentes de contratación.

Con suerte, este tutorial ha ayudado a reducir la exageración en torno a la IA a algo práctico y personalizado que pueda usar. Si sientes que necesitas un poco más, la empresa con la que trabajo, Springboard, ofrece un bootcamp de trayectoria profesional dedicado a la inteligencia artificial y el aprendizaje automático con una garantía de empleo y tutoría 1: 1 de expertos en aprendizaje automático.