Clasifiqué todos los cursos de Introducción a la ciencia de datos en Internet, según miles de puntos de datos

Hace un año, dejé uno de los mejores programas de ciencias de la computación en Canadá. Comencé a crear mi propio programa de maestría en ciencia de datos utilizando recursos en línea. Me di cuenta de que podía aprender todo lo que necesitaba a través de edX, Coursera y Udacity. Y pude aprenderlo más rápido, de manera más eficiente y por una fracción del costo.

Ya casi he terminado. He tomado muchos cursos relacionados con la ciencia de datos y auditado porciones de muchos más. Conozco las opciones que existen y las habilidades que se necesitan para los estudiantes que se preparan para un rol de analista de datos o científico de datos. Hace unos meses, comencé a crear una guía basada en revisiones que recomienda los mejores cursos para cada tema dentro de la ciencia de datos.

Para la primera guía de la serie, recomendé algunas clases de codificación para el científico de datos principiante. Luego fueron estadísticas y clases de probabilidad.

Pasemos ahora a las introducciones a la ciencia de datos.

(No se preocupe si no está seguro de lo que implica un curso de introducción a la ciencia de datos. Lo explicaré en breve).

Para esta guía, pasé más de 10 horas tratando de identificar cada introducción en línea a los cursos de ciencia de datos ofrecidos a partir de enero de 2017, extrayendo bits de información clave de sus programas y reseñas, y compilando sus calificaciones. Para esta tarea, recurrí nada menos que a la comunidad de código abierto Class Central y su base de datos de miles de calificaciones y reseñas de cursos.

Desde 2011, el fundador de Class Central, Dhawal Shah, ha estado más atento a los cursos en línea que posiblemente cualquier otra persona en el mundo. Dhawal personalmente me ayudó a armar esta lista de recursos.

Cómo elegimos los cursos para considerar

Cada curso debe cumplir con tres criterios:

  1. Debe enseñar el proceso de ciencia de datos. Más sobre eso pronto.
  2. Debe ser bajo demanda u ofrecerse cada pocos meses.
  3. Debe ser un curso interactivo en línea, por lo que no se permiten libros ni tutoriales de solo lectura . Aunque estas son formas viables de aprender, esta guía se centra en los cursos.

Creemos que cubrimos todos los cursos notables que se ajustan a los criterios anteriores. Dado que aparentemente hay cientos de cursos en Udemy, elegimos considerar solo los más revisados ​​y mejor calificados. Sin embargo, siempre existe la posibilidad de que nos perdamos algo. Así que háganos saber en la sección de comentarios si dejamos un buen curso.

Cómo evaluamos los cursos

Compilamos la calificación promedio y el número de revisiones de Class Central y otros sitios de revisión para calcular una calificación promedio ponderada para cada curso. Leímos reseñas de texto y usamos estos comentarios para complementar las calificaciones numéricas.

Hicimos juicios subjetivos del programa de estudios basados ​​en dos factores:

1. Cobertura del proceso de ciencia de datos. ¿El curso pasa por alto u omite ciertos temas? ¿Cubre ciertos temas con demasiado detalle? Consulte la siguiente sección para conocer lo que implica este proceso.

2. Uso de herramientas comunes de ciencia de datos. ¿El curso se imparte utilizando lenguajes de programación populares como Python y / o R? Estos no son necesarios, pero son útiles en la mayoría de los casos, por lo que se les da una ligera preferencia a estos cursos.

¿Qué es el proceso de ciencia de datos?

¿Qué es la ciencia de datos? ¿Qué hace un científico de datos? Estos son los tipos de preguntas fundamentales que debe responder un curso de introducción a la ciencia de datos. La siguiente infografía de los profesores de Harvard Joe Blitzstein y Hanspeter Pfister describe un proceso típico de ciencia de datos , que nos ayudará a responder estas preguntas.

Nuestro objetivo con este curso de introducción a la ciencia de datos es familiarizarnos con el proceso de ciencia de datos. No queremos una cobertura demasiado profunda de aspectos específicos del proceso, de ahí la parte de "introducción a" del título.

Para cada aspecto, el curso ideal explica conceptos clave dentro del marco del proceso, presenta herramientas comunes y proporciona algunos ejemplos (preferiblemente prácticos).

Solo buscamos una presentación. Por lo tanto, esta guía no incluirá especializaciones o programas completos como la especialización en ciencia de datos de la Universidad Johns Hopkins en Coursera o el Nanodegree de analista de datos de Udacity. Estas compilaciones de cursos eluden el propósito de esta serie: encontrar los mejores cursos individuales para cada materia que comprendan una educación en ciencia de datos. Las tres guías finales de esta serie de artículos cubrirán cada aspecto del proceso de ciencia de datos en detalle.

Se requiere experiencia básica en codificación, estadísticas y probabilidad

Varios de los cursos que se enumeran a continuación requieren experiencia básica en programación, estadística y probabilidad. Este requisito es comprensible dado que los nuevos contenidos están razonablemente avanzados y que estas materias suelen tener varios cursos dedicados a ellos.

Esta experiencia se puede adquirir a través de nuestras recomendaciones en los dos primeros artículos (programación, estadísticas) de esta Guía profesional de ciencia de datos.

Nuestra elección para el mejor curso de introducción a la ciencia de datos es ...

  • Data Science AZ ™: ejercicios de ciencia de datos de la vida real incluidos (Kirill Eremenko / Udemy)

Data Science AZ ™ de Kirill Eremenko en Udemy es el claro ganador en términos de amplitud y profundidad de cobertura del proceso de ciencia de datos de los más de 20 cursos que calificaron. Tiene una calificación promedio ponderada de 4.5 estrellas sobre 3,071 reseñas, lo que lo ubica entre los campos mejor calificados y más revisados ​​de los considerados.

Describe el proceso completo y proporciona ejemplos de la vida real. A las 21 horas de contenido, es una buena duración. A los revisores les encanta la presentación del instructor y la organización del contenido. El precio varía según los descuentos de Udemy, que son frecuentes, por lo que es posible que pueda comprar acceso por tan solo $ 10.

Aunque no marca nuestra casilla de "uso de herramientas comunes de ciencia de datos" , las opciones de herramientas que no son de Python / R (gretl, Tableau, Excel) se usan de manera efectiva en contexto. Eremenko menciona lo siguiente al explicar la elección de gretl (gretl es un paquete de software estadístico), aunque se aplica a todas las herramientas que usa (el énfasis es mío):

En gretl, podremos hacer el mismo modelado como en R y Python pero no tendremos que codificar. Ese es el gran problema aquí. Es posible que algunos de ustedes ya conozcan muy bien R, pero es posible que algunos no lo sepan en absoluto. Mi objetivo es mostrarle cómo construir un modelo robusto y brindarle un marco que pueda aplicar en cualquier herramienta que elija . gretl nos ayudará a evitar atascarnos en nuestra codificación.

Un revisor destacado señaló lo siguiente:

Kirill es el mejor profesor que he encontrado en Internet. Utiliza ejemplos de la vida real y explica problemas comunes para que usted obtenga una comprensión más profunda del trabajo del curso. También proporciona una gran cantidad de información sobre lo que significa ser un científico de datos, desde trabajar con datos insuficientes hasta presentar su trabajo a la gerencia de clase C. ¡Recomiendo este curso para estudiantes principiantes y analistas de datos intermedios!

Una gran introducción centrada en Python

  • Introducción al análisis de datos (Udacity)

Introducción al análisis de datos de Udacity es una oferta relativamente nueva que forma parte del popular Data Analyst Nanodegree de Udacity. Cubre el proceso de ciencia de datos de forma clara y coherente utilizando Python, aunque le falta un poco en el aspecto de modelado. El tiempo estimado es de 36 horas (seis horas por semana durante seis semanas), aunque es más corto en mi experiencia. Tiene una calificación promedio ponderada de 5 estrellas sobre dos reseñas. Es gratis.

Los videos están bien producidos y la instructora (Caroline Buckey) es clara y agradable. Muchos cuestionarios de programación refuerzan los conceptos aprendidos en los videos. Los estudiantes terminarán el curso confiando en sus habilidades nuevas y / o mejoradas de NumPy y Pandas (estas son bibliotecas populares de Python). El proyecto final, que se califica y revisa en el Nanogrado pero no en el curso individual gratuito, puede ser una buena adición a una carpeta.

Una oferta impresionante sin datos de revisión

  • Fundamentos de la ciencia de datos (Big Data University)

Data Science Fundamentals es una serie de cuatro cursos proporcionada por Big Data University de IBM. Incluye cursos titulados Data Science 101, Data Science Methodology, Data Science Hands-on with Open Source Tools y R 101.

Cubre el proceso completo de ciencia de datos e introduce Python, R y varias otras herramientas de código abierto. Los cursos tienen un enorme valor de producción. Se estima un esfuerzo de 13 a 18 horas, dependiendo de si realiza el curso “R 101” al final, lo cual no es necesario para el propósito de esta guía. Desafortunadamente, no tiene datos de revisión en los principales sitios de revisión que usamos para este análisis, por lo que aún no podemos recomendarlo sobre las dos opciones anteriores. Es gratis.

La competencia

Nuestra selección número 1 tuvo una calificación promedio ponderada de 4.5 de 5 estrellas sobre 3,068 reseñas. Veamos las otras alternativas, ordenadas por calificación descendente. A continuación, encontrará varios cursos centrados en R, si tiene una introducción en ese idioma.

  • Python for Data Science and Machine Learning Bootcamp (Jose Portilla / Udemy): Cobertura completa del proceso con un enfoque de gran cantidad de herramientas (Python). Menos impulsada por procesos y una introducción más detallada a Python. Curso asombroso, aunque no ideal para el alcance de esta guía. Al igual que el curso R de José a continuación, puede funcionar como introducciones a Python / R e introducciones a la ciencia de datos. 21,5 horas de contenido. Tiene una calificación promedio ponderada de 4.7 estrellas sobre 1.644 reseñas. El costo varía según los descuentos de Udemy, que son frecuentes.
  • Bootcamp de ciencia de datos y aprendizaje automático con R (Jose Portilla / Udemy): Cobertura completa del proceso con un enfoque de gran cantidad de herramientas (R). Menos impulsada por el proceso y más como una introducción muy detallada a R. Curso increíble, aunque no es ideal para el alcance de esta guía. Este, al igual que el curso de Python de José anterior, puede funcionar como introducciones a Python / R e introducciones a la ciencia de datos. 18 horas de contenido. Tiene una calificación promedio ponderada de 4.6 estrellas sobre 847 reseñas. El costo varía según los descuentos de Udemy, que son frecuentes.
  • Ciencia de datos y aprendizaje automático con Python: ¡manos a la obra! (Frank Kane / Udemy): Cobertura de proceso parcial. Se centra en las estadísticas y el aprendizaje automático. Duración decente (nueve horas de contenido). Utiliza Python. Tiene una calificación promedio ponderada de 4.5 estrellas sobre 3,104 reseñas. El costo varía según los descuentos de Udemy, que son frecuentes.
  • Introducción a la ciencia de datos (Data Hawk Tech / Udemy): cobertura completa del proceso, aunque con una profundidad de cobertura limitada. Bastante corto (tres horas de contenido). Cubre brevemente tanto R como Python. Tiene una calificación promedio ponderada de 4.4 estrellas sobre 62 reseñas. El costo varía según los descuentos de Udemy, que son frecuentes.
  • Ciencia de datos aplicada: Introducción (Universidad de Syracuse / Educación abierta de Blackboard): Cobertura completa del proceso, aunque no distribuida de manera uniforme. Se centra en gran medida en estadísticas básicas y R. Demasiado aplicado y sin suficiente enfoque en el proceso para el propósito de esta guía. La experiencia del curso en línea se siente inconexa. Tiene una calificación promedio ponderada de 4.33 estrellas sobre 6 reseñas. Gratis.
  • Introducción a la ciencia de datos (Nina Zumel y John Mount / Udemy): solo cobertura parcial del proceso, aunque buena profundidad en los aspectos de preparación y modelado de datos. Duración aceptable (seis horas de contenido). Utiliza R. Tiene una calificación promedio ponderada de 4.3 estrellas sobre 101 reseñas. El costo varía según los descuentos de Udemy, que son frecuentes.
  • Ciencia de datos aplicada con Python (V2 Maestros / Udemy): Cobertura completa del proceso con buena profundidad de cobertura para cada aspecto del proceso. Duración decente (8.5 horas de contenido). Utiliza Python. Tiene una calificación promedio ponderada de 4.3 estrellas sobre 92 reseñas. El costo varía según los descuentos de Udemy, que son frecuentes.
  • ¿Quieres ser científico de datos? (V2 Maestros / Udemy): Cobertura total del proceso, aunque con una profundidad de cobertura limitada. Bastante corto (3 horas de contenido). Cobertura limitada de herramientas. Tiene una calificación promedio ponderada de 4.3 estrellas sobre 790 reseñas. El costo varía según los descuentos de Udemy, que son frecuentes.
  • Data to Insight: an Introduction to Data Analysis (Universidad de Auckland / FutureLearn): La amplitud de la cobertura no está clara. Afirma centrarse en la exploración, el descubrimiento y la visualización de datos. No se ofrece a pedido. 24 horas de contenido (tres horas a la semana durante ocho semanas). Tiene una calificación promedio ponderada de 4 estrellas sobre 2 reseñas. Gratis con certificado de pago disponible.
  • Orientación a la ciencia de datos (Microsoft / edX): Cobertura de proceso parcial (carece de aspecto de modelado). Utiliza Excel, lo cual tiene sentido dado que es un curso de la marca Microsoft. 12-24 horas de contenido (de dos a cuatro horas a la semana durante seis semanas). Tiene una calificación promedio ponderada de 3.95 estrellas sobre 40 reseñas. Gratis con certificado verificado disponible por $ 25.
  • Data Science Essentials (Microsoft / edX): cobertura completa del proceso con una buena profundidad de cobertura para cada aspecto. Cubre R, Python y Azure ML (una plataforma de aprendizaje automático de Microsoft). Varias reseñas de 1 estrella que citan la elección de la herramienta (Azure ML) y la mala entrega del instructor. 18-24 horas de contenido (tres o cuatro horas por semana durante seis semanas). Tiene una calificación promedio ponderada de 3.81 estrellas sobre 67 reseñas. Gratis con certificado verificado disponible por $ 49.
  • Ciencia de datos aplicada con R (V2 Maestros / Udemy): el compañero R del curso de Python de V2 Maestros anterior. Cobertura completa del proceso con buena profundidad de cobertura para cada aspecto del proceso. Duración decente (11 horas de contenido). Utiliza R. Tiene una calificación promedio ponderada de 3.8 estrellas sobre 212 reseñas. El costo varía según los descuentos de Udemy, que son frecuentes.
  • Introducción a la ciencia de datos (Udacity): cobertura parcial del proceso, aunque buena profundidad para los temas cubiertos. Carece del aspecto de exploración, aunque Udacity tiene un gran curso completo sobre análisis de datos exploratorios (EDA). Afirma tener 48 horas de duración (seis horas por semana durante ocho semanas), pero es más corta en mi experiencia. Algunas revisiones piensan que falta la configuración del contenido avanzado. Se siente desorganizado. Utiliza Python. Tiene una calificación promedio ponderada de 3.61 estrellas en 18 reseñas. Gratis.
  • Introducción a la ciencia de datos en Python (Universidad de Michigan / Coursera): Cobertura parcial de procesos. No hay modelado ni visualización, aunque los cursos # 2 y # 3 en Applied Data Science con Python Specialization cubren estos aspectos. Tomar los tres cursos sería demasiado profundo para el propósito de estas guías. Utiliza Python. Cuatro semanas de duración. Tiene una calificación promedio ponderada de 3.6 estrellas sobre 15 reseñas. Opciones gratuitas y de pago disponibles.
  • Toma de decisiones basada en datos (PwC / Coursera): Cobertura parcial (carece de modelado) con un enfoque empresarial. Presenta muchas herramientas, incluidas R, Python, Excel, SAS y Tableau. Cuatro semanas de duración. Tiene una calificación promedio ponderada de 3.5 estrellas sobre 2 reseñas. Opciones gratuitas y de pago disponibles.
  • Un curso intensivo en ciencia de datos (Universidad Johns Hopkins / Coursera): una descripción general extremadamente breve del proceso completo. Demasiado breve para el propósito de esta serie. Dos horas de duración. Tiene una calificación promedio ponderada de 3.4 estrellas en 19 reseñas. Opciones gratuitas y de pago disponibles.
  • La caja de herramientas del científico de datos (Universidad Johns Hopkins / Coursera): una descripción extremadamente breve del proceso completo. Es más un curso de preparación para la especialización en ciencia de datos de la Universidad Johns Hopkins. Afirma tener de 4 a 16 horas de contenido (de una a cuatro horas por semana durante cuatro semanas), aunque un revisor señaló que podría completarse en dos horas. Tiene una calificación promedio ponderada de 3.22 estrellas sobre 182 reseñas. Opciones gratuitas y de pago disponibles.
  • Gestión y visualización de datos (Wesleyan University / Coursera): Cobertura de proceso parcial (carece de modelado). Cuatro semanas de duración. Buen valor de producción. Utiliza Python y SAS. Tiene una calificación promedio ponderada de 2.67 estrellas sobre 6 reseñas. Opciones gratuitas y de pago disponibles.

Los siguientes cursos no tuvieron revisiones hasta enero de 2017.

  • CS109 Data Science (Universidad de Harvard): cobertura completa del proceso en gran profundidad (probablemente demasiado en profundidad para el propósito de esta serie). Un curso de pregrado completo de 12 semanas. La navegación del curso es difícil ya que el curso no está diseñado para el consumo en línea. Se filman conferencias reales de Harvard. La infografía del proceso de ciencia de datos anterior se origina en este curso. Utiliza Python. No hay datos de revisión. Gratis.
  • Introducción a la analítica de datos para empresas (Universidad de Colorado Boulder / Coursera): cobertura de proceso parcial (carece de aspectos de modelado y visualización) con un enfoque en los negocios. El proceso de ciencia de datos se disfraza como la “Cadena de valor de información-acción” en sus conferencias. Cuatro semanas de duración. Describe varias herramientas, aunque solo cubre SQL en profundidad. No hay datos de revisión. Opciones gratuitas y de pago disponibles.
  • Introducción a la ciencia de datos (Lynda): cobertura completa del proceso, aunque con una profundidad de cobertura limitada. Bastante corto (tres horas de contenido). Introduce tanto R como Python. No hay datos de revisión. El costo depende de la suscripción a Lynda.

Envolviendolo

Este es el tercero de una serie de seis piezas que cubre los mejores cursos en línea para iniciarse en el campo de la ciencia de datos. Cubrimos la programación en el primer artículo y las estadísticas y la probabilidad en el segundo artículo. El resto de la serie cubrirá otras competencias básicas de la ciencia de datos: visualización de datos y aprendizaje automático.

Si desea aprender ciencia de datos, comience con una de estas clases de programación

Si desea aprender ciencia de datos, tome algunas de estas clases de estadística

La pieza final será un resumen de esos artículos, además de los mejores cursos en línea para otros temas clave como la lucha de datos, bases de datos e incluso ingeniería de software.

Si está buscando una lista completa de cursos en línea de Data Science, puede encontrarlos en la página de materias de Data Science y Big Data de Class Central.

Si disfrutó leyendo esto, vea algunas de las otras piezas de Class Central:

Aquí hay 250 cursos de la Ivy League que puede tomar en línea ahora mismo de forma gratuita

250 MOOC de Brown, Columbia, Cornell, Dartmouth, Harvard, Penn, Princeton y Yale.

Los 50 mejores cursos universitarios online gratuitos según datos

Cuando lancé Class Central en noviembre de 2011, había alrededor de 18 cursos en línea gratuitos, y casi todos ...

Si tiene sugerencias de cursos que me perdí, ¡hágamelo saber en las respuestas!

Si le resultó útil, haga clic en? para que más gente lo vea aquí en Medium.

Esta es una versión condensada de mi artículo original publicado en Class Central, donde he incluido más descripciones de cursos, programas de estudios y varias revisiones.