La ciencia de datos es un campo emocionante y en rápido movimiento en el que involucrarse. No hay escasez de demanda de personas con talento y con mentalidad analítica. Empresas de todos los tamaños están contratando científicos de datos, y la función proporciona un valor real en una amplia gama de industrias y aplicaciones.
A menudo, los primeros encuentros de las personas con el campo se producen a través de la lectura de titulares de ciencia ficción generados por las principales organizaciones de investigación. Los avances recientes han planteado la posibilidad de que el aprendizaje automático transforme el mundo tal como lo conocemos en una generación.
Sin embargo, fuera de la academia y la investigación, la ciencia de datos es mucho más que temas de titulares como el aprendizaje profundo y la PNL.
Gran parte del valor comercial de un científico de datos proviene de proporcionar la claridad y los conocimientos que pueden aportar grandes cantidades de datos. El rol puede abarcar todo, desde ingeniería de datos hasta análisis e informes de datos, con tal vez algo de aprendizaje automático incluido en buena medida.
Este es especialmente el caso de una empresa de nueva creación. Las necesidades de datos de las empresas en etapa inicial y media suelen estar muy alejadas del ámbito de las redes neuronales y la visión por computadora. (A menos que, por supuesto, estas sean las características principales de su producto / servicio).
Más bien, necesitan análisis precisos, procesos confiables y la capacidad de escalar rápidamente.
Por lo tanto, las habilidades requeridas para muchas funciones de ciencia de datos publicitadas son amplias y variadas. Como cualquier otra actividad en la vida, gran parte del valor proviene de dominar los conceptos básicos. Se aplica la legendaria regla 80:20: aproximadamente el 80% del valor proviene del 20% del conjunto de habilidades.
Aquí hay una descripción general de algunas de las habilidades fundamentales que cualquier aspirante a científico de datos debería dominar.
Comience con estadísticas
El principal atributo que aporta un científico de datos a su empresa es la capacidad de extraer información de la complejidad. La clave para lograr esto es comprender cómo descubrir el significado de los datos ruidosos.
Por tanto, el análisis estadístico es una habilidad importante que dominar. Las estadísticas te permiten:
- Describir los datos para proporcionar una imagen detallada a las partes interesadas.
- Compare datos y pruebe hipótesis para informar las decisiones comerciales
- Identificar tendencias y relaciones que brinden valor predictivo real
Estadísticas proporciona un poderoso conjunto de herramientas para dar sentido a los datos comerciales y operativos.
¡Pero ten cuidado! Lo único peor que las percepciones limitadas son las percepciones engañosas. Por eso es vital comprender los fundamentos del análisis estadístico.
Afortunadamente, existen algunos principios rectores que puede seguir.
Evalúe sus suposiciones
Es muy importante estar al tanto de las suposiciones que hace sobre sus datos.
Sea siempre crítico con la procedencia y escéptico con los resultados. ¿Podría haber una explicación "poco interesante" para las tendencias observadas en sus datos? ¿Qué tan válida es la prueba de estadísticas o la metodología elegida? ¿Sus datos cumplen todos los supuestos subyacentes?
Saber qué hallazgos son 'interesantes' y vale la pena informar también depende de sus suposiciones. Un caso elemental es juzgar si es más apropiado informar la media o la mediana de un conjunto de datos.
A menudo, más importante que saber qué enfoque tomar, es saber cuál no . Por lo general, hay varias formas de analizar un conjunto de datos determinado, pero asegúrese de evitar los errores más comunes.
Por ejemplo, siempre se deben corregir las comparaciones múltiples. ¡Bajo ninguna circunstancia debe intentar confirmar una hipótesis utilizando los mismos datos utilizados para generarla! Te sorprendería lo fácil que se hace esto.
Distribución> Ubicación
Siempre que hablo de estadística introductoria, siempre me aseguro de enfatizar un punto en particular: la distribución de una variable suele ser al menos tan interesante / informativa como su ubicación. De hecho, a menudo lo es más.

Esto se debe a que la distribución de una variable generalmente contiene información sobre los procesos generativos (o de muestreo) subyacentes.
Por ejemplo, los datos de conteo a menudo siguen una distribución de Poisson, mientras que un sistema que exhibe retroalimentación positiva ("refuerzo") tenderá a mostrar una distribución de ley de potencia. Nunca confíe en que los datos se distribuyen normalmente sin antes verificarlos cuidadosamente.
En segundo lugar, entender la distribución de los datos es fundamental para saber cómo trabajar con ellos. Muchas pruebas y métodos estadísticos se basan en suposiciones sobre cómo se distribuyen sus datos.
Como ejemplo artificial, asegúrese siempre de tratar los datos unimodales y bimodales de manera diferente. Es posible que tengan la misma media, pero perdería una gran cantidad de información importante si ignora sus distribuciones.
Para ver un ejemplo más interesante que ilustra por qué siempre debe verificar sus datos antes de reportar estadísticas resumidas, eche un vistazo al cuarteto de Anscombe:

Cada gráfico se ve muy distintivo, ¿verdad? Sin embargo, cada uno tiene estadísticas resumidas idénticas, incluidas sus medias, varianza y coeficientes de correlación. Trazar algunas de las distribuciones revela que son bastante diferentes.

Finalmente, la distribución de una variable determina la certeza que tiene sobre su verdadero valor. Una distribución 'estrecha' permite una mayor certeza, mientras que una distribución 'amplia' permite menos.
La varianza de una media es crucial para proporcionar contexto. Con demasiada frecuencia, las medias con intervalos de confianza muy amplios se informan junto con las medias con intervalos de confianza muy estrechos. Esto puede resultar engañoso.
Muestreo adecuado
La realidad es que el muestreo puede ser un problema para los científicos de datos con orientación comercial, especialmente para aquellos con experiencia en investigación o ingeniería.
En un entorno de investigación, puede ajustar experimentos diseñados con precisión con muchos factores y niveles diferentes y tratamientos de control. Sin embargo, las condiciones comerciales "en vivo" a menudo no son óptimas desde la perspectiva de la recopilación de datos. Cada decisión debe sopesarse cuidadosamente contra el riesgo de interrumpir la actividad habitual.
Esto requiere que los científicos de datos sean inventivos, pero realistas, con su enfoque para la resolución de problemas.
Las pruebas A / B son un ejemplo canónico de un enfoque que ilustra cómo los productos y las plataformas se pueden optimizar a un nivel granular sin causar una perturbación importante en el negocio habitual.

Los métodos bayesianos pueden ser útiles para trabajar con conjuntos de datos más pequeños, si tiene un conjunto de antecedentes razonablemente informativos para trabajar.
Con cualquier dato que recopile, asegúrese de reconocer sus limitaciones.
Los datos de la encuesta son propensos al sesgo de muestreo (a menudo son los encuestados con las opiniones más sólidas quienes se toman el tiempo para completar la encuesta). Las series de tiempo y los datos espaciales pueden verse afectados por la autocorrelación. Y por último, pero no menos importante, siempre tenga cuidado con la multicolinealidad al analizar datos de fuentes relacionadas.
Ingeniería de datos
Es una especie de cliché de la ciencia de datos, pero la realidad es que gran parte del flujo de trabajo de datos se gasta en buscar, limpiar y almacenar los datos sin procesar necesarios para un análisis más profundo.
En realidad, se invierte relativamente poco tiempo en implementar algoritmos desde cero. De hecho, la mayoría de las herramientas estadísticas vienen con su funcionamiento interno envuelto en paquetes de R y módulos de Python.
El proceso de 'extracción-transformación-carga' (ETL) es fundamental para el éxito de cualquier equipo de ciencia de datos. Las organizaciones más grandes tendrán ingenieros de datos dedicados para cumplir con sus complejos requisitos de infraestructura de datos, pero las empresas más jóvenes a menudo dependerán de sus científicos de datos para que posean sus propias habilidades de ingeniería de datos sólidas y completas.

Programación en la práctica
La ciencia de datos es altamente interdisciplinaria. Además de habilidades analíticas avanzadas y conocimientos específicos de dominio, el rol también requiere habilidades sólidas de programación.
No existe una respuesta perfecta a los lenguajes de programación que un aspirante a científico de datos debería aprender a utilizar. Dicho esto, al menos uno de Python y / o R te servirá muy bien.

Independientemente del idioma que elija, intente familiarizarse con todas sus características y el ecosistema circundante. Explore los diversos paquetes y módulos disponibles para usted y configure su IDE perfecto. Conozca las API que necesitará utilizar para acceder a las plataformas y servicios principales de su empresa.
Las bases de datos son una pieza integral en el rompecabezas de cualquier flujo de trabajo de datos. Asegúrese de dominar algún dialecto de SQL. La elección exacta no es demasiado importante, porque cambiar entre ellos es un proceso manejable cuando es necesario.
También puede valer la pena conocer las bases de datos NoSQL (como MongoDB), si su empresa las usa.
Convertirse en un usuario seguro de la línea de comandos contribuirá en gran medida a aumentar su productividad diaria. Incluso la familiaridad pasada con los scripts bash simples le permitirá tener un buen comienzo cuando se trata de automatizar tareas repetitivas.
Codificación eficaz
Una habilidad muy importante que deben dominar los aspirantes a científicos de datos es la codificación eficaz. La reutilización es clave. Vale la pena tomarse el tiempo (cuando esté disponible) para escribir código a un nivel de abstracción que permita usarlo más de una vez.
Sin embargo, debe lograrse un equilibrio entre las prioridades a corto y largo plazo.
No tiene sentido tomar el doble de tiempo para escribir un script ad hoc para que sea reutilizable si no hay posibilidad de que vuelva a ser relevante. Sin embargo, cada minuto dedicado a refactorizar el código antiguo para que se vuelva a ejecutar es un minuto que podría haberse ahorrado anteriormente.
Vale la pena desarrollar las mejores prácticas de ingeniería de software para escribir código de producción verdaderamente eficaz.
Las herramientas de administración de versiones como Git hacen que la implementación y el mantenimiento del código sean mucho más ágiles. Los programadores de tareas le permiten automatizar procesos de rutina. Las revisiones periódicas del código y los estándares de documentación acordados harán la vida mucho más fácil para el futuro de su equipo.
En cualquier línea de especialización tecnológica, generalmente no es necesario reinventar la rueda. La ingeniería de datos no es una excepción. Los marcos como Airflow hacen que la programación y el seguimiento de los procesos ETL sean más fáciles y robustos. Para el almacenamiento y procesamiento de datos distribuidos, existen Apache Spark y Hadoop.

No es esencial que un principiante los aprenda en profundidad. Sin embargo, tener conocimiento del ecosistema circundante y las herramientas disponibles siempre es una ventaja.
Comuníquese claramente
La ciencia de datos es una disciplina de pila completa, con una importante interfaz de cara a las partes interesadas: la capa de informes.
El hecho del asunto es simple: la comunicación efectiva trae consigo un valor comercial significativo. Con la ciencia de datos, hay cuatro aspectos para la generación de informes efectivos.
- Exactitud
Esto es crucial, por razones obvias. La habilidad aquí es saber cómo interpretar los resultados, sin dejar de ser claro sobre las limitaciones o advertencias que puedan aplicarse. Es importante no exagerar ni subestimar la relevancia de ningún resultado en particular.
- Precisión
Esto es importante, porque cualquier ambigüedad en su informe podría llevar a una mala interpretación de los hallazgos. Esto puede tener consecuencias negativas más adelante.
- Conciso
Mantenga su informe lo más breve posible, pero no más corto. Un buen formato puede proporcionar algún contexto para la pregunta principal, incluir una breve descripción de los datos disponibles y ofrecer una descripción general de los resultados y gráficos del "título". Se pueden (y deben) incluir detalles adicionales en un apéndice.
- Accesible
Existe una necesidad constante de equilibrar la precisión técnica de un informe con la realidad de que la mayoría de sus lectores serán expertos en sus propios campos respectivos y no necesariamente en la ciencia de datos. Aquí no hay una respuesta fácil y única para todos. La comunicación y la retroalimentación frecuentes ayudarán a establecer un equilibrio apropiado.
El juego de gráficos
Las poderosas visualizaciones de datos lo ayudarán a comunicar resultados complejos a las partes interesadas de manera efectiva. Un gráfico o cuadro bien diseñado puede revelar de un vistazo lo que se necesitarían varios párrafos de texto para explicar.
Existe una amplia gama de herramientas de visualización y creación de paneles gratuitas y de pago, que incluyen Plotly, Tableau, Chartio, d3.js y muchas otras.
Para maquetas rápidas, a veces no se puede superar el buen software de hojas de cálculo como Excel o Google Sheets. Estos harán el trabajo según sea necesario, aunque carecen de la funcionalidad del software de visualización especialmente diseñado.
Al crear cuadros de mando y gráficos, hay que tener en cuenta una serie de principios rectores. El desafío subyacente es maximizar el valor de la información de la visualización, sin sacrificar la "legibilidad".

Una visualización eficaz revela una descripción general de alto nivel de un vistazo. Los gráficos más complejos pueden tardar un poco más para que el espectador los asimile y, en consecuencia, deberían ofrecer un contenido de información mucho mayor.
Si solo ha leído un libro sobre visualización de datos, entonces el clásico de Edward Tufte The Visual Display of Quantitative Informationes la mejor opción.
Tufte, sin ayuda de nadie, popularizó e inventó gran parte del campo de la visualización de datos. Términos ampliamente utilizados como 'chartjunk' y 'densidad de datos' deben sus orígenes al trabajo de Tufte. Su concepto de 'relación datos-tinta' sigue siendo influyente durante treinta años.
El uso del color, el diseño y la interactividad a menudo marcarán la diferencia entre una buena visualización y una profesional de alta calidad.

En última instancia, la creación de una excelente visualización de datos afecta las habilidades que se asocian más a menudo con la UX y el diseño gráfico que con la ciencia de datos. Leer sobre estos temas en su tiempo libre es una excelente manera de desarrollar una conciencia de lo que funciona y lo que no.
¡Asegúrese de visitar sitios como bl.ocks.org para obtener inspiración!
La ciencia de datos requiere un conjunto de habilidades diverso
Hay cuatro áreas de habilidades básicas en las que usted, como aspirante a científico de datos, debe concentrarse en el desarrollo. Son:
- Estadísticas, incluida la teoría subyacente y la aplicación en el mundo real.
- Programando, en al menos uno de Python o R, así como SQL y usando la línea de comando
- Mejores prácticas de ingeniería de datos
- Comunicar su trabajo de manera efectiva
¡Prima! Aprender constantemente
Si ha leído hasta aquí y se siente algo desanimado, tenga la seguridad. La principal habilidad en un campo tan dinámico es aprender a aprender y volver a aprender. Sin duda, en los próximos años surgirán nuevos marcos, herramientas y métodos.
Es posible que el conjunto de habilidades exacto que aprenda ahora deba actualizarse por completo dentro de cinco a diez años. Espere esto. Al hacerlo y estar preparado, puede mantenerse a la vanguardia a través del reaprendizaje continuo.
Nunca se puede saber todo, y la verdad es que nadie lo sabe. Pero, si domina los fundamentos, estará en condiciones de aprender cualquier otra cosa según sea necesario.
Y esa es posiblemente la clave del éxito en cualquier disciplina de rápido desarrollo.