Cómo construir una canalización de análisis de datos escalable

Cada aplicación genera datos, pero ¿qué significan esos datos? Esta es una pregunta para la que todos los científicos de datos están contratados.

No hay duda de que esta información es el bien más preciado para una empresa. Pero dar sentido a los datos, crear conocimientos y convertirlos en decisiones es aún más importante.

A medida que los datos siguen creciendo en volumen, las canalizaciones de análisis de datos deben ser escalables para adaptar la tasa de cambio. Y por esta razón, elegir configurar la canalización en la nube tiene mucho sentido (ya que la nube ofrece escalabilidad y flexibilidad bajo demanda).

En este artículo, desmitificaré cómo construir una canalización de procesamiento de datos escalable y adaptable en Google Cloud. Y no se preocupe, estos conceptos son aplicables en cualquier otro canal de datos en la nube o en las instalaciones.

5 pasos para crear una canalización de análisis de datos:

  • Primero ingieres los datos de la fuente de datos
  • Luego procese y enriquezca los datos para que su sistema posterior pueda utilizarlos en el formato que mejor comprenda.
  • Luego, almacena los datos en un lago de datos o almacén de datos para archivarlos a largo plazo o para informes y análisis.
  • Luego, puede analizar los datos introduciéndolos en herramientas de análisis.
  • Aplique el aprendizaje automático para las predicciones o cree informes para compartir con sus equipos.

Repasemos cada uno de estos pasos con más detalle.

Cómo capturar los datos

Dependiendo de dónde provengan sus datos, puede tener múltiples opciones para ingerirlos.

  • Utilice herramientas de migración de datos para migrar datos de forma local o de una nube a otra. Google Cloud ofrece un servicio de transferencia de almacenamiento para este propósito.
  • Para ingerir datos de sus servicios saas de terceros, use las API y envíe los datos al almacén de datos. En Google Cloud BigQuery, el almacén de datos sin servidor proporciona un servicio de transferencia de datos que le permite traer datos de aplicaciones saas como YouTube, Google Ads, Amazon S3, Teradata, ResShift y más.
  • También puede transmitir datos en tiempo real desde sus aplicaciones con el servicio Pub / Sub. Configura una fuente de datos para enviar mensajes de eventos a Pub / Sub desde donde un suscriptor recoge el mensaje y toma las medidas adecuadas.
  • Si tiene dispositivos IoT, pueden transmitir datos en tiempo real mediante el núcleo de Cloud IoT que admite el protocolo MQTT para los dispositivos IoT. También puede enviar datos de IoT a Pub / Sub.

Cómo procesar los datos

Una vez que se ingieren los datos, es necesario procesarlos o enriquecerlos para que sean útiles para los sistemas posteriores.

Hay tres herramientas principales que lo ayudan a hacer eso en Google Cloud:

  • Dataproc es esencialmente Hadoop administrado. Si usa el ecosistema de Hadoop, entonces sabe que puede ser complicado configurarlo, lo que implica horas e incluso días. Dataproc puede activar un clúster en 90 segundos para que pueda comenzar a analizar los datos rápidamente.
  • Dataprep es una herramienta de interfaz gráfica de usuario inteligente que ayuda a los analistas de datos a procesar datos rápidamente sin tener que escribir ningún código.  
  • Dataflow es un servicio de procesamiento de datos sin servidor para transmisión y datos por lotes. Se basa en el SDK de código abierto Apache Beam que hace que sus canalizaciones sean portátiles. El servicio separa el almacenamiento de la informática, lo que le permite escalar sin problemas. Para obtener más detalles, consulte el boceto de GCPS a continuación.

Cómo almacenar los datos

Una vez procesados, debe almacenar los datos en un lago de datos o almacén de datos para archivarlos a largo plazo o para generar informes y análisis.

Hay dos herramientas principales que lo ayudan a hacer eso en Google Cloud:

Google Cloud Storage es un almacén de objetos para imágenes, videos, archivos, etc., que se presenta en 4 tipos:

  1. Almacenamiento estándar: bueno para datos "calientes" a los que se accede con frecuencia, incluidos sitios web, transmisión de videos y aplicaciones móviles.
  2. Nearline Storage: bajo costo. Bueno para datos que se pueden almacenar durante al menos 30 días, incluida la copia de seguridad de datos y contenido multimedia de cola larga.
  3. Almacenamiento en frío: muy bajo costo. Bueno para datos que se pueden almacenar durante al menos 90 días, incluida la recuperación ante desastres.
  4. Almacenamiento de archivos: el costo más bajo. Bueno para datos que se pueden almacenar durante al menos 365 días, incluidos los archivos reglamentarios.

BigQuery es un almacén de datos sin servidor que se escala sin problemas a petabytes de datos sin tener que administrar o mantener ningún servidor.

Puede almacenar y consultar datos en BigQuery mediante SQL. Luego, puede compartir fácilmente los datos y las consultas con otros miembros de su equipo.

También alberga cientos de conjuntos de datos públicos gratuitos que puede utilizar en su análisis. Y proporciona conectores integrados a otros servicios para que los datos puedan ingerirse y extraerse fácilmente para su visualización o procesamiento / análisis posterior.

Cómo analizar los datos

Una vez que los datos se procesan y almacenan en un lago de datos o un almacén de datos, están listos para ser analizados.  

Si usa BigQuery para almacenar los datos, puede analizar directamente esos datos en BigQuery con SQL.

Si utiliza Google Cloud Storage, puede mover fácilmente los datos a BigQuery.

BigQuery también ofrece funciones de aprendizaje automático con BigQueryML. Por lo tanto, puede crear modelos y predecir directamente desde la IU de BigQuery utilizando el SQL, quizás más familiar.

Cómo utilizar y visualizar los datos

Usando los datos

Una vez que los datos están en el almacén de datos, puede usarlos para obtener información y hacer predicciones mediante el aprendizaje automático.

Para más procesamiento y predicciones, puede usar el marco de trabajo de Tensorflow y AI Platform según sus necesidades.

Tensorflow es una plataforma de aprendizaje automático de código abierto de extremo a extremo con herramientas, bibliotecas y recursos comunitarios.

AI Platform facilita que los desarrolladores, los científicos de datos y los ingenieros de datos optimicen sus flujos de trabajo de AA. Incluye herramientas para cada etapa del ciclo de vida de ML a partir de Preparación -> Compilación -> Validación -> Implementación.

Visualizando los datos

Hay muchas herramientas diferentes para la visualización de datos, y la mayoría de ellas tienen un conector a BigQuery para crear gráficos fácilmente en la herramienta que elijas.

Google Cloud proporciona algunas herramientas que pueden resultarle útiles.

  • Data Studio es gratuito y se conecta no solo a BigQuery sino también a muchos otros servicios para facilitar la visualización de datos. Si ha utilizado Google Drive, compartir gráficos y paneles es exactamente así: extremadamente fácil.
  • Además, Looker es una plataforma empresarial para inteligencia empresarial, aplicaciones de datos y análisis integrado.

Conclusión

Hay muchas cosas que suceden en una canalización de análisis de datos. Independientemente de las herramientas que elija utilizar, asegúrese de que puedan escalar a medida que sus datos crezcan en el futuro.

Para obtener más contenido de este tipo, puede seguirme en Twitter, @pvergadia y visitar mi sitio web, thecloudgirl.dev.