Cómo empezar con Databricks

Cuando comencé a aprender Spark con Pyspark, encontré la plataforma Databricks y la exploré. Esta plataforma facilitó la configuración de un entorno para ejecutar marcos de datos Spark y practicar la codificación. Esta publicación contiene algunos pasos que pueden ayudarlo a comenzar con Databricks.

Databricks es una plataforma que se ejecuta sobre Apache Spark. Tiene convenientemente una configuración de sistema portátil. Uno puede aprovisionar clústeres fácilmente en la nube y también incorpora un espacio de trabajo integrado para exploración y visualización.

También puede programar cualquier portátil existente o código Spark desarrollado localmente para pasar del prototipo a la producción sin necesidad de reingeniería.

1. Configure una cuenta de Databricks

Para comenzar con el tutorial, navegue hasta este enlace y seleccione la Community Edition gratuita para abrir su cuenta. Esta opción tiene un solo clúster con hasta 6 GB de almacenamiento libre. Te permite crear un cuaderno básico. Necesitará una dirección de correo electrónico válida para verificar su cuenta.

Observará esta pantalla una vez que inicie sesión con éxito en su cuenta.

2. Creación de un nuevo clúster

Comenzamos creando un nuevo clúster para ejecutar nuestros programas. Haga clic en "Clúster" en la página principal y escriba un nuevo nombre para el clúster.

A continuación, debe seleccionar la versión "Databricks Runtime". Databricks Runtime es un conjunto de componentes centrales que se ejecutan en clústeres administrados por Databricks. Incluye Apache Spark, pero también agrega una serie de componentes y actualizaciones para mejorar la usabilidad y el rendimiento de la herramienta.

Puede seleccionar cualquier versión de Databricks Runtime: he seleccionado 3.5 LTS (incluye Apache Spark 2.2.1, Scala 2.11). También puede elegir entre Python 2 y 3.

La creación del clúster tardará unos minutos. Después de un tiempo, debería poder ver un clúster activo en el tablero.

3. Creación de un nuevo cuaderno

Sigamos adelante y creemos un nuevo cuaderno en el que puede ejecutar su programa.

Desde la página principal, presione "Nuevo cuaderno" y escriba un nombre para el cuaderno. Seleccione el idioma de su elección: elegí Python aquí. Puede ver que Databricks admite varios idiomas, incluidos Scala, R y SQL.

Una vez ingresados ​​los detalles, observará que el diseño del cuaderno es muy similar al del cuaderno de Jupyter. Para probar el portátil, importemos pyspark.

El comando se ejecutó en 0,15 segundos y también proporciona el nombre del clúster en el que se está ejecutando. Si hay algún error en el código, se mostrará debajo del cuadro cmd.

Puede presionar el ícono del teclado en la esquina superior derecha de la página para ver los atajos específicos del sistema operativo.

Los atajos más importantes aquí son:

  • Shift + Enter para ejecutar una celda
  • Ctrl + Enter sigue ejecutando la misma celda sin moverse a la siguiente celda

Tenga en cuenta que estos atajos son para Windows. Puede verificar los accesos directos específicos del sistema operativo para su sistema operativo en el icono del teclado.

4. Subir datos a Databricks

Dirígete a la sección "Tablas" en la barra izquierda y haz clic en "Crear tabla". Puede cargar un archivo o conectarse a una fuente de datos de Spark o alguna otra base de datos.

Carguemos aquí el archivo de conjunto de datos de iris de uso común (si no tiene el conjunto de datos, use este enlace)

Una vez que cargue los datos, cree la tabla con una interfaz de usuario para que pueda visualizar la tabla y obtener una vista previa en su clúster. Como puede ver, puede observar los atributos de la tabla. Spark intentará detectar el tipo de datos de cada una de las columnas y le permitirá editarlo también.

Ahora necesito poner encabezados para las columnas, para poder identificar cada columna por su encabezado en lugar de _c0, _c1y así sucesivamente.

Pongo sus encabezados como Longitud del sépalo, Ancho del sépalo, Longitud del pétalo, Ancho del pétalo y Clase. Aquí, Spark detectó el tipo de datos de las primeras cuatro columnas incorrectamente como una Cadena, por lo que lo cambié al tipo de datos deseado: Float.

5. Cómo acceder a los datos de Notebook

Spark es un marco que se puede utilizar para analizar macrodatos mediante SQL, aprendizaje automático, procesamiento de gráficos o análisis de transmisión en tiempo real. Trabajaremos con SparkSQL y Dataframes en este tutorial.

Comencemos a trabajar con los datos en el portátil. Los datos que hemos subido ahora están en formato tabular. Requerimos una consulta SQL para leer los datos y ponerlos en un marco de datos.

Tipo df = sqlContext.sql(“SELECT * FROM iris_data”)para leer datos de iris en un marco de datos.

Para ver las primeras cinco filas en el marco de datos, simplemente puedo ejecutar el comando:

display(df.limit(5))

Observe un icono de gráfico de barras en la parte inferior. Una vez que haga clic, podrá ver los datos que ha importado a Databricks. Para ver el gráfico de barras de datos completos, ejecute en display(df)lugar de display(df.limit(5)).

El botón desplegable le permite visualizar los datos en diferentes gráficos como barras, circulares, dispersión, etc. También le brinda opciones de trazado para personalizar el trazado y visualizar únicamente columnas específicas.

También puede mostrar figuras de matplotlib y ggplot en Databricks. Para ver una demostración, consulte Matplotlib y ggplot en Python Notebooks.

Para ver todas las columnas de los datos, simplemente escriba df.columns

Para contar cuántas filas en total hay en el marco de datos (y ver cuánto tiempo lleva un escaneo completo desde el disco remoto / S3), ejecute df.count().

6. Conversión de un marco de datos Spark en un marco de datos Pandas.

Ahora, si se siente cómodo usando marcos de datos de pandas y desea convertir su marco de datos Spark en pandas, puede hacerlo poniendo el comando

import pandas as pdpandas_df=df.to_pandas()

Ahora puede usar operaciones de pandas en el pandas_dfmarco de datos.

7. Visualización de la interfaz de usuario de Spark

La interfaz de usuario de Spark contiene una gran cantidad de información necesaria para depurar trabajos de Spark. Hay un montón de visualizaciones geniales, así que veámoslas en resumen.

Para ir a la interfaz de usuario de Spark, debe ir a la parte superior de la página donde hay algunas opciones de menú como "Archivo", "Ver", "Código", "Permisos" y otras. Encontrará el nombre del clúster en la parte superior junto a "Adjunto" y un botón desplegable junto a él. Pulsa el botón desplegable y selecciona "Ver interfaz de usuario de Spark". Se abrirá una nueva pestaña con mucha información en su Notebook.

La vista de la interfaz de usuario ofrece mucha información sobre cada trabajo ejecutado en el clúster, las etapas, el entorno y las consultas SQL ejecutadas. Esta interfaz de usuario puede resultar útil para que los usuarios depuren sus aplicaciones. Además, esta interfaz de usuario ofrece una buena visualización de las estadísticas de transmisión de Spark. Para obtener más información sobre cada aspecto de la interfaz de usuario de Spark, consulte este enlace.

Una vez que haya terminado con el Bloc de notas, puede continuar y publicarlo o exportar el archivo en diferentes formatos de archivo, de modo que otra persona pueda usarlo mediante un enlace único. He adjuntado mi cuaderno en formato HTML.

Terminando

Esta es una breve descripción general sobre cómo puede comenzar con Databricks rápidamente y ejecutar sus programas. La ventaja de utilizar Databricks es que ofrece un servicio de extremo a extremo para crear aplicaciones de análisis, almacenamiento de datos y aprendizaje automático. Todo el clúster de Spark se puede administrar, monitorear y proteger mediante un modelo de autoservicio de Databricks.

Aquí hay algunos enlaces interesantes para científicos de datos e ingenieros de datos. Además, aquí hay un tutorial que encontré muy útil y es ideal para principiantes.