Cómo raspar sitios web con Python

A veces, es posible que desee extraer datos de un sitio web en un formato diferente. Pero, ¿y si el sitio web no tiene una forma fácil de exportar esos datos? Aquí es donde entra en juego el web scraping.

Hemos lanzado un curso intensivo en el canal de YouTube freeCodeCamp.org que le enseñará cómo realizar raspado web utilizando la biblioteca de Python Beautiful Soup.

Este curso fue desarrollado por Jim Ergin de JimShapedCoding. Jim ha estado usando y enseñando Python durante muchos años.

Beautiful Soup le permitirá recopilar cualquier información que desee de cualquier sitio web que desee. Puede ser el sitio web de un banco, las redes sociales, Wikipedia o cualquier otro sitio web.

Beautiful Soup proporciona métodos para navegar, buscar y modificar un árbol de análisis. Facilita la disección de un documento HTML y la extracción de los datos que necesita. Y no se necesita mucho código para escribir una aplicación.

En este curso, primero aprenderá a crear una página HTML básica solo para aprender los conceptos. Luego, pasará a raspar un sitio web real. Al final, aprenderá a almacenar la información que extraiga del sitio web.

Estos son los temas cubiertos en este curso:

  • Estructura HTML básica, Explicación de etiquetas HTML
  • Instalación de paquetes
  • Raspando archivos locales
  • Beautiful Soup métodos find & find_all ()
  • Herramienta de inspección del navegador web
  • Agarrando precios en un proyecto básico de web scraping
  • Usar la biblioteca de solicitudes para ver el HTML de un sitio web  
  • Raspando un sitio web de producción
  • Recorrer objetos similares soup.find_all ()
  • Filtrado de trabajos raspados
  • Configurar un proyecto para raspar cada 10 minutos
  • Almacenamiento del párrafo de trabajos en archivos de texto

Vea el curso intensivo completo en el canal de YouTube freeCodeCamp.org (reproducción de 1 hora).