Curso Scrapy en Madrid, Barcelona y Online

Formación en Scrapy para desarrolladores Python. Curso de Scrapy ofrecido en modalidad presencial In Company u online en Madrid, Barcelona, Valencia, Alicante, Málaga, Sevilla y Bilbao, bajo demanda para empresas.

¿Qué es Scrapy?

Scrapy es un framework de web scraping de código abierto desarrollado en Python que tiene como objetivo la extracción automática de datos desde sitios web de forma eficiente y escalable. Es una solución integral para web scraping y extracción de datos de sitios web de forma rápida, eficiente y robusta.

Durante el curso Scrapy conocerás todo lo necesario para dominar esta herramienta. Se basa en una arquitectura modular y asíncrona que nos permite manejar un gran volumen de peticiones concurrente sin comprometer el rendimiento. A través de Spiders se define la lógica de rastreo, con Selectores (CSS y XPath) se extrae la información de forma precisa y con Item Pipelines se procesan y se almacenan los datos. Además, los Middlewares nos ofrecen puntos de extensión que personalizan el comportamiento de peticiones y respuesta.

Scrapy se ha convertido en una herramienta estratégica para las empresas ya que nos ayuda a monitorizar a la competencia, podemos realizar investigaciones del mercado mucho más completas, generar leads y agregar contenido. Gracias a su capacidad de escalar y manejar sitios complejos, se ha convertido en en una plataforma ideal para construir soluciones de data harvesting de alto rendimiento, convirtiéndose en una ventaja competitiva.

formacion in company

Presencial In Company

Formación presencial In Company

Formación presencial en las instalaciones del cliente
formacion presencial convocatorias

Presencial Convocatorias

Convocatorias en abierto

Próximos cursos en tu ciudad
formacion online en streaming

Classroom Training

Formación online en Streaming

Profesor en directo con el sistema GoToMeeting

Online Classroom

Formación Online Asíncrona

Accede a nuestros contenidos multimedia desde nuestra plataforma LMS

Características del curso Scrapy para empresas

Temario: Curso Scrapy en Madrid, Barcelona y Online

Tema 1: Introducción a Scrapy y Fundamentos de Web Scraping

  • La Necesidad del Web Scraping en la Inteligencia de Negocio:
    • Casos de uso empresariales: Recopilación de precios, análisis de sentimientos, investigación de mercado, agregación de noticias, generación de leads.
    • Consideraciones legales y éticas del web scraping (robots.txt, términos de servicio, IP blocking, datos personales).
  • Introducción a Scrapy: Arquitectura y Flujo de Trabajo:
    • ¿Por qué Scrapy? Ventajas sobre soluciones custom: asincronía, componentes integrados, escalabilidad.
    • Componentes clave de Scrapy: Engine, Scheduler, Downloader, Spiders, Item Pipelines, Downloader Middlewares, Spider Middlewares.
    • El ciclo de vida de una petición en Scrapy.
  • Configuración del Entorno y Creación del Primer Proyecto:
    • Requisitos previos: Python (versión recomendada), pip.
    • Instalación de Scrapy (pip install scrapy).
    • Creación de un nuevo proyecto Scrapy (scrapy startproject).
    • Estructura de directorios de un proyecto Scrapy.
    • Práctica
  • Definiendo Ítems y Extrayendo Datos con Selectores:
    • Items: La estructura de datos para los elementos extraídos.
    • Uso de Selectores CSS y XPath para la extracción de datos.
    • Métodos de selectores (.css(), .xpath(), .get(), .getall(), .extract(), .extract_first()).
    • Práctica

Tema 2: Navegación, Paginación y Descubrimiento de Enlaces

  • Seguimiento de Enlaces y Navegación Básica:
    • El método parse() y response.follow().
    • Cómo seguir enlaces a otras páginas dentro del mismo dominio.
    • Práctica
  • Manejo de Paginación:
    • Estrategias de paginación: Enlaces «Siguiente», números de página, paginación basada en offset/limit.
    • Generación de nuevas solicitudes (requests) de forma programática.
    • Práctica
  • Reglas de Crawling con CrawlSpider (Opcional/Avanzado):
    • Introducción a CrawlSpider y las Rules.
    • LinkExtractors para definir patrones de enlaces a seguir.
  • Manejo de Errores y Excepciones en Spiders:
    • Captura de errores HTTP y de red.
    • Reintentos de solicitudes (dont_retry, retry_http_codes).
    • Práctica

Tema 3: Middleware, Pipelines y Configuración Avanzada

  • Downloader Middlewares: Personalizando el Comportamiento de las Peticiones:
    • ¿Qué son y cómo funcionan los Downloader Middlewares?
    • Casos de uso: Rotación de User-Agents, manejo de proxies, gestión de cookies, throttling, caching.
    • Práctica
  • Spider Middlewares (Introducción):
    • ¿Qué son y cómo funcionan los Spider Middlewares? (Se cubrirá de forma conceptual, con ejemplos básicos).
    • Casos de uso: Procesamiento de respuestas antes de que lleguen a la spider, inyección de datos.
  • Item Pipelines: Procesamiento y Almacenamiento de Datos:
    • ¿Qué son y cómo funcionan los Item Pipelines?
    • Casos de uso: Validación de datos, limpieza de datos, duplicados, almacenamiento en base de datos.
    • Práctica
  • Configuración de Scrapy (settings.py):
    • Parámetros clave: ROBOTSTXT_OBEY, DOWNLOAD_DELAY, CONCURRENT_REQUESTS, USER_AGENT.
    • Autothrottle: Ajuste automático de la velocidad de scraping.
    • Práctica

Tema 4: Despliegue, Escalabilidad y Consideraciones Empresariales

  • Despliegue de Spiders de Scrapy:
    • Opciones de despliegue: Servidores propios, Docker, Scrapy Cloud (conceptual).
    • Contenedorización de spiders con Docker.
    • Práctica
  • Almacenamiento de Datos Avanzado:
    • Conexión a bases de datos relacionales (PostgreSQL, MySQL) con pipelines (ej. SQLAlchemy, psycopg2).
    • Almacenamiento en bases de datos NoSQL (MongoDB) o servicios en la nube (S3, GCS).
    • Práctica
  • Manejo de JavaScript y Sesiones (Conceptos y Herramientas):
    • Desafíos del JavaScript en el web scraping.
    • Integración con herramientas como Selenium o Playwright para rendering de JavaScript (conceptual, con demostración básica si el tiempo lo permite).
    • Manejo de sesiones y cookies para sitios con login.
  • Escenarios Avanzados y Mejores Prácticas Empresariales:
    • Rotación de IPs (servicios de proxies).
    • Detección y evasión de anti-scraping.
    • Monitorización y logging de spiders en producción.
    • Mantenimiento de spiders a largo plazo y manejo de cambios en la estructura web.

* También realizamos temarios a medida. Consúltanos si necesitas personalizar el contenido.

Novedades en torno a Scrapy

Conoce las novedades de Scrapy para poder aplicarlo al trabajo diario de tu empresa. Aprende a gestionar y gobernar tus datos de una manera eficaz y saca el mayor partido a su valor

    Formación Bonificada para empresas

    Si actualmente estás trabajando, tu empresa podrá bonificarse nuestros cursos a través de FUNDAE (antiguamente la Fundación Tripartita) y salirle prácticamente gratis.

    Curso Scrapy Online

    – Método OnLine mediante servicios streaming enfocado a empresas.

    – Curso apto para visualizar en tablets, multinavegador y multiplataforma.

    Tecnología GoToMeeting.

    curso scrapy