Senior Data Engineer (Data Scraping), Madrid

Salario negociable

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

Prta del Sol, 4, 2ºC, Centro, 28013 Madrid, Spain

Favoritos

Descripción

Senior Data Engineer (Data Scraping) Buscamos un perfil Senior Data Scraping Analysis Specialist con sólida experiencia en Python que quiera desarrollar su carrera profesional construyendo pipelines de crawling inteligente y extracción masiva de datos desplegados en ecosistemas AWS de alto rendimiento. CONTEXTO RESPONSABILIDADES La persona seleccionada se incorporará al equipo Funcional con la misión crítica de conectar fuentes externas de información con los sistemas internos de análisis y los nuevos agentes de IA en la nube. El rol implica diseñar y mantener pipelines avanzados de scraping y crawling, capaces de operar a gran escala en entornos AWS, garantizando resiliencia, trazabilidad, observabilidad y cumplimiento de estándares de seguridad. Será imprescindible dominar técnicas clásicas de scraping (Playwright, Selenium, BeautifulSoup) junto con nuevas soluciones impulsadas por IA, como Firecrawl, Crawl4AI o agentes LLM capaces de automatizar la navegación y extracción de contenido en webs dinámicas y altamente protegidas. El especialista también deberá procesar y transformar grandes volúmenes de datos dentro de arquitecturas cloud\-native, integrando los resultados en los sistemas analíticos de la organización. PROYECTO EQUIPO El proyecto tiene como objetivo habilitar la automatización completa de la adquisición de datos externos y su disponibilidad en AWS para alimentar plataformas analíticas y modelos de IA Generativa. Esto incluirá el desarrollo de crawlers inteligentes, estrategias anti\-bot, rotación de proxies y la estructuración de datos no estructurados en formatos optimizados para su posterior consumo. El perfil seleccionado trabajará en estrecha colaboración con los Data Scientists, AI Engineers y equipos de Backend, bajo la supervisión del Product Manager y siguiendo las directrices arquitectónicas definidas para entornos AWS. El ecosistema integra servicios como Lambda, ECS, S3, Step Functions y bases de datos distribuidas, por lo que la capacidad de diseñar pipelines cloud\-native será clave para el éxito del rol. EXPERIENCIA CONOCIMIENTOS Buscamos un perfil con al menos 4 años de experiencia en scraping avanzado y análisis de datos, y una profunda especialización en Python aplicada a crawling masivo y automatización web. Se valorará especialmente la experiencia construyendo scrapers distribuidos en AWS y la exposición reciente a tecnologías de scraping impulsado por IA. **Será necesario tener experiencia con:** * Core Scraping Crawling: \- Playwright, Selenium, BeautifulSoup, Requests / aiohttp * Firecrawl, Crawl4AI, Browserless o agentes LLM para crawling inteligente * Estrategias anti\-bot, rotación de proxies y browser fingerprinting * Procesamiento Data Engineering: \- Python (Pandas, Polars, PySpark) * Pipelines ETL/ELT, normalización y limpieza de datos masivos * Parsing avanzado (HTML, JSON, XML, documentos estructurados y no estructurados) * Infraestructura en AWS (imprescindible): \- S3, Lambda, ECS/ECR, Step Functions * CloudWatch (monitorización de crawlers), IAM (segmentación de permisos) * SQS/SNS (orquestación y comunicación) * AWS Glue o EMR (deseable) * Bases de datos: \- PostgreSQL, MySQL, MongoDB o DynamoDB * Integración de datos y diseño de modelos de almacenamiento para alto volumen Además se valorará positivamente contar con experiencia o conocimientos en: * Orquestación: Airflow, Prefect o Dagster * Infraestructura serverless y contenedores optimizados para crawling * Integración de datos con LLMs, RAG pipelines o agentes inteligentes * Visualización o análisis exploratorio de datos * Diseño de pipelines distribuidos de alta concurrencia CONTRATACIÓN UBICACIÓN La posición tiene sede en Madrid y se rige por un contrato a tiempo completo con vocación de estabilidad. Dada la criticidad del proyecto y la necesidad de una colaboración estrecha con los equipos de negocio y técnicos, el rol requiere presencialidad en las oficinas (operando bajo un modelo híbrido, habitualmente de 3 días presenciales y 2 de teletrabajo). Playwright, Selenium, BeautifulSoup, Firecrawl, Crawl4AI

Fuentea: indeed Ver publicación original