Ingeniero Senior de MLOps (Optimización del Entrenamiento e Inferencia)

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

San Martin Kalea, 31, 20005 Donostia / San Sebastián, Gipuzkoa, España

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Buscamos un Ingeniero Senior de MLOps para dirigir la visión técnica destinada a optimizar el entrenamiento a gran escala de modelos de lenguaje de gran tamaño (LLM) y construir sistemas de servicio con ultraalta capacidad de procesamiento en un entorno guiado por principios éticos. Aspectos destacados: 1. Dirigir la visión técnica del equipo de Optimización del Entrenamiento y la Inferencia 2. Diseñar infraestructura para modelos de IA de próxima generación 3. Desarrollar soluciones junto con expertos de renombre mundial en una cultura inclusiva #### **Multiverse Computing** Multiverse es una empresa de deep tech bien financiada y de rápido crecimiento, fundada en 2019. Somos la mayor empresa de software cuántico de la UE y hemos sido reconocidos por CB Insights (en 2023 y 2025) como una de las 100 empresas de IA más prometedoras del mundo. Con más de 180 empleados y en constante crecimiento, nuestro equipo es plenamente multicultural e internacional. Ofrecemos software hiper-eficiente a empresas que buscan una ventaja competitiva mediante la computación cuántica y la inteligencia artificial. Nuestros productos estrella, CompactifAI y Singularity, abordan necesidades críticas en diversos sectores: * CompactifAI es una herramienta innovadora de compresión para modelos fundamentales de IA basada en redes tensoriales. Permite comprimir grandes sistemas de IA —como modelos de lenguaje— para hacerlos significativamente más eficientes y portátiles. * Singularity es una plataforma de optimización cuántica y cuántico-inspirada utilizada por empresas líderes mundiales para resolver problemas complejos en finanzas, energía, fabricación y otros ámbitos. Se integra perfectamente con los sistemas existentes y ofrece mejoras inmediatas de rendimiento tanto en hardware clásico como cuántico. Trabajarás junto a expertos de renombre mundial para desarrollar soluciones que aborden desafíos reales. Buscamos personas apasionadas que deseen crecer en un entorno guiado por principios éticos y que valore la sostenibilidad y la diversidad. Nos comprometemos a construir una cultura verdaderamente inclusiva: ¡únete a nosotros! **Acerca del puesto** Buscamos un **Ingeniero Senior de MLOps** para dirigir la visión técnica de nuestro equipo de Optimización del Entrenamiento y la Inferencia. En este puesto de alto impacto, diseñarás la infraestructura que impulsa nuestros modelos de IA de próxima generación. Actuarás como puente entre la programación de sistemas y el aprendizaje automático, optimizando el entrenamiento a gran escala de modelos de lenguaje de gran tamaño (LLM) mediante **NVIDIA NeMo**, y construyendo sistemas de servicio con ultraalta capacidad de procesamiento utilizando **vLLM**, **TensorRT-LLM** y **SGLang**. Tu misión consiste en garantizar que nuestros modelos no solo sean punteros en su campo, sino también robustos para producción, eficientes desde el punto de vista de costes y altamente performantes a escala. **Principales responsabilidades** * **Infraestructura de entrenamiento:** Diseñar y mantener canalizaciones distribuidas de entrenamiento escalables mediante **NVIDIA NeMo/Nemotron/Megatron-Bridge**. Optimizarás la utilización de GPU, gestionarás estrategias complejas de puntos de control (checkpoints) e implementarás tolerancia automática a fallos para trabajos de larga duración. * **Orquestación de inferencia:** Liderar la implementación de modelos de lenguaje de gran tamaño (LLM) mediante **vLLM, TensorRT-LLM o SGLang**. Implementarás y ajustarás técnicas de vanguardia —incluidas **PagedAttention**, el procesamiento por lotes continuo y la cuantización avanzada (**AWQ/FP8**)— para maximizar el rendimiento y minimizar el **TPOT** (tiempo por token de salida). * **Orquestación de cargas de trabajo:** Utilizar **SLURM/Flyte/Ray/SkyPilot** para gestionar y escalar cargas de trabajo de ML en distintos proveedores de nube y clústeres locales, asegurando una migración fluida de recursos y una ejecución rentable. * **Gestión del ciclo de vida:** Normalizar el seguimiento, la versión y los flujos de transición de modelos mediante **MLflow** (o herramienta similar), garantizando ejecuciones reproducibles de entrenamiento y una trayectoria clara desde la investigación hasta la producción. * **Ingeniería del rendimiento:** Realizar análisis profundos de perfil y cuellos de botella en toda la pila —desde los **kernels CUDA** y las comunicaciones colectivas **NCCL**, hasta la orquestación a nivel de Python. * **Eficiencia y gobernanza de costes:** Supervisar y optimizar los gastos en GPU tanto en la nube como locales mediante políticas inteligentes de escalado y empaquetamiento de recursos de alta densidad. * **Liderazgo técnico:** Establecer los estándares de excelencia en ingeniería. Dirigirás la hoja de ruta, realizarás revisiones rigurosas del código y mentorearás a ingenieros junior y de nivel medio. **Cualificaciones requeridas** * **Experiencia:** 5+ años en MLOps, DevOps o Ingeniería de Software, con un mínimo de 2 años dedicados específicamente a la **infraestructura de LLM**. * **Ecosistema de aprendizaje profundo:** Competencia avanzada en **PyTorch** y en la pila de NVIDIA (**CUDA, NCCL, Triton**). * **Herramientas especializadas:** Experiencia práctica con **NVIDIA NeMo** (o Megatron-Bridge) para entrenamiento distribuido y al menos dos de las siguientes herramientas para servicio: **vLLM, TensorRT-LLM o SGLang**. * **Orquestación y ciclo de vida:** Experiencia comprobada con **SLURM/Flyte/Ray/SkyPilot** para gestión de clústeres y con **MLflow** (o herramienta similar) para gestión de experimentos y modelos. * **Infraestructura:** Conocimientos profundos de **Kubernetes** y operadores de K8s (por ejemplo, KubeRay, MPI Operator o Run:ai). * **Programación de sistemas:** Dominio de Python y conocimientos funcionales de **C++ o Rust** para componentes críticos desde el punto de vista del rendimiento. * **Hardware de nueva generación:** Familiaridad con redes de alto rendimiento (**InfiniBand/RoCE**) y arquitecturas NVIDIA **H200/B200 (Blackwell)**. **Habilidades deseables** * Contribuciones activas a proyectos de código abierto relevantes (**vLLM, SGLang, SkyPilot o NeMo**). * Trayectoria comprobada en compresión de modelos (esparsidad, destilación o cuantización). * Experiencia escribiendo u optimizando kernels personalizados de **Triton**. * Conocimientos especializados en pilas de observabilidad para ML (Prometheus, Grafana, Jaeger).

Fuentea: indeed Ver publicación original