Ingeniero Senior de MLOps (Optimización del Entrenamiento e Inferencia)

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

San Martin Kalea, 31, 20005 Donostia / San Sebastián, Gipuzkoa, España

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Buscamos un Ingeniero Senior de MLOps para liderar la visión técnica en la optimización de modelos de IA, el diseño de infraestructura y la integración entre la programación de sistemas y el aprendizaje automático. Aspectos destacados: 1. Dirigir la visión técnica del equipo de Optimización del Entrenamiento y la Inferencia 2. Diseñar la infraestructura para modelos de inteligencia artificial de próxima generación 3. Trabajar junto a expertos líderes mundiales en un entorno guiado por principios éticos #### **Multiverse Computing** Multiverse es una empresa de tecnología profunda bien financiada y de rápido crecimiento, fundada en 2019. Somos la mayor empresa de software cuántico de la UE y hemos sido reconocidos por CB Insights (en 2023 y 2025) como una de las 100 empresas de IA más prometedoras del mundo. Con más de 180 empleados y en constante expansión, nuestro equipo es plenamente multicultural e internacional. Ofrecemos software hiper-eficiente para empresas que buscan una ventaja competitiva mediante la computación cuántica y la inteligencia artificial. Nuestros productos estrella, CompactifAI y Singularity, atienden necesidades críticas en diversos sectores: * CompactifAI es una herramienta innovadora de compresión para modelos fundamentales de IA basada en Redes Tensoriales. Permite comprimir grandes sistemas de IA —como modelos de lenguaje— para hacerlos significativamente más eficientes y portátiles. * Singularity es una plataforma de optimización cuántica y cuántico-inspirada utilizada por empresas líderes para resolver problemas complejos en finanzas, energía, fabricación y otros ámbitos. Se integra perfectamente con los sistemas existentes y ofrece mejoras inmediatas de rendimiento tanto en hardware clásico como cuántico. Trabajarás junto a expertos líderes mundiales para desarrollar soluciones que aborden desafíos reales. Buscamos personas apasionadas y deseosas de crecer en un entorno guiado por principios éticos que valore la sostenibilidad y la diversidad. Estamos comprometidos con la construcción de una cultura verdaderamente inclusiva: ¡únete a nosotros! **Acerca del puesto** Buscamos un **Ingeniero Senior de MLOps** para dirigir la visión técnica de nuestro equipo de Optimización del Entrenamiento y la Inferencia. En este puesto de alto impacto, diseñarás la infraestructura que impulsa nuestros modelos de IA de próxima generación. Actuarás como puente entre la programación de sistemas y el aprendizaje automático, optimizando el entrenamiento a gran escala de modelos de lenguaje mediante **NVIDIA NeMo**, y construyendo sistemas de servicio de ultra-alto rendimiento con **vLLM**, **TensorRT-LLM** y **SGLang**. Tu misión consiste en garantizar que nuestros modelos no solo sean punteros desde el punto de vista tecnológico, sino también robustos para producción, eficientes en costes y de alto rendimiento a escala. **Principales responsabilidades** * **Infraestructura de entrenamiento:** Diseñar y mantener canalizaciones distribuidas de entrenamiento escalables mediante **NVIDIA NeMo/Nemotron/Megatron-Bridge**. Optimizarás la utilización de GPU, gestionarás complejas estrategias de puntos de control y aplicarás tolerancia a fallos automatizada para trabajos de larga duración. * **Orquestación de inferencia:** Liderar la implementación de modelos de lenguaje mediante **vLLM, TensorRT-LLM o SGLang**. Implementarás y ajustarás técnicas de vanguardia —incluida **PagedAttention**, el procesamiento por lotes continuo y la cuantización avanzada (**AWQ/FP8**)— para maximizar el rendimiento y minimizar el **TPOT** (Tiempo Por Token de Salida). * **Orquestación de cargas de trabajo:** Utilizar **SLURM/Flyte/Ray/SkyPilot** para gestionar y escalar cargas de trabajo de ML en distintos proveedores de nube y clústeres locales, asegurando una transición fluida de recursos y una ejecución rentable. * **Gestión del ciclo de vida:** Estandarizar el seguimiento, versionado y flujos de transición de modelos mediante **MLflow** (o herramienta similar), garantizando ejecuciones reproducibles de entrenamiento y una ruta clara desde la investigación hasta la producción. * **Ingeniería del rendimiento:** Realizar análisis profundos de perfil y cuellos de botella en toda la pila —desde **kernels CUDA** y comunicaciones colectivas **NCCL**, hasta la orquestación a nivel de Python. * **Eficiencia y gobernanza de costes:** Supervisar y optimizar los gastos en GPU tanto en la nube como locales mediante políticas inteligentes de escalado y empaquetado denso de recursos. * **Liderazgo técnico:** Establecer el estándar de excelencia técnica. Definirás la hoja de ruta, realizarás revisiones rigurosas de código y mentorizarás a ingenieros junior y de nivel medio. **Cualificaciones requeridas** * **Experiencia:** 5 años o más en MLOps, DevOps o Ingeniería de Software, con un mínimo de 2 años dedicados específicamente a la **infraestructura de modelos de lenguaje (LLM)**. * **Ecosistema de aprendizaje profundo:** Competencia experta en **PyTorch** y en la pila de NVIDIA (**CUDA, NCCL, Triton**). * **Herramientas especializadas:** Experiencia práctica con **NVIDIA NeMo** (o Megatron-Bridge) para entrenamiento distribuido y al menos dos de las siguientes herramientas para servicio: **vLLM, TensorRT-LLM o SGLang**. * **Orquestación y ciclo de vida:** Experiencia comprobada con **SLURM/Flyte/Ray/SkyPilot** para la gestión de clústeres y con **MLflow** (o herramienta similar) para la gestión de experimentos y modelos. * **Infraestructura:** Conocimientos profundos en **Kubernetes** y operadores de K8s (por ejemplo, KubeRay, MPI Operator o Run:ai). * **Programación de sistemas:** Dominio de Python y conocimientos funcionales de **C++ o Rust** para componentes críticos de rendimiento. * **Hardware de nueva generación:** Familiaridad con redes de alto rendimiento (**InfiniBand/RoCE**) y arquitecturas NVIDIA **H200/B200 (Blackwell)**. **Habilidades preferidas** * Contribuciones activas a proyectos de código abierto relevantes (**vLLM, SGLang, SkyPilot o NeMo**). * Trayectoria comprobada en compresión de modelos (esparsidad, destilación o cuantización). * Experiencia escribiendo u optimizando kernels personalizados de **Triton**. * Conocimientos especializados en pilas de observabilidad para ML (Prometheus, Grafana, Jaeger).

Fuentea: indeed Ver publicación original

David Muñoz

Indeed · HR

Compañía

Indeed

David Muñoz

Indeed · HR

Empleos similares

Ingeniero Senior de MLOps (Optimización del Entrenamiento e Inferencia)

Descripción

Compañía

Empleos similares

Transit Forklift Operator

Operario de producción

Camarero/a - NH Collection San Sebastián Aránzazu

Jefe/a | responsable de almacén

Jefe/a de Equipo Comercial - Guipúzcoa (Canal Horeca)

Agente de Asistencia en Decesos - San Sebastián (Iris Assistance)