Investigador de LLM

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

San Martin Kalea, 31, 20005 Donostia, Gipuzkoa, Spain

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

**Multiverse Computing** Multiverse es una empresa de deep tech bien financiada y de rápido crecimiento fundada en 2019. Somos la empresa de software cuántico más grande de la UE y hemos sido reconocidos por CB Insights (2023 y 2025) como una de las 100 empresas de IA más prometedoras del mundo. Con más de 180 empleados y en crecimiento, nuestro equipo es completamente multicultural e internacional. Ofrecemos software hiper-eficiente a empresas que buscan una ventaja competitiva mediante la computación cuántica y la inteligencia artificial. Nuestros productos estrella, CompactifAI y Singularity, abordan necesidades críticas en diversas industrias: * CompactifAI es una herramienta innovadora de compresión para modelos fundamentales de IA basada en Redes Tensoriales. Permite comprimir grandes sistemas de IA, como modelos de lenguaje, haciéndolos significativamente más eficientes y portátiles. * Singularity es una plataforma de optimización cuántica e inspirada en lo cuántico utilizada por empresas líderes para resolver problemas complejos en finanzas, energía, manufactura y más. Se integra perfectamente con sistemas existentes y ofrece mejoras inmediatas de rendimiento en hardware clásico y cuántico. Trabajarás junto a expertos líderes mundiales para desarrollar soluciones que enfrenten desafíos del mundo real. Buscamos personas apasionadas dispuestas a crecer en un entorno guiado por la ética que valora la sostenibilidad y la diversidad. Estamos comprometidos a construir una cultura verdaderamente inclusiva: ven y únete a nosotros. **Como Investigador Senior de LLM , usted** * Diseñará e implementará estrategias para crear, obtener y aumentar conjuntos de datos adaptados específicamente para el entrenamiento y ajuste fino de LLM. * Desarrollará tuberías escalables para recolectar, limpiar, filtrar, anotar y validar grandes volúmenes de datos textuales. * Realizará auditorías de datos para garantizar calidad, diversidad, cumplimiento ético y mitigación de sesgos. * Colaborará con ingenieros e investigadores de ML para alinear los conjuntos de datos con los objetivos de entrenamiento y las necesidades de evaluación del modelo. * Utilizará herramientas como Aprendizaje Activo, generación de datos sintéticos y aprendizaje auto-supervisado para maximizar la eficiencia del conjunto de datos. * Aplicará flujos de trabajo con participación humana (HITL) cuando sea necesario para etiquetado y validación de datos. * Contribuirá a la creación de documentación de datos y estándares de metadatos (por ejemplo, hojas informativas para conjuntos de datos). * Mantendrá actualizado su conocimiento sobre tendencias de investigación en curación de conjuntos de datos, datos de preentrenamiento de LLM y evaluación de referencia. **Cualificaciones requeridas** * Título universitario, maestría o doctorado en Ciencias de la Computación, IA, Ciencia de Datos o campo relacionado. * 3 o más años de experiencia en ciencia de datos, aprendizaje automático o roles relacionados, con experiencia demostrada en creación de conjuntos de datos para PNL o LLMs. * Conocimiento profundo del ciclo de vida de los LLM: preentrenamiento, ajuste fino, alineación y evaluación. * Dominio de Python y ecosistemas de herramientas de datos (Pandas, NumPy, spaCy, Hugging Face Datasets \& Transformers). * Experiencia práctica en la recolección de datos textuales de diversas fuentes: extracción web, APIs, corpus propietarios, etc. * Sólida comprensión de métricas de calidad de datos, incluyendo detección de sesgos, toxicidad y legibilidad. * Experiencia trabajando con herramientas de anotación (por ejemplo, Prodigy, Label Studio) y gestionando equipos o flujos de trabajo de anotación. **Cualificaciones preferidas** * Experiencia en la creación o contribución a conjuntos de datos utilizados en preentrenamiento de LLM o ajuste fino supervisado. * Familiaridad con flujos de trabajo RLHF y técnicas de alineación (por ejemplo, modelado de preferencias, modelado de recompensas). * Experiencia con conjuntos de datos multilingües y de idiomas con bajos recursos. * Contribuciones a conjuntos de datos de código abierto, herramientas o publicaciones en investigación centrada en datos. * Conocimiento sobre IA ética, gobernanza de datos, leyes de privacidad (por ejemplo, GDPR) y uso responsable de datos. **Ventajas \& Beneficios** * Contrato indefinido. * Igualdad salarial garantizada. * Bono variable según desempeño. * Bono de incorporación. * Ofrecemos patrocinio de visa de trabajo (si aplica). * Paquete de reubicación (si aplica). * Seguro médico privado. * Acceso a presupuesto educativo según política interna. * Oportunidad híbrida. * Horarios de trabajo flexibles. * Clases de idiomas y opciones de almuerzo con descuento * Trabajar en un entorno dinámico, enfocado en tecnologías de vanguardia. * Plan de carrera. Oportunidad de aprender y enseñar. * Empresa progresista. Cultura de personas felices *Como empleador que ofrece igualdad de oportunidades, Multiverse Computing se compromete a construir un lugar de trabajo inclusivo. La empresa da la bienvenida a personas de todos los orígenes diferentes, incluyendo edad, ciudadanía, origen étnico y racial, identidades de género, personas con discapacidades, estado civil, religiones e ideologías, y orientaciones sexuales.*

Fuentea: indeed Ver publicación original