




Resumen: Únase al equipo de Plataforma de ML como Ingeniero Senior de Plataforma de Datos / Ingeniero de Datos para construir y escalar la infraestructura de datos que impulsa los productos de IA en odontología, centrándose en mejorar el Data Lakehouse y los flujos de trabajo de gestión de conjuntos de datos. Aspectos destacados: 1. Dar forma a la próxima generación de nuestra plataforma de datos 2. Mejorar la infraestructura de datos para productos de IA en odontología 3. Colaborar estrechamente con investigadores y ingenieros de aprendizaje automático **Grupo Straumann** En el Grupo Straumann emprendemos un apasionante viaje de crecimiento, innovación e impacto \- impulsado por nuestra misión de mejorar la salud bucodental y transformar millones de vidas en todo el mundo. Unidos por un propósito común, aportamos lo mejor de nosotros mismos al trabajo cada día, adoptando una cultura de alto rendimiento y de jugador-aprendiz que inspira la colaboración, la curiosidad y la ambición. Aquí, tendrá la oportunidad de asumir el control de su propia carrera, aprovechando sus habilidades, pasión y entusiasmo por el aprendizaje para seguir creciendo y progresando continuamente. Juntos, no solo estamos moldeando sonrisas más brillantes, sino también desbloqueando el potencial de las personas en todas partes, incluidas las nuestras. **Acerca del puesto** Buscamos un Ingeniero Senior de Plataforma de Datos / Ingeniero de Datos para unirse a nuestro equipo de Plataforma de ML y ayudar a construir y escalar la infraestructura de datos que impulsa nuestros productos de IA en odontología. Nuestra plataforma respalda el ciclo completo de desarrollo de IA, desde la ingesta de datos crudos y los flujos de trabajo de anotación hasta la versión de conjuntos de datos y las canalizaciones de entrenamiento de modelos. Trabajará estrechamente con investigadores de aprendizaje automático (MLR), ingenieros de MLOps y equipos de producto para garantizar que nuestra infraestructura de datos sea fiable, escalable y fácil de usar. Un enfoque clave del puesto es mejorar nuestro Data Lakehouse (DLH) y los flujos de trabajo de gestión de conjuntos de datos, incluida la versión de conjuntos de datos (DVC) y la mejora de cómo se preparan, extraen y consumen los datos en los sistemas de investigación y producción. **En qué trabajará:** Desempeñará un papel fundamental en la definición de la próxima generación de nuestra plataforma de datos. **Responsabilidades típicas incluyen:** Propiedad de la plataforma de datos * Diseñar y evolucionar la arquitectura del Data Lakehouse (DLH) utilizada en nuestros equipos de ML. * Mejorar la fiabilidad y la estructura de las canalizaciones de ingesta, extracción y transformación de datos. * Asegurar que los conjuntos de datos utilizados para entrenamiento y evaluación sean coherentes, reproducibles y estén bien documentados. Gestión del ciclo de vida de los conjuntos de datos * Mejorar los flujos de trabajo de versionado y reproducibilidad de conjuntos de datos mediante herramientas como DVC. * Diseñar soluciones para gestionar múltiples versiones de conjuntos de datos y anotaciones en experimentos y modelos. * Mejorar la capacidad de los investigadores para recuperar de forma fiable las versiones correctas de los conjuntos de datos. Canalizaciones e infraestructura de datos * Construir y mantener canalizaciones de datos escalables en Python. * Mejorar la gestión de metadatos, la validación de conjuntos de datos y la supervisión de la calidad de los datos. * Optimizar los flujos de trabajo de datos en una infraestructura basada en AWS. Colaboración con equipos de ML * Trabajar estrechamente con investigadores y ingenieros de ML para comprender sus necesidades de datos. * Apoyar los flujos de trabajo de investigación con patrones de acceso a los datos fiables y eficientes. * Ayudar a traducir los requisitos de investigación en capacidades sólidas de la plataforma. Gobernanza y calidad de los datos * Implementar prácticas de calidad, reproducibilidad y trazabilidad de los datos a lo largo del ciclo de vida de ML. * Asegurar que nuestra infraestructura de datos cumpla con los requisitos del desarrollo regulado de IA. **Qué buscamos:** **Imprescindible:** * Fuertes habilidades de ingeniería en Python * Experiencia en la construcción de canalizaciones de datos o plataformas de datos * Experiencia trabajando con AWS * Experiencia trabajando con grandes conjuntos de datos utilizados en flujos de trabajo de ML * Buenas prácticas de ingeniería de software (pruebas, CI/CD, documentación) * Experiencia colaborando con equipos de ML o trabajando en entornos de IA **Deseable:** * Experiencia con herramientas de versionado de conjuntos de datos como DVC * Experiencia con Kubernetes * Experiencia con arquitecturas de data lakehouse * Experiencia trabajando con canalizaciones de anotación o conjuntos de datos para entrenamiento de ML * Experiencia con PostgreSQL, Metabase u otras herramientas de datos similares * Experiencia trabajando en entornos regulados (IA médica / sanitaria) **Nuestra tecnología*** AWS * Python * Kubernetes * PostgreSQL * Metabase * DVC para versionado de conjuntos de datos * Infraestructura interna de Data Lakehouse Todos los candidatos calificados serán considerados para el empleo sin tener en cuenta su raza, color, religión, sexo, orientación sexual, identidad de género, origen nacional o discapacidad. **Tipo de empleo:** Tiempo completo **Ubicaciones alternativas:** España : Madrid **Porcentaje de viajes:** 0 \- 10% **ID de solicitud:** 20071


