Ingeniero de Investigación en IA - Aprendizaje por Refuerzo (100 % remoto a nivel mundial)

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

Puerta del Sol, 4, Centro, 28013 Madrid, España

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Únase al equipo de modelos de IA de Tether para impulsar la innovación en aprendizaje por refuerzo, optimizando la toma de decisiones y el comportamiento adaptativo de modelos avanzados en diversos sistemas. Aspectos destacados: 1. Pioneros de una revolución financiera global con soluciones de vanguardia. 2. Innovación en aprendizaje por refuerzo para modelos avanzados de inteligencia artificial. 3. Trabajar con un poderoso talento global, impulsando los límites en fintech. ***Únase a Tether y moldee el futuro de las finanzas digitales*** En Tether, no solo construimos productos: lideramos una revolución financiera global. Nuestras soluciones de vanguardia permiten a las empresas —desde exchanges y billeteras hasta procesadores de pagos y cajeros automáticos— integrar sin problemas tokens respaldados por reservas en múltiples blockchains. Al aprovechar el poder de la tecnología blockchain, Tether le permite almacenar, enviar y recibir tokens digitales de forma instantánea, segura y global, todo ello a una fracción del costo. La transparencia es la base de todo lo que hacemos, garantizando confianza en cada transacción. ***Innovar con Tether*** **Finanzas de Tether:** Nuestra innovadora suite de productos incluye la moneda estable más confiable del mundo, **USDT**, utilizada por cientos de millones de personas en todo el mundo, junto con servicios pioneros de tokenización de activos digitales. Pero eso es solo el comienzo: **Tether Power:** Impulsando un crecimiento sostenible, nuestras soluciones energéticas optimizan el exceso de energía para la minería de Bitcoin mediante prácticas ecológicas en instalaciones de última generación y geográficamente diversas. **Tether Data:** Impulsando avances en inteligencia artificial y tecnología peer-to-peer, reducimos los costos de infraestructura y mejoramos las comunicaciones globales con soluciones de vanguardia como **KEET**, nuestra aplicación insignia que redefine el intercambio seguro y privado de datos. **Tether Education:** Democratizando el acceso al aprendizaje digital de primer nivel, empoderamos a las personas para que prosperen en las economías digitales y de trabajos independientes, impulsando el crecimiento y las oportunidades globales. **Tether Evolution:** En la intersección entre la tecnología y el potencial humano, estamos ampliando los límites de lo posible, diseñando un futuro donde la innovación y las capacidades humanas se fusionan de formas poderosas e inéditas. ***¿Por qué unirse a nosotros?*** Nuestro equipo es un poderoso talento global que trabaja de forma remota desde todos los rincones del planeta. Si está apasionado por dejar su huella en el sector fintech, esta es su oportunidad de colaborar con algunas de las mentes más brillantes, rompiendo barreras y estableciendo nuevos estándares. Hemos crecido rápidamente, manteniéndonos ágiles y consolidando nuestro lugar como líderes en la industria. Si posee excelentes habilidades de comunicación en inglés y está listo para contribuir a la plataforma más innovadora del planeta, Tether es el lugar indicado para usted. **¿Está listo para formar parte del futuro?** **Acerca del puesto** Como miembro del equipo de modelos de IA, impulsará la innovación en enfoques de aprendizaje por refuerzo para modelos avanzados. Su trabajo optimizará la toma de decisiones y el comportamiento adaptativo para ofrecer una inteligencia mejorada, un rendimiento superior y capacidades específicas del dominio frente a desafíos del mundo real. Trabajará en un amplio espectro de sistemas, incluidos modelos eficientes en recursos diseñados para entornos de hardware limitado y arquitecturas multimodales complejas que integran datos como texto, imágenes y audio. Esperamos que tenga una experiencia profunda en el diseño de sistemas de aprendizaje por refuerzo y una sólida formación en arquitecturas avanzadas de modelos. Adoptará un enfoque práctico y basado en la investigación para desarrollar, probar e implementar nuevos algoritmos de aprendizaje por refuerzo y marcos de entrenamiento. Sus responsabilidades incluyen curar entornos de simulación especializados y conjuntos de datos de entrenamiento, fortalecer el rendimiento de las políticas básicas e identificar y resolver cuellos de botella en el proceso de aprendizaje por refuerzo. El objetivo final es desbloquear un rendimiento superior de IA adaptado al dominio y superar los límites de lo que estos modelos pueden lograr en entornos dinámicos del mundo real. **Responsabilidades** * Desarrollar e implementar algoritmos de aprendizaje por refuerzo de vanguardia diseñados para optimizar los procesos de toma de decisiones tanto en entornos simulados como del mundo real. Establecer objetivos claros de rendimiento, como la maximización de recompensas y la estabilidad de las políticas. * Construir, ejecutar y supervisar experimentos controlados de aprendizaje por refuerzo. Seguir indicadores clave de rendimiento mientras documenta resultados iterativos y compara los resultados con referencias establecidas. * Identificar y curar entornos de simulación y conjuntos de datos de entrenamiento de alta calidad adaptados a desafíos específicos del dominio. Establecer criterios medibles para garantizar que la selección y preparación de estos recursos mejoren significativamente el proceso de aprendizaje y el rendimiento general del modelo. * Depurar y optimizar sistemáticamente la canalización de aprendizaje por refuerzo analizando tanto la eficiencia computacional como las métricas de rendimiento del aprendizaje. Abordar problemas como el ruido en la señal de recompensa, la estrategia de exploración y la divergencia de políticas para mejorar la convergencia y la estabilidad. * Colaborar con equipos multifuncionales para integrar agentes de aprendizaje por refuerzo en sistemas de producción. Definir métricas claras de éxito, como mejoras en el rendimiento del mundo real y robustez bajo distintas condiciones, y garantizar un monitoreo continuo y refinamientos iterativos para una adaptación continua al dominio. * Titulación universitaria en Ciencias de la Computación o campo relacionado. Idealmente, doctorado en Procesamiento del Lenguaje Natural (PLN), Aprendizaje Automático o campo afín, complementado con un historial sólido en I+D en IA (con buenas publicaciones en conferencias de categoría A*). * Experiencia comprobada en experimentos de aprendizaje por refuerzo a gran escala, incluidas técnicas de RL en línea como la Optimización Relativa de Políticas por Grupo (GRPO), es imprescindible. Sus contribuciones deben haber generado mejoras medibles en la toma de decisiones específica del dominio y en el rendimiento general de las políticas. * Se requiere una comprensión profunda de los algoritmos de aprendizaje por refuerzo, incluidos los métodos de RL en línea de vanguardia y otros enfoques de optimización basados en gradientes, como los gradientes de política, actor-crítico y GRPO. Su experiencia debe enfatizar la mejora de la estabilidad de las políticas, la exploración y la eficiencia muestral en entornos complejos y dinámicos. * Es obligatoria una sólida experiencia en PyTorch y en frameworks relevantes de aprendizaje por refuerzo. Se espera experiencia práctica en el desarrollo de canalizaciones de RL, desde la simulación y el entrenamiento en línea hasta la evaluación posterior al entrenamiento y la implementación de soluciones basadas en RL en entornos productivos. * Capacidad demostrada para aplicar investigación empírica para superar desafíos de aprendizaje por refuerzo, como la ineficiencia muestral, el equilibrio entre exploración y explotación y la inestabilidad del entrenamiento. Debe ser competente en el diseño de marcos de evaluación robustos y en la iteración sobre innovaciones algorítmicas para impulsar continuamente los límites del rendimiento de los agentes de RL. **Información importante para los candidatos** Los fraudes relacionados con reclutamiento se han vuelto cada vez más comunes. Para protegerse, tenga en cuenta lo siguiente al postularse a puestos: * **Postúlese únicamente a través de nuestros canales oficiales.** No utilizamos plataformas ni agencias externas para reclutamiento, salvo que se indique expresamente. Todos los puestos disponibles están listados en nuestra página oficial de carreras: https://tether.recruitee.com/ * **Verifique la identidad del reclutador.** Todos nuestros reclutadores cuentan con perfiles verificados en LinkedIn. Si tiene dudas, puede confirmar su identidad revisando su perfil o contactándonos a través de nuestro sitio web. * **Sea cauteloso con métodos inusuales de comunicación.** No realizamos entrevistas por WhatsApp, Telegram ni SMS. Toda la comunicación se lleva a cabo mediante correos electrónicos y plataformas oficiales de la empresa. * **Verifique cuidadosamente las direcciones de correo electrónico.** Toda la comunicación proveniente de nosotros tendrá direcciones que terminen en **@**tether.to **o @**tether.io * **Nunca solicitaremos pagos ni datos financieros personales.** Si alguien le solicita información financiera personal o algún pago en cualquier etapa del proceso de contratación, se trata de una estafa. Por favor, repórtela inmediatamente. **Si tiene dudas, no dude en contactarnos a través de nuestro sitio web oficial.**

Fuentea: indeed Ver publicación original

David Muñoz

Indeed · HR

Compañía

Indeed

David Muñoz

Indeed · HR

Empleos similares

Ingeniero de Investigación en IA - Aprendizaje por Refuerzo (100 % remoto a nivel mundial)

Descripción

Compañía

Empleos similares

Recepcionista de hotel

Camarero/a

Vigilante / guarda

Operario/a industrias cárnicas

Oficial primera industrias cárnicas