Ingeniero de Investigación en IA - Aprendizaje por Refuerzo (100 % remoto)

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

Carrer d'Aribau, 66, Eixample, 08011 Barcelona, Spain

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Únase al equipo de modelos de IA de Tether para impulsar la innovación en el campo del aprendizaje por refuerzo, optimizando la toma de decisiones y el comportamiento adaptativo de modelos avanzados en diversos sistemas. Aspectos destacados: 1. Impulsando una revolución financiera global con soluciones de vanguardia. 2. Innovar con técnicas avanzadas de aprendizaje por refuerzo en modelos de inteligencia artificial. 3. Colaborar con un poderoso talento global, rompiendo límites. ***Únase a Tether y moldee el futuro de las finanzas digitales*** En Tether no solo desarrollamos productos: lideramos una revolución financiera global. Nuestras soluciones de vanguardia permiten a las empresas —desde exchanges y billeteras hasta procesadores de pagos y cajeros automáticos— integrar sin esfuerzo tokens respaldados por reservas en múltiples blockchains. Al aprovechar el poder de la tecnología blockchain, Tether le permite almacenar, enviar y recibir tokens digitales de forma instantánea, segura y global, todo ello a una fracción del costo. La transparencia es la base de todo lo que hacemos, garantizando la confianza en cada transacción. ***Innovar con Tether*** **Finanzas Tether:** Nuestra innovadora suite de productos incluye la moneda estable más confiable del mundo, **USDT**, utilizada por cientos de millones de personas en todo el mundo, junto con servicios pioneros de tokenización de activos digitales. Pero eso es solo el comienzo: **Tether Power:** Impulsando un crecimiento sostenible, nuestras soluciones energéticas optimizan el exceso de energía para la minería de Bitcoin mediante prácticas ecológicas en instalaciones de última generación y geográficamente diversas. **Tether Data:** Impulsando avances en inteligencia artificial y tecnología peer-to-peer, reducimos los costos de infraestructura y mejoramos las comunicaciones globales con soluciones de vanguardia como **KEET**, nuestra aplicación insignia que redefine el intercambio seguro y privado de datos. **Tether Education:** Democratizando el acceso al aprendizaje digital de primer nivel, empoderamos a las personas para que prosperen en las economías digitales y de trabajos independientes, impulsando el crecimiento y las oportunidades globales. **Tether Evolution:** En la intersección entre la tecnología y el potencial humano, estamos expandiendo los límites de lo posible, diseñando un futuro en el que la innovación y las capacidades humanas se fusionen de maneras poderosas e inéditas. ***¿Por qué unirse a nosotros?*** Nuestro equipo es un poderoso centro global de talento que trabaja de forma remota desde todos los rincones del planeta. Si le apasiona dejar su huella en el sector fintech, esta es su oportunidad de colaborar con algunas de las mentes más brillantes, rompiendo límites y estableciendo nuevos estándares. Hemos crecido rápidamente, manteniéndonos ágiles y consolidando nuestro lugar como líderes en la industria. Si posee excelentes habilidades de comunicación en inglés y está listo para contribuir a la plataforma más innovadora del planeta, Tether es su lugar. **¿Está listo para formar parte del futuro?** **Acerca del puesto** Como miembro del equipo de modelos de IA, usted impulsará la innovación en los enfoques de aprendizaje por refuerzo para modelos avanzados. Su trabajo optimizará la toma de decisiones y el comportamiento adaptativo para ofrecer una inteligencia mejorada, un rendimiento superior y capacidades específicas del dominio frente a desafíos del mundo real. Trabajará en un amplio espectro de sistemas, incluidos modelos eficientes en el uso de recursos diseñados para entornos con hardware limitado y arquitecturas multimodales complejas que integran datos como texto, imágenes y audio. Esperamos que tenga una profunda experiencia en el diseño de sistemas de aprendizaje por refuerzo y una sólida formación en arquitecturas avanzadas de modelos. Adoptará un enfoque práctico y basado en la investigación para desarrollar, probar e implementar novedosos algoritmos de aprendizaje por refuerzo y marcos de entrenamiento. Sus responsabilidades incluyen curar entornos de simulación especializados y conjuntos de datos de entrenamiento, fortalecer el rendimiento de las políticas básicas e identificar y resolver cuellos de botella en el proceso de aprendizaje por refuerzo. El objetivo final es desbloquear un rendimiento de IA superior y adaptado al dominio, y expandir los límites de lo que estos modelos pueden lograr en entornos dinámicos del mundo real. **Responsabilidades** * Desarrollar e implementar algoritmos de aprendizaje por refuerzo de vanguardia diseñados para optimizar los procesos de toma de decisiones tanto en entornos simulados como reales. Establecer objetivos claros de rendimiento, como la maximización de la recompensa y la estabilidad de la política. * Construir, ejecutar y supervisar experimentos controlados de aprendizaje por refuerzo. Seguir indicadores clave de rendimiento mientras documenta resultados iterativos y compara los resultados con referencias establecidas. * Identificar y curar entornos de simulación y conjuntos de datos de entrenamiento de alta calidad adaptados a desafíos específicos del dominio. Establecer criterios medibles para garantizar que la selección y preparación de estos recursos mejoren significativamente el proceso de aprendizaje y el rendimiento general del modelo. * Depurar y optimizar sistemáticamente la canalización de aprendizaje por refuerzo analizando tanto la eficiencia computacional como las métricas de rendimiento del aprendizaje. Abordar problemas como el ruido en la señal de recompensa, la estrategia de exploración y la divergencia de la política para mejorar la convergencia y la estabilidad. * Colaborar con equipos multifuncionales para integrar agentes de aprendizaje por refuerzo en sistemas de producción. Definir métricas claras de éxito, como mejoras del rendimiento en el mundo real y robustez bajo diversas condiciones, y garantizar un monitoreo continuo y refinamientos iterativos para mantener una adaptación constante al dominio. * Titulación universitaria en Ciencias de la Computación o campo relacionado. Idealmente, doctorado en PLN, Aprendizaje Automático o campo afín, complementado con un historial sólido en I+D en IA (con buenas publicaciones en conferencias A*). * Experiencia demostrada en experimentos de aprendizaje por refuerzo a gran escala, incluidas técnicas de RL en línea como la Optimización Relativa de Políticas por Grupo (GRPO), es indispensable. Sus contribuciones deben haber generado mejoras medibles en la toma de decisiones específica del dominio y en el rendimiento general de la política. * Se requiere una comprensión profunda de los algoritmos de aprendizaje por refuerzo, incluidos los métodos de RL en línea de vanguardia y otros enfoques de optimización basados en gradientes, como los gradientes de política, actor-crítico y GRPO. Su experiencia debe enfatizar la mejora de la estabilidad de la política, la exploración y la eficiencia muestral en entornos complejos y dinámicos. * Es imprescindible contar con una sólida experiencia en PyTorch y en frameworks relevantes de aprendizaje por refuerzo. Se espera experiencia práctica en el desarrollo de canalizaciones de RL, desde la simulación y el entrenamiento en línea hasta la evaluación posterior al entrenamiento y la implementación de soluciones basadas en RL en entornos productivos. * Capacidad demostrada para aplicar la investigación empírica y superar desafíos del aprendizaje por refuerzo, como la ineficiencia muestral, el equilibrio entre exploración y explotación y la inestabilidad del entrenamiento. Debe ser competente en el diseño de marcos de evaluación robustos y en la iteración sobre innovaciones algorítmicas para seguir expandiendo los límites del rendimiento de los agentes de RL. **Información importante para los candidatos** Los fraudes relacionados con la contratación se han vuelto cada vez más comunes. Para protegerse, tenga en cuenta lo siguiente al postularse a puestos: * **Postúlese únicamente a través de nuestros canales oficiales.** No utilizamos plataformas ni agencias externas para la contratación, salvo que se indique expresamente. Todos los puestos disponibles aparecen en nuestra página oficial de carreras: https://tether.recruitee.com/ * **Verifique la identidad del reclutador.** Todos nuestros reclutadores cuentan con perfiles verificados en LinkedIn. Si tiene dudas, puede confirmar su identidad revisando su perfil o contactándonos a través de nuestro sitio web. * **Sea cauteloso con métodos inusuales de comunicación.** No realizamos entrevistas a través de WhatsApp, Telegram ni SMS. Toda la comunicación se lleva a cabo mediante correos electrónicos y plataformas oficiales de la empresa. * **Verifique cuidadosamente las direcciones de correo electrónico.** Toda la comunicación proveniente de nosotros tendrá como dominio final **@**tether.to **o @**tether.io * **Nunca solicitaremos pagos ni datos financieros personales.** Si alguien le solicita información financiera personal o un pago en cualquier etapa del proceso de contratación, se trata de un fraude. Por favor, denúncielo inmediatamente. **Si tiene dudas, no dude en contactarnos a través de nuestro sitio web oficial.**

Fuentea: indeed Ver publicación original

David Muñoz

Indeed · HR

Compañía

Indeed

David Muñoz

Indeed · HR

Empleos similares

Ingeniero de Investigación en IA - Aprendizaje por Refuerzo (100 % remoto)

Descripción

Compañía

Empleos similares

Auxiliar administrativo/a - planner

Fisioterapeuta Hospital de Atención Intermedia DomusVi Terraferma

Especialista de Back End del Equipo de Lanzamiento

Especialista Front End – Equipo de Lanzamiento

Bolsa de trabajo de puestos de Peón CIDO

Responsable de Recursos Humanos