




Resumen: Evaluar y mejorar los sistemas de IA conversacional evaluando las respuestas generadas por el modelo y proporcionando comentarios humanos de alta calidad. Aspectos destacados: 1. Colaborar con equipos líderes de IA para mejorar los sistemas de IA conversacional. 2. Evaluar y mejorar el comportamiento general de chat en modelos de lenguaje grandes (LLM). 3. Aplicar un pensamiento analítico estructurado para garantizar una comunicación precisa de la IA. **Modalidad de trabajo:** Teletrabajo **Tipo de vinculación:** Contratista independiente **Horario:** Contrato a tiempo completo o a tiempo parcial **Rol:** Colabora con equipos líderes de IA para mejorar la calidad, utilidad y fiabilidad de los sistemas de IA conversacional de propósito general. Estos sistemas se utilizan en una amplia gama de escenarios cotidianos y profesionales, y su eficacia depende de lo clara, precisa y útil que sea su respuesta a las preguntas reales de los usuarios. Este proyecto se centra en evaluar y **mejorar el comportamiento general de chat** en modelos de lenguaje grandes (LLM). Evaluará las respuestas generadas por el modelo sobre diversos temas, proporcionará comentarios humanos de alta calidad y ayudará a garantizar que los sistemas de IA se comuniquen de forma precisa, bien razonada y alineada con las expectativas humanas. **Sus responsabilidades** * Evaluar las respuestas generadas por LLM según su capacidad para responder eficazmente a las consultas de los usuarios * Realizar verificaciones de hechos mediante fuentes públicas de confianza y herramientas externas * Generar datos humanos de evaluación de alta calidad mediante la anotación de los puntos fuertes de las respuestas, áreas de mejora e inexactitudes factuales * Evaluar la calidad del razonamiento, la claridad, el tono y la integridad de las respuestas * Garantizar que las respuestas del modelo se alineen con el comportamiento conversacional esperado y con las directrices del sistema * Aplicar anotaciones coherentes siguiendo taxonomías claras, referencias comparativas y directrices detalladas de evaluación **Perfil requerido** * Posee un **título universitario** * Es **hablante nativo** o tiene **fluidez primaria nivel ILR 5 (C2 según la escala CEFR)** en **italiano** * Tiene **experiencia significativa en el uso de modelos de lenguaje grandes (LLM)** y comprende cómo y por qué las personas los utilizan * Tiene **excelentes habilidades de redacción** y puede formular con claridad comentarios matizados * Tiene una **gran atención al detalle**, detectando sistemáticamente matices que otros podrían pasar por alto * Es **adaptable** y se siente cómodo trabajando en distintos temas, dominios y requisitos de los clientes * Tiene formación o experiencia en ámbitos que requieren **pensamiento analítico estructurado** (por ejemplo, investigación, política, análisis de datos, lingüística, ingeniería) * Tiene **excelentes competencias matemáticas a nivel universitario** **Competencias deseables** * Experiencia previa en **retroalimentación humana reforzada (RLHF), evaluación de modelos o trabajo de anotación de datos** * Experiencia escribiendo o editando **contenidos escritos de alta calidad** * Experiencia comparando múltiples salidas y realizando **juicios cualitativos finos** * **Conocimiento de rúbricas de evaluación**, referencias comparativas o sistemas de puntuación de calidad **Indicadores de éxito** * Identifica inexactitudes factuales, errores de razonamiento y lagunas comunicativas en las respuestas del modelo * Produce artefactos de evaluación claros, coherentes y reproducibles * Sus comentarios conducen a mejoras medibles en la calidad de las respuestas y en la experiencia del usuario


