




Resumen: Evaluar y mejorar los sistemas de IA conversacional mediante la evaluación de las respuestas del modelo, la verificación de hechos y la provisión de comentarios humanos de alta calidad para garantizar su precisión y alineación con las expectativas humanas. Aspectos destacados: 1. Colaborar con equipos líderes de IA para mejorar los sistemas de IA conversacional 2. Evaluar y mejorar el comportamiento general de chat en modelos de lenguaje grandes (LLM) 3. Contribuir a mejoras cuantificables en la calidad de las respuestas de la IA **Modalidad de trabajo:** Teletrabajo **Tipo de vinculación:** Contratista independiente **Horario:** Contrato a tiempo completo o a tiempo parcial **Función:** Colabora con equipos líderes de IA para mejorar la calidad, utilidad y fiabilidad de los sistemas de IA conversacional de propósito general. Estos sistemas se utilizan en una amplia variedad de escenarios cotidianos y profesionales, y su eficacia depende de lo clara, precisa y útil que sea su respuesta a las preguntas reales de los usuarios. Este proyecto se centra en evaluar y **mejorar el comportamiento general de chat** en modelos de lenguaje grandes (LLM). Evaluará las respuestas generadas por el modelo sobre diversos temas, proporcionará comentarios humanos de alta calidad y ayudará a garantizar que los sistemas de IA se comuniquen de forma precisa, bien razonada y alineada con las expectativas humanas. **Sus responsabilidades** * Evaluar las respuestas generadas por LLM según su capacidad para responder eficazmente a las consultas de los usuarios * Realizar verificaciones de hechos utilizando fuentes públicas confiables y herramientas externas * Generar datos humanos de evaluación de alta calidad mediante la anotación de los puntos fuertes de las respuestas, las áreas que requieren mejora y las inexactitudes factuales * Evaluar la calidad del razonamiento, la claridad, el tono y la integridad de las respuestas * Asegurar que las respuestas del modelo se alineen con el comportamiento conversacional esperado y con las directrices del sistema * Aplicar anotaciones coherentes siguiendo taxonomías claras, referencias comparativas y pautas detalladas de evaluación **Perfil requerido** * Posee un **título universitario** * Es **hablante nativo** o tiene **fluidez primaria nivel ILR 5 (C2 según la escala CEFR)** en **italiano** * Tiene **experiencia significativa en el uso de modelos de lenguaje grandes (LLM)** y comprende cómo y por qué las personas los utilizan * Tiene **excelentes habilidades de redacción** y puede articular con claridad comentarios matizados * Tiene una **gran atención al detalle** y detecta sistemáticamente problemas sutiles que otros podrían pasar por alto * Es **adaptable** y se siente cómodo trabajando en distintos temas, dominios y requisitos de los clientes * Tiene formación o experiencia en ámbitos que exigen **pensamiento analítico estructurado** (por ejemplo, investigación, política, análisis de datos, lingüística, ingeniería) * Tiene **excelentes competencias matemáticas a nivel universitario** **Conocimientos deseables** * Experiencia previa en **RLHF, evaluación de modelos o trabajo de anotación de datos** * Experiencia escribiendo o editando **contenido escrito de alta calidad** * Experiencia comparando múltiples resultados y realizando **juicios cualitativos finos** * **Familiaridad con rúbricas de evaluación**, referencias comparativas o sistemas de calificación de calidad **Indicadores de éxito** * Identifica inexactitudes factuales, errores de razonamiento y brechas comunicativas en las respuestas del modelo * Produce artefactos de evaluación claros, coherentes y reproducibles * Sus comentarios conducen a mejoras cuantificables en la calidad de las respuestas y en la experiencia del usuario


