




Resumen: Únase a un equipo rojo de expertos en datos humanos para probar modelos de IA con entradas adversarias, detectar vulnerabilidades y generar datos que hagan más segura la IA, centrándose en temas sensibles y requiriendo sólidas habilidades comunicativas. Aspectos destacados: 1. Equipos rojos de modelos y agentes de IA conversacional para identificar vulnerabilidades. 2. Generar datos humanos de alta calidad mediante la anotación de fallos y la clasificación de riesgos. 3. Descubrir vulnerabilidades que las pruebas automatizadas pasan por alto, reforzando así los sistemas de IA de los clientes. **Modalidad de trabajo:** Teletrabajo **Tipo de colaboración:** Contratista independiente **Tipo:** Trabajo por contrato a tiempo completo o parcial **Conocimientos lingüísticos fluidos requeridos:** Inglés y chino (mandarín) **Razón de existencia de este puesto** Creemos que la IA más segura es aquella que ya ha sido atacada — por nosotros. Estamos formando un equipo rojo para este proyecto: expertos humanos en datos que someten modelos de IA a entradas adversarias, detectan vulnerabilidades y generan datos de equipo rojo que hacen más segura la IA para nuestros clientes. Este proyecto implica revisar salidas de IA relacionadas con temas sensibles como sesgo, desinformación o comportamientos dañinos. Todo el trabajo es textual, y la participación en proyectos de mayor sensibilidad es opcional y cuenta con pautas claras y recursos de bienestar. Antes de exponerse a cualquier contenido, se comunicarán claramente los temas correspondientes. **Sus responsabilidades** * Realizar equipos rojos sobre modelos y agentes de IA conversacional: ataques de evasión (jailbreaks), inyecciones de indicaciones (prompt injections), casos de uso indebido, explotación de sesgos, manipulación multivuelta * Generar datos humanos de alta calidad: anotar fallos, clasificar vulnerabilidades y señalar riesgos sistémicos * Aplicar estructura: seguir taxonomías, referencias comparativas (benchmarks) y manuales operativos (playbooks) para mantener la coherencia en las pruebas * Documentar de forma reproducible: elaborar informes, conjuntos de datos y casos de ataque sobre los que los clientes puedan actuar **Perfil buscado** * Experiencia previa en equipos rojos (trabajo adversario con IA, ciberseguridad, exploración socio-técnica) * Curiosidad y mentalidad adversaria: capacidad instintiva para llevar los sistemas hasta sus límites * Rigor metodológico: uso de marcos de trabajo o referencias comparativas (benchmarks), no solo ataques aleatorios * Capacidad comunicativa: explicar claramente los riesgos a partes interesadas técnicas y no técnicas * Adaptabilidad: capacidad para desempeñarse eficazmente en distintos proyectos y con distintos clientes **Conocimientos adicionales valorables** * Aprendizaje automático adversario: conjuntos de datos para ataques de evasión (jailbreak), inyección de indicaciones (prompt injection), ataques RLHF/DPO, extracción de modelos * Ciberseguridad: pruebas de penetración, desarrollo de exploits, ingeniería inversa * Riesgos socio-técnicos: investigación de acoso/desinformación, análisis de abuso, pruebas de IA conversacional * Exploración creativa: psicología, interpretación teatral, redacción para un pensamiento adversario poco convencional **Indicadores de éxito** * Detectar vulnerabilidades que las pruebas automatizadas pasan por alto * Entregar artefactos reproducibles que refuercen los sistemas de IA de los clientes * Ampliar la cobertura de evaluación: probar más escenarios y reducir sorpresas en producción **Términos contractuales y de pago** ------------------------------ * Se le contratará como contratista independiente. * Se trata de un puesto completamente remoto que puede realizarse según su propio horario. * Los proyectos pueden ampliarse, acortarse o finalizarse anticipadamente según necesidades y desempeño. * Los pagos se realizan semanalmente mediante Stripe o Wise, según los servicios prestados.


