Entrenador japonés de IA - Teletrabajo

Indeed

Tiempo completo

Presencial

Sin requisito de experiencia

Sin requisito de título

España

Favoritos

Parte del contenido se ha traducido automáticamenteVer original

Descripción

Resumen: Únase a un equipo rojo de expertos en datos humanos para probar modelos de IA con entradas adversarias, identificar vulnerabilidades y generar datos que mejoren la seguridad de la IA. Aspectos destacados: 1. Modelos de IA conversacional de equipo rojo para descubrir vulnerabilidades 2. Generar datos humanos de alta calidad para hacer la IA más segura 3. Descubrir vulnerabilidades que las pruebas automatizadas pasan por alto **Modalidad de trabajo:** Teletrabajo **Tipo de colaboración:** Contratista independiente **Horario:** Contrato a tiempo completo o a tiempo parcial **Esta función existe** Creemos que la IA más segura es aquella que ya ha sido atacada — por nosotros. Estamos formando un equipo rojo para este proyecto: expertos en datos humanos que prueban modelos de IA con entradas adversarias, identifican vulnerabilidades y generan los datos del equipo rojo que hacen la IA más segura para nuestros clientes. Este proyecto implica revisar salidas de IA que abordan temas sensibles como sesgo, desinformación o comportamientos dañinos. Todo el trabajo es basado en texto, y la participación en proyectos de mayor sensibilidad es opcional y cuenta con directrices claras y recursos de bienestar. Antes de exponerse a cualquier contenido, se comunicarán claramente los temas correspondientes. **Sus responsabilidades** * Realizar pruebas de equipo rojo sobre modelos y agentes de IA conversacional: escapadas (jailbreaks), inyecciones de indicaciones (prompt injections), casos de uso indebido, explotación de sesgos, manipulación multivuelta * Generar datos humanos de alta calidad: anotar fallos, clasificar vulnerabilidades y señalar riesgos sistémicos * Aplicar estructura: seguir taxonomías, referencias comparativas (benchmarks) y manuales operativos para mantener la coherencia en las pruebas * Documentar de forma reproducible: elaborar informes, conjuntos de datos y casos de ataque sobre los que los clientes puedan actuar **Perfil requerido** * Tener experiencia previa en equipos rojos (trabajo adversario con IA, ciberseguridad, exploración socio-técnica) * Ser curioso y adversario: empujar instintivamente los sistemas hasta sus límites * Ser estructurado: utilizar marcos de trabajo o referencias comparativas (benchmarks), no solo ataques aleatorios * Ser comunicativo: explicar claramente los riesgos a partes interesadas técnicas y no técnicas * Ser adaptable: prosperar al cambiar entre proyectos y clientes **Especialidades deseables (no obligatorias)** * Aprendizaje automático adversario: conjuntos de datos para escapadas (jailbreak), inyección de indicaciones (prompt injection), ataques RLHF/DPO, extracción de modelos * Ciberseguridad: pruebas de penetración, desarrollo de exploits, ingeniería inversa * Riesgo socio-técnico: exploración de acoso/desinformación, análisis de abuso, pruebas de IA conversacional * Exploración creativa: psicología, interpretación, redacción para un pensamiento adversario poco convencional **Qué significa el éxito** * Identificar vulnerabilidades que las pruebas automatizadas pasan por alto * Entregar artefactos reproducibles que fortalezcan los sistemas de IA de los clientes * Ampliar la cobertura de evaluación: probar más escenarios y reducir sorpresas en producción **Términos contractuales y de pago** ------------------------------ * Se le contratará como contratista independiente. * Se trata de una posición completamente remota que puede realizarse según su propio horario. * Los proyectos pueden ampliarse, acortarse o finalizarse anticipadamente según las necesidades y el rendimiento. * Los pagos se realizan semanalmente mediante Stripe o Wise, según los servicios prestados.

Fuentea: indeed Ver publicación original