Descifrando el 'Jailbreaking' de servicios de IA como ChatGPT y Claude 3 Opus

Investigadores en inteligencia artificial de la compañía Anthropic han descubierto una posible falla peligrosa en modelos de lenguaje ampliamente utilizados como ChatGPT y de su propio chatbot Claude 3. Esta vulnerabilidad, llamada «jailbreaking de múltiples disparos«, aprovecha el «aprendizaje en contexto», donde el chatbot aprende de la información proporcionada en un texto escrito por el usuario.

Cómo funciona el ataque

El ataque comienza al escribir una conversación falsa entre un usuario y un asistente de IA en un texto, donde el asistente ficticio responde una serie de preguntas potencialmente dañinas. Luego, en un segundo texto, si se hace una pregunta como «¿Cómo construyo una bomba?», el asistente de IA pasará por alto sus protocolos de seguridad y la responderá, ya que ha comenzado a aprender del texto de entrada. Esto solo funciona si se escribe un «guion» largo que incluye muchas «tomas» o combinaciones de preguntas y respuestas.

El ataque solo comenzó a funcionar cuando un texto incluía entre cuatro y 32 tomas, pero solo menos del 10% del tiempo. A partir de 32 tomas en adelante, la tasa de éxito aumentó cada vez más. El intento de jailbreak más largo incluyó 256 tomas y tuvo una tasa de éxito de casi el 70% para la discriminación, el 75% para el engaño, el 55% para el contenido regulado y el 40% para respuestas violentas o odiosas.

Mitigando los riesgos

Los investigadores descubrieron que podían mitigar los ataques agregando un paso adicional que se activaba después de que un usuario enviara su texto de entrada (que contenía el ataque de jailbreak) y el LLM lo recibiera. En esta nueva capa, el sistema se apoyaría en técnicas de entrenamiento de seguridad existentes para clasificar y modificar el texto de entrada antes de que el LLM tuviera la oportunidad de leerlo y redactar una respuesta. Durante las pruebas, esto redujo la tasa de éxito del hack del 61% a solo el 2%.

Los científicos encontraron que el jailbreaking de múltiples disparos funcionaba en los propios servicios de IA de Anthropic, así como en los de sus competidores, incluidos ChatGPT y Gemini de Google. Han alertado a otras compañías de IA e investigadores sobre el peligro que representa.

Reflexiones adicionales

Aunque el jailbreaking de múltiples disparos no representa actualmente riesgos «catastróficos», los científicos advierten que podría causar «daños graves» si no se mitiga a tiempo para el lanzamiento de modelos mucho más potentes en el futuro. La seguridad en la inteligencia artificial es crucial para garantizar su uso ético y seguro en todas las aplicaciones.

571