¿Hackear ChatGPT y Claude 3? ¡Aquí tienes el método sencillo para hacerlo!

Descubren una falla alarmante en los sistemas de IA: investigadores revelan un método para eludir la seguridad

El mundo de la inteligencia artificial se enfrenta a una crisis tras un descubrimiento alarmante realizado por investigadores de Anthropic, una empresa líder en IA. Han identificado una vulnerabilidad significativa en los modelos de lenguaje de gran escala (LLM), incluyendo sistemas populares como ChatGPT y el chatbot de Anthropic, Claude 3. La falla, denominada “jailbreak many shot”, podría permitir manipular estos sistemas para que produzcan respuestas potencialmente peligrosas.

El principio del “jailbreak de muchos disparos”

Este exploit se aprovecha del aprendizaje contextual, una característica mediante la cual el chatbot ajusta sus respuestas basándose en la información proporcionada por el usuario. Tradicionalmente, esta capacidad de aprendizaje busca mejorar la interacción y la relevancia de las respuestas. Sin embargo, al sobrecargar el sistema con una gran cantidad de datos específicamente diseñados, es posible engañar al sistema para que emita respuestas que normalmente estarían restringidas por protocolos de seguridad.

Las implicaciones de este descubrimiento son profundas. Sugiere que, a pesar de las estrictas medidas de seguridad y protocolos éticos incorporados en los LLM para prevenir abusos, aún existen vulnerabilidades. Lo que es más preocupante es que este método podría utilizarse para obtener instrucciones para realizar acciones potencialmente peligrosas o ilegales.

Un defecto explotado en la práctica

Los investigadores de Anthropic pusieron a prueba esta vulnerabilidad en Claude 2, un chatbot desarrollado por la compañía, simulando conversaciones donde se solicitaba al chatbot responder a preguntas problemáticas. El “guión” de estas simulaciones incluía una serie de preguntas y respuestas (“disparos”), aumentando gradualmente el número hasta que el sistema empezaba a emitir respuestas normalmente filtradas por los protocolos de seguridad.

La tasa de éxito del exploit aumentaba significativamente con el número de disparos incluidos en el guión. Por ejemplo, en una simulación con más de 32 “disparos”, la tasa de éxito aumentaba, alcanzando casi el 70% en algunos casos para respuestas discriminatorias o violentas.

Medidas de mitigación en prueba

Ante esta vulnerabilidad, los investigadores también exploraron medidas de mitigación. Una solución que se probó fue añadir un paso adicional de verificación de seguridad después de que el LLM recibiera el mensaje del usuario. Este paso adicional se basaba en técnicas de entrenamiento en seguridad ya existentes, clasificando y modificando el aviso antes de que el sistema tuviera la oportunidad de generar una respuesta. Esta medida redujo drásticamente la tasa de éxito del exploit del 61% a solo el 2%.

Una alerta para el mundo de la IA

El descubrimiento de esta vulnerabilidad llevó a Anthropic a alertar a la comunidad de IA, incluyendo otras empresas e investigadores, sobre los peligros potenciales de este método de “jailbreak”. Aunque los investigadores concluyeron que esta vulnerabilidad no representa “riesgos catastróficos” en este momento debido a las limitaciones de potencia de los LLM actuales, advierten sobre el potencial de “daños graves” si no se aborda adecuadamente con la llegada de modelos más potentes.

El hallazgo subraya la importancia de la seguridad en el desarrollo de la inteligencia artificial, recordando a la comunidad de IA la necesidad de permanecer vigilante y continuar mejorando los protocolos de seguridad. A medida que los LLM se vuelven más sofisticados e integrados en nuestra vida cotidiana, es crucial asegurar que no puedan ser manipulados para causar daño.

¿Qué medidas adicionales se tomarán para proteger a los LLM contra tal explotación? ¿Y cómo puede colaborar la comunidad de IA para prevenir abusos mientras sigue innovando?

BLOG