¿Hackear ChatGPT y Claude 3? ¡Aquí tienes el método sencillo para hacerlo!
Descubren una falla alarmante en los sistemas de IA: investigadores revelan un método para eludir la seguridad
El mundo de la inteligencia artificial se enfrenta a una crisis tras un descubrimiento alarmante realizado por investigadores de Anthropic, una empresa líder en IA. Han identificado una vulnerabilidad significativa en los modelos de lenguaje de gran escala (LLM), incluyendo sistemas populares como ChatGPT y el chatbot de Anthropic, Claude 3. La falla, denominada “jailbreak many shot”, podría permitir manipular estos sistemas para que produzcan respuestas potencialmente peligrosas.
El principio del “jailbreak de muchos disparos”
Este exploit se aprovecha del aprendizaje contextual, una característica mediante la cual el chatbot ajusta sus respuestas basándose en la información proporcionada por el usuario. Tradicionalmente, esta capacidad de aprendizaje busca mejorar la interacción y la relevancia de las respuestas. Sin embargo, al sobrecargar el sistema con una gran cantidad de datos específicamente diseñados, es posible engañar al sistema para que emita respuestas que normalmente estarían restringidas por protocolos de seguridad.
Las implicaciones de este descubrimiento son profundas. Sugiere que, a pesar de las estrictas medidas de seguridad y protocolos éticos incorporados en los LLM para prevenir abusos, aún existen vulnerabilidades. Lo que es más preocupante es que este método podría utilizarse para obtener instrucciones para realizar acciones potencialmente peligrosas o ilegales.
Un defecto explotado en la práctica
Los investigadores de Anthropic pusieron a prueba esta vulnerabilidad en Claude 2, un chatbot desarrollado por la compañía, simulando conversaciones donde se solicitaba al chatbot responder a preguntas problemáticas. El “guión” de estas simulaciones incluía una serie de preguntas y respuestas (“disparos”), aumentando gradualmente el número hasta que el sistema empezaba a emitir respuestas normalmente filtradas por los protocolos de seguridad.
La tasa de éxito del exploit aumentaba significativamente con el número de disparos incluidos en el guión. Por ejemplo, en una simulación con más de 32 “disparos”, la tasa de éxito aumentaba, alcanzando casi el 70% en algunos casos para respuestas discriminatorias o violentas.
Medidas de mitigación en prueba
Ante esta vulnerabilidad, los investigadores también exploraron medidas de mitigación. Una solución que se probó fue añadir un paso adicional de verificación de seguridad después de que el LLM recibiera el mensaje del usuario. Este paso adicional se basaba en técnicas de entrenamiento en seguridad ya existentes, clasificando y modificando el aviso antes de que el sistema tuviera la oportunidad de generar una respuesta. Esta medida redujo drásticamente la tasa de éxito del exploit del 61% a solo el 2%.
Una alerta para el mundo de la IA
El descubrimiento de esta vulnerabilidad llevó a Anthropic a alertar a la comunidad de IA, incluyendo otras empresas e investigadores, sobre los peligros potenciales de este método de “jailbreak”. Aunque los investigadores concluyeron que esta vulnerabilidad no representa “riesgos catastróficos” en este momento debido a las limitaciones de potencia de los LLM actuales, advierten sobre el potencial de “daños graves” si no se aborda adecuadamente con la llegada de modelos más potentes.
El hallazgo subraya la importancia de la seguridad en el desarrollo de la inteligencia artificial, recordando a la comunidad de IA la necesidad de permanecer vigilante y continuar mejorando los protocolos de seguridad. A medida que los LLM se vuelven más sofisticados e integrados en nuestra vida cotidiana, es crucial asegurar que no puedan ser manipulados para causar daño.
¿Qué medidas adicionales se tomarán para proteger a los LLM contra tal explotación? ¿Y cómo puede colaborar la comunidad de IA para prevenir abusos mientras sigue innovando?
BLOG
El uso indebido de ChatGPT perjudica el rendimiento académico y provoca pérdida de memoria
El uso generalizado de inteligencia artificial generativa, como ChatGPT, en el ámbito académico está generando preocupación creciente entre investigadores y educadores. Aunque muchos estudiantes consideran esta tecnología una solución rápida...
ChatGPT: La IA es más humana que algunos estudiantes, según demuestra este sorprendente estudio
Cuando se evalúan las capacidades de grandes modelos de lenguaje como ChatGPT, la mayoría de los estudios se centran en su habilidad para extraer información fáctica, ejecutar razonamientos lógicos o...
ChatGPT dice cualquier cosa sobre los internautas y es atacado
Se avecinan nuevos problemas para OpenAI, la empresa detrás de ChatGPT. El activista austriaco Max Schrems, conocido por su activismo contra los gigantes de internet en cuestiones de datos personales,...
La doble amenaza que ChatGPT representa para los secretos corporativos
Una vez que aprenden a usarlo, cada vez más empleados están utilizando ChatGPT para simplificar sus tareas, como responder correos electrónicos, preparar presentaciones o codificar software. Según Cyberhaven, una empresa...
ChatGPT presenta una nueva característica interesante… de la cual Europa se ve privada
ChatGPT finalmente incorporará la función de “memoria”. Esta característica, útil para recordar detalles sobre usted, lamentablemente no estará disponible en Europa. OpenAI lo anunció y ya es una realidad: ChatGPT...
Quejas sobre ‘ChatGPT’: la CNPD recuerda los principios básicos
La CNPD no tiene previsto pronunciarse sobre la decisión de la autoridad italiana respecto al uso de ChatGPT. A medida que las quejas aumentan, señala que correspondería al regulador irlandés...