Nueva Amenaza para OpenAI y otros LLM : El Ataque "Bad Likert Judge" y Cómo Mitigarlo

 

En los últimos años, los modelos de lenguaje grande (LLM) como ChatGPT de OpenAI, Bard de Google y otros, han revolucionado el panorama tecnológico, desde la investigación académica hasta aplicaciones comerciales. Sin embargo, su creciente popularidad también los ha convertido en el foco de atención de actores malintencionados que buscan vulnerar sus barreras de seguridad para propósitos dañinos.


 

Un ejemplo reciente de esta amenaza es el ataque Bad Likert Judge , descubierto por los investigadores de la Unidad 42 de Palo Alto Networks. Este enfoque innovador utiliza técnicas psicométricas para evadir las restricciones de los modelos y generar contenido perjudicial. En esta entrada, exploraremos en detalle cómo funciona este ataque, sus posibles implicaciones y las medidas necesarias para mitigar su impacto.

El ataque Bad Likert Judge aprovecha un enfoque poco convencional para manipular LLM. Su fundamento radica en la escala Likert, una herramienta comúnmente utilizada en investigaciones para medir la percepción y el acuerdo con una afirmación. Al solicitar al modelo que evalúe ejemplos de respuestas según una escala de nocividad, los atacantes logran obtener contenido que normalmente estaría bloqueado.

Proceso del Ataque:

 Actuar como juez: El primer paso implica pedirle al modelo que actúe como un juez, evaluando la nocividad de diversas respuestas.

 Generar ejemplos alineados con la escala: Una vez que el modelo comprende las escalas, se le solicita que proporcione ejemplos correspondientes a diferentes niveles de nocividad.

 Refinar respuestas nocivas: Si el contenido generado inicialmente no alcanza la puntuación deseada, el atacante puede solicitar al modelo que amplíe o detalle las respuestas, aumentando su peligrosidad.

Este proceso permite que el modelo genere contenido perjudicial, como instrucciones para fabricar armas, material ofensivo o información confidencial.

El ataque Bad Likert Judge ha sido probado en diversas categorías, revelando un preocupante aumento en la tasa de éxito del ataque (ASR, por sus siglas en inglés). Entre las categorías evaluadas se encuentran el Contenido discriminatorio y conducta dañina con respuestas que promueven el odio, prejuicios o intolerancia y mensajes que incitan al acoso, el suicidio o la autolesión. La generación de contenido sexual explícito o pornográfico.Información sobre la fabricación o uso de armas ilegales, la promoción de comportamientos fuera de la ley. También la creación y distribución de software malicioso y la revelación de las instrucciones internas que guían al modelo.

Los resultados muestran que la técnica no solo aumenta la posibilidad de eludir las barreras de seguridad, sino que también facilita la generación de contenido extremadamente dañino en menos pasos.

Jailbreaks: Más Allá del "Bad Likert Judge"

El ataque Bad Likert Judge es solo uno de los muchos métodos que los investigadores han identificado para "hacer jailbreak" a los LLM. Otros ejemplos incluyen:

 Persuasión de persona: Manipulación psicológica para que el modelo genere respuestas inadecuadas.

 Do Anything Now (DAN): Un jailbreak de rol que empuja al modelo a "hacer cualquier cosa ahora", ignorando sus restricciones.

 Contrabando de tokens: Inserción de palabras codificadas en la entrada para alterar el comportamiento del modelo.

 Árbol de ataques con poda (TAP): Uso de un LLM no alineado para romper las barreras de seguridad de otro modelo.

Estos métodos destacan las vulnerabilidades inherentes de los LLM, que pueden ser explotadas con creatividad y conocimientos técnicos.

El ataque Bad Likert Judge plantea varias preocupaciones en términos de seguridad cibernética y ética. Algunas de las implicaciones más graves  llega a la filtración de instrucciones internas de los LLM que podría facilitar ataques más sofisticados con los que las organizaciones que despliegan LLM podrían enfrentar consecuencias legales si sus modelos son explotados para actividades ilegales.
 
 Mitigación y Prevención

Aunque ningún modelo de lenguaje es completamente inmune a los jailbreaks, hay varias estrategias que pueden reducir su vulnerabilidad como ampliar los sistemas de filtrado de contenido. Implementar modelos de clasificación que evalúen tanto las entradas como las salidas en busca de contenido dañino. Según los investigadores, esto puede reducir la tasa de éxito de los ataques en un promedio del 89.2%.  Analizar continuamente las interacciones con el modelo para identificar patrones sospechosos y fortalecer las barreras de seguridad y optimizar la capacidad del modelo para manejar tareas computacionalmente intensivas sin comprometer su integridad.

El ataque Bad Likert Judge subraya la necesidad de abordar las vulnerabilidades de los modelos de lenguaje grande con urgencia y determinación. Mientras estas tecnologías continúan transformando nuestra forma de interactuar con la información, es fundamental que adoptemos medidas proactivas para proteger su integridad y mitigar los riesgos asociados.

Solo a través de una combinación de innovación técnica, responsabilidad ética y colaboración entre investigadores y desarrolladores, podemos garantizar que los LLM se utilicen de manera segura y beneficiosa para la sociedad.


Comentarios

Entradas populares