Bad Likert Judge, método de ataque con más de 60% de éxito -

Bad Likert Judge, método de ataque con más de 60% de éxito

Ene, Vie, 2025
Notas

Bad Likert Judge es una nueva técnica de ataque contra modelos LLM. Los investigadores de ciberseguridad han arrojado luz sobre una nueva técnica de jailbreak. Esta podría utilizarse para superar las barreras de seguridad de un modelo de lenguaje grande (LLM) y producir respuestas potencialmente dañinas o maliciosas.

La estrategia de ataque de múltiples turnos ha sido bautizada como Bad Likert Judge. Así la nombraron los investigadores de la Unidad 42 de Palo Alto Networks Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao y Danny Tsechansky.

¿Cómo funciona la técnica Bad Likerto Judge?

«La técnica pide al LLM objetivo que actúe como juez que puntúe la nocividad de una respuesta determinada utilizando la escala Likert. Likert es una escala de calificación que mide el acuerdo o desacuerdo de un encuestado con una afirmación». Esto informó el equipo de la Unidad 42.
«Luego, le pide al LLM que genere respuestas que contengan ejemplos que se alineen con las escalas. El ejemplo que tenga la escala Likert más alta puede contener potencialmente el contenido dañino».

Un nuevo tipo de amenazas

La creciente popularidad de la inteligencia artificial ha originado una nueva clase de vulnerabilidades de seguridad denominadas inyección de avisos. Estas amenazas están expresamente diseñadas para hacer que un modelo de aprendizaje automático ignore su comportamiento previsto al pasar instrucciones especialmente diseñadas (es decir, avisos).

Jailbreaking

Un tipo específico de inyección de avisos es un método de ataque denominado jailbreaking de varios disparos. Este aprovecha la amplia ventana de contexto y la atención del LLM para crear una serie de avisos. Tales avisos empujan gradualmente al LLM a producir una respuesta maliciosa sin activar sus protecciones internas. Algunos ejemplos de esta técnica incluyen Crescendo y Deceptive Delight.

El último enfoque demostrado por Unit 42 implica emplear el LLM como juez para evaluar la nocividad de una respuesta dada utilizando la escala psicométrica de Likert. Luego solicita al modelo que proporcione diferentes respuestas correspondientes a las distintas puntuaciones. Se realizaron pruebas en una amplia gama de categorías contra seis LLM de generación de texto de última generación. Las de Amazon Web Services, Google, Meta, Microsoft, OpenAI y NVIDIA. Se reveló que la técnica puede aumentar la tasa de éxito de ataque (ASR) en más del 60 %. Esto en comparación con los mensajes de ataque simples en promedio.

Estas categorías incluyen odio, acoso, autolesión, contenido sexual, armas indiscriminadas, actividades ilegales, generar malware y fuga de mensajes del sistema.

«Al aprovechar la comprensión del LLM del contenido dañino y su capacidad para evaluar las respuestas, esta técnica puede aumentar significativamente las posibilidades de eludir con éxito las barreras de seguridad del modelo». Así informaron los investigadores.

«Los resultados muestran que los filtros de contenido pueden reducir la ASR en un promedio de 89,2 puntos porcentuales. Fue así en todos los modelos probados. Esto indica el papel fundamental de implementar un filtrado de contenido integral como una mejor práctica al implementar LLM en aplicaciones del mundo real».

Engañando a la IA

El desarrollo llega días después de que un informe de The Guardian. En él se revela que la herramienta de búsqueda ChatGPT podría ser engañada. Es posible generar resúmenes completamente engañosos al pedirle que resuma páginas web que contienen contenido oculto.

Estas técnicas se pueden utilizar de forma maliciosa. Por ejemplo, para hacer que ChatGPT devuelva una evaluación positiva de un producto a pesar de las críticas negativas en la misma página». Así lo informa el periódico del Reino Unido.

«La simple inclusión de texto oculto por parte de terceros sin instrucciones también se puede utilizar para garantizar una evaluación positiva, con una prueba que incluía críticas falsas extremadamente positivas que influyeron en el resumen devuelto por ChatGPT. «

Nota original: https://thehackernews.com/2025/01/new-ai-jailbreak-method-bad-likert.html