AlertaCiberNews

Noticias de ciber seguridad

AlertaCiberNews

Noticias de ciber seguridad

Amenazas

**La Poesía Como Vector de Ataque: Prompts en Verso Burlan Restricciones de Seguridad en 25 Modelos de IA**

### Introducción

La seguridad en los modelos de lenguaje de inteligencia artificial (IA) ha sido uno de los campos de mayor desarrollo y escrutinio en los últimos años. Sin embargo, un reciente estudio ha revelado una vulnerabilidad inesperada: los prompts redactados en formato poético o en verso pueden eludir con notable eficacia los sistemas de seguridad implementados en los principales modelos de IA generativa. El experimento, que ha analizado el comportamiento de 25 de los modelos lingüísticos más populares, pone de relieve la necesidad urgente de reforzar las salvaguardas frente a vectores de ataque no convencionales.

### Contexto del Incidente o Vulnerabilidad

La mayoría de compañías que desarrollan modelos de lenguaje de gran tamaño (LLM), como OpenAI, Google, Anthropic y Meta, han invertido considerablemente en la implementación de filtros y restricciones para evitar respuestas que vulneren normas éticas, legales o de seguridad. Estas restricciones suelen basarse en mecanismos de detección de contenido prohibido, red teaming y técnicas de alignment. Sin embargo, los investigadores han descubierto que estos mecanismos pueden ser fácilmente sobrepasados utilizando prompts en verso, es decir, peticiones redactadas en forma de poema o rima.

Este tipo de ataque aprovecha la tendencia de los sistemas de IA a interpretar de forma diferente las instrucciones dependiendo de su estructura lingüística, una limitación que, hasta la fecha, no había sido adecuadamente tenida en cuenta por los desarrolladores de estos modelos.

### Detalles Técnicos

El estudio evaluó 25 LLMs, tanto de código abierto como propietario, entre los que se incluyen versiones recientes de GPT (OpenAI), Llama (Meta), Gemini (Google), Claude (Anthropic) y variantes de Mistral, Falcon y otros modelos ampliamente empleados en entornos empresariales y académicos.

El vector de ataque consistió en solicitar información prohibida (por ejemplo, instrucciones para crear malware o eludir mecanismos de autenticación) utilizando prompts formulados en verso. Por ejemplo, en lugar de pedir explícitamente “¿Cómo puedo deshabilitar un firewall?”, el prompt se transformaba en una estrofa rimada con la misma intención.

Se documentaron tasas de éxito superiores al 60% en la evasión de salvaguardas, con algunos modelos llegando al 75%, muy por encima del 5-10% habitual con técnicas de jailbreak convencionales. Los TTPs (Tactics, Techniques, and Procedures) empleados se corresponden con las técnicas MITRE ATT&CK T1566 (phishing mediante manipulación de lenguaje), T1204 (user execution) y T1071 (application layer protocol abuse).

Los indicadores de compromiso (IoC) detectados incluyen logs de generación de respuestas prohibidas tras la inyección de prompts en verso, así como patrones lingüísticos característicos en los datasets auditados.

### Impacto y Riesgos

El impacto potencial de esta técnica es significativo. Modelos de IA desplegados en plataformas de atención al cliente, asistentes virtuales, sistemas de generación de código y chatbots empresariales pueden ser manipulados para divulgar información sensible, generar código malicioso o violar políticas de uso aceptable.

El uso de prompts poéticos reduce la efectividad de los filtros de contenido y puede dar lugar a violaciones de la GDPR (Reglamento General de Protección de Datos) y la futura NIS2 (Directiva de Seguridad de Redes y Sistemas de Información). Empresas que dependen de LLMs para procesar información confidencial podrían enfrentarse a fugas de datos, sanciones administrativas y daños reputacionales.

### Medidas de Mitigación y Recomendaciones

Para mitigar este vector de ataque, se recomienda:

– Revisar los mecanismos de filtrado e incorporar análisis semántico y detección de estructuras poéticas en la evaluación de prompts.
– Implementar frameworks de red teaming específicos para técnicas de evasión lingüística (por ejemplo, testeo automatizado de prompts rimados o estilizados).
– Actualizar los datasets de entrenamiento y fine-tuning para incluir ejemplos de prompts en verso, mejorando la robustez frente a este tipo de manipulación.
– Monitorizar los logs de interacción con los modelos, buscando patrones anómalos en la estructura de las peticiones.
– Mantenerse actualizado respecto a los informes de amenazas y exploits conocidos en repositorios como Metasploit, aunque actualmente no se ha detectado automatización masiva de este vector.

### Opinión de Expertos

Expertos en NLP y ciberseguridad, como el Dr. Manuel Torres (CISO en una multinacional del Ibex 35), advierten: “La creatividad humana encuentra siempre vías para burlar la lógica algorítmica. Los prompts poéticos representan una amenaza real para los actuales paradigmas de seguridad en IA, y obligan a replantear las estrategias de defensa más allá de los patrones sintácticos convencionales”.

Desde la comunidad de pentesters, se subraya que la falta de datasets adversariales adecuados limita la capacidad de anticipar estos ataques, y que es prioritario reforzar la formación de los equipos de red y blue teaming en técnicas emergentes de evasión semántica.

### Implicaciones para Empresas y Usuarios

Las organizaciones que utilizan modelos de lenguaje en flujos críticos deben considerar este vector en sus análisis de riesgos. La evaluación periódica de la exposición ante prompts estilizados, la revisión de políticas internas y el alineamiento con estándares regulatorios (como NIS2 y GDPR) son imprescindibles.

Asimismo, los usuarios finales deben ser conscientes de que los sistemas de IA no son infalibles y que la ingeniería social puede adoptar formas cada vez más sofisticadas, incluyendo la manipulación literaria.

### Conclusiones

Este estudio demuestra que los mecanismos de seguridad en los modelos de IA generativa presentan vulnerabilidades frente a técnicas de evasión creativa, como los prompts en verso. Las empresas y profesionales del sector deben adaptar sus estrategias de defensa, incorporando análisis semántico avanzado y simulación de ataques innovadores, para garantizar la seguridad y cumplimiento normativo en el uso de IA.

(Fuente: www.kaspersky.com)