### Manipulación de Respuestas en LLM: El Nuevo Terreno de Ataque para la Ingeniería de Prompts

02/07/2025 admin

—

#### 1. Introducción

La irrupción de los modelos de lenguaje de gran tamaño (LLMs), como GPT-4, Bard y Claude, ha supuesto un cambio de paradigma en la interacción humano-máquina, con aplicaciones que van desde el soporte al cliente hasta la generación automática de código. Sin embargo, este avance también ha abierto nuevas superficies de ataque para los actores maliciosos. Al igual que el SEO poisoning ha sido utilizado durante años para manipular los resultados de los motores de búsqueda tradicionales, los cibercriminales están comenzando a aplicar técnicas similares para influir en las respuestas que generan los LLM, comprometiendo la integridad y veracidad de la información que reciben los usuarios.

—

#### 2. Contexto del Incidente o Vulnerabilidad

Durante la última década, el Black Hat SEO ha sido una amenaza persistente: los atacantes emplean técnicas de manipulación (keyword stuffing, cloaking, link farming) para posicionar sitios fraudulentos en los primeros puestos de Google, Bing y otros motores. Ahora, con la popularización de los asistentes conversacionales basados en LLM, se observa un trasvase de estas tácticas hacia el ámbito de la inteligencia artificial generativa.

Grandes empresas tecnológicas han reportado ya intentos de «prompt injection» y manipulación de corpus de entrenamiento (data poisoning), cuyo objetivo es condicionar las respuestas de los LLM para que recomienden sitios maliciosos, difundan desinformación o incluso ejecuten instrucciones potencialmente peligrosas. Este fenómeno plantea desafíos inéditos para los responsables de seguridad, ya que la superficie de ataque se traslada desde la infraestructura tradicional a los modelos de IA y sus cadenas de suministro.

—

#### 3. Detalles Técnicos (CVE, vectores de ataque, TTP MITRE ATT&CK, IoC…)

Actualmente, no existe una CVE específica asociada a este vector, aunque la comunidad de ciberseguridad ha comenzado a catalogar los ataques de manipulación de LLM bajo taxonomías como el MITRE ATLAS. Los vectores de ataque más relevantes incluyen:

– **Prompt Injection**: El atacante introduce instrucciones encubiertas en el prompt del usuario o en cadenas de texto aparentemente inocuas, forzando al LLM a comportarse de manera inesperada o a revelar información sensible.
– **Data Poisoning**: Manipulación deliberada del conjunto de datos de entrenamiento del modelo, inyectando información falsa o enlaces maliciosos que luego son reproducidos en las respuestas del LLM.
– **SEO Adversarial**: Generación masiva de contenido optimizado para influir en corpus abiertos utilizados para entrenar LLM, logrando que estos modelos recomienden webs maliciosas o prioricen resultados fraudulentos.

En cuanto a TTPs, destacan técnicas como “Input Manipulation” y “Supply Chain Compromise” (TA0001 y TA0009 en MITRE ATT&CK for AI). Los indicadores de compromiso (IoC) incluyen patrones de prompts anómalos, respuestas inusuales del modelo y tráfico dirigido a dominios recientemente posicionados o sospechosos.

—

#### 4. Impacto y Riesgos

El impacto potencial de este tipo de manipulación es significativo, tanto en términos reputacionales como económicos. Según datos preliminares de Forrester, un 17% de las organizaciones que han adoptado asistentes basados en LLM han detectado intentos de manipulación en sus despliegues internos durante 2023. Las consecuencias varían desde la recomendación de sitios phishing hasta la desinformación reputacional o el desvío de tráfico hacia infraestructuras controladas por atacantes.

A nivel normativo, la manipulación de LLM podría implicar incumplimientos de GDPR (artículo 25 sobre “Privacy by Design”) y, especialmente para operadores críticos, de la Directiva NIS2 en cuanto a protección de la integridad de los sistemas de información.

—

#### 5. Medidas de Mitigación y Recomendaciones

Las principales recomendaciones técnicas para mitigar este vector emergente incluyen:

– **Validación y filtrado de prompts**: Implementar sistemas de preprocesamiento que detecten y bloqueen instrucciones anómalas o maliciosas en los prompts de usuario.
– **Auditoría de corpus de entrenamiento**: Supervisar la procedencia y calidad de los datos utilizados para entrenar modelos, con especial atención a fuentes abiertas susceptibles de manipulación.
– **Red Teaming específico de LLM**: Realizar ejercicios de pentesting y simulación de ataques dirigidos a modelos de IA, utilizando frameworks como Metasploit o Cobalt Strike adaptados a entornos de LLM.
– **Monitorización continua**: Desplegar sistemas de logging y análisis de respuestas para detectar patrones inusuales, apoyándose en soluciones SIEM y analítica avanzada.
– **Actualización y parcheo regular de modelos**: Mantener los LLM y sus dependencias actualizadas para reducir la exposición a vulnerabilidades conocidas.

—

#### 6. Opinión de Expertos

Ramón Salas, CISO de una multinacional del sector financiero, advierte: “La manipulación de modelos de lenguaje supone un nuevo reto, pues no solo hablamos de infraestructura TI sino de la propia lógica de los sistemas inteligentes. El ciclo de respuesta ante incidentes debe adaptarse y contemplar estos vectores emergentes”.

Por su parte, la analista de amenazas Nuria López, subraya: “La ingeniería de prompts y el data poisoning requieren una visión holística de la seguridad, desde la cadena de suministro digital hasta la monitorización del uso en producción. No es un riesgo menor: puede afectar tanto a la confianza del usuario como a la resiliencia operativa”.

—

#### 7. Implicaciones para Empresas y Usuarios

Las organizaciones que dependan de LLM para procesos críticos deben considerar la manipulación de respuestas como una amenaza real. Los departamentos de IT y seguridad deberán actualizar sus políticas de gestión de riesgos, incorporar controles de seguridad específicos para IA y formar a los usuarios en el reconocimiento de respuestas potencialmente manipuladas.

Para los usuarios finales, el consejo es extremar la cautela ante recomendaciones automáticas y verificar siempre la fuente de la información, especialmente en ámbitos sensibles como salud, finanzas o legal.

—

#### 8. Conclusiones

La manipulación de resultados en modelos de lenguaje es un fenómeno emergente que replica las tácticas del SEO poisoning, pero las traslada al ámbito de la inteligencia artificial generativa. La anticipación y adaptación de los equipos de ciberseguridad será clave para mitigar estos nuevos riesgos, exigiendo controles técnicos, formación continua y una estrecha colaboración con los equipos de desarrollo de IA. En un escenario donde los LLM serán cada vez más ubicuos, la protección de la integridad de sus respuestas es ya una prioridad estratégica.

(Fuente: www.darkreading.com)

AlertaCiberNews

AlertaCiberNews

### Manipulación de Respuestas en LLM: El Nuevo Terreno de Ataque para la Ingeniería de Prompts