AlertaCiberNews

Noticias de ciber seguridad

AlertaCiberNews

Noticias de ciber seguridad

Empresas

### Tres empresas chinas de IA perpetran campañas masivas para extraer capacidades del LLM Claude

#### Introducción

El pasado lunes, Anthropic, uno de los principales actores en el desarrollo de modelos de lenguaje de gran escala (LLM), denunció haber detectado campañas de extracción no autorizada dirigidas a su modelo Claude. Las operaciones, catalogadas como “de escala industrial”, habrían sido orquestadas por tres empresas chinas de inteligencia artificial: DeepSeek, Moonshot AI y MiniMax. El objetivo: extraer y destilar capacidades de Claude para mejorar sus propios modelos, vulnerando las condiciones de uso de Anthropic e introduciendo riesgos significativos para la seguridad y la propiedad intelectual en el sector IA.

#### Contexto del Incidente

La explotación de modelos LLM a través de distillation attacks no es nueva, pero la escala y sistematicidad de estas campañas resulta especialmente relevante. Entre los principales implicados se encuentran DeepSeek, Moonshot AI y MiniMax, empresas emergentes chinas que compiten en el desarrollo de IA generativa. Según Anthropic, las campañas generaron más de 16 millones de interacciones con Claude, utilizando cerca de 24.000 cuentas fraudulentas creadas específicamente para este propósito.

La finalidad de estos ataques es doble: por un lado, replicar las capacidades lingüísticas y de razonamiento de modelos avanzados; por otro, acelerar el entrenamiento de sus propios LLMs reduciendo el coste computacional y de datos que implica el desarrollo desde cero. Esta práctica, además de suponer una violación contractual, puede tener profundas repercusiones en términos de competencia desleal y fuga de propiedad intelectual.

#### Detalles Técnicos: Vectores de Ataque y Tácticas

El ataque identificado por Anthropic se clasifica como un caso de “modelo distillation”, técnica que puede asociarse al subvector de ataque “Theft of Proprietary Models” descrito en MITRE ATT&CK para Machine Learning. Los atacantes automatizaron consultas masivas al modelo Claude, interaccionando mediante APIs y cuentas fraudulentas para obtener respuestas a prompts diseñados específicamente para maximizar la transferencia de conocimientos.

El proceso técnico se desglosa en varias etapas:

– **Automatización del scraping:** Utilización de scripts y bots para realizar consultas sistemáticas y coordinadas, simulando actividad humana.
– **Creación de cuentas fraudulentas:** Aproximadamente 24.000 cuentas creadas con identidades ficticias o robadas, para eludir los límites de uso y las restricciones de Anthropic.
– **Extracción de datos y respuestas:** Generación de más de 16 millones de interacciones, cuyas respuestas fueron utilizadas como corpus para entrenar modelos propios.
– **Destilación del conocimiento:** Aplicación de frameworks como PyTorch y TensorFlow para destilar el “conocimiento” de Claude en modelos más pequeños y eficientes, proceso conocido como “knowledge distillation”.
– **Evasión de detección:** Uso de proxies, VPNs y rotación de IPs para dificultar la atribución y el bloqueo automatizado.

Si bien no se ha confirmado el uso de herramientas específicas como Metasploit o Cobalt Strike, la metodología demuestra un alto grado de sofisticación y recursos.

#### Impacto y Riesgos

El impacto de estas campañas trasciende la simple pérdida de propiedad intelectual. Al replicar y destilar capacidades avanzadas de Claude, las empresas atacantes pueden acelerar el desarrollo de LLMs competitivos, erosionando ventajas diferenciales de Anthropic. A nivel sectorial, este tipo de incidentes puede desencadenar:

– **Pérdida de valor competitivo** para proveedores de LLM.
– **Riesgos para la privacidad y el cumplimiento regulatorio** (GDPR, NIS2), especialmente si se extraen o manipulan datos sensibles.
– **Incremento de amenazas de supply chain**, al proliferar modelos derivados no auditados ni controlados.
– **Desconfianza en la integridad de los modelos y APIs expuestos al público**.

#### Medidas de Mitigación y Recomendaciones

Anthropic ha reforzado sus mecanismos de defensa tras el incidente, implementando medidas como:

– **Monitorización avanzada de patrones de uso** y detección de automatización sospechosa.
– **Límites más estrictos en la creación y uso de cuentas**.
– **Técnicas de watermarking y fingerprinting** en las respuestas del modelo.
– **Cierre y seguimiento forense de cuentas fraudulentas**.
– **Colaboración con proveedores de identidad y entes regulatorios** para mitigar el abuso.

Se recomienda a proveedores de LLM y plataformas basadas en IA:

– Implementar sistemas de autenticación robusta y verificación de identidad.
– Establecer límites adaptativos y alertas sobre patrones de consumo anómalos.
– Adoptar tecnologías de watermarking de texto generado para rastrear fugas.
– Revisar los términos de uso y fortalecer las cláusulas legales relativas a la extracción y uso indebido de datos.
– Colaborar con el sector y las autoridades en la creación de estándares anti-abuso.

#### Opinión de Expertos

Expertos en ciberseguridad y protección de modelos de IA, como los analistas de Mandiant y SANS Institute, advierten que estos incidentes son solo la punta del iceberg en la carrera por la supremacía de la IA. El profesor José María de la Torre, de la Universidad Politécnica de Madrid, señala: “La protección de modelos LLM frente a ataques de extracción debe abordarse con una combinación de técnicas técnicas, legales y organizativas, anticipando que la sofisticación de los actores irá en aumento”.

#### Implicaciones para Empresas y Usuarios

Las empresas que integran modelos de IA o los ofrecen como servicio deben ser proactivas en la defensa de su propiedad intelectual y el cumplimiento de la normativa europea vigente (GDPR, NIS2). La exposición a ataques de scraping masivo puede implicar sanciones regulatorias, pérdida de confianza de clientes y, a largo plazo, erosión de la ventaja competitiva. Los usuarios, por su parte, deben ser conscientes de los riesgos inherentes a la proliferación de modelos no auditados derivados de prácticas ilícitas.

#### Conclusiones

El caso Anthropic revela una tendencia preocupante en el sector de la IA: la sofisticación y escala de los ataques de extracción de capacidades LLM, impulsados por la competición global. La defensa de la propiedad intelectual y la integridad de los modelos requiere un enfoque holístico, combinando tecnología, regulación y colaboración sectorial para frenar una amenaza que solo irá en aumento.

(Fuente: feeds.feedburner.com)