Los ciberdelincuentes perfeccionan el fraude bancario en España mediante clonación de voz por IA

08/04/2026 admin

Introducción

La evolución de las amenazas en el ámbito de la ciberseguridad ha experimentado un salto cualitativo con la irrupción de la inteligencia artificial generativa. En 2026, el Instituto Nacional de Ciberseguridad (INCIBE) ha advertido sobre un preocupante repunte de fraudes bancarios basados en la clonación de voz sintética, dirigidos tanto a empresas como a particulares en España. Este fenómeno se suma a la sofisticación de otras técnicas de ingeniería social, como el smishing, complicando la labor de defensa de los equipos de seguridad y de los usuarios. Mientras la Comisión Nacional de los Mercados y la Competencia (CNMC) prepara el bloqueo de SMS con remitentes falsos a partir de junio, la manipulación de identidad mediante voz sintética representa un vector de ataque aún más difícil de atajar.

Contexto del Incidente o Vulnerabilidad

Durante los últimos meses, INCIBE ha documentado decenas de incidentes en los que tanto directivos de empresas como familias han sido objeto de fraudes bancarios en los que el factor diferencial es la utilización de voces clonadas mediante IA. Estos ataques suelen comenzar con una campaña de smishing: el objetivo recibe un SMS que simula proceder de su entidad financiera, incluyendo el nombre comercial legítimo en el remitente, técnica conocida como spoofing de SMS. Sin embargo, lo novedoso es el siguiente paso: la víctima recibe una llamada de voz en la que el interlocutor utiliza una voz sintética casi indistinguible, replicando patrones, acentos e incluso expresiones de alguien conocido, como un gestor bancario o incluso un familiar.

El empleo de inteligencia artificial generativa para crear deepfakes de voz ha reducido drásticamente la barrera técnica y económica para los ciberdelincuentes. Basta con disponer de grabaciones públicas o privadas de apenas unos segundos para alimentar modelos de síntesis de voz, ampliamente disponibles como servicios en la nube o en foros clandestinos.

Detalles Técnicos

Las campañas detectadas hacen uso de herramientas de clonación de voz basadas en modelos de deep learning, como Descript Overdub, ElevenLabs o soluciones customizadas entrenadas sobre frameworks open source (por ejemplo, Coqui TTS, Tacotron 2 o VITS). En entornos maliciosos, se ha reportado el uso de scripts automatizados capaces de integrar la voz generada en llamadas VoIP, a menudo lanzadas desde infraestructuras de telefonía deslocalizadas y difíciles de rastrear.

El vector inicial suele ser un SMS fraudulento (smishing), que aprovecha vulnerabilidades en la gestión de remitentes alfanuméricos en redes móviles españolas, aún no mitigadas del todo pese a los esfuerzos regulatorios. El ataque suele continuar con una llamada telefónica en la que la voz clonada solicita a la víctima credenciales de acceso, códigos OTP o confirma transferencias.

Según la taxonomía MITRE ATT&CK, estos incidentes combinan técnicas como Phishing (T1566), Voice Phishing (Vishing, T1204.002), y Spearphishing via Service (T1566.003), junto a la manipulación de canales de comunicación (T1071.001). Los Indicadores de Compromiso (IoC) más relevantes son números de teléfono VoIP asociados a campañas previas, patrones de voz sintética y textos de SMS repetidos en distintos incidentes.

En cuanto a versiones afectadas, no existe una limitación técnica: cualquier usuario con cuenta bancaria y exposición pública de su voz (redes sociales, llamadas grabadas, mensajes de voz) es potencial objetivo. No se requiere la explotación de vulnerabilidades tradicionales de software; el ataque se basa en ingeniería social potenciada por IA.

Impacto y Riesgos

El impacto potencial de esta amenaza es significativo. Según estimaciones de INCIBE y la Asociación Española de Banca, el 17% de los fraudes bancarios telefónicos en 2026 han implicado algún componente de voz sintética. Se han reportado pérdidas económicas de entre 2.000 y 50.000 euros por incidente, con transferencias fraudulentas realizadas en cuestión de minutos.

Para empresas, el riesgo se amplifica en escenarios de Business Email Compromise (BEC) y fraude al CEO, donde los atacantes utilizan la voz clonada de directivos para ordenar transferencias urgentes al departamento financiero. Esto complica la trazabilidad y la autenticación habitual basada en reconocimiento de voz, y aumenta la superficie de ataque a sistemas críticos.

Medidas de Mitigación y Recomendaciones

La inminente entrada en vigor del bloqueo de SMS con remitentes falsos por parte de la CNMC (junio de 2026) reducirá la prevalencia del smishing, pero no afecta al canal de voz. Se recomienda:

– Implementar autenticación multifactor (MFA) robusta en todas las operaciones bancarias, evitando la entrega de códigos OTP por teléfono.
– Sensibilización periódica a empleados y usuarios sobre el auge de la clonación de voz y la necesidad de verificar llamadas inusuales, incluso si la voz parece familiar.
– Establecimiento de contraseñas o frases de seguridad para autenticaciones críticas.
– Monitorización de patrones anómalos en transferencias y accesos, aplicando soluciones de Fraud Detection basadas en IA.
– Colaboración con operadores para rastrear y bloquear números de VoIP sospechosos.
– Revisión de la exposición de muestras de voz en canales públicos.

Opinión de Expertos

Expertos consultados por CyberSecurity News subrayan que la frontera entre el fraude tradicional y el potenciado por IA es cada vez más difusa. Carlos González, CISO de una entidad bancaria nacional, advierte: “La capacidad de generar voces indistinguibles de las reales plantea retos inéditos para los protocolos de autenticación. Debemos asumir que la voz ya no es un factor fiable por sí sola”.

Desde el ámbito legal, se recuerda que el GDPR y la próxima directiva NIS2 obligan a las organizaciones a proteger los datos biométricos, incluida la voz, bajo el paraguas de datos personales sensibles.

Implicaciones para Empresas y Usuarios

Las empresas deben revisar sus políticas de autenticación y formación, así como reforzar los procedimientos internos para autorizaciones financieras. Los usuarios particulares deben extremar las precauciones ante llamadas inesperadas, y nunca compartir credenciales ni códigos de verificación por teléfono, incluso si la voz parece legítima.

Conclusiones

El fraude bancario mediante clonación de voz por inteligencia artificial representa un salto cualitativo en el arsenal de los ciberdelincuentes. La combinación de smishing y vishing con deepfakes de voz desafía las estrategias defensivas tradicionales y requiere una respuesta coordinada entre sector financiero, operadores y organismos reguladores. La concienciación, la autenticación multifactor y la vigilancia activa serán clave para mitigar estos riesgos emergentes en el ecosistema digital español.

(Fuente: www.cybersecuritynews.es)

AlertaCiberNews

AlertaCiberNews

Los ciberdelincuentes perfeccionan el fraude bancario en España mediante clonación de voz por IA