5 tipos de ataques a sistemas de biometría de voz
Los 5 tipos principales de ataques a sistemas de biometría de voz: replay, deepfake, voice conversion, síntesis y ataques físicos. Cómo funcionan y cómo defenderse.
Phonomica
Equipo de contenido
12 de marzo de 2024
Actualizado: 15 de enero de 2025
5 tipos de ataques a sistemas de biometría de voz
Tiempo de lectura: 6 minutos
La biometría de voz es una defensa efectiva, pero no es impenetrable. Entender los tipos de ataques que existen te ayuda a elegir las defensas correctas y configurar tu sistema adecuadamente.
Estos son los 5 tipos principales de ataques que enfrentan los sistemas de biometría de voz.
1. Replay Attack (Ataque de Reproducción)
Qué es
El atacante reproduce una grabación de la voz de la víctima para engañar al sistema.
Cómo funciona
- El atacante obtiene una grabación de la víctima (llamada anterior, voicemail, video público)
- Reproduce la grabación durante la autenticación
- El sistema escucha la voz “correcta” y acepta
Por qué es peligroso
- Muy fácil de ejecutar: No requiere conocimiento técnico
- Audio abundante: Voicemails, videos de redes sociales, grabaciones de call centers
- Bajo costo: Solo necesitás un dispositivo para reproducir
Prevalencia
~40% de los ataques a sistemas de biometría de voz son replay attacks.
Cómo detectar
- Artefactos de reproducción: El audio reproducido tiene características de ambiente diferentes
- Análisis de canal: El audio grabado y reproducido muestra patrones de compresión
- Variabilidad: El audio reproducido es idéntico cada vez; voz real tiene micro-variaciones
Efectividad de detección
Los sistemas anti-spoofing modernos detectan replay attacks con >97% de efectividad.
2. Deepfake de Voz (Text-to-Speech Clonado)
Qué es
Audio generado por IA que imita la voz de la víctima, diciendo cualquier texto que el atacante quiera.
Cómo funciona
- El atacante obtiene samples de la voz de la víctima (3-60 segundos)
- Usa una herramienta de clonación (ElevenLabs, OpenVoice, etc.)
- Genera audio con cualquier texto usando la voz clonada
- Usa el audio generado para autenticarse
Por qué es peligroso
- Alta calidad: Las herramientas modernas generan audio muy convincente
- Flexible: Puede decir cualquier cosa (útil para autenticación dinámica)
- Accesible: Herramientas disponibles desde $5/mes
Prevalencia
~35% de los ataques sofisticados usan deepfakes de voz. Creciendo rápido.
Cómo detectar
- Artefactos de vocoder: Los generadores dejan patrones sutiles en el espectro
- Falta de naturalidad: Respiración, pausas, micro-variaciones menos naturales
- Patrones de la herramienta: Cada tool tiene su “firma”
Efectividad de detección
Con anti-spoofing adaptativo: 92-98% de detección. Sin anti-spoofing: <50%.
3. Voice Conversion (Conversión de Voz)
Qué es
El atacante habla con su propia voz, pero un sistema la transforma en tiempo real para sonar como la víctima.
Cómo funciona
- El atacante entrena un modelo de conversión con audio de la víctima
- Durante la llamada, habla normalmente
- El software convierte su voz a la voz de la víctima en tiempo real
- El sistema de biometría escucha “la voz de la víctima”
Por qué es peligroso
- Tiempo real: Puede mantener una conversación, responder preguntas
- Más natural: Tiene variabilidad humana real (respiración, pausas)
- Difícil de distinguir: Combina elementos de voz real con características de la víctima
Prevalencia
~15% de los ataques, pero creciendo muy rápido con herramientas como RVC.
Cómo detectar
- Inconsistencias en formantes: La conversión no es perfecta
- Artefactos de procesamiento: Latencia, glitches, transiciones
- Análisis de características: Algunas características del hablante original persisten
Efectividad de detección
Con anti-spoofing adaptativo: 85-95% de detección. Es el tipo más difícil de detectar.
4. Síntesis TTS (Text-to-Speech Genérico)
Qué es
Usar un sistema de text-to-speech genérico (no clonado) para generar audio que pase la autenticación.
Cómo funciona
- El atacante obtiene acceso a las credenciales de la víctima
- Intenta usar TTS genérico esperando que el sistema tenga baja precisión
- Si el threshold está muy bajo o el sistema es malo, puede pasar
Por qué es (menos) peligroso
- Voz diferente: No suena como la víctima específica
- Fácilmente detectable: Voces TTS genéricas son muy detectables
Prevalencia
<5% de los ataques. Solo funciona contra sistemas muy pobres.
Cómo detectar
- No match de voiceprint: La voz no coincide con el enrollment
- Características de TTS: Voces sintéticas genéricas son muy detectables
Efectividad de detección
99% si el sistema tiene anti-spoofing básico.
5. Ataques Físicos/Híbridos
Qué es
Ataques que combinan elementos físicos o sociales con elementos técnicos.
Ejemplos
Coerción física:
- Forzar a la víctima a autenticarse
- Grabar a la víctima sin su conocimiento para usar después
Social engineering + técnico:
- Llamar a la víctima, grabarla, usar esa grabación
- Manipular al agente del call center para que ignore alertas
Man-in-the-middle:
- Interceptar una llamada legítima
- Usar el audio de la víctima en tiempo real para otra autenticación
Por qué es peligroso
- Elude defensas técnicas: Si la víctima realmente habla, es su voz real
- Difícil de detectar: El audio es genuino
Prevalencia
Difícil de medir. Probablemente <5% pero puede ser muy costoso cuando ocurre.
Cómo detectar
- Análisis de stress/coerción: Detectar indicadores de que el hablante está bajo presión
- Verificación contextual: ¿Tiene sentido esta transacción? ¿Desde dónde?
- Capacitación de agentes: Reconocer situaciones sospechosas
Efectividad de detección
Variable. Requiere defensa en capas, no solo técnica.
Resumen: Matriz de amenazas
| Ataque | Prevalencia | Sofisticación | Detección |
|---|---|---|---|
| Replay | 40% | Baja | Muy alta (>97%) |
| Deepfake | 35% | Media | Alta (92-98%) |
| Voice conversion | 15% | Alta | Media-Alta (85-95%) |
| TTS genérico | <5% | Muy baja | Muy alta (>99%) |
| Físico/híbrido | <5% | Variable | Requiere multicapa |
Cómo protegerse
Mínimo viable
- Anti-spoofing de replay: Detecta reproducciones de grabaciones
- Threshold adecuado: Ni muy permisivo ni muy restrictivo
Recomendado
- Anti-spoofing adaptativo: Se actualiza para detectar nuevas herramientas
- Detección de deepfake: Específicamente entrenado para voces sintéticas
- Verificación continua: No solo al inicio, durante la conversación
Óptimo
- Defensa multicapa: Audio + behavioral + contextual
- Actualización continua: Modelos actualizados frecuentemente
- Monitoreo de transacciones: Detectar patrones anómalos
- Capacitación de agentes: Primera línea de defensa humana
¿Querés evaluar tu vulnerabilidad a estos ataques? Contactanos para una evaluación de seguridad.
Recursos relacionados
Artículos relacionados
Cómo la biometría de voz mejora el NPS
La biometría de voz mejora el NPS en +40-60 puntos vs autenticación tradicional. Análisis de por qué y cómo medirlo.
ArtículoEl caso CEO Fraud UK: lecciones de $243K perdidos por deepfake de voz
Análisis del caso CEO Fraud UK de 2019: cómo un deepfake de voz costó $243K a una empresa energética y qué lecciones podemos aprender.
ArtículoECAPA-TDNN vs TitaNet: comparación de modelos de biometría de voz
Comparación técnica entre ECAPA-TDNN y TitaNet, los dos modelos más usados en biometría de voz. Cuál elegir según tu caso de uso.
¿Querés implementar biometría de voz?
Agendá una demo y descubrí cómo Phonomica puede ayudarte.