¿Cuántos segundos de audio necesita la biometría de voz?

Tiempo de lectura: 5 minutos

“¿Cuánto tiene que hablar el usuario?” Es una de las primeras preguntas cuando se evalúa biometría de voz. La respuesta impacta directamente en la experiencia de usuario y en la viabilidad de la implementación.

La respuesta corta

Operación	Mínimo	Óptimo	Máximo útil
Enrollment	3 segundos	5-10 segundos	30 segundos
Verificación	1 segundo	2-3 segundos	10 segundos

Estos son segundos de voz activa (speech), no duración total del audio.

Voz activa vs duración total

Hay una distinción crucial: lo que importa es el tiempo de voz activa, no la duración total del audio.

Ejemplo:

Audio total: 10 segundos
Silencios y pausas: 4 segundos
Voz activa: 6 segundos

El sistema usa los 6 segundos de voz activa, descartando los silencios.

Voice Activity Detection (VAD) es el proceso que separa los segmentos con voz de los silencios. Un buen VAD mejora significativamente los resultados.

¿Por qué importa la duración?

Más audio = más información

Las características de la voz se extraen de múltiples frames temporales. Más frames = estimación más precisa de las características del hablante.

Retornos decrecientes

La relación no es lineal. Cada segundo adicional aporta menos que el anterior:

Precisión relativa
      │
 100% │                    ___________
      │                ___/
  90% │            ___/
      │        ___/
  80% │    ___/
      │___/
      └────────────────────────────── Segundos
         1   3   5   10  15  20  30

Después de ~10 segundos, agregar más audio aporta mejoras marginales.

Requisitos para Enrollment

El enrollment es el proceso de registrar el voiceprint inicial. Es una operación que ocurre una sola vez por usuario.

Mínimo: 3 segundos de voz activa

Con 3 segundos podés generar un voiceprint funcional. La precisión no será óptima, pero funciona para casos de bajo riesgo.

Cuándo usar el mínimo:

Usuarios que no pueden/quieren hablar más
Enrollment oportunista (capturar lo que hay)
Casos de muy bajo riesgo

Óptimo: 5-10 segundos de voz activa

Este es el sweet spot. Suficiente información para un voiceprint robusto sin ser excesivamente largo.

Por qué 5-10 segundos:

Captura suficiente variabilidad
Buena estimación de características
UX razonable
Precisión cercana al óptimo

Máximo útil: ~30 segundos

Más de 30 segundos de voz activa no mejora significativamente el voiceprint. Los retornos son marginales.

Excepción: En condiciones de audio muy ruidoso o de baja calidad, más audio puede ayudar a compensar.

Requisitos para Verificación

La verificación es comparar audio nuevo contra un voiceprint existente. Es más tolerante a audio corto que el enrollment.

Mínimo: 1 segundo de voz activa

Con 1 segundo de voz activa podés obtener un score de verificación. No es ideal, pero funciona.

Cuándo usar el mínimo:

Verificación pasiva durante conversación
Confirmaciones rápidas
Audio limitado disponible

Óptimo: 2-3 segundos de voz activa

El balance ideal. Suficiente para alta precisión, lo suficientemente corto para buena UX.

Por qué 2-3 segundos:

Alta precisión alcanzable
Latencia total <1 segundo posible
UX excelente
Cubre la mayoría de casos de uso

Más de 5 segundos

Después de 5 segundos, las mejoras son marginales. No tiene sentido pedir más al usuario excepto en casos específicos (verificación de muy alto riesgo con audio ruidoso).

Cómo afecta la duración a la precisión

Datos de referencia con modelo ECAPA-TDNN:

Duración verificación	EER aproximado
1 segundo	2.5-3.5%
2 segundos	1.5-2.0%
3 segundos	1.0-1.5%
5 segundos	0.8-1.2%
10 segundos	0.7-1.0%

Nota: Estos números son orientativos. El EER real depende del modelo, la calidad del audio, y las condiciones de operación.

Factores que afectan los requisitos

Calidad del audio

Audio de mayor calidad necesita menos duración:

Calidad	Duración mínima recomendada
Estudio (48kHz, sin ruido)	2 segundos
Telefónica (8kHz, algo de ruido)	3-5 segundos
VoIP comprimido	4-6 segundos
Muy ruidoso	6-10 segundos

Modelo utilizado

Modelos más modernos son más eficientes:

Modelo	Duración óptima enrollment
x-vector (2018)	10-15 segundos
ECAPA-TDNN (2020)	5-10 segundos
TitaNet (2022)	3-8 segundos

Caso de uso

El riesgo del caso de uso determina cuánta precisión necesitás:

Riesgo	Duración recomendada
Bajo (consulta de saldo)	Mínimo viable
Medio (transacción estándar)	Óptimo
Alto (transacción grande)	Máximo posible

Recomendaciones prácticas

Para Enrollment

Apuntá a 5-10 segundos de voz activa
Si estás en un call center, capturá durante la conversación inicial
Si es una app, pedí al usuario que lea una oración
Validá que tengas suficiente voz activa antes de crear el voiceprint

Para Verificación

Apuntá a 2-3 segundos de voz activa
En call center, capturá los primeros segundos de la llamada
Usá verificación pasiva cuando sea posible
Tené un plan B si el audio es insuficiente

Qué hacer si no hay suficiente audio

Enrollment:
- Pedí al usuario que hable un poco más
- Aceptá enrollment con advertencia de “baja calidad”
- Programá re-enrollment en próxima interacción
Verificación:
- Esperá más audio durante la conversación
- Usá verificación continua
- Complementá con otro factor de autenticación

En Phonomica

Nuestros requisitos:

Operación	Mínimo	Recomendado
Enrollment	3 seg voz activa	5+ seg voz activa
Verificación estándar	1 seg voz activa	2+ seg voz activa
Verificación avanzada (anti-spoof)	1.5 seg voz activa	3+ seg voz activa

La API te devuelve la duración de voz activa detectada, para que puedas decidir si es suficiente para tu caso de uso.

¿Querés probar con tu propio audio? Contactanos y te mostramos cómo funciona con tu audio real.

¿Cuántos segundos de audio necesita la biometría de voz?

¿Cuántos segundos de audio necesita la biometría de voz?

La respuesta corta

Voz activa vs duración total

¿Por qué importa la duración?

Más audio = más información

Retornos decrecientes

Requisitos para Enrollment

Mínimo: 3 segundos de voz activa

Óptimo: 5-10 segundos de voz activa

Máximo útil: ~30 segundos

Requisitos para Verificación

Mínimo: 1 segundo de voz activa

Óptimo: 2-3 segundos de voz activa

Más de 5 segundos

Cómo afecta la duración a la precisión

Factores que afectan los requisitos

Calidad del audio

Modelo utilizado

Caso de uso

Recomendaciones prácticas

Para Enrollment

Para Verificación

Qué hacer si no hay suficiente audio

En Phonomica

Recursos relacionados

Artículos relacionados

Cómo la biometría de voz mejora el NPS

El caso CEO Fraud UK: lecciones de $243K perdidos por deepfake de voz

ECAPA-TDNN vs TitaNet: comparación de modelos de biometría de voz

¿Querés implementar biometría de voz?