Artículo 5 min duración audio biometría segundos enrollment audio mínimo verificación

¿Cuántos segundos de audio necesita la biometría de voz?

¿Cuánto audio necesitás para enrollment y verificación en biometría de voz? Requisitos mínimos, óptimos y cómo afecta la precisión.

P

Phonomica

Equipo de contenido

15 de junio de 2023

Actualizado: 15 de enero de 2025

¿Cuántos segundos de audio necesita la biometría de voz?

Tiempo de lectura: 5 minutos

“¿Cuánto tiene que hablar el usuario?” Es una de las primeras preguntas cuando se evalúa biometría de voz. La respuesta impacta directamente en la experiencia de usuario y en la viabilidad de la implementación.


La respuesta corta

OperaciónMínimoÓptimoMáximo útil
Enrollment3 segundos5-10 segundos30 segundos
Verificación1 segundo2-3 segundos10 segundos

Estos son segundos de voz activa (speech), no duración total del audio.


Voz activa vs duración total

Hay una distinción crucial: lo que importa es el tiempo de voz activa, no la duración total del audio.

Ejemplo:

  • Audio total: 10 segundos
  • Silencios y pausas: 4 segundos
  • Voz activa: 6 segundos

El sistema usa los 6 segundos de voz activa, descartando los silencios.

Voice Activity Detection (VAD) es el proceso que separa los segmentos con voz de los silencios. Un buen VAD mejora significativamente los resultados.


¿Por qué importa la duración?

Más audio = más información

Las características de la voz se extraen de múltiples frames temporales. Más frames = estimación más precisa de las características del hablante.

Retornos decrecientes

La relación no es lineal. Cada segundo adicional aporta menos que el anterior:

Precisión relativa

 100% │                    ___________
      │                ___/
  90% │            ___/
      │        ___/
  80% │    ___/
      │___/
      └────────────────────────────── Segundos
         1   3   5   10  15  20  30

Después de ~10 segundos, agregar más audio aporta mejoras marginales.


Requisitos para Enrollment

El enrollment es el proceso de registrar el voiceprint inicial. Es una operación que ocurre una sola vez por usuario.

Mínimo: 3 segundos de voz activa

Con 3 segundos podés generar un voiceprint funcional. La precisión no será óptima, pero funciona para casos de bajo riesgo.

Cuándo usar el mínimo:

  • Usuarios que no pueden/quieren hablar más
  • Enrollment oportunista (capturar lo que hay)
  • Casos de muy bajo riesgo

Óptimo: 5-10 segundos de voz activa

Este es el sweet spot. Suficiente información para un voiceprint robusto sin ser excesivamente largo.

Por qué 5-10 segundos:

  • Captura suficiente variabilidad
  • Buena estimación de características
  • UX razonable
  • Precisión cercana al óptimo

Máximo útil: ~30 segundos

Más de 30 segundos de voz activa no mejora significativamente el voiceprint. Los retornos son marginales.

Excepción: En condiciones de audio muy ruidoso o de baja calidad, más audio puede ayudar a compensar.


Requisitos para Verificación

La verificación es comparar audio nuevo contra un voiceprint existente. Es más tolerante a audio corto que el enrollment.

Mínimo: 1 segundo de voz activa

Con 1 segundo de voz activa podés obtener un score de verificación. No es ideal, pero funciona.

Cuándo usar el mínimo:

  • Verificación pasiva durante conversación
  • Confirmaciones rápidas
  • Audio limitado disponible

Óptimo: 2-3 segundos de voz activa

El balance ideal. Suficiente para alta precisión, lo suficientemente corto para buena UX.

Por qué 2-3 segundos:

  • Alta precisión alcanzable
  • Latencia total <1 segundo posible
  • UX excelente
  • Cubre la mayoría de casos de uso

Más de 5 segundos

Después de 5 segundos, las mejoras son marginales. No tiene sentido pedir más al usuario excepto en casos específicos (verificación de muy alto riesgo con audio ruidoso).


Cómo afecta la duración a la precisión

Datos de referencia con modelo ECAPA-TDNN:

Duración verificaciónEER aproximado
1 segundo2.5-3.5%
2 segundos1.5-2.0%
3 segundos1.0-1.5%
5 segundos0.8-1.2%
10 segundos0.7-1.0%

Nota: Estos números son orientativos. El EER real depende del modelo, la calidad del audio, y las condiciones de operación.


Factores que afectan los requisitos

Calidad del audio

Audio de mayor calidad necesita menos duración:

CalidadDuración mínima recomendada
Estudio (48kHz, sin ruido)2 segundos
Telefónica (8kHz, algo de ruido)3-5 segundos
VoIP comprimido4-6 segundos
Muy ruidoso6-10 segundos

Modelo utilizado

Modelos más modernos son más eficientes:

ModeloDuración óptima enrollment
x-vector (2018)10-15 segundos
ECAPA-TDNN (2020)5-10 segundos
TitaNet (2022)3-8 segundos

Caso de uso

El riesgo del caso de uso determina cuánta precisión necesitás:

RiesgoDuración recomendada
Bajo (consulta de saldo)Mínimo viable
Medio (transacción estándar)Óptimo
Alto (transacción grande)Máximo posible

Recomendaciones prácticas

Para Enrollment

  1. Apuntá a 5-10 segundos de voz activa
  2. Si estás en un call center, capturá durante la conversación inicial
  3. Si es una app, pedí al usuario que lea una oración
  4. Validá que tengas suficiente voz activa antes de crear el voiceprint

Para Verificación

  1. Apuntá a 2-3 segundos de voz activa
  2. En call center, capturá los primeros segundos de la llamada
  3. Usá verificación pasiva cuando sea posible
  4. Tené un plan B si el audio es insuficiente

Qué hacer si no hay suficiente audio

  1. Enrollment:

    • Pedí al usuario que hable un poco más
    • Aceptá enrollment con advertencia de “baja calidad”
    • Programá re-enrollment en próxima interacción
  2. Verificación:

    • Esperá más audio durante la conversación
    • Usá verificación continua
    • Complementá con otro factor de autenticación

En Phonomica

Nuestros requisitos:

OperaciónMínimoRecomendado
Enrollment3 seg voz activa5+ seg voz activa
Verificación estándar1 seg voz activa2+ seg voz activa
Verificación avanzada (anti-spoof)1.5 seg voz activa3+ seg voz activa

La API te devuelve la duración de voz activa detectada, para que puedas decidir si es suficiente para tu caso de uso.


¿Querés probar con tu propio audio? Contactanos y te mostramos cómo funciona con tu audio real.


Recursos relacionados

¿Querés implementar biometría de voz?

Agendá una demo y descubrí cómo Phonomica puede ayudarte.