Artículo 7 min ECAPA-TDNN TitaNet modelos biometría voz

ECAPA-TDNN vs TitaNet: comparación de modelos de biometría de voz

Comparación técnica entre ECAPA-TDNN y TitaNet, los dos modelos más usados en biometría de voz. Cuál elegir según tu caso de uso.

P

Phonomica

Equipo de contenido

8 de agosto de 2023

Actualizado: 15 de enero de 2025

ECAPA-TDNN vs TitaNet: comparación de modelos de biometría de voz

Tiempo de lectura: 7 minutos

Si estás evaluando o implementando biometría de voz, probablemente te encontraste con estos dos nombres: ECAPA-TDNN y TitaNet. Son los modelos dominantes en la industria, y entender sus diferencias te ayuda a elegir el correcto para tu caso de uso.


Overview rápido

AspectoECAPA-TDNNTitaNet
DesarrolladorSpeechBrain (2020)NVIDIA (2022)
EER (VoxCeleb)0.87%0.68% (TitaNet-L)
Parámetros~22M6M-25M (según variante)
DisponibilidadSpeechBrain, NeMoNVIDIA NeMo
LicenciaOpen sourceOpen source
MadurezMuy altaAlta
Adopción industria~60%~30%

ECAPA-TDNN: El estándar de la industria

ECAPA-TDNN (Emphasized Channel Attention, Propagation and Aggregation - Time Delay Neural Network) fue desarrollado por los investigadores de SpeechBrain y publicado en 2020.

Arquitectura

ECAPA-TDNN combina varias innovaciones:

  1. SE-Res2Net blocks: Squeeze-and-Excitation combinado con Res2Net para capturar información multi-escala
  2. Channel attention: Atención a nivel de canal para enfocarse en características discriminativas
  3. Aggregation: Combina información de múltiples capas
  4. Statistics pooling: Captura media y desviación estándar temporal

Fortalezas

  • Madurez: Años de uso en producción, comportamiento bien entendido
  • Robustez: Muy estable en diferentes condiciones
  • Ecosystem: Implementaciones en múltiples frameworks
  • Documentación: Extensa documentación y papers
  • Community: Gran comunidad de usuarios

Debilidades

  • Precisión: Ligeramente inferior a modelos más recientes
  • Innovación: Arquitectura de 2020, no incorpora avances recientes
  • Tamaño fijo: 22M parámetros, sin variantes más pequeñas oficiales

TitaNet: La nueva generación

TitaNet fue desarrollado por NVIDIA y publicado en 2022. Es una familia de modelos optimizados para speaker recognition.

Arquitectura

TitaNet usa una arquitectura diferente:

  1. QuartzNet blocks: Bloques 1D convolucionales optimizados
  2. Squeeze-and-Excitation: Similar a ECAPA pero con diferente aplicación
  3. Attentive statistics pooling: Pooling con mecanismo de atención
  4. Variantes de tamaño: Small, Medium, Large

Variantes

VarianteParámetrosEER (VoxCeleb)
TitaNet-S6M1.2%
TitaNet-M13M0.87%
TitaNet-L25M0.68%

Fortalezas

  • Precisión: State-of-the-art en benchmarks
  • Flexibilidad: Variantes para diferentes constraints
  • Edge deployment: TitaNet-S es viable para móviles
  • Optimización: NVIDIA optimizó para inference eficiente
  • Integración: Excelente integración con NeMo toolkit

Debilidades

  • Madurez: Más nuevo, menos años en producción
  • Ecosystem: Principalmente NVIDIA NeMo
  • Vendor dependency: Aunque es open source, el ecosystem está centrado en NVIDIA

Comparación de métricas

Precisión (EER en VoxCeleb)

ModeloEER-OEER-EEER-H
ECAPA-TDNN0.87%1.01%1.80%
TitaNet-S1.20%1.35%2.50%
TitaNet-M0.87%1.00%1.78%
TitaNet-L0.68%0.78%1.45%

EER-O: Original, EER-E: Extended, EER-H: Hard (más desafiante)

Takeaway: TitaNet-L es más preciso, TitaNet-M es equivalente a ECAPA-TDNN, TitaNet-S sacrifica precisión por tamaño.

Latencia (inference)

Medido en GPU NVIDIA T4:

ModeloLatencia (audio 3s)
ECAPA-TDNN~100ms
TitaNet-S~40ms
TitaNet-M~70ms
TitaNet-L~110ms

Takeaway: TitaNet-S es significativamente más rápido, útil para high-throughput o edge.

Tamaño del modelo

ModeloParámetrosTamaño en disco
ECAPA-TDNN22M~85MB
TitaNet-S6M~25MB
TitaNet-M13M~50MB
TitaNet-L25M~95MB

Takeaway: TitaNet-S es viable para deployment on-device.


¿Cuál elegir?

Elegí ECAPA-TDNN si:

  1. Preferís madurez sobre bleeding-edge: ECAPA tiene años de uso en producción
  2. Usás frameworks diversos: Implementaciones en PyTorch, TensorFlow, SpeechBrain, etc.
  3. Necesitás comportamiento predecible: Muy documentado y estudiado
  4. Tu equipo ya lo conoce: Curva de aprendizaje menor si ya tenés experiencia

Elegí TitaNet-L si:

  1. Necesitás máxima precisión: State-of-the-art en benchmarks
  2. Usás NVIDIA NeMo: Integración nativa y optimizada
  3. Tenés GPUs NVIDIA: Mejor optimización
  4. El tamaño del modelo no es constraint: ~25M parámetros

Elegí TitaNet-S si:

  1. Deployment on-device/edge: 6M parámetros es viable para móviles
  2. Necesitás muy alta throughput: 2.5x más rápido que ECAPA
  3. La precisión puede ser ligeramente menor: 1.2% EER vs 0.87%
  4. Recursos computacionales limitados

Elegí TitaNet-M si:

  1. Querés balance: Precisión similar a ECAPA, más rápido
  2. Usás NVIDIA ecosystem: Mejor integración
  3. Querés modernidad sin sacrificar estabilidad

Más allá de ECAPA y TitaNet

Estos no son los únicos modelos. Otros relevantes:

WavLM + ECAPA (research)

Combina el foundation model WavLM con un head ECAPA. Alcanza EER de ~0.4% pero requiere modelo foundation de ~300M parámetros.

ResNet-based (WeSpeaker)

Modelos basados en ResNet que alcanzan precisión comparable. Alternativa si preferís arquitecturas CNN tradicionales.

x-vector (legacy)

El estándar anterior a ECAPA. EER de ~2%. Todavía usado en sistemas legacy pero no recomendado para nuevas implementaciones.


En Phonomica

Usamos un modelo propietario basado en arquitectura ECAPA con modificaciones específicas para nuestros casos de uso:

  1. Optimizado para audio telefónico: Mejor performance con codecs 8kHz
  2. Fine-tuned en voces LATAM: Mejor precisión para acentos regionales
  3. Integrado con anti-spoofing: Arquitectura diseñada para funcionar junto con detección de deepfake

Esto nos permite alcanzar EER de ~0.7% en producción (no laboratorio), que es significativamente mejor que modelos base sin fine-tuning específico.


Recomendación final

Para la mayoría de implementaciones nuevas en 2024+:

CasoRecomendación
Producción generalECAPA-TDNN o TitaNet-M
Máxima precisiónTitaNet-L
Edge/mobileTitaNet-S
Legacy/conservadorECAPA-TDNN

Dicho esto, el modelo es solo una parte de la ecuación. El fine-tuning, la calidad del audio, el anti-spoofing, y la configuración del threshold tienen tanto o más impacto que la elección del modelo base.


¿Querés ver estos modelos en acción? Agendá una demo y te mostramos las diferencias en tu audio real.


Recursos relacionados

¿Querés implementar biometría de voz?

Agendá una demo y descubrí cómo Phonomica puede ayudarte.