Proyecto Leuctra

Un modelo de reconocimiento de voz de alta precisión diseñado íntegramente para entornos enterprise — sin telemetría, sin datos que salgan del perímetro corporativo.

SPEECH-TO-TEXTON-PREMISEMULTIIDIOMAFINE-TUNINGAPI REST
Entregado · Q2 2025· EN PRODUCCIÓN
01 · EL PROBLEMA

La voz es el dato más rico — y el menos aprovechado

Las organizaciones enterprise generan volúmenes masivos de contenido de audio que permanecen completamente inaccesibles para sus sistemas de análisis e inteligencia de negocio. Reuniones de directorio, llamadas de atención al cliente, dictados médicos, audiencias legales, entrevistas de recursos humanos: todo ese conocimiento se graba, se archiva, y muere en un servidor sin que nadie lo procese. La estimación conservadora para una institución financiera mediana es que el 60% de la información estratégica generada internamente nunca llega a un sistema estructurado.

Las soluciones comerciales de reconocimiento de voz presentan un problema estructural que las hace inutilizables en sectores regulados: los datos de audio salen de la infraestructura corporativa para ser procesados en servidores externos. Para la banca, la salud, o cualquier entidad bajo regulación de privacidad de datos —GDPR, HIPAA, Ley Fintech— esto no es una limitación técnica, sino una prohibición legal y una exposición de riesgo que ningún CISO aprueba. Los modelos en la nube, por precisos que sean, simplemente no son una opción.

El segundo problema es la especificidad del dominio. Un modelo de propósito general transcribe 'Basel III' como 'Basil Three', 'SOFR' como 'sofa', y el nombre de un fondo de inversión como un error de ortografía. En un contexto donde una transcripción incorrecta puede derivar en una decisión de inversión errónea o en un incumplimiento regulatorio documentado, la precisión sobre vocabulario especializado no es una característica deseable: es el requisito central.

Fig. 01 — Espectrograma fonético del nombre Leuctra · Representación de la energía por frecuencia de cada fonema
02 · ENFOQUE TÉCNICO

Fine-tuning por cliente, inferencia dentro del perímetro

Leuctra parte de Whisper Large v3 como modelo base, pero la arquitectura de producción es sustancialmente diferente al modelo que OpenAI publica. El sistema implementa adaptadores LoRA (Low-Rank Adaptation) específicos por cliente, entrenados exclusivamente sobre corpus propietario que nunca abandona la infraestructura del cliente. Esto permite que cada instancia de Leuctra desarrolle un vocabulario especializado, una sensibilidad acústica adaptada al entorno de grabación real, y tolerancia a los patrones de habla de los usuarios específicos de esa organización.

El pipeline de preprocesamiento incluye detección de actividad de voz con Silero VAD para eliminar silencios y ruido de fondo antes de la inferencia, normalización de audio con librosa para estandarizar niveles de ganancia entre diferentes dispositivos de grabación, y separación de hablantes mediante diarización cuando el audio proviene de conversaciones con múltiples participantes. Cada uno de estos pasos opera localmente, sin dependencias externas.

El postprocesamiento es donde Leuctra hace su mayor diferenciación sobre Whisper base. Un modelo de lenguaje ligero ONNX —aproximadamente 80M de parámetros— toma la transcripción cruda y aplica puntuación contextual, capitalización de entidades nombradas específicas del dominio, y corrección de terminología especializada mediante un diccionario actualizable sin reentrenamiento del modelo principal. La latencia añadida por este paso es de aproximadamente 12ms por cada 30 segundos de audio.

El modo de operación en tiempo real utiliza WebSockets para streaming de audio PCM desde el cliente, con transcripción incremental que emite resultados parciales cada 200ms y resultados confirmados cuando el modelo detecta el final de un segmento de habla. La latencia de primer token —el tiempo desde que el usuario termina de hablar hasta que aparece la primera palabra transcrita— es consistentemente inferior a los 100ms en hardware de producción estándar (NVIDIA T4 o superior).

03 · MÉTRICAS DE PRODUCCIÓN

Noventa días en producción con tres instituciones

El despliegue en producción comenzó con una institución bancaria de primer nivel en México, con expansión posterior a dos firmas de gestión de activos en Colombia y Chile. Los tres entornos presentan características de audio, vocabulario y carga diferentes, lo que permite una evaluación comparativa robusta del modelo base frente a las instancias fine-tuneadas por cliente.

4.2%
WER en vocabulario financiero especializado
98ms
Latencia de primer token (P95)
800h
Horas de audio procesadas mensualmente
99.97%
Disponibilidad en producción (30 días)

La tasa de error de palabras del 4.2% en vocabulario especializado representa una mejora del 61% sobre Whisper Large v3 base en el mismo corpus de evaluación. El benchmark se ejecuta semanalmente sobre un conjunto de 120 horas de audio anotado manualmente por lingüistas especializados en terminología financiera en español rioplatense, mexicano y andino.

La disponibilidad del 99.97% equivale a menos de 2.6 horas de inactividad en un año. El sistema implementa un mecanismo de fallback automático a un modelo de menor tamaño (Whisper Medium fine-tuneado) cuando el hardware principal detecta sobrecarga, garantizando continuidad de servicio con degradación controlada de precisión en lugar de indisponibilidad total.

04 · ARQUITECTURA DEL SISTEMA

Un pipeline diseñado para sobrevivir a la infraestructura del cliente

El diseño arquitectónico de Leuctra parte de una premisa operacional que la mayoría de los proyectos de IA ignoran: la infraestructura del cliente no será ideal. Habrá hardware heterogéneo, versiones de CUDA desactualizadas, restricciones de red internas, y procesos de change management que hacen imposible una actualización de sistema operativo en menos de seis meses. El sistema debe funcionar correctamente dentro de esas restricciones, no a pesar de ellas.

La distribución es un contenedor Docker con soporte certificado para NVIDIA CUDA 11.8, 12.0 y 12.1, con fallback a CPU para organizaciones sin GPU disponible. En modo CPU, el sistema utiliza cuantización INT8 del modelo para mantener latencias aceptables (aproximadamente 3x mayor que en GPU) sin cambios en la interfaz de la API. El despliegue en Kubernetes incluye manifiestos de Helm preconfigurados para autoscaling basado en longitud de cola de transcripción.

La API expone tres modos de operación: transcripción síncrona para fragmentos cortos (hasta 30 segundos, respuesta en la misma request), transcripción asíncrona con webhook para archivos extensos (hasta 4 horas de audio por job), y streaming bidireccional vía WebSocket para casos de uso en tiempo real. Los tres modos comparten el mismo modelo subyacente y producen resultados idénticos para el mismo audio de entrada.

05 · STACK Y DEPENDENCIAS

Tecnología elegida por su madurez, no por su novedad

El criterio central de selección tecnológica en Leuctra fue la estabilidad del ecosistema. Cada componente del stack tiene más de tres años de madurez en producción, documentación exhaustiva, y comunidades activas de soporte. En un sistema que va a operar en infraestructura enterprise sin acceso directo a internet, la capacidad de resolver problemas con documentación local y sin dependencias de servicios externos de soporte no es un nice-to-have: es un requisito de operación.

El modelo base Whisper Large v3 pesa aproximadamente 3GB en precisión FP16. Los adaptadores LoRA por cliente añaden entre 40MB y 120MB dependiendo del rango de adaptación configurado. El modelo de postprocesamiento ONNX añade 320MB adicionales. El contenedor completo en modo producción ocupa 8.4GB, incluyendo el runtime de CUDA y todas las dependencias del sistema.

El proceso de fine-tuning de un nuevo cliente requiere entre 8 y 40 horas de audio anotado para producir una mejora estadísticamente significativa sobre el modelo base. El training se ejecuta localmente en la infraestructura del cliente con un script de configuración que Teshalia entrega documentado. La curva de aprendizaje es logarítmica: las primeras 10 horas de datos producen el 80% de la mejora total; las 30 horas adicionales refinan los casos extremos del vocabulario específico.

MODELO Y PROCESAMIENTO DE AUDIO
Python 3.11PyTorch 2.2Whisper Large v3PEFT / LoRASilero VADlibrosaONNX Runtimefaster-whisperctranslate2
INFRAESTRUCTURA Y API
FastAPIWebSocketsDockerNVIDIA CUDA 12.xKubernetesHelmRedisPostgreSQLPrometheusGrafana