Victoria: La primera voz sintética para noticias deportivas en español

“Victoria, la voz del fútbol” es un proyecto pionero desarrollado por Monoceros Labs para PRISA Media (Cadena SER y AS) que representa un hito en la creación de contenido sintético en español. Victoria es una voz sintética de marca, cuya identidad ha sido generada por Inteligencia Artificial, que narra noticias deportivas, y permite a los usuarios interactuar a través de Alexa para obtener información actualizada sobre sus equipos favoritos.

Proceso de creación de una voz sintética de marca, generada por IA

El desafío

El proyecto planteaba varios retos técnicos y creativos:

Diseñar una voz sintética única que no identificara a ninguna persona real.
Desarrollar diferentes estilos de prosodia para distintos contextos (conversacional y narración de noticias).
Mantener la calidad y naturalidad de la voz en diferentes escenarios de uso.
Integrar la tecnología con múltiples plataformas (Amazon Alexa, web, radio).

Nuestra solución

Diseño y desarrollo de la voz sintética

El proceso de creación de la voz de Victoria involucró una metodología innovadora y minuciosa:

Definición de personalidad: Trabajamos junto a los equipos de PRISA para definir los rasgos de personalidad y características de la voz deseada.
Grabación y preparación de datos:
- Más de 12 horas de grabación en estudio.
- Más de 4,200 frases diseñadas específicamente.
- 4 horas de audio limpio tras el procesamiento.
- Semanas de revisión fonética y preparación de datos.
Entrenamiento del modelo de síntesis de voz (TTS) avanzado:
- Utilizamos tecnología propia, que incluye métodos generativos como redes GAN.
- El modelo realizó más de 350,000 iteraciones de aprendizaje.
- Se necesitaron 6 días de entrenamiento para obtener el modelo final.
- Se experimentó con diferentes configuraciones de los rasgos de la voz y estilos de prosodia.
Personalización y optimización:
- Dos estilos de prosodia diferentes (conversacional y noticias).
- Diccionario fonético con más de 3,000 términos deportivos, incluyendo nombres de jugadores, estadios deportivos y ciudades.
- Adaptación específica para el uso de la voz desde Alexa.
Uso de la voz:
- A través de nuestro editor online de texto a voz, Fonos.
- Desde una API, personalizada para los distintos usos y canales.

Características técnicas

La voz de Victoria es una voz personalizada con características específicas que la hacen idónea para el caso de uso:

Energía y velocidad optimizadas para mantener la atención del oyente.
Tono medio-grave que aporta credibilidad y confianza.
Prosodia adaptada específicamente para noticias deportivas.
Estilo conversacional natural para la interacción en Alexa.
Calidad sonora adaptada a múltiples canales de distribución.

Resultados e impacto

El proyecto, lanzado en noviembre de 2022, ha conseguido resultados significativos:

Más de 100,000 interacciones con usuarios en Alexa.
Generación de aproximadamente 100 horas de audio al mes.
Entre 2.000 y 5.000 noticias al mes, procesadas en tiempo real provenientes de AS.com.

El caracter innovador del proyecto nos ha traído varios reconocimientos:

Primera voz sintética generada por IA en español creada con esta metodología.
Patrocinio de una marca líder en automoción.
Premio “Best New Audio and Voice Product 2023” en los Global Awards de INMA.

Innovación tecnológica

El proyecto destaca por varios aspectos innovadores:

Tecnología propia: Desarrollo de una arquitectura única para la síntesis de voz en español, con modelos de Inteligencia Artificial Generativa, que ha sido financiada por el CDTI a través de NEOTEC.
Multimodalidad: Capacidad de funcionar en diferentes contextos (radio, asistente virtual, web).
Escalabilidad: Sistema capaz de procesar grandes volúmenes de noticias en texto y generar noticias de audio en tiempo real.
Personalización: Adaptación precisa de la voz a diferentes estilos y contextos.

Impacto en el sector

Este proyecto ha posicionado a PRISA y la Cadena SER a la vanguardia en la creación de contenido sintético (synthetic media) y ha abierto nuevas posibilidades para la distribución de contenidos a nuevas audiencias. Representa un caso de éxito en la aplicación de la IA para la creación de experiencias de usuario innovadoras y accesibles.

Más información

Este proyecto ha sido subvencionado por el CDTI dentro del proyecto “Síntesis de voz en castellano para la creación de sistemas conversacionales naturales”.

NEOTEC - CDTI