Logo de Monoceros Labs
TTS / Voz de marca

Victoria: La primera voz sintética para noticias deportivas en español

Monoceros Labs
#Portfolio#Voz de marca#TTS#IA generativa
Feature image

Victoria: La primera voz sintética para noticias deportivas en español

“Victoria, la voz del fútbol” es un proyecto pionero desarrollado por Monoceros Labs para PRISA Media (Cadena SER y AS) que representa un hito en la creación de contenido sintético en español. Victoria es una voz sintética de marca, cuya identidad ha sido generada por Inteligencia Artificial, que narra noticias deportivas, y permite a los usuarios interactuar a través de Alexa para obtener información actualizada sobre sus equipos favoritos.

Proceso de creación de una voz sintética de marca, generada por IA

El desafío

El proyecto planteaba varios retos técnicos y creativos:

Nuestra solución

Diseño y desarrollo de la voz sintética

El proceso de creación de la voz de Victoria involucró una metodología innovadora y minuciosa:

  1. Definición de personalidad: Trabajamos junto a los equipos de PRISA para definir los rasgos de personalidad y características de la voz deseada.

  2. Grabación y preparación de datos:

    • Más de 12 horas de grabación en estudio.
    • Más de 4,200 frases diseñadas específicamente.
    • 4 horas de audio limpio tras el procesamiento.
    • Semanas de revisión fonética y preparación de datos.
  3. Entrenamiento del modelo de síntesis de voz (TTS) avanzado:

    • Utilizamos tecnología propia, que incluye métodos generativos como redes GAN.
    • El modelo realizó más de 350,000 iteraciones de aprendizaje.
    • Se necesitaron 6 días de entrenamiento para obtener el modelo final.
    • Se experimentó con diferentes configuraciones de los rasgos de la voz y estilos de prosodia.
  4. Personalización y optimización:

    • Dos estilos de prosodia diferentes (conversacional y noticias).
    • Diccionario fonético con más de 3,000 términos deportivos, incluyendo nombres de jugadores, estadios deportivos y ciudades.
    • Adaptación específica para el uso de la voz desde Alexa.
  5. Uso de la voz:

    • A través de nuestro editor online de texto a voz, Fonos.
    • Desde una API, personalizada para los distintos usos y canales.

Características técnicas

La voz de Victoria es una voz personalizada con características específicas que la hacen idónea para el caso de uso:

Resultados e impacto

El proyecto, lanzado en noviembre de 2022, ha conseguido resultados significativos:

El caracter innovador del proyecto nos ha traído varios reconocimientos:

Innovación tecnológica

El proyecto destaca por varios aspectos innovadores:

Impacto en el sector

Este proyecto ha posicionado a PRISA y la Cadena SER a la vanguardia en la creación de contenido sintético (synthetic media) y ha abierto nuevas posibilidades para la distribución de contenidos a nuevas audiencias. Representa un caso de éxito en la aplicación de la IA para la creación de experiencias de usuario innovadoras y accesibles.

Más información

Este proyecto ha sido subvencionado por el CDTI dentro del proyecto “Síntesis de voz en castellano para la creación de sistemas conversacionales naturales”.

NEOTEC - CDTI

← Vuelve al Portfolio