Voces sintéticas especializadas en español y sus variantes

El español es uno de los idiomas más hablados del mundo, con más de 500 millones de hablantes distribuidos globalmente. Sin embargo, la mayoría de las tecnologías de voz actuales no capturan la rica diversidad de acentos y expresiones que caracterizan a nuestro idioma.

Desde Monoceros Labs estamos desarrollando un catálogo de voces digitales o sintéticas que expresan los matices propios de cada región. Este catálogo se compone principalmente de voces con los matices del español de España, seguidas de otras voces con acento andaluz o que hablan la variedad de español de México.

El problema: La diversidad del español

El español se caracteriza por su diversidad lingüística regional. Esta diversidad se ve reflejada en variaciones en entonación y ritmo, en la fonética particular de la región, y expresiones y modismos locales. ¿Cómo podemos hacer que la tecnología preserve esos matices y los represente?

La tecnología de síntesis de voz (TTS) debe adaptarse a estos matices. Se entrena con datos que incluyen voces separadas por acentos y regiones, que comparten patrones fonéticos. Además, se ha de trabajar en algunos aspectos particulares que incluyen, entre otros, diccionarios fonéticos y normalización.

La solución: Nuestro catálogo de voces

En Monoceros Labs hemos creado voces que han sido especialmente diseñadas para capturar la riqueza del español. Además, estas voces tienen identidades que han sido generadas con IA, y forman parte de nuestro catálogo de voces prediseñadas.

En 2024, este catálogo contaba con 14 voces prediseñadas diferentes, y se pueden probar en nuestro editor TTS online Fonos.

Voces TTS prediseñadas de catálogo incluidas en 2023

Voces TTS prediseñadas de catálogo incluidas en 2024

Listado de voces TTS disponibles en Fonos

Nombre de la voz	Variante de Español	Tono	Estilo
Altair	España	Grave	Generalista
Betel	España	Aguda	Generalista
Capella (*)	España	Medio	Generalista
Cástor	España	Medio	Generalista
Deneb	España	Grave	Generalista
Enif	España	Medio	Generalista
Fulu	España	Medio	Generalista
Ginan	España	Medio	Generalista
Hatysa	España	Medio	Expresivo, Narrativo
Izar	Andalucía	Aguda	Expresivo, Narrativo
Jabbah	España	Grave	Expresivo, Narrativo
Libertas	México	Medio	Generalista
Maia	España	Aguda	Expresivo, Narrativo
Naos	España	Grave	Expresivo, Narrativo
Vega	España	Medio	Expresivo, Narrativo

(*) Esta voz estará disponible próximamente en la plataforma.

Innovación tecnológica

Tecnología propietaria

Estas voces sintéticas han sido creadas con tecnología propia, por lo que no las encontrarás en otras plataformas de TTS. Esta tecnología propia, creada bajo nuestro proyecto ‘Síntesis de voz en castellano para la creación de sistemas conversacionales naturales’, ha sido subvencionada por el CDTI y su programa NEOTEC.

Desde 2021, nuestra tecnología de síntesis de voz ha experimentado una evolución significativa en expresividad y naturalidad. Nuestra tecnología de síntesis está a la altura de los últimos avances del estado del arte académicos (habitualmente en inglés), pero aplicadas al español y a su diversidad dialectal.

Primera generación (2021-2023)
- Diseño de las primeras identidades de voz generadas con Inteligencia Artificial.
- Uso de modelos de síntesis neurales con GANs.
- Enfoque en naturalidad y expresividad.
- Controlabilidad de la prosodia.
Avances actuales (2024-2025)
- Mejora de modelos de redes generativas adversarias (GANs).
- Integración de modelos de difusión.
- Uso de modelos de lenguaje tipo BERT.
- Mejoras en expresividad y naturalidad.

Acceso y uso de las voces de catálogo

Editor web online: Fonos

Interfaz intuitiva.
Selección de voces por estilo y variantes.
Ajustes de entonación en base al texto.

API

Integración fácil y sencilla.
Control programático.
Escalabilidad del contenido.

Casos de uso: quiénes han utilizado nuestras voces

Medios de comunicación como RTVE, PRISA o IDEAL (Grupo Vocento).
Educación como institutos, escuelas y universidades.
Empresas para marketing y creación de contenidos como LLYC y t2ò.

Aplicaciones principales de nuestras voces sintéticas

Accesibilidad

Lectores de pantalla adaptados.
Navegación web por voz.
Contenido educativo accesible.
Artículos de blog escuchables.

Contenido dinámico

Noticias y actualizaciones de última hora.
Conversaciones en asistentes de voz y chatbots.
Contenido personalizado.
Narración de eventos en tiempo real.

Más información

Nuestro catálogo de voces sintéticas representa un avance significativo en la tecnología de voz para el español. Al entender y expresar los matices propios de cada región, hacemos que la tecnología sea más accesible, natural y efectiva para los hablantes de español en todo el mundo.

Fonos
Nieves Ábalos: “Para llegar a más gente necesitamos usar la conversación y la voz” en ComputerWorld (20/11/2024)

El catálogo de voces está disponible a través del editor web de Fonos y mediante API, permitiendo crear experiencias de voz únicas y adaptadas a las necesidades específicas de cada proyecto.

Voces sintéticas especializadas en español y sus variantes.