El español es uno de los idiomas más hablados del mundo, con más de 500 millones de hablantes distribuidos globalmente. Sin embargo, la mayoría de las tecnologías de voz actuales no capturan la rica diversidad de acentos y expresiones que caracterizan a nuestro idioma.
Desde Monoceros Labs estamos desarrollando un catálogo de voces digitales o sintéticas que expresan los matices propios de cada región. Este catálogo se compone principalmente de voces con los matices del español de España, seguidas de otras voces con acento andaluz o que hablan la variedad de español de México.
El español se caracteriza por su diversidad lingüística regional. Esta diversidad se ve reflejada en variaciones en entonación y ritmo, en la fonética particular de la región, y expresiones y modismos locales. ¿Cómo podemos hacer que la tecnología preserve esos matices y los represente?
La tecnología de síntesis de voz (TTS) debe adaptarse a estos matices. Se entrena con datos que incluyen voces separadas por acentos y regiones, que comparten patrones fonéticos. Además, se ha de trabajar en algunos aspectos particulares que incluyen, entre otros, diccionarios fonéticos y normalización.
En Monoceros Labs hemos creado voces que han sido especialmente diseñadas para capturar la riqueza del español. Además, estas voces tienen identidades que han sido generadas con IA, y forman parte de nuestro catálogo de voces prediseñadas.
En 2024, este catálogo contaba con 14 voces prediseñadas diferentes, y se pueden probar en nuestro editor TTS online Fonos.
Nombre de la voz | Variante de Español | Tono | Estilo |
---|---|---|---|
Altair | España | Grave | Generalista |
Betel | España | Aguda | Generalista |
Capella (*) | España | Medio | Generalista |
Cástor | España | Medio | Generalista |
Deneb | España | Grave | Generalista |
Enif | España | Medio | Generalista |
Fulu | España | Medio | Generalista |
Ginan | España | Medio | Generalista |
Hatysa | España | Medio | Expresivo, Narrativo |
Izar | Andalucía | Aguda | Expresivo, Narrativo |
Jabbah | España | Grave | Expresivo, Narrativo |
Libertas | México | Medio | Generalista |
Maia | España | Aguda | Expresivo, Narrativo |
Naos | España | Grave | Expresivo, Narrativo |
Vega | España | Medio | Expresivo, Narrativo |
(*) Esta voz estará disponible próximamente en la plataforma.
Estas voces sintéticas han sido creadas con tecnología propia, por lo que no las encontrarás en otras plataformas de TTS. Esta tecnología propia, creada bajo nuestro proyecto ‘Síntesis de voz en castellano para la creación de sistemas conversacionales naturales’, ha sido subvencionada por el CDTI y su programa NEOTEC.
Desde 2021, nuestra tecnología de síntesis de voz ha experimentado una evolución significativa en expresividad y naturalidad. Nuestra tecnología de síntesis está a la altura de los últimos avances del estado del arte académicos (habitualmente en inglés), pero aplicadas al español y a su diversidad dialectal.
Primera generación (2021-2023)
Avances actuales (2024-2025)
Nuestro catálogo de voces sintéticas representa un avance significativo en la tecnología de voz para el español. Al entender y expresar los matices propios de cada región, hacemos que la tecnología sea más accesible, natural y efectiva para los hablantes de español en todo el mundo.
El catálogo de voces está disponible a través del editor web de Fonos y mediante API, permitiendo crear experiencias de voz únicas y adaptadas a las necesidades específicas de cada proyecto.