Logo de Monoceros Labs
TTS

Voces sintéticas especializadas en español y sus variantes.

Monoceros Labs
#Portfolio#IA generativa#TTS#Catálogo
Feature image

Voces sintéticas especializadas en español y sus variantes

El español es uno de los idiomas más hablados del mundo, con más de 500 millones de hablantes distribuidos globalmente. Sin embargo, la mayoría de las tecnologías de voz actuales no capturan la rica diversidad de acentos y expresiones que caracterizan a nuestro idioma.

Desde Monoceros Labs estamos desarrollando un catálogo de voces digitales o sintéticas que expresan los matices propios de cada región. Este catálogo se compone principalmente de voces con los matices del español de España, seguidas de otras voces con acento andaluz o que hablan la variedad de español de México.

El problema: La diversidad del español

El español se caracteriza por su diversidad lingüística regional. Esta diversidad se ve reflejada en variaciones en entonación y ritmo, en la fonética particular de la región, y expresiones y modismos locales. ¿Cómo podemos hacer que la tecnología preserve esos matices y los represente?

La tecnología de síntesis de voz (TTS) debe adaptarse a estos matices. Se entrena con datos que incluyen voces separadas por acentos y regiones, que comparten patrones fonéticos. Además, se ha de trabajar en algunos aspectos particulares que incluyen, entre otros, diccionarios fonéticos y normalización.

La solución: Nuestro catálogo de voces

En Monoceros Labs hemos creado voces que han sido especialmente diseñadas para capturar la riqueza del español. Además, estas voces tienen identidades que han sido generadas con IA, y forman parte de nuestro catálogo de voces prediseñadas.

En 2024, este catálogo contaba con 14 voces prediseñadas diferentes, y se pueden probar en nuestro editor TTS online Fonos.

Voces TTS prediseñadas de catálogo incluidas en 2023

Voces TTS prediseñadas de catálogo incluidas en 2024

Listado de voces TTS disponibles en Fonos

Nombre de la vozVariante de EspañolTonoEstilo
AltairEspañaGraveGeneralista
BetelEspañaAgudaGeneralista
Capella (*)EspañaMedioGeneralista
CástorEspañaMedioGeneralista
DenebEspañaGraveGeneralista
EnifEspañaMedioGeneralista
FuluEspañaMedioGeneralista
GinanEspañaMedioGeneralista
HatysaEspañaMedioExpresivo, Narrativo
IzarAndalucíaAgudaExpresivo, Narrativo
JabbahEspañaGraveExpresivo, Narrativo
LibertasMéxicoMedioGeneralista
MaiaEspañaAgudaExpresivo, Narrativo
NaosEspañaGraveExpresivo, Narrativo
VegaEspañaMedioExpresivo, Narrativo

(*) Esta voz estará disponible próximamente en la plataforma.

Innovación tecnológica

Tecnología propietaria

Estas voces sintéticas han sido creadas con tecnología propia, por lo que no las encontrarás en otras plataformas de TTS. Esta tecnología propia, creada bajo nuestro proyecto ‘Síntesis de voz en castellano para la creación de sistemas conversacionales naturales’, ha sido subvencionada por el CDTI y su programa NEOTEC.

Desde 2021, nuestra tecnología de síntesis de voz ha experimentado una evolución significativa en expresividad y naturalidad. Nuestra tecnología de síntesis está a la altura de los últimos avances del estado del arte académicos (habitualmente en inglés), pero aplicadas al español y a su diversidad dialectal.

  1. Primera generación (2021-2023)

    • Diseño de las primeras identidades de voz generadas con Inteligencia Artificial.
    • Uso de modelos de síntesis neurales con GANs.
    • Enfoque en naturalidad y expresividad.
    • Controlabilidad de la prosodia.
  2. Avances actuales (2024-2025)

    • Mejora de modelos de redes generativas adversarias (GANs).
    • Integración de modelos de difusión.
    • Uso de modelos de lenguaje tipo BERT.
    • Mejoras en expresividad y naturalidad.

Editor web online: Fonos

API

Casos de uso: quiénes han utilizado nuestras voces

  1. Medios de comunicación como RTVE, PRISA o IDEAL (Grupo Vocento).
  2. Educación como institutos, escuelas y universidades.
  3. Empresas para marketing y creación de contenidos como LLYC y t2ò.

Aplicaciones principales de nuestras voces sintéticas

  1. Accesibilidad
  1. Contenido dinámico

Más información

Nuestro catálogo de voces sintéticas representa un avance significativo en la tecnología de voz para el español. Al entender y expresar los matices propios de cada región, hacemos que la tecnología sea más accesible, natural y efectiva para los hablantes de español en todo el mundo.

El catálogo de voces está disponible a través del editor web de Fonos y mediante API, permitiendo crear experiencias de voz únicas y adaptadas a las necesidades específicas de cada proyecto.

← Vuelve al Portfolio