La tecnología para convertir de texto a audio, también llamada síntesis de voz (en inglés text-to-speech o TTS), tiene la capacidad de dar vida a un texto para generar contenido sonoro con las características de una voz humana. Si usas asistentes de voz como Google Assistant, Siri o Alexa, ya habrás escuchado una voz sintética o voz digital para dar respuesta a cualquier tipo de preguntas: desde el tiempo que hace, hasta las direcciones para llegar a tu casa.
Este tipo de tecnología no es nueva, pero los últimos avances tecnológicos hace que sea una herramienta cada vez más potente para escuchar eficazmente textos largos, por ejemplo, un artículo de un blog o una noticia. Esto, además de mejorar la accesibilidad, permite a cualquier persona distribuir su contenido sonoro rápida y fácilmente.
Podrás encontrar voces sintéticas en español en diferentes plataformas online con APIs (interfaz de programación de aplicaciones) de TTS. En sus webs podrás probar las voces disponibles (elegir entre masculinas y femeninas) introduciendo un texto y, en algunos casos, descargar el audio resultante.
Las principales plataformas online con APIs de voces sintéticas en español:
Para escuchar las voces de AWS Polly es necesario tener una cuenta creada en AWS. Puedes acceder desde este enlace. Encontrarás dos tipos de calidad: neural y estándar.
Con una cuenta de Microsfot Azure podrás empezar a usar las voces disponibles, todas ellas en calidad neural:
Las voces sintéticas de Google Cloud tienen diferentes calidades, según la tecnología utilizada. Podemos encontrar voces básicas o estándar, voces neurales creadas con WaveNet o voces neurales de 2ª generación con una tecnología más avanzada.
Las pocas voces en español que puedes utilizar desde IBM Watson son todas de calidad neural:
Voces sintéticas en español (2023)
Además, hay otras webs o marketplaces de voces sintéticas que hacen de intermediarios o resellers de las plataformas mencionadas anteriormente, y que facilitan a quienes no desarrollan el acceso a estas voces y la descarga de audios. Algunas incluso incorporan funcionalidades de edición de contenido sonoro, y otras permiten el uso de voces personalizadas (clonación de voces o voces generadas por IA) o de filtros de voz (funcionalidad de STS, Speech to Speech). En inglés el mercado ha avanzado, pero es difícil encontrar herramientas que funcionen en español. Aquí algunas para voces en español:
La calidad de estas voces varía según la tecnología con la que ha sido generada, desde voces estándar con una prosodia más monótona, que usan tecnología paramétrica o concatenativa, a voces más expresivas que utilizan tecnología neural (o basada en redes neuronales, como WaveNet desde 2016). Sin embargo, la mayoría de las plataformas de APIs no tienen una amplia variedad de voces en español, por lo que es complicado crear experiencias sonoras personalizadas y únicas. Es fácil encontrarse la voz de Álvaro de Microsoft Azure en cualquier aplicación reciente (por ejemplo, nosotros la hemos utilizado en la Alexa Skill Cervecistas).
Por otro lado, con tecnología para síntesis de voz neural basada en Inteligencia Artificial, como la que creamos en Monoceros Labs que además incorpora los últimos avances en métodos generativos, podemos obtener voces con características personalizadas relacionadas con la prosodia y el timbre de la voz, ganando en expresividad y diversidad.
Podemos crear dos tipos de voces personalizadas:
Si vas a clonar una voz, necesitas permiso de la persona propietaria de la voz para crear un modelo de su voz. Esto es muy importante, ya que de otra manera, se podría hacer un uso malicioso con esa voz, tal y como los que se pueden ver en muchos deep-fakes de audio y vídeo.
Desde Monoceros Labs, entendemos que la creación de cualquier producto o servicio basado en Inteligencia Artificial debe fundarse desde unos principios de ética y responsabilidad firmes. Este Manifesto recoge una declaración de principios a los cuales nos comprometemos.
Si quieres tener tu propia voz sintética, pide acceso ya desde la web de Fonos a nuestra herramienta, o contacta directamente con nosotros desde el formulario que encontrarás al final de esta página.
¡Estamos deseando saber para qué la vas a utilizar!
Esta tecnología se enmarca en el proyecto “Síntesis de voz en castellano para la creación de sistemas conversacionales naturales”, que ha sido subvencionado por el CDTI.