Tecnología para convertir texto a voz

¿En qué consiste la tecnología de síntesis de voz?

La tecnología para convertir de texto a audio, también llamada síntesis de voz (en inglés text-to-speech o TTS), tiene la capacidad de dar vida a un texto para generar contenido sonoro con las características de una voz humana. Si usas asistentes de voz como Google Assistant, Siri o Alexa, ya habrás escuchado una voz sintética o voz digital para dar respuesta a cualquier tipo de preguntas: desde el tiempo que hace, hasta las direcciones para llegar a tu casa.

Este tipo de tecnología no es nueva, pero los últimos avances tecnológicos hace que sea una herramienta cada vez más potente para escuchar eficazmente textos largos, por ejemplo, un artículo de un blog o una noticia. Esto, además de mejorar la accesibilidad, permite a cualquier persona distribuir su contenido sonoro rápida y fácilmente.

¿Dónde puedo encontrar voces sintéticas en español?

Podrás encontrar voces sintéticas en español en diferentes plataformas online con APIs (interfaz de programación de aplicaciones) de TTS. En sus webs podrás probar las voces disponibles (elegir entre masculinas y femeninas) introduciendo un texto y, en algunos casos, descargar el audio resultante.

Las principales plataformas online con APIs de voces sintéticas en español:

1. Amazon AWS Polly

Para escuchar las voces de AWS Polly es necesario tener una cuenta creada en AWS. Puedes acceder desde este enlace. Encontrarás dos tipos de calidad: neural y estándar.

1.1 Neural:

Español (España): Lucía y Sergio.
Español (México): Mia y Andrés.
Español (Estados Unidos): Pedro y Lupe.

1.2 Standard:

Español (España): Lucía, Conchita y Enrique.
Español (México): Mia.
Español (Estados Unidos): Penélope, Miguel y Lupe.

2. Microsoft Azure Text to Speech

Con una cuenta de Microsfot Azure podrás empezar a usar las voces disponibles, todas ellas en calidad neural:

Español (España): Elvira y Álvaro (y más variaciones).
… y más de 20 voces en otras variantes del español, como la de México, Argentina, Colombia o Chile.

3. Google Cloud TTS

Las voces sintéticas de Google Cloud tienen diferentes calidades, según la tecnología utilizada. Podemos encontrar voces básicas o estándar, voces neurales creadas con WaveNet o voces neurales de 2ª generación con una tecnología más avanzada.

Basic: Standard A, B, C y D.
Wavenet (neurales, tecnología WaveNet): Wavenet B, C y D.
Neural2 (neurales, última tecnología): Neural2 A hasta la F.

4. IBM Watson

Las pocas voces en español que puedes utilizar desde IBM Watson son todas de calidad neural:

Español (España): Laura y Enrique.
Español (América - Norte / Sur): Sofía.

Voces sintéticas en español (2023)

Además, hay otras webs o marketplaces de voces sintéticas que hacen de intermediarios o resellers de las plataformas mencionadas anteriormente, y que facilitan a quienes no desarrollan el acceso a estas voces y la descarga de audios. Algunas incluso incorporan funcionalidades de edición de contenido sonoro, y otras permiten el uso de voces personalizadas (clonación de voces o voces generadas por IA) o de filtros de voz (funcionalidad de STS, Speech to Speech). En inglés el mercado ha avanzado, pero es difícil encontrar herramientas que funcionen en español. Aquí algunas para voces en español:

Fonos, para crear y editar contenido de audio con voces sintéticas, con tu voz (clonación de voz) o con una del catálogo de voces personalizadas generadas por IA. Disclaimer: Fonos es un producto de Monoceros Labs, y actualmente está en beta cerrada, puedes pedir acceso desde la web.
Marketplaces resellers con catálogo de voces de APIs en español: Murf.ai.
En filtros de voz, Voicemod es una muy buena opción.

¿Qué tipo de voces sintéticas hay?

La calidad de estas voces varía según la tecnología con la que ha sido generada, desde voces estándar con una prosodia más monótona, que usan tecnología paramétrica o concatenativa, a voces más expresivas que utilizan tecnología neural (o basada en redes neuronales, como WaveNet desde 2016). Sin embargo, la mayoría de las plataformas de APIs no tienen una amplia variedad de voces en español, por lo que es complicado crear experiencias sonoras personalizadas y únicas. Es fácil encontrarse la voz de Álvaro de Microsoft Azure en cualquier aplicación reciente (por ejemplo, nosotros la hemos utilizado en la Alexa Skill Cervecistas).

Por otro lado, con tecnología para síntesis de voz neural basada en Inteligencia Artificial, como la que creamos en Monoceros Labs que además incorpora los últimos avances en métodos generativos, podemos obtener voces con características personalizadas relacionadas con la prosodia y el timbre de la voz, ganando en expresividad y diversidad.

Podemos crear dos tipos de voces personalizadas:

Voces clonadas: Hablamos de clonación cuando la tecnología aprende las características fonéticas de una voz concreta a partir de grabaciones de la voz original, imitándolas al detalle.

Voces mezcla generadas por IA: En este caso la tecnología aprende de varias voces, y es capaz de utilizar las características aprendidas de todas ellas para crear una voz sintética y diferente, que no identifica a ninguna de las voces originales. Podríamos decir que es una voz que no existe. Estas voces son ideales para marcas que quieran tener una voz 100% original.

¿Qué más tengo que tener en cuenta?

Si vas a clonar una voz, necesitas permiso de la persona propietaria de la voz para crear un modelo de su voz. Esto es muy importante, ya que de otra manera, se podría hacer un uso malicioso con esa voz, tal y como los que se pueden ver en muchos deep-fakes de audio y vídeo.

Desde Monoceros Labs, entendemos que la creación de cualquier producto o servicio basado en Inteligencia Artificial debe fundarse desde unos principios de ética y responsabilidad firmes. Este Manifesto recoge una declaración de principios a los cuales nos comprometemos.

¿Dudas resueltas? Es hora de tener tu propia voz sintética

Si quieres tener tu propia voz sintética, pide acceso ya desde la web de Fonos a nuestra herramienta, o contacta directamente con nosotros desde el formulario que encontrarás al final de esta página.

¡Estamos deseando saber para qué la vas a utilizar!

Agradecimientos

NEOTEC - CDTI

Esta tecnología se enmarca en el proyecto “Síntesis de voz en castellano para la creación de sistemas conversacionales naturales”, que ha sido subvencionado por el CDTI.