Logo de Monoceros Labs
TTS

Voces sintéticas para la investigación en verificación de audios

Monoceros Labs
#deepfake#TTS#investigación#RTVE#UGR
Feature image

Voces sintéticas para la investigación en verificación de audios

En colaboración con la Cátedra RTVE-UGR, Monoceros Labs ha participado en un proyecto multidisciplinar centrado en el desarrollo de herramientas para la detección de audios falsos.

Nuestra contribución se ha enfocado en la creación de voces sintéticas clonadas de alta calidad para el entrenamiento y evaluación de modelos de detección de deepfakes de audio, también conocidos como audios falsos que suplantan la identidad de una persona.

El proyecto ha desarrollado una herramienta para verificar audios que está a disposición de VerificaRTVE y de otras agencias a través del Proyecto IVERES.

Interfaz de la herraemienta de detección de deepfakes creada.

El desafío

La proliferación de audios falsos o deepfakes representa una amenaza creciente para la integridad de la información y de nuestra sociedad. El proyecto busca:

Más información en el artículo científico publicado en 2024:

Deep Speech Synthesis and Its Implications for News Verification: Lessons Learned in the RTVE-UGR Chair

Nuestra contribución

Desarrollo de voces sintéticas

Nuestro trabajo se centró en la creación de voces sintéticas clonadas de personas relevantes, pertenecientes al Rey Felipe VI; el presidente del Gobierno, Pedro Sánchez, o la vicepresidenta Yolanda Díaz. Se utilizaron para ello dos técnicas diferentes:

  1. Síntesis de voz (TTS):

    • Creación de modelos que imitan la prosodia completa de una persona.
    • Enfoque en la naturalidad y expresividad.
    • Adaptación a diferentes estilos de habla.
  2. Conversión de voz (STS):

    • Modelos que imitan específicamente el timbre de la persona.
    • Mantenimiento de características vocales identificativas.
    • Uso de voces reales de base con foco en la expresividad.

Metodología de trabajo

El proceso de desarrollo de los clones de voz siguió un enfoque riguroso:

  1. Selección de datos de voz:

    • Uso de discursos e intervenciones parlamentarias.
    • Priorización de audio de alta calidad.
    • Selección de muestras sin ruido de fondo.
  2. Procesamiento de audio:

    • Limpieza y normalización de muestras.
    • Transcripción fonética precisa.
    • Control de calidad exhaustivo.
  3. Entrenamiento controlado, privado y seguro:

    • Uso de infraestructura local propia.
    • Proceso completamente privado y seguro.
    • Sin acceso a nubes públicas.

Una vez generados los modelos de voz, se generaron audios falsos, y junto a los reales usados para el entrenamiento, se creó un conjunto de datos para entrenar un clasificador que detectara audios falsos de las personas objetivo.

Clasificador para detectar deepfakes

Como parte del proyecto, se desarrolló un clasificador de detección de deepfakes específico para las voces clonadas. Se entrenó con miles de audios por cada voz objetivo, tanto reales como falsos, es decir, generados con las voces clonadas.

El clasificador utiliza una arquitectura basada en FastAudio, que es capaz de adaptarse dinámicamente a las características de las amenazas de spoofing. A diferencia de los sistemas tradicionales, nuestro clasificador utiliza capas de filtros que se ajustan durante el entrenamiento, permitiendo una detección más precisa de las manipulaciones de audio.

Aspectos innovadores

El proyecto destaca por varios elementos únicos:

  1. Enfoque dual: Creación tanto de voces de alta como de baja calidad para entrenamiento del clasificador.
  2. Seguridad: Proceso completamente controlado en infraestructura propia.
  3. Ética: Uso responsable y supervisado de la tecnología con un objetivo a favor de la sociedad.
  4. Colaboración: Trabajo conjunto entre academia, medios y empresa:

Impacto y resultados

Nuestra contribución ha sido fundamental para:

Reconocimientos

Esta colaboración, enmarcada como ya hemos mencionado en el proyecto IVERES, ha recibido el siguiente reconocimiento: -“Proyecto público” en los II premios nacionales otorgados por el Consejo General de Colegios de Ingeniería Informática.

Más información

Este proyecto representa un ejemplo de cómo la tecnología de síntesis de voz puede aplicarse de manera responsable para combatir la desinformación. La colaboración entre diferentes actores nos ha permitido crear herramientas más efectivas para la verificación de audios, contribuyendo a la integridad de la información en el entorno digital.

← Vuelve al Portfolio