¿Estás interesado en ellos? OFERTAS? Ahorra con nuestros cupones en Whatsapp o TELEGRAMA!

Microsoft VALL-E imitará nuestra voz a los 3 segundos de hablar

Enero 11 2023

En solo 3 segundos, una IA que nunca te ha escuchado hablar puede imitar tu voz a la perfección. Este es el último logro de la inteligencia artificial de Microsoft: el modelo de texto a voz VALL-E, que puede copiar la voz de cualquier persona a voluntad con solo 3 segundos de voz.

Microsoft VALL-E imitará nuestra voz a los 3 segundos de hablar

Se originó en DALL E, pero se especializa en el campo del audio, y el efecto de texto a voz se hizo popular después de su lanzamiento en línea.

Algunos usuarios dijeron que si se combinan VALL·E y ChatGPT, el resultado será increíble. Para otros, parece que no está lejos el día en que será posible realizar videollamadas con IA. Incluso hay quien bromea con que después de que la IA se haya ocupado de los escritores y pintores, le siguen los actores de doblaje.

Pero, ¿cómo imita VALL·E un sonido “inédito” en 3 segundos?

VALL-E analiza audio con modelos de lenguaje. Sintetiza el habla basándose en sonidos "no escuchados" de IA, es decir, aprendizaje de muestra cero.

La solución tradicional de texto a voz es básicamente un modo previo al entrenamiento junto con un ajuste fino. Si se usa en un escenario de muestra cero, dará como resultado una pobre similitud y naturalidad del habla generada.

En base a esto, VALL-E surgió de la nada, proponiendo una idea diferente al modelo vocal tradicional.

Frente al modelo tradicional que utiliza el espectro de Mel para extraer características, VALL-E toma directamente como tarea del modelo de lenguaje la síntesis de voz, siendo el primero continuo y el segundo discreto.

En particular, el proceso de síntesis de voz tradicional suele ser el camino de “fonema → espectrograma de mel (espectrograma de mel) → forma de onda”.

Pero VALL -E transformó este proceso en “fonema→codificación discreta de audio→forma de onda”:

En cuanto al diseño del modelo, VALL-E también es similar a VQVAE. Cuantifica el audio en una serie de tokens discretos. El primer cuantificador es responsable de capturar el contenido de audio y las características de identidad del hablante, mientras que los segundos cuantificadores son responsables del refinamiento de la señal. que suena más natural:

Luego, condicionado por el texto y el mensaje de audio de 3 segundos, genera de forma autorregresiva una codificación de audio discreta:

Pero no solo eso, además de la síntesis de voz de muestra cero, VALL-E también admite la edición de voz y la creación de contenido de voz combinado con GPT-3.

El sonido de fondo ambiental también se puede restaurar

A juzgar por los efectos vocales sintetizados, VALL-E puede restaurar más que solo el timbre del hablante.

No solo se imita el tono en el acto, sino que también admite una variedad de velocidades de voz diferentes. Por ejemplo, estas son dos velocidades de habla diferentes que proporciona VALL-E cuando la misma oración se pronuncia dos veces, pero la similitud tonal sigue siendo alta:

Al mismo tiempo, el sonido ambiental de fondo de la otra parte también se puede restaurar con precisión.

Además, VALL-E puede imitar una variedad de emociones del hablante, incluidos varios tipos, como enojo, sueño, neutral, alegría y náuseas.

Vale la pena mencionar que el conjunto de datos utilizado para la capacitación de VALL·E no es particularmente grande.

En comparación con Whisper de OpenAI, que requirió 680.000 7.000 horas de capacitación en audio y solo usó más de 60.000 altavoces y XNUMX XNUMX horas de capacitación, VALL-E superó el texto a voz preentrenado en términos de similitud con el texto a voz Model YourTTS.

Además, YourTTS escuchó las voces de 97 de los 108 oradores con anticipación durante el entrenamiento, pero aún no alcanza a VALL-E en la prueba real.

En cuanto a los campos en los que se puede aplicar:

No solo se puede usar para imitar su propia voz, como ayudar a las personas discapacitadas a completar una conversación con otros, sino que también puede usarlo para hablar por usted cuando no lo desee. Por supuesto, también se puede utilizar para la grabación de audiolibros.

Sin embargo, VALL-E aún no es de código abierto y es posible que deba esperar un poco más para probarlo.