martes, 16 de julio de 2024

Microsoft decide no lanzar su nueva IA generativa de voz al alcanzar 'paridad humana' y ser demasiado realista

 


VALL-E 2 solo será utilizado 'con propósitos de investigación

A comienzos de 2023, Microsoft presentó VALL-E, una inteligencia artificial con la capacidad de clonar voces a partir de un clip de tres segundos de la misma. El resultado no era perfecto, pero sí notable por la capacidad de la IA de replicar el timbre vocal del hablante, su tono emocional y el entorno acústico apreciable en la grabación original. Año y medio después, Microsoft ha anunciado que ha concluido el desarrollo de su sucesor, VALL-E 2. Según el equipo de investigadores responsable, la herramienta ahora es capaz de clonar de manera totalmente convincente las voces de las personas y ha alcanzado 'la paridad humana'. Dado su potencial para usos maliciosos, Microsoft ha decidido no lanzarlo al público y destinarlo únicamente a 'propósitos de investigación.

Al igual que su predecesor, VALL-E 2 es un modelo de lenguaje de códec neuronal, una categoría dentro del Deep Learning o aprendizaje profundo que utiliza técnicas de redes neuronales para codificar y decodificar información lingüística. Sin embargo, a diferencia de VALL-E, VALL-E 2 realiza síntesis de texto a voz sin entrenamiento previo específico, lo que significa que usa instrucciones de texto para generar voces con las que no ha sido entrenada. Con VALL-E, los resultados eran notablemente mejores cuando el clip original contenía una voz similar a aquellas con las que había sido entrenado.

VALL-E 2 utiliza una vasta biblioteca de entrenamiento, en este caso LibriSpeech y VCTK, para mapear las entradas de texto con las correspondientes salidas de audio. Este mapeo acomoda variaciones en la pronunciación, entonación, cadencia y más aspectos. Después de 'escuchar' un breve clip del habla de alguien junto con la entrada de texto del usuario, VALL-E 2 incorpora esas variaciones en su respuesta para producir un habla artificial que imita la voz muestreada y contiene lo indicado en la entrada de texto.

Los generadores de voz por IA son sorprendentes, pero es muy difícil conseguir que suenen de forma completamente natural. Y no es lo mismo hacerlo con frases sencillas que con discursos más elaborados. Pero según los investigadores del Grupo de Computación del Lenguaje Natural en Microsoft Research Asia, VALL-E 2 lo hace sin problemas. Tan bien, de hecho, que el generador de voz, de acuerdo con ellos, es el primero en 'lograr la paridad humana' y ponerlo a disposición del público podría causar más mal que bien.

'VALL-E 2 es puramente un proyecto de investigación', dice la publicación del blog de los investigadores. 'Actualmente, no tenemos planes de incorporar VALL-E 2 en un producto o expandir el acceso al público. Puede conllevar riesgos potenciales en el uso indebido del modelo, como suplantación de identificación de voz o imitación de un hablante específico'.

El equipo señala que VALL-E 2 podría ser útil en la educación o el entretenimiento, donde el modelo podría ser un narrador de cursos online o audiolibros manteniendo la voz natural de una persona en particular. Otros generadores de voz, como Voicebox de Meta y la herramienta de narración impulsada por IA de Alexa de Amazon, han suscitado controversia sobre la ética de permitir que la IA imite la voz de una persona real, especialmente cuando esa persona ya no existe para dar su consentimiento. Al igual que otras formas de IA generativa, los generadores de voz también plantean cuestiones sobre su uso en lugar de trabajadores humanos, algo que preocupa particularmente a los actores de voz.

Con VALL-E 2 bajo llave, es fácil para Microsoft probar los límites prácticos del modelo sin entrar en problemas. 'Realizamos los experimentos bajo la suposición de que el usuario acepta ser el hablante objetivo en la síntesis de voz', explican los investigadores. 'Si el modelo se generaliza a hablantes no vistos en el mundo real, debería incluir un protocolo para asegurar que el hablante apruebe el uso de su voz y un modelo de detección de voz sintetizada'.

Font, article de Alfredo Biurrun per a "La Razón"

No hay comentarios:

Publicar un comentario