Inteligência artificial

Microsoft cria IA capaz de gerar áudio com 3 segundos da sua voz; ouça

Sua voz pode gerar outros áudios - Getty Images/iStockphoto — Sua voz pode gerar outros áudios Imagem: Getty Images/iStockphoto

Abinoan Santiago

Colaboração para Tilt, em Florianópolis

10/01/2023 13h51Atualizada em 10/01/2023 18h39

Qualquer voz humana poderá ser imitada com apenas três segundos de áudio, segundo um novo modelo de IA (Inteligência Artificial) apresentado pela Microsoft. Chamado de VALL-E, o mecanismo criado pela big tech é capaz de sintetizar o áudio de uma pessoa e transformá-lo em outro mantendo as características da voz original.

Isto é, a IA consegue, por exemplo, usar o som da sua voz falando "eu amo animais" e transformá-lo em outro completamente diferente, como "eu odeio animais", mantendo os tons da fala.

Segundo a Microsoft, a ideia é usar os algoritmos para melhorar ferramentas "text-to-speech" (texto para fala), que transformam textos em voz, a fim de deixar o áudio mais natural e menos robotizado, como aqueles que usamos no Google Tradutor, por exemplo, ou no Waze.

Como a mágica acontece?

A Microsoft diz que, diferentemente de outras ferramentas do mercado, a IA produzida pela empresa não trabalha nas ondas sonoras, mas usa códigos de codec (codificador) de áudio a partir de prompts (comandos) de texto e acústicos.

Ou seja, pega seu áudio e o divide em vários componentes que sintetizem suas características de voz. Logo em seguida, os combinam para que a IA possa reproduzi-los em outro áudio, tendo o mesmo ambiente acústico ou não.

"O VALL-E oferece recursos de aprendizado e pode ser usado para sintetizar fala personalizada de alta qualidade com apenas uma gravação registrada de 3 segundos de um falante invisível como um prompt acústico", diz um trecho do paper de apresentação da Microsoft.

Para chegar ao resultado final, os cientistas usaram 60 mil horas de gravação de mais de 7 mil falantes do LibriLight, composta por audiolivros de domínio público.

Os resultados da experiência mostram que o VALL-E supera significativamente o sistema TTS zero-shot de última geração em termos de naturalidade da fala e similaridade do locutor. Microsoft

Nas amostras disponibilizadas pela empresa, é perceptível a semelhança entre o áudio original e o final gerado pela VALL-E, apesar de alguns ainda demonstrarem ser robotizados.

De acordo com Microsoft, a ferramenta é aprimorada para que fique o mais natural possível para chegar próximo dos 100% de similaridade com qualquer tipo de voz antes de seu lançamento oficial.

Ferramenta abre brecha para fakes e preocupa Microsoft

De acordo com a Microsoft, a nova ferramenta pode ser usada nas seguintes situações:

Aplicativos que convertem textos em falas
Edição de fala em que a gravação de algo dito pela pessoa pode ser alterada para outra frase completamente diferente
Criação de conteúdos de áudio com a voz de alguém.

Apesar das suas funcionalidades, a Microsoft decidiu não deixar o código da IA aberto em razão dos riscos que a tecnologia poderia resultar com fakes news, como colocar na boca de alguém algo não dito, o que é uma preocupação dos pesquisadores.

Para conter eventuais danos quando o código já estiver operando comercialmente, a empresa trabalha para criar um modelo capaz de detectar se o áudio é verdadeiro ou produzido pelo VALL-E.

"Como o VALL-E pode sintetizar a fala que mantém a identidade do locutor, ele pode trazer riscos potenciais de uso indevido do modelo, como falsificação de identificação de voz ou personificação de um locutor específico. Para mitigar esses riscos, é possível construir um modelo de detecção para discriminar se um clipe de áudio foi sintetizado pelo VALL-E", concluiu.