TECNOLOGIA

Sistema da Microsoft pode copiar voz após analisar 3 segundos de áudio

Tecnologia desperta preocupação, uma vez que pode ser utilizada por golpistas

Por: Marcelo Bonfá
Da redação | 12 de janeiro de 2023 - 21:55

A gigante da tecnologia Microsoft anunciou o desenvolvimento de uma inteligência artificial (IA) que copia perfeitamente a voz de uma pessoa depois de analisar apenas três segundos de um trecho de áudio. Chamado de VALL-E, o sistema permite que uma outra pessoa invada os sistemas que usam a voz como senha, por exemplo. Por enquanto, essa IA não está disponível ao público e a empresa americana não revelou se pretende mesmo lançar o produto no mercado, diante das preocupações despertadas entre especialistas.

Embora a IA desperte receio para alguns, outros veem a tecnologia como uma maneira de ajudar as pessoas que perderam a fala por algum motivo.

A equipe da Microsoft VALL-E respondeu sobre a questão ética com um comunicado à imprensa: “as experiências neste trabalho foram realizadas sob a suposição de que o usuário do modelo é o orador-alvo e foi aprovado pelo orador. No entanto, quando o modelo é generalizado para falantes invisíveis, os componentes relevantes devem ser acompanhados por modelos de edição de fala, incluindo o protocolo para garantir que o falante concorda em executar a modificação e o sistema para detectar a fala editada”.

Leia também:
■ Sai La Niña e entra El Niño. Tendência é a temperatura subir em todo o mundo
■ Ruídos das cidades provocam alterações no canto dos pássaros

VALL-E foi treinado em 60 mil horas de inglês e a empresa afirma que pode replicar sotaques americanos, britânicos e vários sotaques de línguas de países europeus. A tecnologia consegue transformar texto escrito em fala, mas isso é o suficiente para alguém usar a tecnologia para roubar a voz de outra pessoa.

A Microsoft acredita que essa IA pode revolucionar a forma como ouvimos audiolivros e usamos assistentes inteligentes. Os criadores disseram que a ferramenta foi projetada para aplicativos de conversão de texto em fala de alta qualidade.

+ DESTAQUES