Os participantes do estudo da universidade britânica não conseguiram distinguir entre vozes 'deepfake' (geradas artificialmente, por vezes com o objetivo de replicar alguém em concreto) e vozes reais de pessoas.
O estudo levou os participantes a avaliar que vozes lhes soavam mais realistas e quais as que soavam mais dominantes ou confiáveis.
Para isso foram expostos a vozes reais e a dois tipos de vozes artificiais, geradas com recurso a tecnologia de inteligência artificial (IA) de topo para síntese de voz.
Num caso, as vozes artificiais eram 'clones' de vozes humanas gravadas, com o objetivo de replicar as pessoas originais, e noutro caso as vozes foram geradas com recurso a um modelo de voz de largo espetro sem qualquer referencial humano específico.
Os investigadores também tentaram perceber se as vozes geradas por IA se tornaram hiper-realistas, dado alguns estudos terem demonstrado que imagens ou caras geradas por IA são agora consideradas mais humanas do que imagens de caras humanas reais.
Ainda que o estudo não tenha encontrado nenhum "efeito hiper-realista" nas vozes geradas por IA, demonstrou que as vozes sintetizadas podem soar tão reais como as humanas, tornando difícil aos ouvintes distingui-las.
Ambos os tipos de vozes geradas por IA para o estudo foram avaliadas pelos participantes como mais dominantes do que as vozes humanas e algumas foram por vezes percecionadas como mais confiáveis, refere o comunicado da universidade.
"As vozes geradas por IA estão por todo o lado. Todos já falámos com a Alexa ou a Siri ou tivemos chamadas telefónicas atendidas por sistemas automáticos de apoio ao cliente. Essas coisas não soavam realmente como vozes humanas, mas era apenas uma questão de tempo até a tecnologia de IA começar a produzir um discurso natural e de sonoridade humana. O nosso estudo mostra que esse tempo chegou e que precisamos urgentemente de compreender como as pessoas percecionam essas vozes realistas", disse Nadine Lavan, professora sénior de psicologia na Universidade Queen Mary de Londres e uma das coautoras do estudo.
Nadine Lavan destacou a facilidade com que a equipa conseguiu criar vozes clonadas ou 'deepfakes' de vozes reais (com o consentimento dos donos das vozes) usando 'software' disponível comercialmente.
"O processo precisou de conhecimentos mínimos, apenas alguns minutos de gravação de vozes e quase dinheiro nenhum", destacou a responsável pelo estudo, que acrescentou que isto apenas demonstra "quão acessível e sofisticada a tecnologia de voz de IA se tornou".
Segundo Nadine Lavan, o ritmo de progresso foi muito rápido e traz muitas implicações éticas, de direitos de autor e segurança, sobretudo em áreas como a desinformação, fraude e usurpação de identidade.
Pelo lado positivo, a responsável destacou as oportunidades que esta tecnologia abre em termos de educação e comunicação, com as vozes sintéticas a permitirem melhorar a experiência do utilizador.
Leia Também: À procura de namorado(a)? O Facebook acha que IA é a solução