Cérebro humano consegue distinguir vozes deepfake de vozes reais

14 de Julho 2024

Os nossos cérebros processam vozes naturais e vozes deepfake de forma diferente? Pesquisas realizadas na Universidade de Zurique indicam que sim. Num novo estudo, investigadores identificaram duas regiões cerebrais que respondem de maneira distinta a vozes naturais e a vozes deepfake.

Tal como as impressões digitais, as nossas vozes são únicas e podem ajudar-nos a identificar pessoas. Os algoritmos mais recentes de síntese de voz tornaram-se tão avançados que agora é possível criar clones deepfake que se assemelham muito às características de identidade dos locutores naturais. Isto significa que é cada vez mais fácil usar a tecnologia deepfake para imitar vozes naturais, por exemplo, para enganar pessoas ao telefone ou replicar a voz de um ator famoso através de um assistente de voz com IA.

Até agora, no entanto, não era clara a forma como o cérebro humano reage quando confrontado com tais vozes falsas. Os nossos cérebros aceitam-nas como reais ou reconhecem o “falso”? Uma equipa de investigadores da Universidade de Zurique descobriu que as pessoas muitas vezes aceitam identidades de voz falsas como reais, mas os nossos cérebros respondem de maneira diferente a vozes deepfake em comparação com vozes de locutores naturais.

Identidade em vozes deepfake quase enganadoramente similar

Os investigadores recorreram primeiro a métodos psicoacústicos para testar o quão bem a identidade da voz humana é preservada nas vozes deepfake. Para isso, gravaram as vozes de quatro locutores masculinos e depois usaram um algoritmo de conversão para gerar vozes deepfake. Na experiência principal, 25 participantes ouviram várias vozes e foram solicitados a decidir se as identidades de duas vozes eram as mesmas. Os participantes tiveram que comparar a identidade de duas vozes naturais ou de uma voz natural e uma voz deepfake.

Os deepfakes foram corretamente identificados em dois terços dos casos. “Isto ilustra que as vozes deepfake atuais podem não imitar perfeitamente uma identidade, mas têm o potencial de enganar pessoas”, diz Claudia Roswandowitz, primeira autora e investigadora pós-doutorada no Departamento de Linguística Computacional.

Sistema de recompensa reage a vozes naturais, mas não a deepfakes

Os investigadores então usaram técnicas de imagem para examinar que regiões cerebrais respondiam de maneira diferente às vozes deepfake em comparação com vozes naturais. Conseguiram identificar duas regiões que conseguiam reconhecer as vozes falsas: o núcleo accumbens e o córtex auditivo. “O núcleo accumbens é uma parte crucial do sistema de recompensa do cérebro. Na experiência realizada, ele foi menos ativo quando os participantes tiveram que comparar a identidade entre deepfakes e vozes naturais”, diz Claudia Roswandowitz. Em contraste, o núcleo accumbens mostrava muito mais atividade quando se tratava de comparar duas vozes naturais.

Córtex auditivo distingue qualidade acústica em vozes naturais e deepfake

A segunda região cerebral ativa durante os experimentos, o córtex auditivo, parece responder às diferenças acústicas entre as vozes naturais e as deepfakes. Esta região, que processa informações auditivas, foi mais ativa quando os participantes tiveram que distinguir entre deepfakes e vozes naturais. “Suspeitamos que esta região responda à imitação imperfeita das vozes deepfake numa tentativa de compensar a informação acústica ausente nas deepfakes”, diz Roswandowitz. Quanto menos natural e agradável uma voz falsa era percebida em comparação com a correspondente natural, maiores eram as diferenças na atividade no córtex auditivo.

As vozes deepfake parecem ser menos agradáveis de ouvir, quase independentemente da qualidade acústica do som. “Os humanos, portanto, só podem ser parcialmente enganados por deepfakes. Os mecanismos neurais identificados durante o processamento de deepfakes destacam particularmente a nossa resiliência a informações falsas, que encontramos com mais frequência na vida cotidiana”, conclui Roswandowitz.

Bibliografia:

Claudia Roswandowitz, Thayabaran Kathiresan, Elisa Pellegrino, Volker Dellwo, Sascha Frühholz. Cortical-striatal brain network distinguishes deepfake from real speaker identity. Communications Biology, 11June 2024, DOI: 10.1038/s42003-024-06372-6

Aceda a mais conteúdos da revista #22 aqui.

0 Comments

Submit a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

ÚLTIMAS

MAIS LIDAS

Share This