Este algoritmo pode reconstruir rostos de pessoas a partir da voz

É possível deduzir a aparência de uma pessoa apenas pela maneira como fala? Programas de computadores seriam capazes de reconstruir rostos de pessoas a partir de suas vozes? Um grupo de pesquisadores vinculados ao Massachusetts Institute of Technology’s Computer Science & Artificial Intelligence Lab (MIT CSAIL) está convencido de que sim.

Tae-Hyun Oh, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman, Michael Rubinstein e Wojciech Matusik se incumbiram da tarefa de reconstruir rostos de pessoas a partir de curtas gravações de áudio. Por meses, projetaram e treinaram uma rede neural profunda para analisar milhões de conteúdos em vídeo disponibilizados no YouTube.

Durante o processo de treinamento, o algoritmo, batizado de Speech2Face, aprendeu a correlacionar a voz com outros atributos dos falantes, tais como idade, sexo e etnia. Embora o algoritmo não seja ainda capaz de recriar a imagem exata do rosto – pois treinado para capturar elementos comuns a muitos indivíduos –, a reconstrução é impressionante:

reconstruir rostos 01
Clique na imagem para ouvir as ondas sonoras

É provável que você goste:

Como se proteger de golpes na Internet

Reconstruir rostos de pessoas a partir da voz

O modelo foi projetado para fins exclusivamente acadêmicos, sem qualquer destinação comercial, mas não deve tardar até que empresas decidam investir no desenvolvimento de ferramentas similares. Pensemos em empresas de segurança, por exemplo, que ofereçam serviços de reconstrução facial a partir de vozes, para identificar suspeitos de crimes.

Parte significativa dos crimes em todo o mundo são cometidos por voz, pura e simplesmente. Para praticar o golpe do falso sequestro (ora tipificado como estelionato, ora como extorsão), o criminoso necessita apenas de um telefone e de uma vítima que acredite na narrativa. Como os criminosos costumam usar celulares clonados, não é tarefa fácil identificá-los.

Ainda é cedo para dizer se, no futuro, algoritmos serão capazes de recriar a imagem exata do rosto de uma pessoa, com todas as suas características físicas. Mas soluções semelhantes ao Speech2Face, em versões aprimoradas e calibradas, seguramente auxiliarão as autoridades policiais na identificação de quadrilhas e organizações criminosas.


Quer estar por dentro de tudo que envolve Direito, inovação e novas tecnologias?

Siga-me no FacebookInstagram e LinkedIn e acompanhe conteúdos diários para se manter atualizado.

Bernardo de Azevedo

Advogado, empreendedor, professor e pesquisador de novas tecnologias. Acredita no poder da informação como forma de incentivar as pessoas a promover mudanças.

Anterior

Como se proteger de golpes na Internet

Próximo

Discriminação algorítmica leva empresas a suspender investimentos em reconhecimento facial