Uma equipe da Universidade de Washington desenvolveu um sistema de inteligência artificial (IA) que permite ao usuário olhar para uma pessoa falando por três a cinco segundos para “inscrevê-la” e ouvi-la exclusivamente.
ANÚNCIO
O sistema, chamado TSH (Target Speech Hearing), cancela então todos os outros sons do ambiente e reproduz em tempo real apenas a voz do interlocutor inscrito, mesmo quando o ouvinte se desloca por locais barulhentos e deixa de estar em sua frente.
Os desenvolvedores dos auscultadores TSH acreditam que, num futuro próximo, as próximas gerações destes dispositivos terão inteligência artificial, o que proporcionará aos utilizadores um nível significativo de controlo sobre o que desejam ouvir.
“Acredito que a próxima geração de fones de ouvido, Airpods e aparelhos auditivos proporcionarão aos usuários um nível extraordinário de controle sobre o que desejam ouvir em seu ambiente”, disse ao Metro Shyam Gollakota, autor principal e professor da Faculdade de Ciência da Computação e Engenharia Paul G. Allen da Universidade de Washington.
Para usar o sistema, conforme explicam seus criadores, uma pessoa usando fones de ouvido normais com microfone precisa pressionar um botão enquanto direciona a cabeça para alguém que está falando. As ondas sonoras da voz desse interlocutor devem chegar simultaneamente aos microfones de ambos os lados dos fones de ouvido; há uma margem de erro de 16 graus.
"Ficaria surpreso se a IA não fosse integrada nos fones de ouvido e nos Airpods nos próximos anos."
— Shyam Gollakota, autor principal e professor da Faculdade de Ciência da Computação e Engenharia Paul G. Allen da Universidade de Washington.
Depois, os auscultadores enviam esse sinal para um computador integrado, onde o software de aprendizado de máquina da equipe aprende os padrões vocais do orador desejado. O sistema se concentra na voz desse orador e continua reproduzindo-a para o ouvinte, mesmo quando o par se move. A capacidade do sistema de se concentrar na voz selecionada melhora à medida que o interlocutor continua falando, fornecendo assim mais dados de treinamento ao sistema.
A equipe testou o sistema com 21 indivíduos, que, em média, classificaram a clareza da voz do falante gravado quase o dobro da do áudio sem filtragem. No entanto, seus criadores ressaltam que atualmente, o sistema TSH só pode gravar um alto-falante de cada vez, e só é capaz de gravar um alto-falante quando não há outra voz alta vinda da mesma direção que a voz do alto-falante alvo.
ANÚNCIO
Este trabalho é baseado em pesquisas anteriores da equipe sobre "audição semântica", que permitia aos usuários selecionar classes específicas de sons - como pássaros ou vozes - que desejavam ouvir e cancelava outros sons do ambiente.
Atualmente, o sistema TSH só pode registrar um alto-falante de cada vez e só consegue registrar um alto-falante quando não há outra voz alta vinda da mesma direção que a voz do alto-falante alvo. Se o usuário não estiver satisfeito com a qualidade do som, pode se reinscrever o alto-falante para melhorar a clareza.
Assim funcionam os auscultadores TSH
O sistema é composto por duas fases:
1.- A fase de inscrição
O usuário simplesmente pressiona um botão nos fones de ouvido e olha para o interlocutor-alvo por alguns segundos, entre 2 e 5 segundos. Durante esse tempo, o sistema captura um exemplo de áudio ruidoso do alvo usando os microfones localizados em ambos os lados da cabeça. Ele usa essa gravação para extrair as características da voz do falante, mesmo quando há outros falantes e ruídos nas proximidades.
2.- Fase de audição da fala alvo
Uma vez que o sistema tenha aprendido as características da voz do sujeito alvo, ele utiliza uma rede neural para extrair a fala desse interlocutor, mesmo que o usuário não esteja mais olhando para ele ou não o tenha à sua frente.
Aqui você pode ver um vídeo de como esses fones de ouvido funcionam.
4 perguntas para...
Shyam Gollakota,
autor principal e professor da Faculdade de Informática e Engenharia Paul G. Allen da Universidade de Washington
P: O que o levou a desenvolver esses fones de ouvido com inteligência artificial?
- Você pode ter notado que vozes familiares, como a de um amigo íntimo ou de um pai, são mais fáceis de entender em ambientes lotados do que as vozes de pessoas que você conhece pela primeira vez. Isso ocorre porque o cérebro humano é capaz de se concentrar na fala de um interlocutor específico, dada a familiaridade com o som. Então começamos o projeto para ver se podemos projetar fones de ouvido com IA que imitem essa capacidade e nos ofereçam algumas opções em relação aos sons que ouvimos em ambientes reais.
Por exemplo, imagine que você e um amigo estão passeando e conversando em uma rua movimentada. Não seria ótimo ter fones de ouvido capazes de aprender as características da voz do seu amigo e suprimir o ruído da rua e da fala dos transeuntes para que você possa se concentrar no que seu amigo está dizendo? Ou imagine-se como turista, ouvindo atentamente a narração do seu guia turístico enquanto admira um dos lugares mais antigos do mundo. Infelizmente, sua voz é abafada pela fala dos outros ao seu redor. Mas e se seus fones de ouvido pudessem aprender como a voz do seu guia turístico soa e apenas reproduzissem sua voz, silenciando tudo o mais? Isso é exatamente o que conseguimos.
P: Como é que estes auscultadores conseguem reproduzir em tempo real apenas a voz do interlocutor registado?
- É um desafio, porque os humanos são sensíveis ao atraso entre os sinais visuais e auditivos. Por exemplo, tenho que processar menos de um centésimo de segundo de dados de áudio, processá-los e reproduzir o discurso limpo no ouvido, tudo isso em um centésimo de segundo. Além disso, um fone de ouvido não possui a enorme GPU que os sistemas de IA normais utilizam, como o ChatGPT. Por isso, tivemos que projetar uma nova rede neural de audição da fala em tempo real que pudesse funcionar no próprio fone de ouvido.
Processamos o áudio de entrada em pedaços de 8 milissegundos. Realizamos várias otimizações para garantir que podemos processar tudo localmente no próprio fone de ouvido sem usar uma grande quantidade de computação. Então, o segredo está na forma como otimizamos nossa rede neural.
P: Você poderia nos explicar com mais detalhes como funciona a IA nesses fones de ouvido?
- Funciona assim: digamos que você quer ouvir o alto-falante azul na presença do alto-falante vermelho que está interferindo. Agora, quando ativamos o cancelamento de ruído nos fones de ouvido, ambos os alto-falantes são suprimidos. Mas se usarmos o par de microfones externos nos fones de ouvido, podemos captar todos esses sons e extrair a fala do alto-falante azul e reproduzi-la para o usuário através dos fones de ouvido. Dessa forma, o usuário só ouve o alto-falante azul e obtém a audição verbal desejada.
P: No futuro, poderemos ver esses fones de ouvido no mercado?
- Na verdade, eu ficaria surpreso se a IA não fosse integrada em fones de ouvido e Airpods nos próximos anos. Por quase duas décadas, vimos avanços em fones de ouvido com cancelamento de ruído que se concentraram apenas em cancelar todos os sons. Mas isso elimina todos os sons e não fornece aos usuários nenhum controle sobre o que desejam ouvir. Acredito que a próxima geração de fones de ouvido, Airpods e aparelhos auditivos fornecerá aos usuários um nível extraordinário de controle sobre o que desejam ouvir em seu ambiente.