Modelo de IA pode adivinhar emoções analisando nosso tom de voz

O tom de voz de uma pessoa pode dizer muito sobre como ela está se sentindo.

Por Adeilson em 27/03/2024 às 04:48:40

O tom de voz de uma pessoa pode dizer muito sobre como ela está se sentindo. Se para nós, humanos, é fácil perceber isso em uma conversa com alguém, será que inteligências artificiais conseguiriam fazer o mesmo? É o que pesquisadores da Alemanha tentaram responder.

Leia mais:

Em um estudo, especialistas compararam a precisão de três modelos de machine learning para reconhecer diversas emoções em amostras de áudio com vozes em diferentes tons. O artigo está publicado na revista Frontiers in Psychology, e pode ser lido na íntegra aqui.

"Podemos mostrar que o machine learning pode ser usado para reconhecer emoções em clipes de áudio de apenas 1,5 segundo", disse um dos autores do artigo, Hannes Diemerling, pesquisador do Centro de Psicologia do Tempo de Vida do Instituto Max Planck para Desenvolvimento Humano.

"Nossos modelos alcançaram uma precisão semelhante à dos humanos ao categorizar frases sem sentido com coloração emocional faladas pelos atores", acrescentou Diemerling.

Imagem: Prostock-studio/Shutterstock

Uma máquina que escuta as emoções humanas

No estudo, os pesquisadores extraíram frases sem sentido de dois conjuntos de dados – um canadense e um alemão.
Essas amostras lhes permitiram investigar se os modelos de machine learning podem reconhecer emoções com precisão, independentemente do idioma, das nuances culturais e do conteúdo semÃ¢ntico.
Cada clipe foi encurtado para 1,5 segundos, pois é esse o tempo que os humanos precisam para reconhecer emoções na fala.
É também a duração de áudio mais curta possível, na qual a sobreposição de emoções pode ser evitada.
As emoções incluídas no estudo foram: alegria, raiva, tristeza, medo, nojo e tom de voz neutro.

Os dados de treinamento obtidos no estudo permitiram aos pesquisadores gerar modelos de machine learning que funcionaram de três maneiras:

Redes neurais profundas (DNNs): filtros complexos que analisam componentes sonoros como frequência ou tom – por exemplo, quando uma voz está mais alta porque o locutor está com raiva – para identificar emoções subjacentes.
Redes neurais convolucionais (CNNs): procuram padrões na representação visual de trilhas sonoras, da mesma forma que identificam emoções a partir do ritmo e da textura de uma voz.
Modelo híbrido (C-DNN): mescla ambas as técnicas, utilizando tanto o áudio quanto seu espectrograma visual para prever emoções. Os modelos foram então testados quanto à eficácia em ambos os conjuntos de dados.

Apesar das descobertas e avanços que o estudo proporcionou, os pesquisadores também apontaram algumas limitações. Por exemplo, que as amostras de frases usadas podem não transmitir todo o espectro da emoção real e espontÃ¢nea.

Também ficou concluído que, em trabalhos futuros, há a necessidade de investigar segmentos de áudio que duram mais ou menos que 1,5 segundos, para descobrir qual duração é ideal para o reconhecimento de emoções.