Dalle registrazioni audio, l’intelligenza artificiale è in grado di identificare emozioni come paura, gioia, rabbia e tristezza

Comprendere e identificare con precisione gli stati emotivi umani è fondamentale per i professionisti della salute mentale. È possibile per l’intelligenza artificiale e l’apprendimento automatico imitare l’empatia cognitiva umana? Un recente studio con revisione paritaria dimostra come l’intelligenza artificiale sia in grado di riconoscere le emozioni da registrazioni audio in appena 1,5 secondi, con prestazioni paragonabili a quelle degli esseri umani.

“La voce umana è un potente canale per esprimere gli stati emotivi, in quanto fornisce indicazioni universalmente comprensibili sulla situazione del mittente e può trasmetterle a grandi distanze”, ha spiegato il primo autore dello studio, Hannes Diemerling, del Max Planck Institute for Human Development’s Center for Lifespan Psychology, in collaborazione con i ricercatori tedeschi di psicologia Leonie Stresemann, Tina Braun e Timo von Oertzen.

La quantità e la qualità dei dati di addestramento nell’apprendimento profondo dell’intelligenza artificiale sono essenziali per le prestazioni e l’accuratezza dell’algoritmo. In questo studio sono stati utilizzati oltre 1.500 clip audio distinti provenienti da database open-source di emozioni inglesi e tedesche. Le registrazioni audio tedesche provenivano dal Berlin Database of Emotional Speech (Emo-DB), mentre quelle inglesi dal Ryerson Audio-Visual Database of Emotional Speech and Song.

“Il riconoscimento delle emozioni dalle registrazioni audio è un campo in rapida evoluzione, con implicazioni significative per l’intelligenza artificiale e l’interazione uomo-computer”, scrivono i ricercatori.

Come riportato qui, i ricercatori hanno ridotto la gamma di stati emotivi a sei categorie per il loro studio: gioia, paura, neutro, rabbia, tristezza e disgusto. I file audio sono stati combinati in molti tratti e segmenti di 1,5 secondi. Tra le caratteristiche quantificate vi sono il tracciamento del tono, le ampiezze dei toni, la larghezza di banda spettrale, l’ampiezza, la fase, la cromatografia a portatori multi-frequenza, il Tonnetz, il contrasto spettrale, lo smorzamento spettrale, la frequenza fondamentale, il centroide spettrale, il tasso di attraversamento dello zero, il valore quadratico medio, l’HPSS, la planarità spettrale e il segnale audio non alterato.

La psicoacustica è la psicologia del suono e la scienza della percezione sonora umana. L’ampiezza (volume) e la frequenza (altezza) dell’audio hanno un’influenza significativa sulla percezione umana del suono. L’altezza è un termine psicoacustico che esprime la frequenza del suono e si misura in kilohertz (kHz) e hertz (Hz). La frequenza aumenta con l’aumentare dell’altezza. I decibel (db), unità di misura dell’intensità sonora, sono utilizzati per descrivere l’ampiezza. Il volume del suono aumenta con l’aumentare dell’ampiezza.

L’intervallo tra le frequenze superiori e inferiori è noto come larghezza di banda spettrale, ed è determinato dal centroide spettrale, che è il centro della massa dello spettro, e viene utilizzato per misurare lo spettro dei segnali audio. L’uniformità della distribuzione dell’energia tra le frequenze rispetto a un segnale di riferimento è misurata dalla planarità spettrale. Le gamme di frequenza più forti di un segnale sono identificate dal smorzamento spettrale.

Il Coefficiente Cepstrale di Frequenza Mel, o MFCC, è una caratteristica spesso utilizzata nell’elaborazione della voce. I profili di classe di pitch, o chroma, sono un mezzo per analizzare la tonalità della composizione, che di solito è di dodici semitoni per ottava.

Tonnetz, o “rete audio” in tedesco, è un termine usato nella teoria musicale per descrivere una rappresentazione visiva delle relazioni tra gli accordi nella Teoria Neo-Rimanniana, che porta il nome del musicologo tedesco Hugo Riemann (1849-1919), uno dei pionieri della musicologia contemporanea.

Una caratteristica acustica comune per l’analisi audio è il tasso di attraversamento dello zero (ZCR). Per un fotogramma di segnale audio, la frequenza di attraversamento dello zero misura il numero di volte in cui l’ampiezza del segnale cambia segno e passa attraverso l’asse X.

Il valore quadratico medio (RMS) viene utilizzato nella produzione audio per calcolare la potenza o il volume medio di una forma d’onda sonora nel tempo. Un segnale audio può essere suddiviso in componenti armoniche e percussive utilizzando una tecnica chiamata separazione delle sorgenti armoniche e percussive, o HPSS.

Utilizzando una combinazione di Python, TensorFlow e ottimizzazione bayesiana, gli scienziati hanno creato tre distinti modelli di apprendimento profondo dell’intelligenza artificiale per categorizzare le emozioni da brevi campioni audio. I risultati sono stati poi confrontati con le prestazioni umane. Tra i modelli di intelligenza artificiale valutati, una rete neurale profonda (DNN), una rete neurale convoluzionale (CNN) e un modello ibrido che combina una CNN per l’analisi dello spettrogramma e una DNN per l’elaborazione delle caratteristiche. L’obiettivo era trovare il modello più performante.

I ricercatori hanno scoperto che l’accuratezza complessiva dei modelli di intelligenza artificiale nella classificazione delle emozioni era superiore al caso e paragonabile alle prestazioni umane. Tra i tre modelli di intelligenza artificiale, la rete neurale profonda e il modello ibrido hanno ottenuto risultati migliori rispetto alla rete neurale convoluzionale.

L’integrazione della scienza dei dati e dell’intelligenza artificiale con la psicologia e gli elementi di psicoacustica mostra come i computer possano eseguire compiti di empatia cognitiva basati sul parlato che siano alla pari con le prestazioni umane.

“Questa ricerca interdisciplinare, che unisce psicologia e informatica, evidenzia il potenziale di avanzamento del riconoscimento automatico delle emozioni e l’ampia gamma di applicazioni”, concludono i ricercatori.

La capacità dell’intelligenza artificiale di comprendere le emozioni umane potrebbe rappresentare una svolta per garantire una maggiore assistenza psicologica alle persone in modo più semplice e accessibile a tutti. Tale aiuto potrebbe addirittura migliorare la società, dal momento che i crescenti problemi psicologici delle persone, dovuti a una società sempre più frenetica, poco empatica e individualista, le rendono sempre più sole e isolate.

Tuttavia, queste capacità potrebbero anche essere utilizzate per comprendere meglio la mente umana e ingannare facilmente le persone e convincerle a fare cose che non vorrebbero fare, a volte anche senza che se ne rendano conto. Pertanto, dobbiamo sempre essere attenti e consapevoli delle potenzialità di questi strumenti.