Voce e faccia uditiva: la funzione nel riconoscimento emotivo e dell’identità

Una recente metanalisi evidenzia come la voce possa essere considerata una “faccia uditiva”, in quanto viso e voce sono utili per il riconoscimento di persone familiari, delle emozioni e della percezione del parlato.

La funzione comunicativa della voce

La comunicazione umana coinvolge complessi modelli di segnali osservati nel viso, nel corpo e nella voce (Schweinberg e Burton, 2011). Mentre la comunicazione verbale spesso assume la forma di discorsi proposizionali, volti e voci comunicano facendo inferire determinate caratteristiche dell’interlocutore al ricevente come genere, età, stato emotivo, impressioni legate al livello di competenza e altri tratti (Bruce e Young, 2012; Schweinberg et al., 2014). Quando sediamo di fronte a un uomo robusto si può immaginare una voce bassa, con delle caratteristiche differenti da quelle che può avere la voce di un’adolescente esile; eppure, può capitare di interloquire con uomini dalla voce altisonante o con donne dalla voce molto profonda.

Mentre le regioni sensibili al volto sono aree cerebrali localizzate nel sistema visivo corticale (Kanwisher, 2017), le regioni cerebrali sensibili alla voce mostrano un’estensione nella corteccia uditiva (Pernet et al., 2015; Frühholz e Belin, 2019). Dopo una prima elaborazione sensoriale nella corteccia uditiva (PAC) e nella corteccia visiva primaria (PVC), a livello neurale si vede una regione estesa della corteccia temporale mediosuperiore che modula delle risposte unimodali selettive per la voce (Pernet et al., 2015; Frühholz & Belin, 2019), mentre la face fusiform area (situata nella corteccia occipitale laterale; Kanwisher, 2017) mostra risposte unimodali selettive per i volti. Nel complesso, possiamo stupirci quando parliamo con un uomo con una voce sottile o con una ragazza con la voce profonda perché nei circuiti neurali si osserva come le zone coinvolte nella percezione della voce abbiano un grado di specificità inferiore rispetto alle zone addette alla percezione dei volti (Young et al., 2020).

La voce come faccia uditiva

Young, Frühholz e Schweinberger (2020) hanno ripreso la letteratura riguardo a ciò che può essere comunicato da voci e volti per strutturare un modello che considera le contingenze quotidiane come determinanti un sistema di comunicazione bilanciato tra mittente e destinatario. Una recente metanalisi (Schirmer, 2018) evidenzia come la voce possa essere considerata una “faccia uditiva”, in quanto viso e voce sono utili per il riconoscimento di persone familiari (attraverso l’unità di riconoscimento vocale e facciale), delle emozioni (tramite l’analisi dell’affetto vocale o facciale) e della percezione del parlato (attraverso l’analisi del discorso vocale e del non verbale espresso dalla mimica): il riconoscimento percettivo di un’identità familiare converge su rappresentazioni episodiche multimodali e informazioni semantiche specifiche dell’identità. In particolare, durante un incontro sociale, il riconoscimento dell’identità ha richieste temporali relativamente basse, in quanto l’identità di una persona viene percepita come maggiormente stabile (Haxby et al., 2000) rispetto alle emozioni che, al contrario, possono cambiare da un momento all’altro (Young, 2018).

La voce viene così definita una “faccia uditiva”, in quanto questi cambiamenti hanno importanti implicazioni sociali, il che significa che gli aspetti vocali e facciali devono essere costantemente monitorati e hanno richieste temporali elevate (Young, 2018). Studi neuroscientifici suggeriscono come il riconoscimento emotivo avvenga grazie alla corteccia temporale posteriore superiore (pSTC; Young, 2018; Calder e Young, 2005; Gao et al., 2019): la magnetoencefalografia evidenzia risposte interattive a volti e voci in quest’area entro i primi 200 ms dall’inizio dello stimolo emotigeno presentato (Hagan et al., 2009; 2013). Il riconoscimento identitario avviene grazie ai lobi temporali anteriori che, se danneggiati, manifestano dei deficit neuropsicologici che portano il soggetto al mancato riconoscimento identitario di un viso familiare (prosopagnosia) o di una voce (fonagnosia; Gainotti, 2014; Cosseddu et al., 2018; Young et al., 2020). Il riconoscimento emotivo ha una complessità moderata (esistono un numero limitato di emozioni basiche, alcune espresse anche se utili a nasconderne altre; Du et al., 2014) e la cui corretta interpretazione dipende dal contesto (Russell e Fehr, 1987; Barrett et al., 2019); mentre il riconoscimento dell’identità ha una complessità più elevata, in quanto si possono riconoscere centinaia di individui familiari dalle loro facce (Jenkins et al., 2019) e si può discriminare un sostanziale numero di voci (Maguiness et al., 2018).

Dato che esiste una sovrapposizione tra la struttura delle emozioni riconosciute dai volti e dal tono della voce, un meccanismo multimodale per integrare i segnali vocali (considerando i vincoli contestuali; Sander et al., 2018) e la mimica facciale rappresenta una soluzione funzionale alle richieste comportamentali (Young et al., 2020). Le differenze, l’impatto che hanno volti e voci nella quotidianità sociale e la loro unione permettono una ricca comprensione delle proprietà alla base dell’organizzazione della comunicazione verbale e non verbale.

La voce come “faccia uditiva”: riconoscimento emotivo e dell’identità

Il volto e la voce comunicano facendo inferire caratteristiche dell’interlocutore al ricevente, come genere, età, stato emotivo, impressioni e altri tratti

La funzione comunicativa della voce

La voce come faccia uditiva