Uncanny valley e deepfake: dal perturbante di Freud a Masahiro Mori

Masahiro Mori, scrive un celebre articolo nel 1970 dal titolo The Uncanny Valley (bukimi no tani), sul fenomeno percettivo legato al senso di affinità (o familiarità) che le persone provano rispetto alla visione di automi robotici.

Il politico conservatore Sud-coreano Yoon Suk-yeol, si è recentemente reso noto per essere stato il primo candidato politico al mondo ad aver fatto ricorso ad una tecnica di Intelligenza Artificiale durante la sua campagna elettorale. Si è infatti manifestato pubblicamente, durante una conferenza stampa, presentando un avatar digitale creato attraverso l’uso di una tecnica chiamata deepfake.

Attraverso l’uso di sistemi di Machine Learnings sempre più sofisticati, è infatti possibile riprodurre facce di personaggi famosi, in modo talmente perfetto da poter ingannare l’occhio umano: è possibile poi “applicare” tali immagini sopra il viso di un attore e, facendolo recitare come il personaggio in questione, si potrebbe ingannare lo spettatore in modo del tutto convincente. È infatti possibile vedere tutta una serie di episodi (anche comici) che coinvolgono questa tecnologia: ne troviamo diversi esempi in ambito politico, cinematografico, e in diversi altri ambiti, per esempio sono stati utilizzati per creazione di accounts falsi su LinkedIn (Broad, 2020).

Questa tecnologia si serve di algoritmi che, una volta appreso a distinguere tra immagini reali e false, generano prototipi che il sistema stesso ritiene realistici. Per la produzione di prodotti deepfakes viene utilizzata una metodologia specifica di Machine Learning chiamata Generative Adversarial Network. Due componenti agiscono all’unisono e in modo competitivo: il “generatore” propone esempi random di immagini umane alla seconda componente, chiamata “discriminatore”, che in secondo momento dovrà decidere se tale immagine è reale oppure no (Broad, 2020). Il sistema, a seconda dei feedback nati dalle due componenti, apprende quali patterns e caratteristiche permettono di “ingannare” l’occhio umano al punto tale da creare immagini del tutto identiche a quelle reali.

Al di là delle ragioni politiche che hanno spinto il candidato Sud-coreano verso tale scelta, questo tipo di tecnologia richiama la necessità di interrogarsi sugli effetti percettivi legati a questo tipo di prodotto. L’oggetto reale e la sua copia digitale sono veramente indistinguibili? E se così non fosse, quali effetti susciterebbe nell’osservatore la visione di una copia umana – di certo simile- ma non perfetta?

La “Uncanny Valley” di Masahiro Mori

Il professore di robotica presso il Tokyo Institute of Technology, Masahiro Mori, scrive un celebre articolo nel 1970 dal titolo The Uncanny Valley (bukimi no tani). Lo studio verte sul fenomeno percettivo legato al senso di affinità (o familiarità) che le persone provano rispetto alla visione di automi robotici.

L’ipotesi di fondo si basa su un concetto semplice: tanto più un robot assume fattezze umane, tanto più alto sarà il grado di affinità emotiva (Shinwakan) che il partecipante prova nei confronti dell’automa. È opportuno quindi tenere a mente queste due variabili: la prima è il grado di somiglianza che l’oggetto ha rispetto all’essere umano; la seconda verte su un giudizio espresso dalla persona circa la percezione di familiarità che quell’oggetto evoca.

Prendiamo per esempio i robot industriali: sebbene svolgano movimenti ed azioni simili a quelli umani -basti pensare ad un braccio che si piega, ad una pinza che afferra- essi hanno un basso grado di somiglianza con gli esseri umani, e quindi registreranno dei bassi indici di affinità nei partecipanti. In altri termini, possiamo chiedere a dei partecipanti “quanta affinità emotiva provi nei confronti di una pressa industriale?”, e sarebbe facile immaginare dei feedback abbastanza bassi per quanto riguarda la percezione che si ha per questo oggetto.

Andiamo oltre. Ora, come nell’ipotesi di Mori, proviamo a considerare un robot giocattolo: avremmo adesso a che fare con un meccanismo che non solo imita le azioni funzionali degli esseri umani, ma ne riproduce alcune fattezze (per esempio ha delle gambe, una faccia, ha dei capelli sulla testa). In questo caso il grado di affinità cresce, ed infatti non è un caso che tali oggetti siano altamente presenti nel mercato dedicato ai bambini, allo svago e alla creatività. Finora, quindi, se dovessimo immaginare un asse cartesiano contenente una curva, saremmo nella parte crescente e le cose rispetterebbero un andamento lineare descritto dalla funzione y = f(x). Possiamo affermare, quindi, che tanto più cresce il grado di somiglianza del robot preso in esame, tanto più cresce il grado di affinità percepita dai partecipanti nei loro confronti.

Il problema evidenziato dagli studi di Mori, però, complica la situazione: sembrerebbe infatti che all’aumentare del grado di somiglianza umana dell’automa esista un punto oltre il quale il grado di affinità percepita registra una ripida riduzione. Questo calo di familiarità percepita può essere descritto come una reazione emotiva negativa nei confronti di un oggetto inanimato che -nel suo tentativo di sembrare umano- fallisce.

Per illustrare questo fenomeno immaginiamo questa volta una protesi robotica a forma di mano: essa riprodurrà fedelmente sia i movimenti meccanici funzionali umani, sia le fattezze umane, solo che adesso il grado di somiglianza umana cresce maggiormente rispetto ai giocattoli usati nello step precedente (immaginiamola con unghie di plastica, e una pelle sintetica fatta di materiale che riproduce l’epidermide). Adesso le reazioni degli ipotetici partecipanti diventano improvvisamente negative e, usando le parole dell’autore, “we lose our sense of affinity, and the hand becomes uncanny”. La sensazione “uncanny” (perturbante) di stringere una mano meccanica come se fosse vera, e la freddezza ad essa associata, fa cambiare radicalmente la percezione di affinità: adesso la curva decresce, fino a toccare il fondo di quello che abbiamo chiamato finora la Uncanny Valley. Siamo nel punto più basso della curva.

A questo punto, Mori illustra un altro oggetto: prendiamo una bambola Bunraku (una bambola giapponese tradizionale usata negli spettacoli teatrali). Adesso l’oggetto sarà caratterizzato da aspetti umani funzionali (si muove e agisce come un umano), da apparenze umane concrete (capelli, occhi, espressioni facciali), e da una maggiore somiglianza con l’essere umano rispetto allo step precedentemente illustrato dalla mano meccanica (in quanto adesso l’oggetto viene presentato nella sua interezza). Vedremo crescere il grado di familiarità percepito, fino al punto tale da uscire fuori dalla profondità della Uncanny Valley: in altre parole, assistere ad uno spettacolo teatrale di bambole giapponesi non suscita nello spettatore quelle emozioni negative tanto evidenti nella mano meccanica; l’oggetto in questione avrebbe guadagnato un grado di somiglianza umana tale per cui il suo “tentativo” di somiglianza con l’umano sembrerebbe soddisfacente e abbastanza riuscito. Siamo tornati, quindi, sulla curva ascendente: abbiamo lasciato la Uncanny Valley e ritroviamo l’associazione (questa volta positiva) tra somiglianza umana e familiarità percepita. L’ultimo step, infatti, vede un oggetto robotico che, assunte le fattezze umane più totali e indistinguibili, si comporta, si muove, ed appare, esattamente come un essere umano “sano”. Tale robot acquisirebbe un punteggio alto per entrambe le variabili: sarebbe altamente simile all’umano e avrebbe alti livelli di affinità percepita.

Il fenomeno della mano meccanica, che troviamo nel punto più basso della Uncanny Valley, è utile a descrivere come la modalità di interazione tra uomo e automa non sia del tutto lineare e semplice, ma si articola in un rapporto dinamico e complesso: il rapporto tra similarità umana e piacevolezza deve risolvere un problema profondo, nato dal fatto che quando un oggetto tenta di sembrare umano, ma fallisce, evoca un profondo senso di non familiarità, di emozioni negative, che possono alterare il rapporto tra oggetto e utente. A questo punto Mori rivolge un messaggio ai designers: creare automi con fattezze umane è una disciplina che deve fare i conti con la Uncanny Valley. La sfida è quella di creare un livello stabile e sicuro, dove un oggetto robotico, sebbene simile all’umano, non evochi emozioni negative nell’utente che ne usufruisce. Una possibile soluzione è quella di creare oggetti aventi un design deliberatamente non umano. Prendiamo dei semplici occhiali da vista: se questi avessero fattezze umane – per esempio presentando all’interno delle lenti, o in qualsiasi altro modo, un design simile agli occhi umani – cadrebbero all’interno della Uncanny Valley. In realtà ciò non accade, perché invece di sembrare organici, gli occhiali semplicemente enfatizzano aspetti estetici in modo alternativo; sono oggetti che aiutano ad enfatizzare elementi estetici umani, ma non tentano di diventare umani essi stessi. Per la protesi umana della mano meccanica segue lo stesso ragionamento: tentare di creare un oggetto troppo umano che, riproducendo unghie, epidermide, e colorazione della pelle, fallisce nel suo tentativo emulativo, determina il rischio di ricadere nella Uncanny Valley. Ciò non accade, invece, per le mani di legno delle statue buddiste illustrate da Mori nell’articolo: sebbene dotate di articolazioni e unghie, questi oggetti di legno non determinano alcuna emozione negativa, proprio per il fatto che rinunciano deliberatamente ad emulare le fattezze umane (il colore è quello del legno, le pieghe della mano sono segni delicatamente abbozzati).

Quale è la spiegazione di Mori al fenomeno descritto? La sensazione di negatività associata alla mano meccanica sembrerebbe una sorta di istinto di protezione verso una fonte di pericolo (un senso di auto-preservazione): la sensazione negativa che si riscontra per la mano meccanica (oggetto mobile) viene riscontrata anche per i cadaveri (oggetti non mobili), in quanto entrambi sarebbero associati ad una sensazione di freddezza, mancanza di vita organica e morte. Infatti, se nella profondità della Uncanny Valley troviamo questi due oggetti, dall’altra parte, al vertice della curva, troviamo un oggetto che è stato in grado di assumere alla perfezione le fattezze di una “persona sana”, dotata di vita, che non necessita l’attivazione di alcun meccanismo di auto-preservazione.

Esempi culturali di Uncanny Valley: cinema e “Final Fantasy”

Esistono diversi esempi culturali di prodotti caratterizzati da un tentativo emulativo fallace, destinato a evocare profonde sensazioni negative negli osservatori.

Nell’opera dal titolo “The Uncanny Valley in games and animation” (2015) la studiosa Angela Tinwell indica una serie di esempi che aiutano a tradurre l’esperimento di Mori in una chiave più pragmatica. Se il video gioco The Last of Us (Naughty Dog, 2013) viene descritto come “un capolavoro” in grado di aver superato l’abisso della Uncanny Valley, esistono diversi prodotti che non sono stati in grado di oltrepassare questo abisso. In ambito cinematografico tra gli esempi più classici troviamo Polar Express (Zemeckis, 2004), The Adventures of Tintin: Secret of the Unicorn (Spielberg, 2011), Cats (Tom Hooper, 2019), Beowulf (Zemeckis, 2007) (Tinwell, 2010).

Tra questi, merita una particolare menzione il film Final Fantasy: The spirits Within (Sakaguchi, 2001). Questo film è stato, infatti, il primo ad attirare l’attenzione dei media verso il tema della Uncanny Valley, e rappresenta quindi un esempio iconico di questo fenomeno nel mondo cinematografico (Tinwell, 2015). Nell’articolo “A-Life and the Uncanny in Final Fantasy” (2004) la studiosa Livia Monnet descrive il film come un prodotto di “pura science fiction”, non solo rispetto alla trama e i contenuti legati alla celebre saga videoludica di successo, ma soprattutto per l’enorme retorica pubblicitaria legata al prodotto. Nato dalla creazione di uno spazio “iper-reale” digitale, questo film viene descritto come qualcosa destinato a cambiare il futuro del cinema e della cultura popolare (Monnet, 2004). In realtà il film andrà incontro ad un profondo fallimento commerciale: le entrate al box office furono così basse da costringere lo studio di produzione Square’s Honolulu studio a ritirare tutti i progetti futuri legati al proseguimento della serie cinematografica (furono investiti 137 milioni di dollari con un ritorno complessivo di soli 85 milioni) (Monnet, 2004). Parte della spiegazione di tale insuccesso deriva proprio dall’aspetto dei personaggi presentati sulla scena. Questi furono accolti da un generale stato di ostilità e incertezza: Peter Plantec (2007) scriverà di come la protagonista per tutto il film tenti di imitare i gesti e le intenzioni di un essere umano come fosse un cartone animato. Monnet (2004) descriverà il film come “disturbante” soprattutto per il fatto che i personaggi umani sembrano “breathtakingly undead”: “gli attori virtuali recitano come vampiri (zombies) digitali” e ciò è legato sia ai limiti insiti nell’uso di software di animazione, sia al fatto che essi agiscono nel corso della trama come “androidi di plastica”, sospesi nello spazio-tempo.

Il concetto di “Uncanny”: Freud e il perturbante

Nella definizione di Mori rimane tutt’ora ambiguo l’utilizzo del termine “familiarità” o “affinità percepita”. Infatti, l’origine stessa del concetto di “Uncanny” poggia sulla definizione del concetto di bukimi che può essere tradotto come “strano”, “misterioso”, “inquietante” (Tinwell, 2011). Per altri autori il significato originale andrebbe addirittura perso quasi del tutto nella traduzione dal giapponese (Bartneck, 2009). Per tradurre questo termine può essere d’aiuto indagarne la controparte: la parola shinwa-kan è l’etimo usato nell’articolo originale di Mori, con riferimento a qualcosa di “familiare”. Un oggetto la cui apparenza è ben conosciuta viene descritto con questo termine, e viene usato per esempio per descrivere una persona culturalmente famosa e conosciuta (Tinwell, 2011). Alcuni autori utilizzano quindi questa parola (“familiarità”) per indagare a livello sperimentale la validità della teoria di Mori: per esempio si indaga il “grado di familiarità” di un item attraverso il quesito “quanto familiare-comune è questa immagine?”, oppure, “quanto strana e ambigua è questa immagine?”. Altri studiosi, invece, sembrano propendere verso il termine “piacevolezza”.

Rispetto a questo tema l’opera di Freud Il Perturbante (1919) offre una possibile chiave di lettura sia del termine “Uncanny” sia del meccanismo psicodinamico alla base. Con il termine unheimlich Freud intende descrivere due principali aspetti legati ad un oggetto: il primo si riferisce a qualcosa che è familiare, accessibile e piacevole; il secondo si riferisce a qualcosa che deve rimanere nell’ombra, inaccessibile, rimosso, e la cui accessibilità provoca un profondo senso di negatività. (Tinwell, 2011)

Con le parole stesse di Freud, il perturbante è “quella sorta di spaventoso che risale a quanto ci è noto da lungo tempo, a ciò che ci è familiare.” (Freud, 1919). Egli prende avvio nell’opera Il Perturbante considerando il lavoro dello psicologo tedesco Ernst Jentsch (1906) rispetto alla sensazione di Unheimlich: secondo quest’ultimo, il racconto di Ernst Theodor Amadeus Hoffman (1817) Sandmam rappresenterebbe questo sentimento attraverso la figura di Olimpia, un automa con fattezze umane di cui il protagonista del racconto si innamora. Secondo Jentsch, “una condizione particolarmente favorevole al sorgere di sentimenti perturbanti si verifica quando si desta un’incertezza intellettuale se qualcosa sia o non sia vivente, o quando ciò che è privo di vita si rivela troppo simile a ciò che è vivo” (Freud, 1919). Questo sentimento sorgerebbe, quindi, quando difronte a oggetti ambivalenti, come bambole e manichini di cera, la persona si troverebbe in uno stato di “incertezza intellettuale” tale da non essere capace di distinguere se l’oggetto sia vivo o no.

Il punto suggerito da Freud verte sull’idea che il perturbante sia una sensazione nata dalla rivelazione di un qualcosa che sarebbe dovuto rimanere celato, nascosto, e la cui natura non è necessariamente “non familiare” ed estranea: spesso anzi è qualcosa di familiare, legato alla propria costellazione psicologica infantile, che è stato rimosso, o dimenticato, e la cui rivelazione- presente- suscita in noi uno stato di allerta.

In ogni situazione quotidiana dove si dovesse presentare un evento caratterizzato da un confine labile tra fantasia e realtà, avremmo a che fare con una serie di fattori che “trasformano l’angoscioso in perturbante”: ciò è dovuto al fatto che l’elemento della “onnipotenza dei pensieri”, come anche l’animismo, la magia, gli incantesimi, il malocchio, sono tutti elementi che caratterizzano la vita psichica dell’essere umano “fin dai tempi antichissimi” e che ritroviamo espressi nella costellazione psichica infantile; tali elementi, che di fatto non rappresentavano niente di angoscioso durante la vita infantile, una volta ripresentati durante la vita adulta suscitano in noi un forte elemento perturbante per il fatto che tali contenuti sono stati soggetti al processo di “rimozione” durante l’arco di vita.

Con il concetto di rimozione trova una piena spiegazione anche l’etimo “unheimlich”: “Anche in questo caso, quindi, un heimlich è ciò che un giorno fu heimisch [patrio], familiare. E il prefisso negativo “un” è il contrassegno della rimozione” (Freud, 1919).

La Mano mozzata: da Mori a Freud

Torniamo quindi all’esperimento di Mori (1970): abbiamo evidenziato come sul fondo della curva discendente -chiamata Uncanny Valley – legata alla massima percezione negativa di “affinità, familiarità umana” di un automa ipotetico, troviamo una protesi robotica con fattezze e funzionalità simili ad una mano umana. Abbiamo accennato al fatto che secondo Mori un oggetto che fallisce nel suo intento emulativo – nonostante l’effettiva vicinanza umana- crea una forte sensazione negativa di “Uncanny” (bukumi) legata all’attivazione di meccanismi fisiologici di allerta rispondenti alla necessità umana di auto-preservazione.

Rispetto al tema della “mano mozzata” è possibile aggiungere la riflessione freudiana contenuta nel saggio del 1919. Esisterebbero infatti diversi racconti tratti dalla letteratura greca e dai racconti folcloristici che riguardano arti mozzati e mani tronche, ma che non suscitano in noi alcun sentimento perturbante: infatti, spiegare il perturbante attingendo all’idea di un ritorno di una costellazione psichica infantile ormai “rimossa” (in questo caso una concezione “animista” di un oggetto inanimato che torna in vita, come appunto una mano mozza) di per sé trova molti controesempi. Conosciamo molte favole, racconti, film di animazione, che raffigurano oggetti animati che cantano, ballano e fluttuano nell’aria, senza che a queste immagini segua per forza una sensazione perturbante: “chi oserebbe definire perturbante Biancaneve quando riapre gli occhi?” (Freud, 1919). La chiave di comprensione di questi fenomeni, quindi, richiede una riflessione aggiuntiva. Innanzitutto, occorre separare il perturbante della “finzione letteraria” da quello sperimentato nella vita vissuta. Fare esperienza diretta di un fenomeno “animista” è del tutto diverso rispetto a farne una indiretta: nei controesempi presentati la componente perturbante contenuta nelle favole e nei racconti si affievolisce proprio perché, appunto, sono racconti di finzione la cui analisi non necessita un personale esame di realtà profondo. Per quanto riguarda, invece, il perturbante sperimentato direttamente, la chiave per comprenderne la natura si cela nel concetto di “rimozione” e “superamento”. Più nello specifico, la sensazione di perturbante che coinvolge fenomeni animisti (come nel caso della mano mozzata o delle bambole che prendono vita) si verifica quando “complessi infantili rimossi sono richiamati in vita da un’impressione” o anche “quando convinzioni primitive superate sembrano aver trovato una nuova convalida” (Freud, 1919).

Per arricchire questi due punti di vista si possono citare dei contributi aggiuntivi. Alcuni studi tendono a considerare le due principali dimensioni utilizzate da Mori (somiglianza – familiarità) troppo semplicistiche per spiegare il fenomeno della Uncanny Valley: per esempio la motivazione dei personaggi, il suono emesso, e l’età dei partecipanti possono complicare il rapporto lineare tra le due variabili (Tinwell, 2011). Inoltre, sembra che esistano più “abissi” nella curva, e quindi la forma classica della curva discendente potrebbe essere ancora più complessa di quanto si evince dall’ipotesi di Mori: all’aumentare del grado di somiglianza dell’oggetto, quindi, la percezione individuale dei soggetti andrebbe incontro a un numero maggiore di “discese negative” rispetto all’ipotesi originale, andando a complicare il rapporto tra oggetto e percezione di familiarità.

Chissà cosa penserebbe Freud dell’avatar digitale del candidato Sud-coreano: sicuramente la straniante percezione di avere difronte a noi un essere umano nei suoi più minuziosi dettagli, sapendo però che tale immagine umana non lo è, riporta alla luce sia le riflessioni freudiane che le ipotesi di Mori, lasciando ancora molte domande in sospeso.

Deepfake: la “uncanny valley” di Mori e il perturbante

Creare automi con fattezze umane deve fare i conti con la Uncanny Valley: creare un robot che, sebbene simile all’umano, non evochi emozioni negative

La “Uncanny Valley” di Masahiro Mori

Esempi culturali di Uncanny Valley: cinema e “Final Fantasy”

Il concetto di “Uncanny”: Freud e il perturbante

La Mano mozzata: da Mori a Freud