E’ noto come nell’individuo la decisione costituisca l’esito finale dell’attività di meccanismi funzionali (e, nel nostro caso in particolare, l’anticipazione del senso di rimpianto). Può un sistema di intelligenza artificiale (IA) fare altrettanto?
Introduzione: contesto di riferimento e obiettivi del lavoro
Un approccio multidisciplinare avanzato – che trova tra i suoi precursori Damasio (1995) – studia i comportamenti umani che emergono dall’interazione tra sfera cognitiva e quella emotiva, anche all’interno di un contesto strategico, in genere stilizzato – sotto il profilo metodologico – dalla Teoria dei Giochi.
La Teoria dei Giochi, le Neuroscienze, la Neuroeconomia, l’Economia sperimentale, convergono sulla validità di diverse teorie del processo decisionale in condizioni di incertezza, alternative alla Teoria dell’Utilità attesa di von Neumann e Morgenstern (1953). Come noto, esse danno spazio a fattori emotivi che entrano in gioco nelle scelte, all’elicitazione di particolari strutture delle preferenze di fronte a prospetti rischiosi, ad aspetti confusivi – quali il framing – quando l’incertezza è pervasiva, ai limiti umani nel ragionamento di fronte alla complessità, e così via. Alludiamo, in particolare:
- alla Teoria della Razionalità limitata (Bounded rationality) di Simon (1957);
- alla Teoria dei Prospetti (Prospect Theory) di Kahneman e Tversky (1979);
- alla Teoria del Rimpianto (Regret Theory) di Loomes e Sudgen (1982).
Nella Regret Theory, elementi fondanti del processo decisionale fra più alternative rischiose, con probabilità di esito positivo o negativo, sono due: sia la valutazione circa la scelta controfattuale (quella non compiuta), sia l’emozione controfattuale, cioè il rimpianto/rammarico – in caso di esito negativo – per non aver compiuto la scelta controfattuale. Ad esempio, di fronte a un prospetto rischioso, l’individuo, se compie la scelta che dà un payoff positivo – e confronta il risultato che avrebbe invece conseguito optando per un’altra scelta – prova un senso controfattuale di compiacimento (rejoice); se compie la scelta sbagliata – cioè che gli porta un payoff negativo – proverà l’emozione controfattuale del rimpianto (regret). Per l’individuo avverso al rimpianto, il senso di rimpianto avrà un impatto maggiore rispetto al sentimento di gioia, anche a parità di payoffs presi in valore assoluto. In altri termini, a parità di posta in gioco, e sulla base del confronto fra possibili risultati, il rimpianto per la perdita provoca sull’individuo avverso al rimpianto un effetto maggiore rispetto a quello di gioia per aver compiuto la scelta vincente.
E’ noto come nell’individuo la decisione costituisca l’esito finale dell’attività di meccanismi funzionali (e, nel nostro caso in particolare, l’anticipazione del senso di rimpianto). Può un sistema di intelligenza artificiale (IA) fare altrettanto?
Obiettivo del presente contributo è analizzare – attraverso un approccio multidisciplinare – come sia possibile che anche un sistema di IA possa provare il rimpianto per una scelta effettuata e come possano essere elicitate le sue “preferenze” attraverso un meccanismo di apprendimento con rinforzo. Conseguentemente, come sia possibile che tale sistema risponda in modo adattivo alle scelte future apprendendo dall’esperienza, così da minimizzare l’idea controfattuale del rimpianto.
Il rimpianto: un approccio multidisciplinare
L’interesse crescente per le basi neurali del comportamento economico e gli avanzamenti nello studio della psicologia economica hanno sollevato il problema di quanto le teorie appena richiamate – nel presente contributo ci concentriamo sulla Regret Theory – siano effettivamente in grado di spiegare i processi di decision-making. L’economia sperimentale, e la neuro-imaging in particolare, confermano come le scelte dipendano, almeno in parte, dall’avversione al rimpianto.
Specificatamente, attraverso gli esperimenti e studiando gruppi di soggetti impegnati in un gioco d’azzardo, un team di ricercatori ha constatato che i centri nervosi dove si formano i nostri rimpianti si trovano nella corteccia orbitofrontale: essa costituisce l’interfaccia tra emozioni e cognizione (Camille et al., 2004). L’esperimento è stato condotto nel paragonare i comportamenti e le scelte, durante un gioco d’azzardo, fra un gruppo di soggetti affetti da lesioni nella corteccia orbitofrontale e un gruppo di controllo costituito da soggetti che non riportavano tali lesioni in questa area della corteccia cerebrale. I risultati della ricerca sono estremamente rilevanti: in primo luogo, a differenza delle persone appartenenti al gruppo di controllo, l’altro campione non riusciva ad avvertire un senso controfattuale di rammarico in presenza di una perdita nel gioco d’azzardo.
Pertanto, potremmo interpretare il rimpianto controfattuale come un segnale di “alert” che tutela gli individui nelle scelte rischiose che emergono nel loro quotidiano. Il rammarico diventa cioè una sorta di campanello d’allarme – se lo vogliamo/possiamo ascoltare – in grado di guidare il nostro processo decisionale in un contesto o in una situazione di rischio.
In secondo luogo, durante l’esperimento, i ricercatori hanno notato come i soggetti del gruppo di controllo diventassero sempre più avversi al rimpianto, vale a dire beneficiassero di un effetto cumulato riflesso in una maggiore attività all’interno della corteccia orbitofrontale (Coricelli et al., 2005).
Potremmo quindi suggerire che i “flussi” derivanti da ogni esperienza di emozione controfattuale vadano a costituire nel tempo una “dotazione di stock” da cui l’individuo va ad attingere prima di compiere una scelta azzardata. E questa riflessione ci conduce – in terzo luogo – alla circostanza, validata sperimentalmente, che nel gruppo di controllo la corteccia orbitofrontale sia in grado di anticipare il rammarico che si proverebbe in seguito a una scelta sbagliata rispetto alle possibili opzioni disponibili. Invece, il gruppo di persone affette da tali patologie non ha freni inibitori nell’adottare comportamenti rischiosi, perché non ha neppure idea di cosa sia l’emozione del rimpianto.
Infatti, le emozioni che riflettono la valutazione di quanto è stato ottenuto rispetto al risultato che sarebbe stato conseguito adottando una scelta diversa – gratificazione, gioia, sollievo, rimpianto – sono mediate da un processo cognitivo noto in psicologia come “pensiero controfattuale”. I soggetti appartenenti al campione di controllo hanno esperito risposte emotive coerenti con il pensiero controfattuale; hanno cioè scelto di minimizzare il rimpianto futuro.
Proprio attraverso il pensiero controfattuale, la corteccia orbitofrontale è dunque capace di metterci in guardia ex ante, cioè di orientarci verso una scelta maximin in contesti dove prevalgono condizioni di incertezza e di rischio.
Teoria dei Giochi e rimpianto
Due economisti, Marchiori e Warglien (2008), hanno mutuato questi concetti applicandoli ai loro modelli matematici in campo socio-economico. In particolare, si sono serviti dell’impianto metodologico della Teoria dei Giochi (TdG).
L’uomo non è una monade e ha continue interazioni con altri soggetti; da tale interazione e dai comportamenti adottati da ciascun agente, si genera un risultato. Nel linguaggio della TdG, si tratta di interazioni strategiche fra giocatori – interazioni che possono avere natura competitiva o cooperativa – il cui risultato dà luogo a un determinato payoff.
In un gioco ripetuto (cioè, nel caso di più round/incontri), il comportamento degli agenti tende a mutarsi in modo adattivo. Un esempio noto a tutti, nel caso di un gioco strategico ripetuto un numero infinito (o sconosciuto) di volte, è il Tit-for-Tat (“Colpo su colpo”), formulato nel 1980 da Anatol Rapoport quale soluzione del dilemma del prigioniero ripetuto. Come suggerisce il termine, nel Tit-for-Tat il giocatore risponde in modo adattivo al comportamento dell’altro: se il primo giocatore adotta un comportamento cooperativo, l’altro risponderà allo stesso modo, e analogamente nel caso di un comportamento non cooperativo.
Importando il senso di rammarico all’interno di un gioco strategico, sono d’obbligo due considerazioni: in primo luogo, sulla base dell’evidenza sperimentale, il comportamento umano è approssimato molto meglio da modelli di apprendimento interattivi, in cui gli individui imparano mentre giocano in un contesto sociale (Marchiori e Warglien, 2008). Così, nel nostro caso, essi provano – grazie all’attività della corteccia orbitofrontale – il senso di rimpianto dovuto dall’aver sbagliato mossa quando confrontano i risultati migliori che si sarebbero conseguiti attraverso un’altra scelta fra le possibili alternative disponibili; in secondo luogo – grazie all’attività di apprendimento adattivo – maggiore il rimpianto per una scelta scartata in un certo round, più elevate sono le probabilità di adottare tale opzione nei round successivi.
Anche l’economista Coricelli (2005), servendosi delle tecniche di neuro-imaging, era giunto alle medesime conclusioni. Tali tecniche hanno evidenziato una buona correlazione tra perdita, rimpianto controfattuale, attivazione di zone della corteccia cerebrale.
Continuando con il gioco strategico Tit-for-Tat: il primo giocatore otterrà dall’altro una risposta non cooperativa, se nella sua mossa non aveva cooperato, con il risultato di ottenere un payoff più basso (o negativo). Il primo giocatore, di conseguenza, qualora elabori un “pensiero controfattuale”, proverà un senso di rammarico per la sua scelta precedente e tenterà di ridurre al minimo i futuri rimpianti cambiando coerentemente strategia nei successivi round (optando per la strategia cooperativa).
L’algoritmo del rimpianto
In che modo è possibile inserire il rimpianto all’interno di un algoritmo? Marchiori e Warglien (2008), servendosi di giochi strategici, sono riusciti a farlo. Innanzitutto è importante specificare in che modo quantificare il rimpianto: essi lo hanno definito come la differenza tra il payoff conseguito e quello che si sarebbe ottenuto tramite la scelta controfattuale. I due autori hanno esaminato la validità di reti neurali artificiali per formulare modelli e previsioni circa il processo di apprendimento umano in giochi strategici ripetuti.
Essi hanno scoperto che anche reti neurali ad apprendimento per rinforzo (reinforcement learning) molto semplice – basato sulla risposta punitiva del rimpianto –, sono riusciti a prevedere in modo accurato il comportamento umano osservato in ambiente sperimentale durante 21 giochi di strategia.
Con il reinforcement learning più alto è il rimpianto per una mossa non fatta maggiori sono le probabilità di farla in seguito, così da sviluppare un algoritmo ottimizzante.
Pertanto, sulla base dell’apprendimento per rinforzo, è stato possibile introdurre un meccanismo di rimpianto nell’algoritmo che ha condotto a un significativo miglioramento nella predizione del comportamento dell’individuo di fronte a prospetti rischiosi e del suo processo decisionale ottimizzante quando le emozioni – quale il rammarico – giocano un ruolo.
Matematica e sentimenti…