La linguistica computazionale nella vita quotidiana
PSICOLOGIA DIGITALE – (Nr. 48) Che cos’è la linguistica computazionale – Recensione del libro
La linguistica computazionale è alla base di molte tecnologie che usiamo quotidianamente. Il volume di Nissim e Pannitto offre al lettore teorie, metodi e chiavi di lettura per la comprensione del loro funzionamento.
Quando ci avviciniamo ad alcune discipline, di solito quelle più tecniche, finiamo per sentirle lontane da noi, astratte, come fossero lontane dalla nostra portata. La linguistica computazionale è fra queste: anche se quasi non ce ne accorgiamo, è una delle componenti fondamentali di servizi, dispositivi e applicazioni che usiamo quotidianamente.
Soprattutto negli ultimi anni, i risultati portati da questo settore di ricerca stanno generando innovazioni e trasformazioni di vasta portata, avanzamenti tecnologici che modellano quello che facciamo e come lo facciamo. Per esempio, quando chiediamo ad Alexa di dirci se c’è un ristorante nelle nostre vicinanze, quando traduciamo dei testi con Google Translate oppure quando parliamo con un chatbot, ci stiamo servendo di applicazioni basate su modelli linguistici.
Capire come funzionano nuovi strumenti vuol dire anche intuirne potenzialità e rischi; l’intento delle autrici è fornici una chiave di lettura accessibile, farci avvicinare ad una comprensione generale che ci aiuti a sviluppare un pensiero informato, consapevole e critico su questa disciplina e sul suo impatto.
Che cos’è la linguistica computazionale
Ma come fa Alexa a risponderci in maniera pertinente e credibile? Com’è possibile che un testo venga tradotto in decine di lingue? Come fa un chatbot a parlare con noi in maniera fluida e coerente? Non solo. Nei sistemi di messaggistica come Whatsapp ci viene suggerita la parola successiva da inserire nel messaggio; in ecommerce come Amazon o servizi di streaming come Netflix i recommender systems (“sistemi di suggerimento”) ci suggeriscono cosa comprare e cosa guardare analizzando anche quello che scriviamo e come lo scriviamo; come funzionano?
Tutto questo e molto altro è il risultato della collaborazione tra diversi campi, tra cui la linguistica computazionale: a partire dallo studio del linguaggio umano, tramite l’uso di teorie e metodi informatici, questa disciplina crea modelli e regole formali che siano eseguibili da macchine. L’obiettivo finale è creare tecnologie in grado di comprendere le nostre richieste ed effettuare dei compiti attraverso delle indicazioni che possiamo fornire facilmente attraverso il linguaggio. Per questo, la linguistica computazionale indaga un insieme di molti elementi e non solo il significato in sé delle parole: dalla grammatica alla sintassi, dalla fonetica alla semantica; tutto ciò che concorre a creare simulazioni delle abilità linguistiche umane.
La linguistica computazionale e una reale comprensione del linguaggio umano
I modelli linguistici di grandi dimensioni (LLMs, large language models), come quello utilizzato da ChatGPT, sono tra i più promettenti: riescono a comprendere e generare testi; apprendono grazie a processi di addestramento da grandi moli di dati. Le potenzialità sono sotto i nostri occhi: scrittura di testi e codici, ricerche, estrazione di informazioni, traduzioni; dall’utilizzo personale a quello aziendale, possono snellire e migliorare molti compiti e processi. Abbiamo quindi strumenti che riproducono fedelmente la comunicazione umana? Non ancora, non esattamente.
La linguistica umana si basa su molti elementi e comprende più codici: verbale (lessico, parole e concetti); paraverbale (ritmo, accento, tono e volume), non verbale (gestualità, mimica facciale, postura e prossemica); a questi si aggiungono il tono emotivo e quello che abbiamo imparato nel corso degli anni, la conoscenza del mondo affinata attraverso esperienze e relazioni. C’è differenza tra una conversazione formale ed una informale, tra rabbia o sorpresa, tra capire che la frase “la mela è blu” è corretta ma insensata perché, anche se non abbiamo visto tutte le mele del mondo, sappiamo che le mele non possono essere blu. Informazioni come questa fanno parte della world knowledge, l’insieme delle conoscenze acquisite grazie all’esperienza quotidiana all’interno di una data cultura e momento storico. Questa e altre aree di applicazione esplorano proprio aspetti specifici della comunicazione: per esempio l’emotion detection, la capacità di riconoscere se il tono emotivo del messaggio è positivo, negativo o neutro.
Linguistica computazionale, dual use e debiasing dei modelli linguistici
Come per ogni strumento, la bontà di una tecnologia dipende dall’uso che se ne fa. È il cosiddetto dual use, ovvero la possibilità che una stessa tecnologia possa essere usata per scopi utili alla società o, viceversa, dannosi. E gli usi che possiamo fare dei modelli linguistici sono molteplici e non tutti etici. Per esempio, i modelli linguistici possono generare testi offensivi e diffonderli online su larga scala e molto velocemente. Un altro punto critico sono i bias dei modelli linguistici. Questi modelli apprendono da enormi moli di dati e imparano non soltanto strutture linguistiche e aspetti semantici, ma anche tratti socioculturali e rappresentazione di alcune categorie. Ad esempio, sono molto frequenti i bias di genere: se il materiale usato per l’apprendimento contiene un termine più frequentemente associato ad articoli o aggettivi maschili, imparerà ad associarlo a quel genere; oppure, possono produrre allucinazioni, cioè generare output formalmente corretti, sensati, ma con informazioni totalmente inventate o false.
C’è un gran dibattito sul debiasing dei modelli, cioè sullo sviluppo di tecniche per evitare o almeno limitare i bias: l’Association for Computational Linguistics ha istituito una commissione dedicata e ha promosso l’adozione di un Code of Ethics, un insieme di linee guida relative alle pubblicazioni di settore per sensibilizzare e stimolare il dibattito su questi aspetti.
Ancora una volta, è fondamentale ricordare quanto sia importante essere consapevoli. Per capirne logiche di funzionamento, pregi e difetti, potenzialità e limiti, non è necessaria una conoscenza tecnica e profonda della materia, ma un approccio attento e curioso.