Robotica e percezione: un modello predittivo di percezione multisensoriale

Robotica e percezione: i ricercatori del MIT hanno costruito un sistema robotico dotato di un braccio meccanico provvisto di un sensore tattile chiamato GelSight e di una telecamera per la registrazione delle informazioni visive provenienti sia dal braccio che dall’oggetto manipolato.

I cuccioli di animale e i bambini imparano a “sentire” e a conoscere il mondo che li circonda primariamente tramite la manipolazione, il tatto e la vista.

Quando interagiamo con un oggetto, nel giro di pochissimi secondi, la vista e il tatto ci mettono nelle condizioni di conoscerlo, carpendo le sue varie sfaccettature come la sua posizione nello spazio, la forma, la dimensione, il peso e la texture (Yau, Pasupathy, Connor et al., 2009).

Come riconosciamo gli oggetti

Il processo di riconoscimento degli oggetti infatti avviene in modo multisensoriale, grazie cioè al coinvolgimento di più canali sensoriali.

La visione rappresenta il canale sensoriale cruciale per l’identificazione e la collocazione dell’oggetto nello spazio, la propriocezione per la derivazione della posizione della mano rispetto l’oggetto con il quale si desidera interagire e infine il tatto che ne raccoglie le informazioni fisiche tramite il contatto di esso con la superficie esterna del corpo.

La combinazione e l’integrazione delle informazioni provenienti sia dalla vista sia dalla percezione aptica – l’insieme della propriocezione e tatto – ci offre l’impareggiabile e unica opportunità di compiere le azioni più semplici per esplorare e interagire con l’ambiente esterno in modo efficace e diretto: la modalità aptica infatti ci permette di percepire l’oggetto fisico e le sue singole parti, mentre quella visiva ci aiuta a perfezionarne la visione generale fondendosi con questi segnali tattili e propriocettivi in una sola volta (Li, Zhu et al., 2019).

Una persona ad esempio potrebbe da una parte descrivere le proprietà fisiche di un oggetto che ha in mano tramite le sensazioni aptiche che afferiscono al cervello dai suoi recettori dell’epidermide ma allo stesso modo, essa potrebbe immaginare le sensazioni che avrebbe nel toccare quell’oggetto semplicemente osservandolo (Yau, Pasupathy, Connor et al., 2009).

Cosa può fare un robot per riconoscere gli oggetti

In linea con quanto appena affermato, questa integrazione nell’elaborazione cerebrale tra le informazioni sensoriali aptiche e visive ci consente di utilizzare in modo interscambiabile le informazioni salienti passando o dal canale visivo o da quello propriacettivo per riconoscere e manipolare gli oggetti; tuttavia, mentre negli esseri umani questa modalità è connaturata ed opera in modo automatico nel processamento delle informazioni sensoriali, ciò risulta particolarmente complesso quando si tenta di ricostruire e trasferire questa nell’ambito della robotica (Li, Zhu et al., 2019).

Come si può “installare” in un robot la modalità cross-sensoriale apitica-visiva per l’identificazione, il riconoscimento e la manipolazione degli oggetti, così come avviene negli esseri umani?

Può ad esempio un robot selezionare il giusto gesto motorio fine per sollevare un oggetto dalla sua impugnatura a partire dalla previsione del suo peso e della sua localizzazione spaziale?

Li, Torralba e Zhu, del laboratorio di Computer Science and Artificial Intelligence del Massachussets Institute of Technology di Boston, hanno tentato di rispondere e risolvere tale problematica partendo primariamente dallo studio dell’associazione tra visione e tatto, introducendo un modello predittivo multimodale per costruire apparecchi robotici in grado di imparare a vedere tramite il tatto e imparare a sentire tramite la vista, inferendo segnali tattili realistici e plausibili da input visivi e predicendo direttamente quale e quale parte di un oggetto è stato toccato a partire da input tattili.

I ricercatori del MIT hanno costruito un sistema robotico dotato di un braccio meccanico provvisto di un sensore tattile chiamato GelSight e di una telecamera per la registrazione delle informazioni visive provenienti sia dal braccio che dall’oggetto manipolato.

È bene precisare che lo sviluppo del modello predittivo multimodale da parte dell’equipe di lavoro di Boston ha richiesto l’utilizzo di un database e di un sistema di machine learning, il Generative Adversarial network (GANs), che utilizza immagini visive realistiche e informazioni tattili raccolte su un range ampissimo di oggetti, per generare immagini multisensoriali, che negli esseri umani potremmo dire equivalenti alle rappresentazioni mentali dell’oggetto nel cervello umano, caratterizzate da precise proprietà fisiche e caratteristiche visive, informazioni circa ciò che fa nel cervello quell’oggetto.

Ogni “immagine”, costituita dalla combinazione di dati visivi e tattili, è stata realizzata a partire da video di oggetti, video frammentati in più di 300 sequenze, in modo tale da realizzare “rappresentazioni” di oggetti con specifici dati visivi associati poi a quelli tattili per gli stessi oggetti, inseriti nel database e nel sistema GANs.

I risultati dello studio

Tali rappresentazioni hanno costituito il magazzino di memoria, di partenza, del braccio robotico per la codifica dei dettagli sia dell’oggetto che dell’ambiente circostante così che mentre il braccio robotico operava nell’ambiente, il modello comparava ciò con il quale il braccio interagiva con le “rappresentazioni” nel magazzino permettendo al robot di localizzare l’oggetto e avere una scala percettiva del tocco appartenente a quello stesso oggetto per il suo successivo riconoscimento (Li, Zhu, 2019).

Questa complicata procedura fa sì che il robot possieda grazie al canale visivo un’ immagine o “rappresentazione mentale” ad esempio di una tazza e successivamente possa inserire informazioni aptiche per identificare l’area in cui il modello previsionale si potrebbe aspettare che la tazza venga toccata per poter essere utilizzata.

Il braccio robotico in questo modo può pianificare efficacemente l’azione fine da compiere sulla tazza per manipolarla (Li, Zhu et al., 2019).

Per quanto riguarda la produzione di immagini visive a partire da informazioni tattili, il modello ha analizzato la moltitudine di dati tattili presenti nel database calcolando la forma, il materiale e il peso della porzione di interazione dell’oggetto, come se “immaginasse”, un momento prima di afferrarlo, l’interazione con esso.

Ad esempio se il modello analizza dati aptici riguardanti una scarpa, esso potrebbe produrre un’immagine visiva quella porzione della scarpa con maggiori probabilità di interazione per un’azione di tocco e grasping.

Il modello predittivo di percezione multisensoriale sviluppato dai ricercatori del MIT, che verrà presentato prossimamente alla conferenza di Computer Vision and Pattern Recognition in California, consente di predire nell’ambito della robotica l’azione, la manipolazione e l’interazione con un oggetto nell’ambiente in una modalità cross-sensoriale a partire sia dal canale visivo che da sensazioni tattili integrati tra loro.

Robotica e percezione: cosa ci aspetta in futuro?

Nonostante vi siano ancora molti dettagli visivi come il colore o di tipo fisico come la morbidezza o la rigidità di un oggetto che il sistema non è ancora in grado di elaborare per compiere tali predizioni d’interazione, a parere degli autori (Li, Zhu et al., 2019) il modello in futuro potrà predire tali caratteristiche dell’oggetto solo a partire da un’immagine visiva dello stesso, senza averne avuto esperienza sensoriale, a seguito di un’ottimizzazione e miglioramento che consentirà di analizzare dati incerti o non presenti nel suo database.

Lo straordinario apporto di tale ricerca risiede nell’aver sviluppato per la prima volta un modello in grado di passare rapidamente attraverso più canali sensoriali a disposizione per interagire in modo efficace nell’ambiente e compiere azioni semplici nel movimento, ma estremamente complesse da realizzare e riproporre in un sistema robotico.

Sentire osservando, osservare sentendo nella robotica

Nell'ambito della robotica, il modello predittivo di percezione multisensoriale, sviluppato al MIT, integra tra loro informazioni visive e tattili

Come riconosciamo gli oggetti

Cosa può fare un robot per riconoscere gli oggetti

I risultati dello studio

Robotica e percezione: cosa ci aspetta in futuro?