Anche i più complessi sistemi di intelligenza artificiale hanno dei limiti, soprattutto quando vengono messi alla prova su capacità tipicamente “umane”. Riconoscere le differenze esistenti tra uomo e macchina è importante perché apre ad un’interessante riflessione sulle alcune caratteristiche umane.
Vi è una certa differenza fra un’immagine virtuale, ad esempio quella che può essere catturata da una telecamera, e la percezione visiva umana. Per diversi autori, fra cui lo psicologo James Gibson (2014), nel mondo ecologico quest’ultima deriva, non solo dalla raccolta delle caratteristiche fisse e mutevoli dell’ambiente nel loro insieme, ma anche dai dati sull’osservatore e sui suoi movimenti oculari, della testa e relativi alla locomozione.
Fattori evidenti e misurabili, come esplorazione e orientamento, non sono gli unici ad entrare in gioco, ma vi sono importanti attività più generali, come ottimizzare ed estrarre gli elementi più utili per gestire i nostri spostamenti. Il rivelarsi di nuovi dati dopo un’azione influenzerà i movimenti esplorativi successivi, in ogni momento scegliamo dove guardare. Una catena dinamica di eventi, ognuno dipendente da quelli precedenti.
L’input video, invece, consente la fruizione di informazioni di seconda mano, in cui l’esplorazione dell’ambiente è stata svolta precedentemente dal regista, in modo indipendente da chi sta guardando lo schermo. Ciò può sembrare scontato, ma i sistemi di deep learning visivi sono basati principalmente su questa tipologia di dati, in genere foto e video accuratamente selezionati dal web.
Si assume così implicitamente che l’osservatore sia un detector delle proprietà delle immagini. Una macchina con tale funzionamento, però, nel mondo reale, impiegherà molto tempo a rivelare le informazioni che la circondano in quanto, mentre rileva le caratteristiche salienti, non sarebbe in grado di dare la giusta priorità ai dati utili per assumere attivamente un punto di vista più informativo.
Ma è possibile insegnare ad una macchina a guardarsi intorno in modo efficace come i robot dei film?
Ramakrishnan e collaboratori (2019) hanno trovato un modo ingegnoso per rispondere a questa domanda. Secondo i ricercatori la soluzione si trova nel “completamento attivo dell’osservazione”, l’intelligenza artificiale dovrebbe utilizzare una piccola frazione del suo ambiente per prevedere cosa potrebbe apparire nella porzione non ancora esplorata, e in base a ciò guidare l’osservazione.
È stato sviluppato un sistema di deep learning libero, il cui obiettivo è manipolare un oggetto tridimensionale per individuarne la struttura o l’esplorazione dell’ambiente circostante, ad esempio l’interno di una stanza, a 360°, con la possibilità di ruotare per spostare il suo campo visivo. L’algoritmo è stato scritto in modo da dare importanza alle regolarità visuo-spaziali, ad esempio le relazioni fra semplici figure geometriche, in grado di prevedere con maggiore probabilità la posizione di altri invarianti salienti. Per fare ciò più velocemente e con il minor numero di movimenti possibile la macchina può supervisionarsi autonomamente nei vari tentativi. Inoltre, avendo a disposizione tutte le informazioni del contesto in esame (solo nella fase di allenamento) potrà calcolare quali sono i punti di vista più informativi e le relazioni fra ogni visuale e la precedente.
Una volta testato, questo approccio ha superato di molto gli standard, dimostrando apprendimento veloce e un’ottima abilità nel prevedere proprietà complesse, trasferibile ad ambienti e compiti completamente nuovi.
In conclusione
Questa tecnologia potrebbe essere un giorno applicata non solo allo spostamento da una visuale ad un’altra, ma ad azioni complesse tramite rinforzi sfaccettati. Il progetto è un’importante punto di svolta per lo studio della robotica e dell’intelligenza artificiale e spinge a una più ampia riflessione sulla percezione in generale.
Gli autori non hanno fatto assunzioni sui suoi possibili utilizzi futuri, ma questo lascia a noi un ampio spazio di immaginazione!