expand_lessAPRI WIDGET

Intelligenza artificiale e percezione visiva: come una macchina può esplorare il mondo

Alcuni ricercatori hanno sviluppato un moderno sistema di intelligenza artificiale che sembra garantire un'elaborazione delle informazioni simile all'uomo.

Di Lorenzo Mattioni

Pubblicato il 28 Giu. 2019

Aggiornato il 18 Nov. 2019 12:50

Anche i più complessi sistemi di intelligenza artificiale hanno dei limiti, soprattutto quando vengono messi alla prova su capacità tipicamente “umane”. Riconoscere le differenze esistenti tra uomo e macchina è importante perché apre ad un’interessante riflessione sulle alcune caratteristiche umane.

 

Vi è una certa differenza fra un’immagine virtuale, ad esempio quella che può essere catturata da una telecamera, e la percezione visiva umana. Per diversi autori, fra cui lo psicologo James Gibson (2014), nel mondo ecologico quest’ultima deriva, non solo dalla raccolta delle caratteristiche fisse e mutevoli dell’ambiente nel loro insieme, ma anche dai dati sull’osservatore e sui suoi movimenti oculari, della testa e relativi alla locomozione.

Fattori evidenti e misurabili, come esplorazione e orientamento, non sono gli unici ad entrare in gioco, ma vi sono importanti attività più generali, come ottimizzare ed estrarre gli elementi più utili per gestire i nostri spostamenti. Il rivelarsi di nuovi dati dopo un’azione influenzerà i movimenti esplorativi successivi, in ogni momento scegliamo dove guardare. Una catena dinamica di eventi, ognuno dipendente da quelli precedenti.

L’input video, invece, consente la fruizione di informazioni di seconda mano, in cui l’esplorazione dell’ambiente è stata svolta precedentemente dal regista, in modo indipendente da chi sta guardando lo schermo. Ciò può sembrare scontato, ma i sistemi di deep learning visivi sono basati principalmente su questa tipologia di dati, in genere foto e video accuratamente selezionati dal web.

Si assume così implicitamente che l’osservatore sia un detector delle proprietà delle immagini. Una macchina con tale funzionamento, però, nel mondo reale, impiegherà molto tempo a rivelare le informazioni che la circondano in quanto, mentre rileva le caratteristiche salienti, non sarebbe in grado di dare la giusta priorità ai dati utili per assumere attivamente un punto di vista più informativo.

Ma è possibile insegnare ad una macchina a guardarsi intorno in modo efficace come i robot dei film?

Ramakrishnan e collaboratori (2019) hanno trovato un modo ingegnoso per rispondere a questa domanda. Secondo i ricercatori la soluzione si trova nel “completamento attivo dell’osservazione”, l’intelligenza artificiale dovrebbe utilizzare una piccola frazione del suo ambiente per prevedere cosa potrebbe apparire nella porzione non ancora esplorata, e in base a ciò guidare l’osservazione.

È stato sviluppato un sistema di deep learning libero, il cui obiettivo è manipolare un oggetto tridimensionale per individuarne la struttura o l’esplorazione dell’ambiente circostante, ad esempio l’interno di una stanza, a 360°, con la possibilità di ruotare per spostare il suo campo visivo. L’algoritmo è stato scritto in modo da dare importanza alle regolarità visuo-spaziali, ad esempio le relazioni fra semplici figure geometriche, in grado di prevedere con maggiore probabilità la posizione di altri invarianti salienti. Per fare ciò più velocemente e con il minor numero di movimenti possibile la macchina può supervisionarsi autonomamente nei vari tentativi. Inoltre, avendo a disposizione tutte le informazioni del contesto in esame (solo nella fase di allenamento) potrà calcolare quali sono i punti di vista più informativi e le relazioni fra ogni visuale e la precedente.

Una volta testato, questo approccio ha superato di molto gli standard, dimostrando apprendimento veloce e un’ottima abilità nel prevedere proprietà complesse, trasferibile ad ambienti e compiti completamente nuovi.

In conclusione

Questa tecnologia potrebbe essere un giorno applicata non solo allo spostamento da una visuale ad un’altra, ma ad azioni complesse tramite rinforzi sfaccettati. Il progetto è un’importante punto di svolta per lo studio della robotica e dell’intelligenza artificiale e spinge a una più ampia riflessione sulla percezione in generale.

Gli autori non hanno fatto assunzioni sui suoi possibili utilizzi futuri, ma questo lascia a noi un ampio spazio di immaginazione!

Si parla di:
Categorie
RIFERIMENTI BIBLIOGRAFICI
CONSIGLIATO DALLA REDAZIONE
Non sono un algoritmo. Cosa rivela di noi l’interazione uomo-robot? (2018) di Claudio Lombardo – Recensione del libro

Non sono un algoritmo di Claudio Lombardo esamina la terza generazione di robot, dotata di intelligenza artificiale, e l'interazione tra uomo e robot (HRI)

ARTICOLI CORRELATI
Slacktivism: di cosa si tratta? Quando l’attivismo online può diventare dannoso

Sostenere cause sociali tramite l’attivismo online può fornire un aiuto prezioso, ma attenzione allo slacktivism, una forma superficiale e disinteressata di supporto

Lo psicologo negli e-sports

Gli e-sports, progettati con l'obiettivo di competitività, hanno suscitato l'interesse della psicologia per i fattori psicologici coinvolti

WordPress Ads
cancel