Il forecasting del movimento delle persone e delle loro traiettorie e' importante per la pianificazione del movimento dei robots tra persone, per il tracking di persone riprese da videocamere di surveillance e per l'autonomous driving, poiche' prevedere l'attraversamento di pedoni permette di salvare vite umane. Il forecasting del movimento delle persone e' un task complesso, che nel corso degli anni ha attratto l'attenzione di sociologi, matematici e computer scientists, oltre che di economisti e ingegneri. Solo recentemente tecniche di artificial intelligence basate su deep neural networks hanno cominciato a permettere una modellazione del sistema interamente data-driven. Oltre al movimento delle persone, queste tecniche sono pure rilevanti per multi-agent simulations finanziare, per prevedere terremoti e per la collaborazione uomo-macchina nella fabbrica intelligente.
Nel progetto FORMAT ci proponiamo di modellare le dinamiche temporali e spaziali del movimento delle persone, tenendo in considerazione l'interazione sociale dei gruppi di persone, l'interazione "antagonista" di persone che cambiano la propria traiettoria per evitare collisioni, la possibile variazione del numero di persone nella scena e il contesto fornito dalla scena, e il contesto fornito dalla scena, per la presenza di oggetti e zone di interesse. Al momento della scrittura di questa proposta, solo un numero limitato di articoli considera molteplici futuri plausibili, la modellazione dell'interazione agent-agent e' agli albori, e nessuna ricerca formula l'incertezza direttamente nel modello spazio-temporale.
In FORMAT, ci si propose di studiare modelli per l'interazione di un numero variabile di persone e di considerare larghi orizzonti temporali con considerazione probabilistica dei diversi plausibili futuri e della loro intrinseca incertezza. Questi propositi sono sfidanti dal punto di vista delle rappresentazioni, dei modelli di forecasting e computazionale, e ben oltre lo stato dell'arte.
FORMAT e' innovativo sotto diversi punti di vista. Un primo aspetto innovativo e' la modellazione del tempo in sequenze video, che permetta il calcolo e sfrutti la disponibilita' di centinaia di frame passati. Fattore di innovazione e' dato dal considerare modelli come Transformer Networks e BERT, che hanno recentemente permesso di comprendere frasi di centinaia di parole nel campo di natural language processing (NLP). Questi modelli scalano grazie alla possibilita' di parallelizzarne il training e l'inference e hanno dimostrato di poter effettivamente comprendere relazioni tra parole lontane nel testo grazie a meccanismi di self-attention. FORMAT punta ad un impiego di questi modelli per people trajectory forecasting, che implichera' la traduzione da token verbali nativi in NLP a "quanti" di movimento delle persone, un'aspetto da ricercare. Inoltre, inspirandoci alle rivoluzioni portate dal transfer learning, prima con ImageNet e poi con BERT, si punta a realizzare un dataset large-scale che fornisca al modello conoscenza di base su ogni aspetto del movimento delle persone, da trasferire ai task specifici, che costituisce ulteriore aspetto innovativo.
Un secondo aspetto di innovazione e' dato dalla modellazione dell'interazione sociale tra agenti, che includa persone che "collaborano" socialmente in gruppi e persone "antagoniste" che evitano collisioni. FORMAT fara' leva sulle nuove emergenti teorie di Geometric Deep Learning per modellare le relazioni tra persone tramite grafi e Graph Convolutional Networks (GCN). Aspetto di originalita' e innovazione sara' la modellazione di spazio e tempo all'interno di un unico framework, che codifichi le dinamiche di movimento dei pedoni. Come descritto negli obiettivi del progetto, l'utilizzo di un GCN e di una matrice di interazione imparata richiedera' l'introduzione di un ulteriore ordering network, che individui ruoli degli individui nel movimento.
Un terzo fattore di innovazione e' la modellazione del contesto, che mostri come la scena influisce sul movimento. Ricerca innovativa e originale sara' volta a comprendere quali siano i task ausiliari da definire per permettere al modello neurale di codificare la scena in un vettore che esprima lo stato di questa. In particolare, ci si propone di codificare aree di interesse nella scena (e.g. vetrine) dove le persone rallentano e si fermano, aree di transizione, dove le persone proseguono veloci nel loro moto, e infine sfidanti aree di scelta (e.g. bivi) dove le persone prendono corsi differenti.
Inoltre e' innovativa la modellazione probabilistica di molteplici futuri, che mostri i casi plausibili e ne quantifichi la probabilita'. FORMAT ricerchera' framework statistici come i Determinantal Point Processes che permettano di quantificare l'espressivita' della probabilita' associata con il forecasting. In ambiti robotici di interazioni con macchine o di predizioni finanziarie, questi meccanismi permetteranno di quantificare il rischio associato a scelte basate sulle predizioni del modello.
Gli obiettivi di FORMAT sono originali sotto diversi punti di vista, principalmente:
- l'anticipazione dei movimenti delle persone nel lungo termine e' di grande ambizione e ben oltre lo stato dell'arte, che invece raggiunge pochi (1-3) secondi
- la modellazione dell'interazione sociale collaborativa e antagonista tramite un unico framework spazio-temporale e probabilistico basato su Geometric Deep Learning e GCN e' originale, e molto promettente
- la considerazione e modellazione di distribuzioni multimodali per plausibili futuri nell'ambito del forecasting e' ambizioso e originale.
Gli obiettivi scientifici supportano l'obiettivo di trasferimento tecnologico ad autonomous driving, dove si testera' quantitativamente e su larga scala la capacita' dei modelli proposti di prevenire incidenti e salvare vite umane.
Infine, l'innovativita' di FORMAT sara' trasferibile ad diversi ambiti scientifici con applicazione nella Fabbrica Intelligente, la Salute, per realizzare human-centered services e realizzare social-behavior analysis, oltre che per supportare il monitoring di persone fragili, come gli anziani. Principalmente la ricerca che si sviluppera' in FORMAT sara' rilevante alla predizione del movimento delle persone in scene complesse e consentira' di pianificare il movimento dei robots tra le persone, anche nel caso in cui le persone si muovano bruscamente. Inoltre il forecasting di elementi collaborativi e antagonisti si applichera' alla predizione del movimento degli arti di persone, che permettera' di prevedere come il robot potra' collaborare con le persone, per esempio per realizzare handover di oggetti. Cosi' equipaggiati, i robot collaborativi potranno rappresentare un progresso sostanziale nelle fabbriche, negli ospedali, nelle case e uffici delle persone, con impatti sulla qualita' della vita in Italia ed in Europa, nonche' sulla produttivita' del lavoro e sull'inclusione sociale.