Nell'ultimo decennio, la crescente disponibilità di dati dettagliati ha suscitato grande interesse nella modellizzazione di fenomeni sempre più complessi. Con fenomeni complessi ci si riferisce a tutti quei fenomeni composti da una pluralità di sotto-componenti che interagiscono tra loro creando un'intricata rete di interrelazioni. Se le informazioni sono disponibili per la maggior parte di queste interazioni a diversi livelli, il pensiero gerarchico può essere utilizzato per incorporare naturalmente la complessa struttura che le caratterizza. La modellizzazione gerarchica permette di esprimere in maniera semplice tale complessità e può aiutare a comprendere l'incertezza sottostante i processi che la generano. In questo senso, l'approccio Bayesiano può essere usato per incorporare conoscenza a priori relativa al fenomeno proveniente da altre fonti di informazioni, risolvendo anche situazioni in cui l'informazione è mancante. In particolare, l'utilizzo sempre più frequente di tecnologie "remote sensing", dettato dallo spropositato aumento delle loro potenzialità, ha prodotto considerevoli sviluppi nell'analisi di set di dati spazio-temporali in diversi campi: climatologia, salute ambientale, ecologia, ecc. L'obiettivo di questo progetto è quello di approfondire lo studio di complessi fenomeni spazio-temporali e rompere le attuali frontiere metodologiche e computazionali. Infatti, mentre i modelli statistici teoricamente validi per grandi set di dati spaziali sono già stati largamente sviluppati e studiati sia dal punto di vista teorico che dal punto di vista metodologico, ad oggi non esistono modelli spazio-temporali efficienti ed applicabili a set di dati geospaziali composti da decine di milioni di record. Il progetto si pone dunque lo scopo di sviluppare una nuova metodologia in grado di gestire tale mole di dati, approfondendo tecniche di stima già ampiamente conosciute, per fornire estensioni a queste procedure e soluzioni idonee computazionalmente efficienti.
L'era dei Big data è caratterizzata dalla disponibilità di un'enorme mole di dati, e ciò vale anche per dati georeferenziati. La disponibilità di una tale quantità di dati permette di studiare fenomeni dalla profonda complessità a diversi livelli e da diverse prospettive. Tuttavia, data la novità del problema, in letteratura sono ancora molto pochi i tentativi volti alla modellizzazione di fenomeni così complessi che permettano di gestire in maniera efficiente tutta l'informazione a disposizione. Spesso, le soluzioni proposte sono molto specifiche e si basano su ipotesi restrittive che semplificano (fino a stravolgere) la natura del processo generatore del dato, fornendo prestazioni efficienti ma poco robuste.
Il merito intellettuale della nostra ricerca è quindi quello di proporre rigorose e innovative metodologie statistiche dal carattere generale per le quali sia possibile l'implementazione di algoritmi ad hoc efficienti, su appropriate piattaforme di
"High Performance Computing" (HPC). Tali metodologie e tecniche riguarderanno "high-dimensional spatial factor models" e "sparsity-inducing graphical spatial models" (con particolare attenzione al metodo "Nearest Neighbour Gaussian Process"), con lo scopo di modellare un gran numero di outcomes e catturare le complesse dipendenze tra le variabili in uno spazio-dimensionale arbitrariamente vasto. L'impatto più ampio della nostra ricerca consisterà principalmente in tre risultati fondamentali
1- Rappresentare un primo tentativo per quantificare statisticamente i danni e i cambiamenti avvenuti nell'entroterra dell'isola di Porto Rico, in seguito agli uragani Irma e Maria del 2017. Questo tipo di studio permetterà:
(a) l'immediata identificazione di aree prioritarie per la riforestazione;
(b) la costruzione di modelli di rischio su misura che includono informazioni sulla struttura della foresta per gestire in modo proattivo le foreste vicino a linee elettriche, abitazioni o altre infrastrutture;
(c) la gestione della resilienza per eventuali futuri cataclismi.
Verrà inoltre effettuata una valutazione del rischio di frane che verrà usata per mappare se la nuova topografia dell'isola possa alterare le zone di piena, la rete idrica e le infrastrutture.
2- Il secondo obiettivo del progetto sarà quello di fornire informazioni sia a livello base che a livello più avanzato sulla comunità di specie ittiche di interesse commerciale che abitano il Mar Mediterraneo. Generalmente, nello studio delle comunità biotiche l'obiettivo è quello di capire quali siano i fattori che determinano la composizione e le dinamiche di assemblaggi di specie a diversi livelli di scala spazio-temporale. Una larga parte della letteratura scientifica riguardo questo argomento tratta le specie singolarmente o in piccoli gruppi. E' noto però che le specie interagiscono tra di loro e queste interazioni influiscono significativamente sulla struttura e le funzioni delle comunità. In una prima fase, si tenterà di ridurre la complessità dell'analisi, attraverso la classificazione delle specie in categorie di abbondanza e tramite la costruzione di indici specifici di partizione della biodiversità (Marcon et al. (2014)). In seguito, lo studio si concentrerà sulla composizione delle comunità a livello di specie (modelli multi-specifici). In particolare, si valuteranno eventuali cambiamenti avvenuti sia nello spazio che nel tempo e si verificherà infine se i cambi avvenuti dipendono dalle caratteristiche biotiche e abiotiche del mare, come la concentrazione di nutrienti, nitrati e fosfati, insieme a possibili variazioni nella salinità e temperatura. Il fine ultimo è quello di fornire uno strumento robusto (ma flessibile rispetto alle specifiche di ogni Paese) per analizzare i dati del MEDITS in modo da poter fare confronti di lungo periodo sia tra un Paese e se stesso nel tempo, sia tra diversi Paesi.
3- L'ultimo obiettivo del progetto è quello di effettuare uno studio ed un "risk assessment" degli incidenti stradali sul reticolo stradale nella città di Roma. Si tratta quindi di un processo di punto, caratterizzato da una grande quantità di osservazioni, che si sviluppa sul reticolo stradale della citta di Roma. La sfida di tale applicazione è doppia: lo sviluppo di metodologie robuste ed efficienti per lo studio di processi di punto è ancora ad uno stato embrionale e lo spazio su cui si sviluppa il fenomeno, caratterizzato appunto da un "reticolo stradale", richiede l'ideazione di metriche e distanze ad-hoc. Tale analisi può essere di fondamentale importanza per supportare le decisioni di sicurezza stradale delle autorità della città di Roma, e permetterà valutare le variazioni temporali e l'associazione con le caratteristiche del manto stradale del rischio di incidente stradale.
In generale, a livello pratico, i progressi teorici e i software proposti dovranno essere in grado di trovere impiego in tutti i campi in cui i dati siano georeferenziati e disponibili per ampi intervalli di tempo.