Nome e qualifica del proponente del progetto: 
sb_p_1463074
Anno: 
2019
Abstract: 

Sono ormai numerosi i casi di studio che dimostrano come l'uso di Big Data possa consentire un significativo incremento delle capacità di modellazione e di analisi in settori vitali per la società moderna (Medicina, Trasporti, ICT, ecc). Molte attività di ricerca dell'Ateneo, già eccellenti a livello internazionale, possono svilupparsi ulteriormente grazie all'uso di questi paradigmi data-centric. Tuttavia, il loro impiego richiede la disponibilità di notevoli risorse di calcolo.

Il ricorso a fornitori esterni di servizi di supercalcolo, anche basati su Cloud, non è strategicamente conveniente perché: - depriva l'Ateneo di risorse finanziarie rilevanti, - relega l'Ateneo in un ruolo subalterno rispetto ad un dominio della ricerca in forte ascesa, - impone all'utenza il disagio e l'inefficienza legate all'uso di una infrastruttura di calcolo remota.

Il servizio TeraStat, introdotto nel 2011 ed aggiornato nel 2014, rappresenta ad oggi, con circa 360 core di calcolo, la più importante infrastruttura di supercalcolo a disposizione della comunità di Sapienza per supportare la ricerca di eccellenza. Con un'utenza attiva di oltre 120 soggetti riconducibili a diversi dipartimenti di Sapienza (dato 2018), ed una vita media dell'hardware superiore ai 5 anni, TeraStat ha raggiunto i suoi limiti operativi.

In accordo con il piano strategico 2016-2021 dell'Ateneo, questo progetto mira ad acquisire le risorse con le quali rinnovare significativamente il parco strumentale di TeraStat, impiegando le soluzioni hardware e sistemistiche che consentano di realizzare una nuova infrastruttura di livello internazionale: TeraStat2. Tale soluzione non rappresenta un semplice upgrade di quella preesistente, ma attinge allo stato dell'arte nell'ambito delle tecnologie di supercalcolo per costruire una piattaforma ad alta densità che rappresenti il punto di riferimento per l'Ateneo nei prossimi 5 anni, supportando, sostenendo ed accelerando la ricerca sperimentale di eccellenza.

ERC: 
PE6_2
PE6_12
PE1_18
Componenti gruppo di ricerca: 
sb_cp_is_2054795
sb_cp_is_2185219
sb_cp_is_2249038
sb_cp_is_1852952
sb_cp_is_2136980
sb_cp_is_1861839
sb_cp_is_2082282
sb_cp_is_1859037
sb_cp_is_2118114
sb_cp_is_2121090
sb_cp_is_2216884
sb_cp_is_2041492
sb_cp_is_2048707
sb_cp_is_1854273
sb_cp_is_2104658
sb_cp_is_2203992
sb_cp_is_2042349
Innovatività: 

TeraStat2 si avvantaggia della nuova tecnologia di rete OmniPath. Concepita per i sistemi di supercalcolo consente di raggiungere una larghezza di banda di 100Gb/s nelle connessioni di rete, abbattendo i tempi di trasmissione dati richiesti nelle applicazioni distribuite. Inoltre, l'impiego di CPU di ultima generazione consente la realizzazione di nodi di calcolo ad alta densità, caratterizzati dalla presenza di numerosi core. Infine, l'introduzione di un sistema di virtualizzazione permette di astrarre lo strato applicativo dall'hardware sottostante, semplificando e rendendo più flessibile la gestione del sistema.

IMPATTO DELL'INNOVATIVITA' DELLA STRUMENTAZIONE RICHIESTA NELLO SVILUPPO DELLE SINGOLE LINEE DI RICERCA

Linea di ricerca A
La ricerca da svolgere presuppone la disponibilità di un sistema distribuito caratterizzato dalla presenza di numerosi nodi di calcolo dotati di capacità di elaborazione evoluta, dalla disponibilità di dischi locali ai diversi nodi (necessari per approfondire gli aspetti legati alla data locality dei problemi trattati) e dalla presenza di un sistema di interconnessione di rete ad alta velocità e bassa latenza. Tali caratteristiche sono spesso difficili da ritrovare nei sistemi di calcolo disponibili via cloud per via delle soluzioni di virtualizzazione ed astrazione solitamente messe in campo per favorire la condivisione ed il noleggio delle risorse di calcolo.

Linea di ricerca B
Proporremo per la prima volta un modello latent Markov con dipendenza spazio-temporale e un metodo efficiente di stima dei parametri. Introdurremo poi per la prima volta un metodo di sintesi dell'informazione multivariata che si ottiene dopo aver aggiustato il bias dovuto alle dipendenze spaziali e temporali. Infine, forniremo una descrizione a livello di micro-area del benessere nel mondo negli ultimi decenni, evidenziando aree ad alta variabilità. Tali contributi richiedono, per poter essere sviluppati, una infrastruttura di calcolo ad alto parallelismo.

Linea di ricerca C
Il nuovo framework per lo studio della network medicine che si andrà a realizzare integrerà tecniche di machine learning, graph theory ed ottimizzazione combinatorica e sarà significativamente più complesso e (potenzialmente) efficace dei framework sinora presenti in letteratura. Tale complessità richiederà la disponibilità di una piattaforma di supercalcolo ad alte prestazioni per assicurare tempi di risposta accettabili.

Linea di ricerca D
La dinamica molecolare e il virtual screening inverso basato sul docking rappresentano tipici processi che necessitano di elevata potenza di calcolo e di immagazzinamento dati. Spesso, le risorse hardware sono fornite da servizi remoti con i cui gestori non è sempre facile interagire in tempo reale per risolvere eventuali problemi. Per tali motivi, la disponibilità di un'infrastruttura locale, facilmente accessibile a costi ragionevoli, accelererebbe notevolmente il processo di sviluppo dei protocolli di calcolo e soprattutto la fase di produzione dati.

Linea di ricerca E
L'uso di reti neurali profonde prevede una fase di addestramento delle reti stesse nella quale, a partire da uno stato iniziale, la rete viene allenata a riconoscere automaticamente pattern complessi. L'addestramento tipicamente è tanto più efficace quanto più è ampio l'insieme di esempi (training dataset) fornito alla rete. La fase di addestramento di queste reti è computazionalmente intensiva e si avvantaggia della presenza di strumenti per il calcolo massivamente parallelo.

Linea di ricerca F
Gli approcci classici di clustering spesso non possono essere applicati a dati complessi, a causa dell'elevato costo computazionale e della dimensione. E' quindi necessario introdurre nuove metodologie, specificamente pensate per tali problemi, nonché concepite per poter essere risolte mediante l'impiego di sistemi di calcolo paralleli.

Linea di ricerca G
Il potenziale informativo dei dati dei sistemi di sicurezza della metropolitana di Roma è enorme, tuttavia gli attuali strumenti non consentono né di predire situazioni di rischio, né di gestire in modo ottimale le risorse addette alla sicurezza. Il progetto permetterebbe un avanzamento delle conoscenze sui modelli predittivi legati alla sicurezza e sui modelli di decisione per gestire gli interventi, avvantaggiandosi delle risorse di calcolo offerte da TeraStat2 per fornire risposte in tempo reale.

Linea di ricerca H
TeraStat2 permetterebbe l'uso di un'enorme base dati sperimentale per calibrare e validare modelli della mobilità delle persone allo stato dell'arte nella letteratura scientifica internazionale; modelli finora calibrati con metodi aggregati o su campioni statisticamente non rappresentativi del fenomeno reale. Il progetto di ricerca, pur essendo incentrato sui principi della ricerca di base, è concepito in forma multidisciplinare per consentire la diretta realizzabilità dei metodi e dei processi di elaborazione dei big data.

Codice Bando: 
1463074

© Università degli Studi di Roma "La Sapienza" - Piazzale Aldo Moro 5, 00185 Roma