In questo progetto di ricerca vengono approfondite tematiche relative all'applicazione del calcolo distribuito in ambito di analisi forense del traffico di una rete di dispositivi. A causa dei sempre più diffusi attacchi digitali, è cresciuta l'esigenza di promuovere approcci finalizzati a individuare tempestivamente tracce di eventuali intrusioni, per risalire alla loro origine e alla loro evoluzione. Gli attacchi nel tempo si sono resi sempre più complessi, coinvolgendo a volte milioni di dispositivi sparsi in tutto il mondo. Una strategia di indagine, che si è dimostrata piuttosto efficace, consiste nel processare grafi che descrivono le interazioni sospette. Infatti i potenziali attori di un attacco possono essere rappresentati da vertici all'interno di un grafo i cui archi rappresentano le comunicazioni che intercorrono tra loro. Le dimensioni esorbitanti dei grafi ottenuti rappresentano un'enorme sfida per gli algoritmi sequenziali chiamati a gestire questa enorme mole di dati. Le principali criticità sono rappresentate dai lunghi tempi di esecuzione richiesti dalle elaborazioni, ma anche dalla necessità di dover sfruttare architetture ad alte prestazioni di calcolo e di memoria. Infatti l'enorme taglia dei grafi non permette il più delle volte di memorizzarli e processarli con un unico calcolatore. Le precedenti considerazioni motivano quindi l'interesse di sviluppare ulteriormente i suddetti approcci graph-based, ma in chiave distribuita. Dunque, l'attività di ricerca si propone di progettare versioni distribuite di algoritmi già noti in letteratura, per poi valutare il contributo apportato dalla parallelizzazione del calcolo attraverso l'utilizzo del paradigma MapReduce. Come punto di partenza, viene preso in considerazione l' algoritmo proposto nel 2008 da Wang e Daniels per poi eventualmente allargare gli orizzonti verso ulteriori approcci.
Essendo una progetto di avvio alla ricerca, non si prefigge ovviamente l'obiettivo di stravolgere i paradigmi fino ad ora proposti nell'ambito della cyber security.
La sfida principale non consiste nell'individuazione di metodologie innovative, ma nel dimostrare i benefici apportati dall'integrazione del calcolo distribuito con approcci già convalidati nell'ambito della scienza forense digitale.
Si vuole proporre un interessante approfondimento del filone relativo all'applicazione del paradigma MapReduce in ambito di analisi forense, con il fine più ampio di evidenziare spunti interessanti per gettare le fondamenta su cui basare potenziali progetti futuri più ambiziosi. La tematica affrontata è infatti tutt'altro che banale. Progettare un approccio sequenziale su più calcolatori, garantendo un adeguato grado di efficienza, può risultare estremamente complesso, specialmente quando si studiano algoritmi su grafi che generano molto spesso processi iterativi piuttosto pesanti dal punto di vista computazionale. Si rende infatti necessario e determinante uno studio minuzioso di come gestire e ripartire il traffico dei dati trai i vari nodi dell'architettura di calcolo distribuita.
In sintesi, il progetto di ricerca è finalizzato a dimostrare la possibilità di ottenere vantaggi in termini temporali utilizzando architetture di calcolo distribuite e a valutare il grado con cui questi algoritmi riescono a sfruttare un numero crescente di risorse disponibili. Questo scopo sarà perseguito attraverso studi sperimentali e di benchmark tra gli algoritmi tradizionali e le rispettive versioni distribuite, cercando di evidenziare i punti di forza e le criticità relative all'adozione di questo diverso approccio di calcolo.