Con il progresso delle ricerche in ambito biomedico e biologico, la mole di dati sperimentali prodotta è in continua crescita, tra cui sequenze di DNA/RNA, sequenze e strutture proteiche, reti metaboliche. Nasce quindi la necessità di processare tale enorme mole di dati ed estrarre informazione utile da essi. Un'ulteriore sfida che si presenta in questi scenari è intrinseca nella rappresentazione stessa dei dati: ad esempio, mentre RNA e DNA sono usualmente descritte da sequenze (di nucleotidi), le reti metaboliche sono descritte da grafi ed, infine, le proteine possono esser dualmente descritte sia da sequenze (di amminoacidi) e sia da grafi. In tutti questi casi si ha a che fare con dati strutturati che vivono in spazi detti 'non-metrici', ovvero spazi per cui una misura di dissimilarità non può esser considerata una misura metrica. Questo pone un evidente limite riguardo l'utilizzo di algoritmi Machine Learning 'standard', la cui comprovata efficienza ed efficacia è limitata a spazi metrici (e.g. lo spazio Euclideo) e che quindi non possono essere applicati a meno di una funzione di embedding che trasformi il dato strutturato in una n-pla di numeri reali. La determinazione di tale embedding può, però, portare a perdita di informazione ed emergenti paradigmi come Granular Computing ed Istogrammi Simbolici aiutano nella definizione di tale funzione con piccola (o nulla) perdita d'informazione. Tuttavia, l'implementazione di un framework (possibilmente unificato) per tali paradigmi che, allo stesso tempo, sia in grado di operare in modalità distribuita per fronteggiare l'esponenziale crescita delle dimensioni dei datasets è ancora un tema di ricerca aperto. Questo progetto si pone quindi lo scopo di investigare su tali algoritmi, sulla possibilità di applicare tecniche di Pattern Recognition in spazi non-metrici a problemi di Bioinformatica, con l'obiettivo di favorire non solo la ricerca nel mondo del Data Mining, ma anche la ricerca in campo biomedico e biologico.
Lo scopo di questo progetto vuole essere duplice. Il primo obiettivo, di stampo algoritmico, riguarda l'implementazione parallela e distribuita per algoritmi di Pattern Recognition, eventualmente con approccio Granular Computing. Il secondo, prettamente biologico, riguarda l'interpretabilità e la valenza dei risultati in campo biologico, biomedico e farmaceutico.
Questi obiettivi possono esser visti come in simbiosi l'uno con l'altro.
In effetti, la messa a punto di un framework unificato basato su Granular Computing che sia in grado di operare in modalità parallela e distribuita è ancora un tema di ricerca aperto. Il progetto si propone di sviluppare delle librerie software che siano, inoltre, cross-platform ed adatte a scalare su ogni tipo di hardware: da performanti workstations con processori di ultima generazione (e.g. Intel Xeon) ad hardware low-cost (e.g. single board computers).
D'altro canto, i risultati ottenuti con tale sistema possono essere analizzati da esperti del settore (biologi, medici, etc.) per ampliare la conoscenza e favorire il progresso in tali settori, nonostante 'lontani' dal Pattern Recognition e dall'Intelligenza Computazionale in quanto tali. Questo è tanto più vero se viene utilizzato un approccio Granular Computing per la risoluzione di un dato problema in quanto, come già accennato, in un tipico approccio Granular Computing vengono estratti in maniera non-supervisionata delle sottostrutture ricorrenti a partire dal dataset da analizzare; sottostrutture che verranno poi impiegate per creare l'embedding nello spazio dei numeri reali nel quale poi è possibile utilizzare i diversi algoritmi 'standard' che la letteratura scientifica mette a disposizione, siano essi di clustering o di classificazione/predizione. Quindi può addirittura essere condotta una doppia analisi, non solo dei risultati di classificazione/predizione o clustering, ma anche delle sottostrutture estratte in quanto possono avere una valenza biologica.
Con riferimento alla prima delle due applicazioni proposte, in [1] venne accennata la possibilità di riuscire a ricavare informazioni funzionali di una proteina a partire dalla sua rete di contatto ed in [2] questa possibilità venne confermata. Tuttavia, tramite un approccio Granular Computing potrebbe esser possibile entrare più nel dettaglio non solo del problema, ma anche della soluzione, tramite l'analisi delle strutture ricorrenti ed andando a vedere se (e quali) sono, ad esempio, le principali responsabili dell'effetto allosterico, che si manifesta solo per le proteine con proprietà enzimatiche. Al fine di sviluppare cure che vadano ad agire sulle 'zone allosteriche' [3] che, contrariamente alle 'zone attive' di una proteina, favoriscono una maggiore trasmissione, quindi una maggiore efficienza.
Con riferimento alla seconda delle due applicazioni proposte, si potrebbe inoltre pensare anche in questo caso ad un avanzamento per l'industria farmaceutica. L'identificazione di 'cluster di metabolomi simili' (i.e. organismi che svolgono ruoli simili), sia a livello di intero metaboloma (risultato finale dell'operazione di clustering) e sia a livello di regioni particolarmente significative (sottostrutture ricorrenti) e la loro caratterizzazione, valutata sia in caso di salute e sia in caso di malattia, può essere d'aiuto per suggerire la preparazione di composti ottimizzati e bilanciati per il restauro ottimale della flora batterica intestinale.
References:
[1] Di Paola, L., & Giuliani, A. (2015). Protein contact network topology: a natural language for allostery. Current opinion in structural biology, 31, 43-48.
[2] Martino, A. et al. (2017) Supervised Approaches for Function Prediction of Proteins Contact Networks from Topological Structure Information. In Image Analysis. SCIA 2017. Lecture Notes in Computer Science, 10269. Springer.
[3] Csermely, P., Korcsmáros, T., Kiss, H. J., London, G., & Nussinov, R. (2013). Structure and dynamics of molecular networks: a novel paradigm of drug discovery: a comprehensive review. Pharmacology & therapeutics, 138(3), 333-408.