Distributed Large-Scale Pattern Recognition for graph-based problems in Bioinformatics

Anno
2017
Proponente -
Struttura
Sottosettore ERC del proponente del progetto
Componenti gruppo di ricerca
Componente Categoria
Antonello Rizzi Tutor di riferimento
Abstract

Con il progresso delle ricerche in ambito biomedico e biologico, la mole di dati sperimentali prodotta è in continua crescita, tra cui sequenze di DNA/RNA, sequenze e strutture proteiche, reti metaboliche. Nasce quindi la necessità di processare tale enorme mole di dati ed estrarre informazione utile da essi. Un'ulteriore sfida che si presenta in questi scenari è intrinseca nella rappresentazione stessa dei dati: ad esempio, mentre RNA e DNA sono usualmente descritte da sequenze (di nucleotidi), le reti metaboliche sono descritte da grafi ed, infine, le proteine possono esser dualmente descritte sia da sequenze (di amminoacidi) e sia da grafi. In tutti questi casi si ha a che fare con dati strutturati che vivono in spazi detti 'non-metrici', ovvero spazi per cui una misura di dissimilarità non può esser considerata una misura metrica. Questo pone un evidente limite riguardo l'utilizzo di algoritmi Machine Learning 'standard', la cui comprovata efficienza ed efficacia è limitata a spazi metrici (e.g. lo spazio Euclideo) e che quindi non possono essere applicati a meno di una funzione di embedding che trasformi il dato strutturato in una n-pla di numeri reali. La determinazione di tale embedding può, però, portare a perdita di informazione ed emergenti paradigmi come Granular Computing ed Istogrammi Simbolici aiutano nella definizione di tale funzione con piccola (o nulla) perdita d'informazione. Tuttavia, l'implementazione di un framework (possibilmente unificato) per tali paradigmi che, allo stesso tempo, sia in grado di operare in modalità distribuita per fronteggiare l'esponenziale crescita delle dimensioni dei datasets è ancora un tema di ricerca aperto. Questo progetto si pone quindi lo scopo di investigare su tali algoritmi, sulla possibilità di applicare tecniche di Pattern Recognition in spazi non-metrici a problemi di Bioinformatica, con l'obiettivo di favorire non solo la ricerca nel mondo del Data Mining, ma anche la ricerca in campo biomedico e biologico.

ERC
Keywords:
name

© Università degli Studi di Roma "La Sapienza" - Piazzale Aldo Moro 5, 00185 Roma