Analisi automatica del testo: un'ottica di network analysis per la classificazione del contenuto

Anno
2017
Proponente -
Struttura
Sottosettore ERC del proponente del progetto
Componenti gruppo di ricerca
Abstract

Negli ultimi anni le Scienze Sociali hanno assistito ad un importante cambiamento dovuto alla crescente disponibilità di grandi quantità di dati; si tratta per lo più di dati non strutturati, quali immagini, video e testi. I testi nello specifico rappresentano oggi una fonte informativa di grande rilievo in moltissime aree; lo sviluppo dell'analisi testuale ha consentito in questo senso di implementare tecniche e metodologie in grado di estrapolare in maniera veloce ed automatizzata contenuto informativo da grandi quantità di testo. Una delle questioni rilevanti in termini di analisi testuale riguarda dunque lo sviluppo e l'implementazione di metodologie statistiche in grado di trattare questa tipologia particolare di dato. L'utilizzo delle normali tecniche del Data Mining su questo dato non consentono purtroppo una trattazione efficace e performante, a causa proprio delle caratteristiche uniche e peculiari del testo.
Partendo da queste necessità, il progetto si propone dunque di sviluppare un nuovo approccio per il trattamento e la classificazione di dati testuali attraverso l'utilizzo delle metodologie della Social Network Analysis (SNA); l'idea è quella provare a interpretare il testo non più in termini di frequenza - cioè quante volte i vocaboli compaiono all'interno del testo - ma come una rete di parole, connesse tra loro secondo logiche di tipo relazionale. Lo sviluppo di questo approccio sarà possibile in una prima fase attraverso l'utilizzo di numerosi software per il trattamento dei dati testuali e delle reti, e successivamente grazie alla realizzazione di codici dedicati all'interno del software R.

ERC
Keywords:
name

© Università degli Studi di Roma "La Sapienza" - Piazzale Aldo Moro 5, 00185 Roma