Analisi automatica del testo: un'ottica di network analysis per la classificazione del contenuto
Negli ultimi anni le Scienze Sociali hanno assistito ad un importante cambiamento dovuto alla crescente disponibilità di grandi quantità di dati; si tratta per lo più di dati non strutturati, quali immagini, video e testi. I testi nello specifico rappresentano oggi una fonte informativa di grande rilievo in moltissime aree; lo sviluppo dell'analisi testuale ha consentito in questo senso di implementare tecniche e metodologie in grado di estrapolare in maniera veloce ed automatizzata contenuto informativo da grandi quantità di testo. Una delle questioni rilevanti in termini di analisi testuale riguarda dunque lo sviluppo e l'implementazione di metodologie statistiche in grado di trattare questa tipologia particolare di dato. L'utilizzo delle normali tecniche del Data Mining su questo dato non consentono purtroppo una trattazione efficace e performante, a causa proprio delle caratteristiche uniche e peculiari del testo.
Partendo da queste necessità, il progetto si propone dunque di sviluppare un nuovo approccio per il trattamento e la classificazione di dati testuali attraverso l'utilizzo delle metodologie della Social Network Analysis (SNA); l'idea è quella provare a interpretare il testo non più in termini di frequenza - cioè quante volte i vocaboli compaiono all'interno del testo - ma come una rete di parole, connesse tra loro secondo logiche di tipo relazionale. Lo sviluppo di questo approccio sarà possibile in una prima fase attraverso l'utilizzo di numerosi software per il trattamento dei dati testuali e delle reti, e successivamente grazie alla realizzazione di codici dedicati all'interno del software R.