Analisi automatica del testo: un'ottica di network analysis per la classificazione del contenuto

Inviato da Anonimo (non verificato) il Lun, 18/04/2022 - 18:27

Anno:

2017

Nome e qualifica del proponente del progetto:

sb_p_716944

Abstract:

Negli ultimi anni le Scienze Sociali hanno assistito ad un importante cambiamento dovuto alla crescente disponibilità di grandi quantità di dati; si tratta per lo più di dati non strutturati, quali immagini, video e testi. I testi nello specifico rappresentano oggi una fonte informativa di grande rilievo in moltissime aree; lo sviluppo dell'analisi testuale ha consentito in questo senso di implementare tecniche e metodologie in grado di estrapolare in maniera veloce ed automatizzata contenuto informativo da grandi quantità di testo. Una delle questioni rilevanti in termini di analisi testuale riguarda dunque lo sviluppo e l'implementazione di metodologie statistiche in grado di trattare questa tipologia particolare di dato. L'utilizzo delle normali tecniche del Data Mining su questo dato non consentono purtroppo una trattazione efficace e performante, a causa proprio delle caratteristiche uniche e peculiari del testo.
Partendo da queste necessità, il progetto si propone dunque di sviluppare un nuovo approccio per il trattamento e la classificazione di dati testuali attraverso l'utilizzo delle metodologie della Social Network Analysis (SNA); l'idea è quella provare a interpretare il testo non più in termini di frequenza - cioè quante volte i vocaboli compaiono all'interno del testo - ma come una rete di parole, connesse tra loro secondo logiche di tipo relazionale. Lo sviluppo di questo approccio sarà possibile in una prima fase attraverso l'utilizzo di numerosi software per il trattamento dei dati testuali e delle reti, e successivamente grazie alla realizzazione di codici dedicati all'interno del software R.

Componenti gruppo di ricerca:

sb_cp_is_912773

Innovatività:

Il progetto presenta senza dubbio un carattere di innovatività: gli obiettivi della ricerca sono difatti rappresentati dalla sperimentazione di un nuovo approccio all'analisi dei dati testuali, con il fine di contribuire nel campo dell'analisi automatica del testo in merito alle capacità di estrapolazione di contenuto.
Ad oggi la metodologia dominante per quanto concerne la codifica del dato testuale consiste nella trasformazione del testo in una matrice two-mode (parole × documenti oppure parole × frammenti di testo) e sull'applicazione a questa matrice di algoritmi di classificazione del Data Mining; questa procedura, se da un lato risulta essere sufficientemente veloce e semplice, dall'altra solleva una serie di problemi non indifferenti in termini di bontà di adattamento dei modelli al dato testuale. Le parole difatti rappresentano una tipologia di dato molto particolare e complessa, strettamente dipendente dal linguaggio utilizzato. I modelli del Data Mining, non nascendo per essere utilizzata su dati di tipo testuale, non tengono in considerazione tutte le specificità del linguaggio, motivo per cui i risultati degli algoritmi di classificazione applicati al testo spesso producono risultati non soddisfacenti in termini di individuazione del contenuto. A fronte di questo, l'obiettivo di questo progetto è proprio quello di cercare di avanzare una nuova proposta in termini di trattazione dei dati testuali. L'idea di partenza è quella di pensare un testo come una rete, utilizzando la teoria e i modelli della Social Network Analysis; in questo modo le parole all'interno di un testo non vengono più interpretate in termini di frequenza - cioè quante volte è ripetuta la parola - ma in termini di relazione di ogni parola con tutte le altre, all'interno di un network che rappresenta l'insieme dei legami tra tutte le parole stabiliti a partire dalle co-occorrenze. Adottando questo tipo di prospettiva, l'individuazione del contenuto verrà implementata attraverso l'utilizzo di algoritmi di classificazione propri della SNA, che andranno a costruire i gruppi di contenuti sulla base delle relazioni, e non più sulla base delle frequenze.

Codice Bando:

716944

Keywords:

name