Nome e qualifica del proponente del progetto: 
sb_p_2292941
Anno: 
2020
Abstract: 

L'elaborazione del linguaggio naturale è quella branca dell'intelligenza artificiale che si occupa di trasferire le competenze linguistiche umane ad un agente non senziente, come un computer.
In quest'ottica, la semantica riveste un ruolo centrale nell'abilitare un elaboratore automatico all'esecuzione di compiti richiesti dall'operatore umano. Un esempio dell'applicazione della "semantica computazionale" è la disambiguazione automatica, ovvero l'abilità di un sistema di risolvere la polisemia di una parola in contesto mediante la selezione di un'accezione di senso da un inventario predeterminato. Sebbene determinare il più appropriato tra un insieme finito di sensi sia un'operazione potenzialmente triviale per la macchina, nondimeno, il concetto di discretezza nella rappresentazione delle sfumature di significato è stato criticato nella recente storia della psicolinguistica.
Per quanto detto, il progetto qui presentato si colloca in questo quadro di ricerca, e si pone come veicolo per il raggiungimento di una semantica computazionale che simuli in modo più accurato la rappresentazione semantica usata a livello umano.
Nello specifico, partendo dal paradigma della modellazione definizionale, ci svincoliamo dai limiti imposti da inventari predefiniti di senso mediante la generazione automatica di definizioni in grado di descrivere la semantica di una parola o di un'espressione all'interno di uno specifico contesto. A tal fine, e mediante l'uso di vettori contestuali di senso e di uno spazio vettoriale multilingua, siamo in grado, per la prima volta, di generare definizioni in lingue diverse, applicabili anche a concetti non presenti negli inventari di senso tradizionali.
Per valutare la bontà del nostro approccio e la qualità dell'informazione semantica in esso codificata, facciamo ricorso ai dataset standard per la valutazione qualitativa di definizioni generate automaticamente e a dataset legati a compiti apparentemente scorrelati, come il question-answering.

ERC: 
PE6_7
Componenti gruppo di ricerca: 
sb_cp_is_2924446
Innovatività: 

Il progetto si inquadra nell'ambito della semantica computazionale e del Definition Modeling, proponendo un approccio innovativo per la generazione di definizioni con l'obiettivo di porre rimedio ai limiti imposti dagli altri approcci presenti in letteratura fino ad ora.
Infatti, la ricerca proposta si differenzia portando i seguenti contributi rispetto allo stato dell'arte: 1) lo sviluppo di un modello che, per la prima volta, sia in grado di generare definizioni per un'espressione di arbitraria lunghezza in una frase in lingue diverse, svincolandosi dalla sola lingua inglese; 2) l'integrazione dell'informazione di natura semantica prodotta dalle definizioni in altri problemi dell'elaborazione del linguaggio naturale, quali question-answering, mostrando come la semantica computazionale sia indispensabile per l'analisi e la comprensione di un testo scritto.
Infatti, gli approcci in letteratura fino ad ora hanno concentrato i loro sforzi nello sviluppo di modelli funzionanti quasi unicamente per la lingua inglese, senza dare attenzione a lingue per cui sono disponibili solo scarse quantità di dati e risorse. Il nostro modello, invece, si propone di supportare circa cento lingue diverse. Infatti, grazie all'utilizzo di uno spazio in cui sia possibile rappresentare in modo unificato frasi e parole in diverse lingue, per la prima volta sarà possibile creare un modello unificato che sia in grado di generare definizioni in lingue diverse per espressioni provenienti da frase in lingue a loro volta diverse, senza bisogno di addestrare tanti modelli quante le lingue supportate. Inoltre, verranno sfruttate rappresentazioni contestuali sia di senso che di parola che non vincoleranno il modello proposto ai sensi racchiusi in un inventario predefinito, ma che gli permetteranno di generalizzare su espressioni di arbitraria lunghezza e concetti anche non visti in fase di addestramento. Questo non solo contribuirà ad un avanzamento dello stato dell'arte sui test set di riferimento per Definition Modeling, ma favorirà lo sviluppo e la creazione di nuovi modelli e dati di test per lingue diverse dall'inglese, colmando l'enorme divario che separa l'inglese dalle altre lingue.
Oltretutto, l'informazione di carattere semantico generata in modo automatico verrà per la prima volta integrata in problemi di analisi e comprensione del testo, come question-answering. Infatti, fino ad oggi gli approcci si sono concentrati nell'effettuare una valutazione principalmente nell'ambito della generazione di definizioni, senza mai esplorare i benefici che queste informazioni aggiuntive, estrapolate da modelli di Definition Modeling, possono apportare ad altri problemi non prettamente inerenti a quello della semantica computazionale. In questo modo, infatti, sarà possibile contribuire all'avanzamento sui test set di question-answering sia inglesi che multilingua e allo stesso tempo dimostrare come la semantica ponga le basi perché una macchina possa comprendere un testo scritto in linguaggio umano, provando come il suo utilizzo sia trasversale e vantaggioso per molte applicazioni dell'elaborazione del linguaggio naturale.

Codice Bando: 
2292941

© Università degli Studi di Roma "La Sapienza" - Piazzale Aldo Moro 5, 00185 Roma