Analisi testuale, rumore semantico e peculiarità morfosintattiche: problemi e strategie di pretrattamento di corpora speciali
La moltiplicazione delle tecniche di analisi testuale ha reso possibile l’uso combinato di software diversi, piegati di volta in volta a singole esigenze di analisi e ricerca. Tuttavia, l’ampiezza di opportunità offerte dai diversi software non attenua un problema di fondo, insito nelle caratteristiche stesse di alcuni corpora peculiari.
Perfettamente adatti ad analisi su testi redatti accuratamente e improntati a uno stile sorvegliato, questi software non riescono tuttavia a togliere l’utente dall’impaccio nel quale può trovarsi in alcune circostanze. Tra queste, una delle più comuni riguarda le regole morfosintattiche della lingua di riferimento e quindi portatrice di quote elevate di rumore semantico. Problemi di “rumore”, come quello generato nelle conversazioni spontanee, richiedono al ricercatore una serie di accorgimenti per la preparazione del corpus che tengano conto della necessità di evitare di ottenere dati fortemente distorti. Questo discorso si esaspera con Twitter, la cui facilità d’accesso e download dei messaggi è da qualche tempo foriero di analisi non sempre adeguatamente sostenute dal punto di vista teorico. A questi casi si aggiunge quello di corpora altrettanto peculiari come quelli delle poesie e delle canzoni. In corpora di questo tipo il problema deriva dal costrutto stesso di questo genere comunicativo, che nel servirsi di alcuni espedienti retorici accentua la massa critica generata da alcune parole, andando così a incidere, tra l’altro, sul calcolo di alcuni parametri rilevanti e rendendo meno leggibili i risultati.
Quali strategie sono dunque possibili al ricercatore per preparare adeguatamente i corpora da analizzare in queste due situazioni particolari? Il contributo che si intende presentare vuole avanzare alcune proposte su come operare in queste particolari condizioni, evidenziando i vantaggi sul piano empirico ma anche le ricadute su quello teorico soggiacente agli obiettivi stessi che analisi su corpora di questo genere possono porsi.