
I dati funzionali possono essere pensati come realizzazioni di funzioni continue in un dato intervallo. Questo tipo di dati si può trovare molto spesso nelle scienze applicate in quanto molti fenomeni variano continuamente nel tempo e/o nello spazio. In questi casi si parla anche di dati ad alta dimensionalità in quanto le curve possono essere osservate solo su una griglia finita di punti, generalmente fitta e in numero maggiore del numero di unità statistiche.
Negli ultimi anni metodi statistici standard sono stati estesi al contesto di dati funzionali e nuove metodologie sono state sviluppate per risolvere i più comuni problemi della statistica come analisi dei gruppi, classificazione e regressione.
Una situazione particolarmente interessante dal punto di vista scientifico ma tuttora poco esplorata si ha quando le osservazioni sono registrate su griglie differenti o solo in una parte del dominio (dati sparsi o frammentari). In questo contesto non è possibile applicare la maggior parte dei metodi classici i quali non sono in grado di trattare dati mancanti e assumono che le curve siano osservate su una griglia comune. Nelle scienze applicate questa situazione è molto rilevante perchè spesso i dati sono registrati individualmente e in tempi diversi - questo di fatto è lo standard per i dati longitudinali.
Questo progetto si propone di sviluppare nuove metodologie statistiche per la classificazione di dati funzionali sparsi. Alcuni di questi metodi posso essere pensati come estensioni di tecniche già esistenti, mentre altri come procedure completamente nuove. Il lavoro su queste tematiche è cominciato durante la mia tesi magistrale - svolta per metà presso il Politecnico di Milano - e proseguita durante i primi due anni di dottorato dove ho avuto il piacere di approfondire questi temi presso la Masaryk University di Brno, sotto la supervisione del Prof. D. Kraus.
In questo progetto vorrei estendere i modelli sopracitati nel seguente modo:
- Invece di ottenere una riduzione dimensionale attraverso l'analisi in componenti principali ovvero costruendo direzioni che massimizzano la varianza dei dati, si potrebbero utilizzare approcci alternativi come ad esempio i minimi quadrati parziali (Partial Least Squares, PLS) che costruiscono direzioni massimizzando la covarianza tra le curve e la caratteristica di interesse. Questo dovrebbe condurre ad una migliore classificazione. La regressione via PLS è una procedura nota in statistica multivariata ed è stata recentemente estesa al contesto funzionale, ma nulla è stato fatto per il caso dei dati sparsi.
- Indebolire le forti ipotesi del modello discriminante di Fisher, in particolare considerare strutture più flessibili per le funzioni di covarianza.
- Esplorare possibili estensioni al caso sparso di metodi di classificazione per dati funzionali già esistenti. Questo includerebbe sia i metodi basati su proiezioni che quelli basati su distanze.
Questo progetto è motivato dalla mancanza di metodologia nel campo e da una discreta rilevanza nelle scienze applicate. Nuovi modelli possono portare a migliori regole di classificazione che di conseguenza possono portare a migliori decisioni per molti problemi in aree quali sanità, ambiente, chemiometria e molti altri.