New developments on clustering of text, functional and other complex data

Anno
2021
Proponente Maria Brigida Ferraro - Professore Associato
Sottosettore ERC del proponente del progetto
PE1_14
Componenti gruppo di ricerca
Componente Categoria
Paolo Giordani Componenti strutturati del gruppo di ricerca
Irene Cozzolino Dottorando/Assegnista/Specializzando componente non strutturato del gruppo di ricerca
Maurizio Vichi Componenti strutturati del gruppo di ricerca
Ilaria Bombelli Dottorando/Assegnista/Specializzando componente non strutturato del gruppo di ricerca
Roberto Rocci Componenti strutturati del gruppo di ricerca
Componente Qualifica Struttura Categoria
Ana Belen Ramos-Guajardo Assistant Professor Department of Statistics, University of Oviedo, Spain Altro personale aggregato Sapienza o esterni, titolari di borse di studio di ricerca
Enea Bongiorno Professor Dipartimento di Studi per l'Economia e l'Impresa, Università del Piemonte Orientale Altro personale aggregato Sapienza o esterni, titolari di borse di studio di ricerca
Peter Winker Full Professor Department of economics and statistics, University of Giessen, Germany Altro personale aggregato Sapienza o esterni, titolari di borse di studio di ricerca
Ana Colubi Full Professor King's College London, UK (visiting professor) Altro personale aggregato Sapienza o esterni, titolari di borse di studio di ricerca
Louisa Kontoghiorghes University of Geneve, Switzerland Altro personale aggregato Sapienza o esterni, titolari di borse di studio di ricerca
Stefano Antonio Gattone Professor Università di Chieti e Pescara Altro personale aggregato Sapienza o esterni, titolari di borse di studio di ricerca
Abstract

Nowadays a vast amount of complex data, frequently unstructured, are stored and easily accessible.
It is usual to encounter complex data in many fields such as economics, finance, health, social or environmental sciences, to name but a few. One of the main issues for modern statistics is to jointly establish and implement new clustering methods for reducing and synthesize such information. Complex data cannot be fully analysed by the existing standard methodologies.
The research project aims at introducing new clustering methods involving innovative sources of information, such as text or functions.
The main objective is twofold. On the one hand, we will focus on text data. New document clustering techniques, with a fuzzy approach, will be introduced through the use of appropriate dissimilarity measures that take into account the intrinsic nature of the data. In addition, double clustering methods able to jointly partition documents and terms will be studied.
On the other hand, we will analyse functional data. First, (fuzzy) clustering methods for such data will be addressed and then we will focus on clustering in a subspace of reduced dimension to improve the classification performance.
All the proposed techniques will be implemented in (open-source) software macros/libraries to be shared so that practitioners working in the field can freely use them.

ERC
PE1_14, PE1_18, SH1_6
Keywords:
CLUSTER ANALYSIS, ANALISI STATISTICA DEI DATI, ANALISI MULTIVARIATA, ANALISI DEI DATI TESTUALI, TECNICHE DI ANALISI DI DATI

© Università degli Studi di Roma "La Sapienza" - Piazzale Aldo Moro 5, 00185 Roma