Insegnamento: 1022798

DATA MINING E CLASSIFICAZIONE

Codice

1022798

Lingua

ITA

Corso di laurea

Scienze statistiche

Programmazione per l'A.A.

2019/2020

Curriculum

Demografico sociale

Anno

Primo anno

Unità temporale

Secondo semestre

Tipo di attestato

Attestato di profitto

Crediti

Settore scientifico disciplinare

SECS-S/01

Ore Aula

Ore Studio

Attività formativa

Attività formative caratterizzanti

Canale Unico

Docente	DI CIACCIO AGOSTINO (programma) INTRODUZIONE A DATA WAREHOUSE E OLAP. Dati e metadati. Modello di database relazionale. Transazioni, relazioni, indici. Data Base Management System. Normalizzazione: prima e seconda forma normale. Denormalizzazione e Data Warehouse. Dai sistemi OLTP al Data Warehouse. Confronto tra sistemi OLTP e Data Warehouse: punti di forza e debolezza. Definizione di Data Warehouse Data Mart e OLAP. Utilizzo e finalità di OLAP. Architettura OLAP: Fatti, dimensioni, gerarchie. Data Cube e cuboids. Schema a stella, a fiocco di neve, costellazione di fatti. Operazioni: drill down, roll up, rotating, slice e dice. Preprocessing dei dati. Data cleaning, integration and transformation, data reduction, discretization, hierarchy generation. INTRODUZIONE AGLI ALBERI DI CLASSIFICAZIONE E AI METODI ENSEMBLE. Misure di impurità: Entropia e indice di eterogeneità: potenzialità e limiti. Probabilità a priori delle classi, costi di errata classificazione. Criteri di split basati su impurità. Guadagno di uno split, Gain ratio CART style split, Criterio del Chi-quadrato (CHAID). Overfitting, generalizzabilità e tecniche di Pruning. Ensemble learning: Bagging, Boosting, random Forest, Stacking, Nearest Neighbours. LA SCELTA DEL MODELLO Underfitting, overfitting e stima del Prediction Error. Apparent error. In-sample error, extra-sample error, scomposizione della varianza. Valutazione della complessità di un modello. Selezione delle variabili. Modelli lineari: AIC, Cp, BIC, LASSO. Metodi basati sulla stima dell’extra-sample error: Leave-one-out Cross-validation, K-fold Cross-validation. Parametric Bootstrap. Confronto tra criteri di scelta del modello: previsione vs interpretazione. Proprietà asintotiche. Valutazione di modelli non-lineari. Curva lift. Curva cumulative gain. Curva ROC. REGOLE ASSOCIATIVE. Generazione delle regole associative. L'algoritmo Apriori. Market Basket Analysis. NEURAL NETWORKS E SUPPORT VECTOR MACHINES. Projection Pursuit Regression. Neuroni biologici e neuroni artificiali. Struttura di un neurone artificiale. Funzione somma e funzione trasferimento. Input layer, hidden layer, output layer Feedback. Procedura di stima (supervised training). Autoencoders, Convolutional N.N.. Applicazioni dei Neural Networks. Support Vector Machine, Classificatori lineari e margine. Massimizzazione del margine. Gruppi non-linearmente separabili. VC-dimension. Naive Bayes Classifiers. TEXT MINING Modalità di individuazione delle Keywords, Tokenizzazione delle pagine HTML. Stopwords Stemming, porter stemmer. Operazioni complesse sui testi (morfosintattica, semantica ...). Indicizzazione dei documenti. Costruzione del vocabolario. Mappe semantiche. SVD. Cluster e classificazione di documenti. TRATTAMENTO DEI DATI MANCANTI Tipi di pattern di dati mancanti. MAR, MCAR, MNAR. Case deletion Imputazione: metodi deterministici o stocastici, variabili ausiliarie Distorsione dovuta alle M.R. Svantaggi dell'imputazione singola. Obiettivi di un metodo di imputazione. Unconditional mean e unconditional distribution Hot deck. Conditional mean e conditional distribution, Nearest Neighbour imputation. Multiple imputation. Vengono utilizzati nel corso appunti forniti dal docente e argomenti tratti dai seguenti testi: Data Mining: Concepts and Techniques (J. Han, M. Kamber), An Introduction to Statistical Learning with application in R (James, Witten, Hastie, Tibshirani), The Elements of Statistical Learning, Data Mining, Inference and Prediction (T. Hastie, R. Tibshirani, J. Friedman, Springer-Verlag). Altri materiali didattici saranno via via inseriti nel sito WEB dei corsi on-line: slides del corso, links ad altri siti, test su parti del corso, esempi di applicazione, appunti da scaricare.
Date di inizio e termine delle attività didattiche	23-02-2020 - 28-05-2020
Date degli appelli	Date degli appelli d'esame
Modalità di erogazione	Tradizionale
Modalità di frequenza	Non obbligatoria
Metodi di valutazione	Prova scritta Prova orale Valutazione di un progetto