Docente
|
DI CIACCIO AGOSTINO
(programma)
INTRODUZIONE A DATA WAREHOUSE E OLAP.
Dati e metadati. Modello di database relazionale. Transazioni, relazioni, indici. Data Base Management System. Normalizzazione: prima e seconda forma normale. Denormalizzazione e Data Warehouse. Dai sistemi OLTP al Data Warehouse. Confronto tra sistemi OLTP e Data Warehouse: punti di forza e debolezza. Definizione di Data Warehouse Data Mart e OLAP. Utilizzo e finalità di OLAP. Architettura OLAP: Fatti, dimensioni, gerarchie. Data Cube e cuboids. Schema a stella, a fiocco di neve, costellazione di fatti. Operazioni: drill down, roll up, rotating, slice e dice. Preprocessing dei dati. Data cleaning, integration and transformation, data reduction, discretization, hierarchy generation.
INTRODUZIONE AGLI ALBERI DI CLASSIFICAZIONE E AI METODI ENSEMBLE.
Misure di impurità: Entropia e indice di eterogeneità: potenzialità e limiti. Probabilità a priori delle classi, costi di errata classificazione. Criteri di split basati su impurità. Guadagno di uno split, Gain ratio CART style split, Criterio del Chi-quadrato (CHAID). Overfitting, generalizzabilità e tecniche di Pruning. Ensemble learning: Bagging, Boosting, random Forest, Stacking, Nearest Neighbours.
LA SCELTA DEL MODELLO
Underfitting, overfitting e stima del Prediction Error. Apparent error. In-sample error, extra-sample error, scomposizione della varianza. Valutazione della complessità di un modello. Selezione delle variabili. Modelli lineari: AIC, Cp, BIC, LASSO. Metodi basati sulla stima dell’extra-sample error: Leave-one-out Cross-validation, K-fold Cross-validation. Parametric Bootstrap. Confronto tra criteri di scelta del modello: previsione vs interpretazione. Proprietà asintotiche. Valutazione di modelli non-lineari. Curva lift. Curva cumulative gain. Curva ROC.
REGOLE ASSOCIATIVE.
Generazione delle regole associative. L'algoritmo Apriori. Market Basket Analysis.
NEURAL NETWORKS E SUPPORT VECTOR MACHINES.
Projection Pursuit Regression. Neuroni biologici e neuroni artificiali. Struttura di un neurone artificiale. Funzione somma e funzione trasferimento. Input layer, hidden layer, output layer Feedback. Procedura di stima (supervised training). Autoencoders, Convolutional N.N.. Applicazioni dei Neural Networks. Support Vector Machine, Classificatori lineari e margine. Massimizzazione del margine. Gruppi non-linearmente separabili. VC-dimension. Naive Bayes Classifiers.
TEXT MINING
Modalità di individuazione delle Keywords, Tokenizzazione delle pagine HTML. Stopwords Stemming, porter stemmer. Operazioni complesse sui testi (morfosintattica, semantica ...). Indicizzazione dei documenti. Costruzione del vocabolario. Mappe semantiche. SVD. Cluster e classificazione di documenti.
TRATTAMENTO DEI DATI MANCANTI
Tipi di pattern di dati mancanti. MAR, MCAR, MNAR. Case deletion Imputazione: metodi deterministici o stocastici, variabili ausiliarie Distorsione dovuta alle M.R. Svantaggi dell'imputazione singola. Obiettivi di un metodo di imputazione. Unconditional mean e unconditional distribution Hot deck. Conditional mean e conditional distribution, Nearest Neighbour imputation. Multiple imputation.
Vengono utilizzati nel corso appunti forniti dal docente e argomenti tratti dai seguenti testi: Data Mining: Concepts and Techniques (J. Han, M. Kamber), An Introduction to Statistical Learning with application in R (James, Witten, Hastie, Tibshirani), The Elements of Statistical Learning, Data Mining, Inference and Prediction (T. Hastie, R. Tibshirani, J. Friedman, Springer-Verlag).
Altri materiali didattici saranno via via inseriti nel sito WEB dei corsi on-line: slides del corso, links ad altri siti, test su parti del corso, esempi di applicazione, appunti da scaricare.
|