Insegnamento
|
CFU
|
SSD
|
Ore Lezione
|
Ore Eserc.
|
Ore Lab
|
Ore Studio
|
Attività
|
Lingua
|
Gruppo opzionale:
Curriculum Data Analyst Gruppo OPZIONALE C altre attività per 6 cfu - (visualizza)
|
6
|
|
|
|
|
|
|
|
AAF1885 -
CASE STUDIES AND STATISTICAL CONSULTING
(obiettivi)
Learning goals Prepare students to proposing solutions to real statistical problems in many research areas.
Knowledge and understanding At the end of the course the students have the ability to understand and solve real practical statistical problems and to propose adequate solutions.
Applying knowledge and understanding Students are required to apply theoretical and computational skills to real problems and case-studies in a wide range of domains.
Making judgements One of the main goals of practical activities is to develop the ability to understand problems and to propose and compare alternative statistical approaches to solve them.
Communication skills Students acquire the ability of discussing problems and of presenting oral and written reports of their practical analyses.
Learning skills The students acquire a series of skills useful for future academic and professional activities.
|
3
|
|
27
|
-
|
-
|
-
|
Ulteriori attività formative (art.10, comma 5, lettera d)
|
ENG |
|
1022798 -
DATA MINING E CLASSIFICAZIONE
(obiettivi)
Obiettivi formativi Grazie ai progressi tecnologici, l'acquisizione dei dati è diventata poco costosa e grandi insiemi di dati vengono accumulati, ad esempio, tramite internet, l'e-commerce o i servizi bancari elettronici. Tali dati possono essere memorizzati nei data warehouse e data mart specificamente destinati al supporto delle decisioni aziendali. Il data mining fornisce le tecniche di gestione e analisi per estrarre le informazioni rilevanti da questi archivi e costruire modelli previsivi, fondamentali in settori quali la valutazione del credito, il marketing, la customer relationship management. Il corso prenderà in esame i metodi di preprocessing dei dati e la loro importanza. Verranno introdotti alcuni modelli non-parametrici di classificazione e regressione: Alberi di decisione, neural networks, support vector machine. Saranno illustrati i metodi di ensemble learning (Bagging, Boosting, Stacking, Blended). Sarà anche affrontata l'elaborazione di dati testuali e di immagini.
Conoscenza e capacità di comprensione. Acquisire le basi delle tecniche affrontate nelle applicazioni di data mining. Comprendere come e perchè scegliere fra metodi statistici alternativi o eventualmente come combinare i diversi metodi. Capacità di trattare grosse masse di dati con l'ausilio dell'opportuno software, commerciale e open source.
Capacità di applicare conoscenza e comprensione. Gli studenti sviluppano capacità critiche attraverso l’applicazione di un'ampia gamma di modelli statistici e di machine learning. Sviluppano inoltre il senso critico attraverso il confronto tra soluzioni alternative allo stesso problema ottenute utilizzando logiche di apprendimento diverse tra loro. Imparano ad interpretare criticamente i risultati ottenuti applicando le procedure a insiemi di dati reali.
Autonomia di giudizio. Gli studenti sviluppano capacità critiche attraverso l’applicazione di un'ampia gamma di machine learning e modelli statistici. Sviluppano inoltre il senso critico attraverso il confronto tra soluzioni alternative allo stesso problema ottenute utilizzando logiche di apprendimento diverse tra loro. Imparano ad interpretare criticamente i risultati ottenuti applicando le procedure a insiemi di dati reali.
Abilità comunicativa. Gli studenti, attraverso lo studio e l'esecuzione di esercizi pratici, acquisiscono il linguaggio tecnico-scientifico della disciplina, che deve essere opportunamente utilizzato sia nelle prove scritte intermedie e finali che nelle prove orali. Le abilità comunicative vengono sviluppate anche attraverso attività di gruppo.
Capacità di apprendimento. Gli studenti che superano l’esame hanno appreso un metodo di analisi che consente loro di affrontare, negli insegnamenti successivi di area statistica, lo studio delle proprietà formali delle procedure di data mining in contesti modellistici più complessi.
-
DI CIACCIO AGOSTINO
( programma)
INTRODUZIONE A DATA WAREHOUSE E OLAP. Dati e metadati. Modello di database relazionale. Transazioni, relazioni, indici. Data Base Management System. Normalizzazione: prima e seconda forma normale. Denormalizzazione e Data Warehouse. Dai sistemi OLTP al Data Warehouse. Confronto tra sistemi OLTP e Data Warehouse: punti di forza e debolezza. Definizione di Data Warehouse Data Mart e OLAP. Utilizzo e finalità di OLAP. Architettura OLAP: Fatti, dimensioni, gerarchie. Data Cube e cuboids. Schema a stella, a fiocco di neve, costellazione di fatti. Operazioni: drill down, roll up, rotating, slice e dice. Preprocessing dei dati. Data cleaning, integration and transformation, data reduction, discretization, hierarchy generation.
INTRODUZIONE AGLI ALBERI DI CLASSIFICAZIONE E AI METODI ENSEMBLE. Misure di impurità: Entropia e indice di eterogeneità: potenzialità e limiti. Probabilità a priori delle classi, costi di errata classificazione. Criteri di split basati su impurità. Guadagno di uno split, Gain ratio CART style split, Criterio del Chi-quadrato (CHAID). Overfitting, generalizzabilità e tecniche di Pruning. Ensemble learning: Bagging, Boosting, random Forest, Stacking, Nearest Neighbours.
LA SCELTA DEL MODELLO Underfitting, overfitting e stima del Prediction Error. Apparent error. In-sample error, extra-sample error, scomposizione della varianza. Valutazione della complessità di un modello. Selezione delle variabili. Modelli lineari: AIC, Cp, BIC, LASSO. Metodi basati sulla stima dell’extra-sample error: Leave-one-out Cross-validation, K-fold Cross-validation. Parametric Bootstrap. Confronto tra criteri di scelta del modello: previsione vs interpretazione. Proprietà asintotiche. Valutazione di modelli non-lineari. Curva lift. Curva cumulative gain. Curva ROC.
REGOLE ASSOCIATIVE. Generazione delle regole associative. L'algoritmo Apriori. Market Basket Analysis.
NEURAL NETWORKS E SUPPORT VECTOR MACHINES. Projection Pursuit Regression. Neuroni biologici e neuroni artificiali. Struttura di un neurone artificiale. Funzione somma e funzione trasferimento. Input layer, hidden layer, output layer Feedback. Procedura di stima (supervised training). Autoencoders, Convolutional N.N.. Applicazioni dei Neural Networks. Support Vector Machine, Classificatori lineari e margine. Massimizzazione del margine. Gruppi non-linearmente separabili. VC-dimension. Naive Bayes Classifiers.
TEXT MINING Modalità di individuazione delle Keywords, Tokenizzazione delle pagine HTML. Stopwords Stemming, porter stemmer. Operazioni complesse sui testi (morfosintattica, semantica ...). Indicizzazione dei documenti. Costruzione del vocabolario. Mappe semantiche. SVD. Cluster e classificazione di documenti.
TRATTAMENTO DEI DATI MANCANTI Tipi di pattern di dati mancanti. MAR, MCAR, MNAR. Case deletion Imputazione: metodi deterministici o stocastici, variabili ausiliarie Distorsione dovuta alle M.R. Svantaggi dell'imputazione singola. Obiettivi di un metodo di imputazione. Unconditional mean e unconditional distribution Hot deck. Conditional mean e conditional distribution, Nearest Neighbour imputation. Multiple imputation.
Vengono utilizzati nel corso appunti forniti dal docente e argomenti tratti dai seguenti testi: Data Mining: Concepts and Techniques (J. Han, M. Kamber), An Introduction to Statistical Learning with application in R (James, Witten, Hastie, Tibshirani), The Elements of Statistical Learning, Data Mining, Inference and Prediction (T. Hastie, R. Tibshirani, J. Friedman, Springer-Verlag). Altri materiali didattici saranno via via inseriti nel sito WEB dei corsi on-line: slides del corso, links ad altri siti, test su parti del corso, esempi di applicazione, appunti da scaricare.
(Date degli appelli d'esame)
|
9
|
SECS-S/01
|
72
|
-
|
-
|
-
|
Attività formative caratterizzanti
|
ITA |
1017084 -
ECONOMETRIA
(obiettivi)
Obiettivi formativi. Lo scopo delle lezioni è fornire una trattazione esaustiva dei principali argomenti riguardanti il modello lineare (OLS, MLE, IV, teoria asintotica ed inferenza) per analisi cross-section ed una breve introduzione all'analisi di dati discreti. Gli studenti devono comprendere i problemi analitici dei suddetti metodi e saperli applicare a situazioni concrete.
Conoscenza e capacità di comprensione. Dopo aver frequentato il corso gli studenti conoscono e comprendono i principali problemi legati al modello lineare di regressione (per esempio: assenza di esogenità) ed i principali metodi da utilizzare per risolvere tali problemi (per esempio: stimatore IV).
Capacità di applicare conoscenza e comprensione. Al termine del corso gli studenti sono in grado di formalizzare problemi reali in termini del modelli lineare di regressione e di applicare i metodi specifici della disciplina per risolverli. Sono inoltre in grado di applicare i metodi a situzioni concrete e di interpretare i risultati.
Autonomia di giudizio. Gli studenti sviluppano una conoscenza della proprietà analitiche delle metodologie presentate e la capacità di costruire programmi per la loro implementazione. Imparano inoltre ad interpretare criticamente i risultati ottenuti applicando le procedure a situazioni concrete.
Abilità comunicativa. Gli studenti acquisiscono il linguaggio tecnico-scientifico della disciplina, che deve essere opportunamente utilizzato sia nelle prove scritte intermedie e finali che nelle prove orali. Le abilità comunicative vengono sviluppate anche attraverso attività di gruppo.
Capacità di apprendimento. Gli studenti che superano l’esame hanno appreso un metodo di analisi che consente loro di affrontare, negli insegnamenti successivi di area quantitativa, lo studio delle proprietà analitiche in contesti modellistici più complessi.
|
6
|
SECS-P/05
|
48
|
-
|
-
|
-
|
Attività formative caratterizzanti
|
ITA |
Gruppo opzionale:
Curriculum Data Analyst Gruppo B2 OPZIONALE a scelta un esame da 6 cfu - (visualizza)
|
6
|
|
|
|
|
|
|
|
1047773 -
BIG DATA ANALYTICS
(obiettivi)
Learning goals. The different techniques existing for Big Data management will be illustrated, with a particular emphasis on NoSQL databases. The course will also deal with the problem of collecting Big Data from various sources such as from the web or from the online social networks. This will require also the introduction of the different formats that are commonly used to encode unstructured, semi-structured and structured data and of the different techniques that can be used to automate their processing. Successively, pre-processing techniques, including denoising and imputation of missing data, will be considered. Then, the course will treat dimensionality reduction techniques, based on feature extraction and feature selection. Finally, some statistical learning models, supervised and unsupervised, for the analysis of Big Data, will be presented. Real-world problems will be addressed during the course using suitable software.
Knowledge and understanding. The student will learn as to apply some statistical learning techniques for dimensionality reduction, based on feature extraction and feature selection. Moreover, he will know and understand some powerful statistical learning models, supervised and unsupervised, to analyse Big Data.
Applying knowledge and understanding. The student will be able to manage Big Data collected from various sources. He will learn as to apply dimensionality reduction techniques, based on feature extraction and feature selection. Moreover, he will be able to choose and apply some powerful statistical learning models to analyse Big Data.
Making judgements. Students will develop critical skills through the application of a wide range of machine learning and statistical models. They also will develop the critical sense through the comparison between alternative solutions to the same problem obtained using different learning logics. They will learn to critically interpret the results obtained by applying the procedures to real data sets.
Communication skills. Students, through the study and execution of practical exercises, acquire the technical-scientific language of the discipline, which must be used appropriately in both the intermediate and final written tests and in the oral tests. Communication skills are also developed through group activities.
Learning skills. Students who pass the exam will have learned an analytical approach that allows them to tackle Big Data analysis with statistical models and machine learning methods.
|
|
-
BIG DATA ANALYTICS
(obiettivi)
Learning goals.The different techniques existing for Big Data management will be illustrated, with a particular emphasis on NoSQL databases. The course will also deal with the problem of collecting Big Data from various sources such as from the web or from the online social networks. This will require also the introduction of the different formats that are commonly used to encode unstructured, semi-structured and structured data and of the different techniques that can be used to automate their processing. Successively, pre-processing techniques, including denoising and imputation of missing data, will be considered. Then, the course will treat dimensionality reduction techniques, based on feature extraction and feature selection. Finally, some statistical learning models, supervised and unsupervised, for the analysis of Big Data, will be presented. Real-world problems will be addressed during the course using suitable software. Knowledge and understanding.The student will learn as to apply some statistical learning techniques for dimensionality reduction, based on feature extraction and feature selection. Moreover, he will know and understand some powerful statistical learning models, supervised and unsupervised, to analyse Big Data. Applying knowledge and understanding.The student will be able to manage Big Data collected from various sources. He will learn as to apply dimensionality reduction techniques, based on feature extraction and feature selection. Moreover, he will be able to choose and apply some powerful statistical learning models to analyse Big Data. Making judgements.Students will develop critical skills through the application of a wide range of machine learning and statistical models.They also will develop the critical sense through the comparison between alternative solutions to the same problem obtained using different learning logics. They will learn to critically interpret the results obtained by applying the procedures to real data sets.Communication skills.Students, through the study and execution of practical exercises, acquire the technical-scientific language of the discipline, which must be used appropriately in both the intermediate and final written tests and in the oral tests. Communication skills are also developed through group activities. Learning skills.Students who pass the exam will have learned an analytical approach that allows them to tackle Big Data analysis with statistical models and machine learning methods.
|
3
|
INF/01
|
24
|
-
|
-
|
-
|
Attività formative affini ed integrative
|
ENG |
-
BIG DATA ANALYTICS
(obiettivi)
Learning goals.The different techniques existing for Big Data management will be illustrated, with a particular emphasis on NoSQL databases. The course will also deal with the problem of collecting Big Data from various sources such as from the web or from the online social networks. This will require also the introduction of the different formats that are commonly used to encode unstructured, semi-structured and structured data and of the different techniques that can be used to automate their processing. Successively, pre-processing techniques, including denoising and imputation of missing data, will be considered. Then, the course will treat dimensionality reduction techniques, based on feature extraction and feature selection. Finally, some statistical learning models, supervised and unsupervised, for the analysis of Big Data, will be presented. Real-world problems will be addressed during the course using suitable software. Knowledge and understanding.The student will learn as to apply some statistical learning techniques for dimensionality reduction, based on feature extraction and feature selection. Moreover, he will know and understand some powerful statistical learning models, supervised and unsupervised, to analyse Big Data. Applying knowledge and understanding.The student will be able to manage Big Data collected from various sources. He will learn as to apply dimensionality reduction techniques, based on feature extraction and feature selection. Moreover, he will be able to choose and apply some powerful statistical learning models to analyse Big Data. Making judgements.Students will develop critical skills through the application of a wide range of machine learning and statistical models.They also will develop the critical sense through the comparison between alternative solutions to the same problem obtained using different learning logics. They will learn to critically interpret the results obtained by applying the procedures to real data sets.Communication skills.Students, through the study and execution of practical exercises, acquire the technical-scientific language of the discipline, which must be used appropriately in both the intermediate and final written tests and in the oral tests. Communication skills are also developed through group activities. Learning skills.Students who pass the exam will have learned an analytical approach that allows them to tackle Big Data analysis with statistical models and machine learning methods.
|
3
|
SECS-S/01
|
24
|
-
|
-
|
-
|
Attività formative affini ed integrative
|
ENG |
|
Gruppo opzionale:
Curriculum Data Analyst Gruppo OPZIONALE B1 un esame a scelta da 9 cfu - (visualizza)
|
9
|
|
|
|
|
|
|
|
1038458 -
ANALISI DEI DATI DI SOPRAVVIVENZA E LONGITUDINALI
(obiettivi)
Obiettivi formativi. Obiettivo formativo dell’insegnamento è l'apprendimento da parte degli studenti dei metodi per l'analisi di dati longitudinali e di sopravvivenza.
Conoscenza e capacità di comprensione. Alla fine del corso gli studenti conoscono e comprendono i principali modelli per l'analisi di dati di sopravvivenza e longitudinali.
Capacità di applicare conoscenza e comprensione. Grazie alle esercitazioni in aula informatica, gli studenti apprendono ad applicare i principali mdoelli di regressione a dati di sopravvivenza e longitudinali.
Autonomia di giudizio. La discussione dei vari stimatori fornisce agli studenti una autonomia nell'analizzare criticamente situazioni osservazionali.
Abilità comunicativa. Alla fine del corso, gli studenti acquisiscono una notazione ed un linguaggio di base da utilizzare nel contesto dei dati di sopravvivenza e longitudinali.
Capacità di apprendimento. Gli studenti che superano l’esame sono in grado di applicare i modelli appresi nei vari contesti specifici di applicazione.
-
ALFO' MARCO
( programma)
Parte Prima: Analisi dei dati di sopravvivenza Esempi di dati di sopravvivenza Quantita' e modelli di base Censura e troncamento Stima non parametrica delle quantita' di base per dati RC e LT Stima delle quantita' di base per altri disegni Test per la verifica di ipotesi Modello a rischi proporzionali con covariate fisse Diagnostica ed inferenza sul modello PH
Parte Seconda: Analisi dei dati longitudinali Esempi di dati longitudinali Considerazioni sui disegni longitudinali Strutture di covarianza per dati longitudinali Modelli di regressione per dati longitudinali Modelli ad effetti misti Tecniche di stima di ML per distribuzioni parametriche Tecniche di stima di ML per distribuzioni non parametriche
John P. Klein and Melvin L. Moeschberger (2003). Survival Analysis: Techniques for Censored and Truncated Data, Springer, 2nd edition. Peter J. Diggle, Patrick J. Heagerty, Kung-Yee Liang, Scott L. Zeger (2002). Analysis of Longitudinal Data, Oxford University Press, 2nd edition.
(Date degli appelli d'esame)
|
9
|
SECS-S/01
|
72
|
-
|
-
|
-
|
Attività formative affini ed integrative
|
ITA |
|
AAF1019 -
PROVA FINALE
(obiettivi)
Consentire allo studente l'elaborazione di un testo con carattere di originalità che costituisca la somma dei saperi specialistici raggiunta durante i due anni del corso.
|
21
|
|
525
|
-
|
-
|
-
|
Per la prova finale e la lingua straniera (art.10, comma 5, lettera c)
|
ITA |