Docente
|
TOLOMEI GABRIELE
(programma)
Introduzione - Il fenomeno "Big Data" - Infrastruttura - Distributed File Systems (HDFS) - MapReduce (Hadoop) - Spark - PySpark + Google Colaboratory
Apprendimento non-supervisionato: Clustering - Similarità - Algoritmi: K-means - Esempio: Clustering di documenti testuali
Riduzione della dimensionalità - Feature Extraction - Algoritmi: Principal Component Analysis (PCA) - Esempio: PCA + Riconoscimento cifre
Apprendimento supervisionato - Fondamenti di apprendimento automatico - Regressione/Classificazione - Algoritmi: Linear Regression/Logistic Regression/Random Forest - Esempi: - Linear Regression - Predizione prezzo vendita case - Logistic Regression/Random Forest - Predizione sottoscrizione offerta bancaria
Sistemi di Raccomandazione - Content-based vs. Collaborative filtering - Algoritmi: k-NN, Matrix Factorization (MF) - Esempio: Sistema di Raccomandazione di Film (MovieLens)
Analisi di Grafi - Link Analysis - Algoritmi: PageRank - Esempio: Ranking (di un estratto) del Google Web Graph
Analisi di dati real-time - Streaming Data Processing - Esempio: Twitter Hate Speech Detector
- Mining of Massive Datasets [Leskovec, Rajaraman, Ullman] (available online) - Big Data Analysis with Python [Marin, Shukla, VK] - Large Scale Machine Learning with Python [Sjardin, Massaron, Boschetti] - Spark: The Definitive Guide [Chambers, Zaharia] - Learning Spark: Lightning-Fast Big Data Analysis [Karau, Konwinski, Wendell, Zaharia] - Hadoop: The Definitive Guide [White] - Python for Data Analysis [Mckinney]
|