Docente
|
TOLOMEI GABRIELE
(programma)
Introduzione
- Il fenomeno "Big Data"
- Infrastruttura
- Distributed File Systems (HDFS)
- MapReduce (Hadoop)
- Spark
- PySpark + Google Colaboratory
Apprendimento non-supervisionato: Clustering
- Similarità
- Algoritmi: K-means
- Esempio: Clustering di documenti testuali
Riduzione della dimensionalità
- Feature Extraction
- Algoritmi: Principal Component Analysis (PCA)
- Esempio: PCA + Riconoscimento cifre
Apprendimento supervisionato
- Fondamenti di apprendimento automatico
- Regressione/Classificazione
- Algoritmi: Linear Regression/Logistic Regression/Random Forest
- Esempi:
- Linear Regression - Predizione prezzo vendita case
- Logistic Regression/Random Forest - Predizione sottoscrizione offerta bancaria
Sistemi di Raccomandazione
- Content-based vs. Collaborative filtering
- Algoritmi: k-NN, Matrix Factorization (MF)
- Esempio: Sistema di Raccomandazione di Film (MovieLens)
Analisi di Grafi
- Link Analysis
- Algoritmi: PageRank
- Esempio: Ranking (di un estratto) del Google Web Graph
Analisi di dati real-time
- Streaming Data Processing
- Esempio: Twitter Hate Speech Detector
- Mining of Massive Datasets [Leskovec, Rajaraman, Ullman] (available online)
- Big Data Analysis with Python [Marin, Shukla, VK]
- Large Scale Machine Learning with Python [Sjardin, Massaron, Boschetti]
- Spark: The Definitive Guide [Chambers, Zaharia]
- Learning Spark: Lightning-Fast Big Data Analysis [Karau, Konwinski, Wendell, Zaharia]
- Hadoop: The Definitive Guide [White]
- Python for Data Analysis [Mckinney]
|