BIG DATA COMPUTING
(obiettivi)
Obiettivi generali Il corso si propone di introdurre le principali tecniche algoritmiche e di programmazione nell’analisi di big data, affrontando una varietà di problemi di data mining in modelli di calcolo adatti alla gestione di grandi quantità di dati.
Obiettivi specifici Capacità di analisi, modellazione, e risoluzione di problemi tipici dell'area "Big Data" attraverso l'implementazione di "pipeline" di machine learning su ambienti distribuiti tramite PySpark.
Conoscenza e comprensione: Al termine del corso gli studenti avranno una comprensione dettagliata dei modelli di programmazione per l'analisi di dati distribuiti su cluster di computer, nonché di modelli computazionali avanzati per l'elaborazione di enormi quantità di dati (ad esempio, streaming di dati, parallelismo in stile MapReduce e algoritmi efficienti in memoria secondaria).
Applicare conoscenza e comprensione: gli studenti saranno in grado di progettare e analizzare algoritmi per l’analisi di big data in diversi scenari, sapranno scrivere codice efficiente e scalabile tenendo conto delle caratteristiche architetturali delle moderne piattaforme di calcolo (inclusi i sistemi distribuiti), e sapranno lavorare sfruttando una varietà di sistemi software adatti al processamento di big data (tra cui Hadoop).
Capacità critiche e di giudizio: gli studenti saranno in grado di capire i paradigmi di calcolo più adatti in scenari differenti, valutando vantaggi e svantaggi di ciascun modello computazionale e affrontando le sfide che si presentano nella progettazione e implementazione di una varietà di applicazioni.
Capacità di comuniczione: gli studenti saranno in grado di comunicare in modo efficace, riassumendo in modo chiaro le idee principali nella progettazione di sistemi e algoritmi per l’analisi di big data e presentando informazioni tecniche accurate.
Capacità di apprendimento successivo: obiettivo del corso è quello di toccare una varietà di tecniche il più possibile ampia, introducendo pratiche standard e argomenti di ricerca all'avanguardia in questo settore e consentendo quindi agli studenti di estendere le conoscenze acquisite in modo indipendente, anche in base all’evoluzione tecnologica.
|
Codice
|
1041764 |
Lingua
|
ENG |
Tipo di attestato
|
Attestato di profitto |
Crediti
|
6
|
Settore scientifico disciplinare
|
INF/01
|
Ore Aula
|
36
|
Ore Esercitazioni
|
24
|
Ore Studio
|
-
|
Attività formativa
|
Attività formative affini ed integrative
|
Canale Unico
Docente
|
TOLOMEI GABRIELE
(programma)
Introduzione - Il fenomeno "Big Data" - Infrastruttura - Distributed File Systems (HDFS) - MapReduce (Hadoop) - Spark - PySpark + Google Colaboratory
Apprendimento non-supervisionato: Clustering - Similarità - Algoritmi: K-means - Esempio: Clustering di documenti testuali
Riduzione della dimensionalità - Feature Extraction - Algoritmi: Principal Component Analysis (PCA) - Esempio: PCA + Riconoscimento cifre
Apprendimento supervisionato - Fondamenti di apprendimento automatico - Regressione/Classificazione - Algoritmi: Linear Regression/Logistic Regression/Random Forest - Esempi: - Linear Regression - Predizione prezzo vendita case - Logistic Regression/Random Forest - Predizione sottoscrizione offerta bancaria
Sistemi di Raccomandazione - Content-based vs. Collaborative filtering - Algoritmi: k-NN, Matrix Factorization (MF) - Esempio: Sistema di Raccomandazione di Film (MovieLens)
Analisi di Grafi - Link Analysis - Algoritmi: PageRank - Esempio: Ranking (di un estratto) del Google Web Graph
Analisi di dati real-time - Streaming Data Processing - Esempio: Twitter Hate Speech Detector
- Mining of Massive Datasets [Leskovec, Rajaraman, Ullman] (available online) - Big Data Analysis with Python [Marin, Shukla, VK] - Large Scale Machine Learning with Python [Sjardin, Massaron, Boschetti] - Spark: The Definitive Guide [Chambers, Zaharia] - Learning Spark: Lightning-Fast Big Data Analysis [Karau, Konwinski, Wendell, Zaharia] - Hadoop: The Definitive Guide [White] - Python for Data Analysis [Mckinney]
|
Date di inizio e termine delle attività didattiche
|
- |
Date degli appelli
|
Date degli appelli d'esame
|
Modalità di erogazione
|
Tradizionale
|
Modalità di frequenza
|
Non obbligatoria
|
Metodi di valutazione
|
Prova orale
Valutazione di un progetto
|
|
|