High Performance & Scalable Analytics, NO-SQL Big Data Platforms

Credits: 
2
Hours: 
22
Area: 
Big Data Technology
Teachers: 
Academic Year: 
2021-2022
2020-2021
Description: 

Il corso propone l’insegnamento di concetti base del paradigma di calcolo distribuito tramite MapReduce dal punto di vista teorico e pratico, in particolare ci si focalizzerà su Hadoop per lo sviluppo di competenze nell'uso di strumenti di calcolo ad alte prestazioni per il data engineering, l'analisi di dati e l'utilizzo di tecniche di data mining. Gli studenti impareranno come i classici algoritmi di data mining possono essere applicati sui Big Data usando Hadoop (Spark). Set di dati reali (e open source) verranno utilizzati per presentare esempi e per consentire agli studenti di costruire i propri progetti. 

Notions: 

Il corso descrive le tecniche, le metodologie, gli strumenti di programmazione e di calcolo per condurre analisi quantitative ed estrarre conoscenza da BigData anche quando l'elaborazione richiede l'uso di gradi risorse di calcolo.

Technics and tools: 

Python, Hadoop, Pig, Hive, MongoDB, Spark

Case studies and datasets: 

Ove possibile verrano riutilizzati dataset già studiati in altri corsi.

Competences: 

Lo studente acquisirà la padronanza di strumenti di calcolo dal alte prestazioni per piattaforme distribuite, e sperimenterà la loro applicazione a dati reali e ad analisi condotte durante il master.

Partners