Il corso propone l’insegnamento di concetti base del paradigma di calcolo distribuito tramite MapReduce dal punto di vista teorico e pratico, in particolare ci si focalizzerà su Hadoop per lo sviluppo di competenze nell'uso di strumenti di calcolo ad alte prestazioni per il data engineering, l'analisi di dati e l'utilizzo di tecniche di data mining. Gli studenti impareranno come i classici algoritmi di data mining possono essere applicati sui Big Data usando Hadoop (Spark). Set di dati reali (e open source) verranno utilizzati per presentare esempi e per consentire agli studenti di costruire i propri progetti.
Il corso descrive le tecniche, le metodologie, gli strumenti di programmazione e di calcolo per condurre analisi quantitative ed estrarre conoscenza da BigData anche quando l'elaborazione richiede l'uso di gradi risorse di calcolo.
Python, Hadoop, Pig, Hive, MongoDB, Spark
Ove possibile verrano riutilizzati dataset già studiati in altri corsi.
Lo studente acquisirà la padronanza di strumenti di calcolo dal alte prestazioni per piattaforme distribuite, e sperimenterà la loro applicazione a dati reali e ad analisi condotte durante il master.