Statistical and Neural Machine Learning for Text Analysis

Credits: 
2
Hours: 
20
Area: 
Big Data Mining
Teachers: 
Academic Year: 
2020-2021
Description: 

Il modulo presenta le principali tecniche di analisi e mining delle opinioni e delle preferenze degli utenti sulla base di Big Data provenienti dal web o da altre sorgenti. Particolare enfasi viene posta sull'uso delle tecniche di text mining per la comprensione del significato emotivo dei testi prodotti dagli utenti sui social media. L'apprendimento sarà sostenuto da numerosi casi di studio sviluppati nel laboratorio SoBigData.eu.

Notions: 

Analisi per topic e analisi per opinion, differenze e peculiarità. La pipeline di machine learning per l’analisi automatica del testo. Costruzione e utilizzo di risorse lessicali. Metodi di feature engineering per SAOM. Riconoscimento, formalizzazione e soluzione dei problemi di classificazione, regressione, estrazione d’informazione, quantificazione. Differenze tra elaborazione individuale e elaborazione aggregata. Valutazione dei modelli. Stato dell’arte dei metodi teorici e dei sistemi commerciali nella sentiment analysis.

Technics and tools: 

Analisi statistica della rilevanza.

Case studies and datasets: 

Risorse lessicali: dataset SentiWordNet e altri prodotti durante i laboratori. Polarità: casi di studio su datasets IMDB e Twitter. Spam detection: casi di studio su datasets da Tripadvisor e Yelp. Regressione: casi di studio su datasets Amazon e Tripadvisor. Quantificazione: casi di studio su datasets Amazon.

Competences: 

Riconoscimento di problemi di SAOM in contesti pratici. Scelta del modello più adatto per la loro formalizzazione (per esempio: classificazione binaria, regressione, quantificazione). Definizione delle risorse esterne necessarie allo svolgimento del processo (per esempio: risorse lessicali, annotazione di dati di training). Scelta di strumenti software appropriati, implementazione di componenti ad hoc. Scelta e utilizzo di metodi di machine learning per la creazione di modelli per SAOM. Valutazione dei modelli generati, interpretazione dei risultati.

Partners