Questa parte del progetto ha come obiettivo quello di mappare geograficamente e temporalmente i media pubblicati sulla piattaforma Instagram allo scopo di analizzare i periodi e le località dove la pratica del kitesurf è diffusa in Italia. Le premesse sono state costituite da una fase di raccolta delle informazioni relative a tutte le spiagge presenti sul territorio nazionale, la lista completa è stata ottenuta attraverso tecniche di web scraping del sito affittocasevacanzemare.com che presentava una mappa molto esaustiva di spiagge con annessa descrizione. Inoltre sono state aggiunti i principali laghi al fine di poter mappare il fenomeno con maggiore capillarità. Attraverso una successiva fase di scraping è stato possibile raccogliere dal social media tutti i link di tipo ‘locations’ registrati per ognuna delle spiagge precedentemente ottenute. In seguto, dopo una fase di parsing che ha avuto lo scopo di eliminare link poco attinenti alla nostra analisi (chiese,ristoranti,negozi ecc..), è stato possibile avviare la raccolta dei media pubblicati per ogni link associato ad una località. Ciò è stato possibile attraverso delle chiamate Ajax che hanno permesso di recuperare dati storici, in alcuni casi fino a quattro anni addietro. Una delle fasi più lunghe è stata l’estrazione dei dati dai media attraverso tecniche di scraping, attività agevolata dalla disponibilità di server remoti che si sono rivelati utili anche per la fase di immagazzinamento in database creati ad hoc per il lavoro. Inizialmente, i media di cui si sono estratte le informazioni complete sono stati esclusivamente coloro che presentavano tag relativi al “kitesurf” . Tuttavia è doveroso precisare che le politiche del social media Instagram consentono di ottenere soltanto una parte dei media storici. I media che non rilevavano hashtag interessanti sono stati scaricati ed elaborati attraverso un classificatore di immagini sviluppato per il suddetto task. In particolare la fase di scaricamento ha riguardato circa cinque milioni di media ed è stata resa possibile parallelizzando tale attività su più macchine in remoto. Per quanto concerne il classificatore si è scelto di adottare una metodologia di fine-tuning su un modello già esistente, riadattandolo alle specifiche del task richiesto. L’algoritmo prescelto è stato il VGG16 con i pesi iniziali forniti da ‘imagenet’ di Google. Il modello, implementato su Keras con supporto TensorFlow, ha permesso di recuperare circa il 17% dei media che altrimenti sarebbero stati scartati. Dato che il modello presenta un margine di errore e l’accuracy individuata si attesta all’85%, si è deciso di operare un ultimo controllo manuale sui risultati del modello per escludere la presenza di falsi positivi nell’analisi. In totale sui circa cinque milioni di media presenti in tutte le località italiane sono stati individuati circa 7000 media relativi all’attività di kitesurf in uno arco temporale di tre/quattro anni.
Al fine di illustrare il funzionamento del Classificatore di immagini, è stato realizzato uno script che consente di verificare se un immagine è attinente alla disciplina del kite-surf utilizzando il modello da noi implementato.