Dietro le quinte
Photo by Daniele Stefanizzi

Workflow

Rank

Similarità

La similarità tra città è stata calcolata confrontando il numero di offerte di lavoro per categoria.
Dal punto di vista tecnico questo è stato realizzato utilizzando il TF-IDF e la cosine-similarity tra i vettori dello spazio costruito considerando come documenti le città e come features le offerte di lavoro.

Euristica per trovare le mansioni

Idea

Al fine di classificare le offerte di lavoro in base alla tipologia sono state impiegate tecniche di text mining, in particolare, un modello word2vec addestrato sui titoli degli annunci.
Per meglio generalizzare i risultati, i titoli sono stati arrichiti attraverso i servizi offerti da Tagme.
I risultati del modello hanno permesso di identificare:

Outlier detection

Per l'individuazione di outliers (annunci fuori contesto) è stata effettuata un'analisi dei testi degli annunci ricorrendo a tecniche di clustering (K-Means) utilizzando lo stesso modello vettoriale dei dati usato per la similarità.
Solo in pochissime categorie si sono rilevati outliers. Si riporta un esempio per la mansione 'Ottico', in cui significativi ouliers sono presenti, per ragioni di affinità con la parola 'ottico' (annunci per mansioni inerenti alla posa, la manutenzione o la ricerca su fibra ottica). Rank
Di seguito è riportata la curva ROC ottenuta per il metodo usato. Rank

Pattern Mining

Applicando tecniche di Market Basket Analysis sugli annunci di lavoro sono stati cercati regole e pattern frequenti. Sono state individuate sia regole che confermano il senso comune, come ad esempio:
['customer service', 'area manager', 'project manager --it', 'tecnico commerciale', 'magazziniere'] => 'funzionario commerciale'
['analista programmatore', 'software developer'] => 'data scientist'
['autista c', 'project manager --it', 'progettista meccanico'] => 'export area manager'
['operaio -metalmeccanico', 'elettricista', 'progettista meccanico', 'manutentore', 'magazziniere'] => 'export area manager'
ma anche regole meno prevedibili, come ad esempio:
['project manager --it', 'addetto pulizie', 'elettricista', 'contabile'] => 'export area manager'
oppure, rilassando il vincolo sul lift (lift minimo 50), si trovano regole ancora prevedibili, del tipo:
['ingegnere gestionale', 'area manager', 'tecnico commerciale'] => 'it manager'
o meno prevedibili:
['estetista', 'addetto pulizie', 'manutentore'] => 'export area manager'
['moda spettacolo eventi', 'call center customer care', 'management', 'analisi sviluppo software web', 'medico sanitario', 'progettisti design grafici', 'installazione impiantistica cantieristica', 'turismo ristorazione', 'ingegneria architettura', 'industriale manifatturiero', 'magazzino logistica trasporti', 'commerciale'] => 'scienze umane'