Al fine di classificare le offerte di lavoro in base alla tipologia sono state impiegate tecniche di text mining, in particolare, un modello word2vec addestrato sui titoli degli annunci.
Per meglio generalizzare i risultati, i titoli sono stati arrichiti attraverso i servizi offerti da Tagme.
I risultati del modello hanno permesso di identificare:
Per classificare un annuncio di lavoro nella propria categoria professionale sono stati addestrati diversi classificatori con tecniche di machine learning.
I classificatori sono stati addestrati su un insieme di dati per i quali le classificazioni degli annunci erano note. I modelli ottenuti sono stati ottimizzati e confrontati statisticamente
al fine di ottenere il modello predittivo migliore.
Per l'individuazione di outliers (annunci fuori contesto) è stata effettuata
un'analisi dei testi degli annunci ricorrendo a tecniche di clustering (K-Means) utilizzando
lo stesso modello vettoriale dei dati usato per la similarità.
Solo in pochissime categorie si sono rilevati outliers. Si riporta un esempio per la mansione 'Ottico', in cui
significativi ouliers sono presenti, per ragioni di affinità con la parola 'ottico' (annunci per mansioni inerenti alla posa, la manutenzione o la ricerca su fibra ottica).
Di seguito è riportata la curva ROC ottenuta per il metodo usato.
Applicando tecniche di Market Basket Analysis sugli annunci di lavoro sono stati cercati regole e pattern frequenti.
Sono state individuate sia regole che confermano il senso comune,
come ad esempio:
['customer service', 'area manager', 'project manager --it', 'tecnico commerciale', 'magazziniere'] => 'funzionario commerciale'
['analista programmatore', 'software developer'] => 'data scientist'
['autista c', 'project manager --it', 'progettista meccanico'] => 'export area manager'
['operaio -metalmeccanico', 'elettricista', 'progettista meccanico', 'manutentore', 'magazziniere'] => 'export area manager'
ma anche regole meno prevedibili, come ad esempio:
['project manager --it', 'addetto pulizie', 'elettricista', 'contabile'] => 'export area manager'
oppure, rilassando il vincolo sul lift (lift minimo 50), si trovano regole ancora prevedibili, del tipo:
['ingegnere gestionale', 'area manager', 'tecnico commerciale'] => 'it manager'
o meno prevedibili:
['estetista', 'addetto pulizie', 'manutentore'] => 'export area manager'
['moda spettacolo eventi', 'call center customer care', 'management', 'analisi sviluppo software web', 'medico sanitario', 'progettisti design grafici', 'installazione impiantistica cantieristica', 'turismo ristorazione', 'ingegneria architettura', 'industriale manifatturiero', 'magazzino logistica trasporti', 'commerciale'] => 'scienze umane'