Le parole danno i numeri

L'evoluzione della pandemia raccontata da Twitter

"L'emergenza sanitaria prolunga la sua ombra sul benessere psicologico delle persone, con effetti a breve e a lungo termine i cui esiti si potranno vedere anche nei prossimi anni".


Così si esprime Claudio Mencacci, Direttore Dipartimento Neuroscienze e Salute Mentale, ASST Fatebenefratelli – Sacco, Milano.


Al giorno d’oggi, le persone passano gran parte del loro tempo sui social e su queste piattaforme esprimono i loro pensieri e le loro sensazioni.

Siamo partiti dai tweet, nel tentativo di rintracciare nelle parole degli utenti di Twitter i segni di disagio psicologico dovuto alla straordinaria situazione causata dal Coronavirus.


Le Parole “Sentinella”

Sulla base di un set di parole (espressioni) legate semanticamente a una situazione di sofferenza psicologica, ne abbiamo contato le occorrenze nei tweet digitati dagli utenti, su tre fasi temporali:

  • Fase 1 (Marzo – Aprile)
  • Fase 2 (Maggio)
  • Fase 3 (Giugno)

Le parole “sentinella” (circa 150) sono state identificate da un pool di esperti e ampliate da noi stessi attraverso espressioni idiomatiche tipiche dei social network e strumenti come multiwordnet.

L’analisi della distribuzione delle parole riflette piuttosto bene la situazione vissuta in Italia durante la crisi pandemica.

Nel passaggio tra la fase 1 e la fase 2 si registra un incremento delle parole legate a uno stato di solitudine, malessere e sconforto, probabilmente dovute al lungo periodo di quarantena trascorso tra le mura di casa e all’incombente crisi economica, ancora tutta da verificare nella sua drammaticità.

Con l’avvento della fase 3, si percepisce un chiaro capovolgimento della situazione, infatti le occorrenze di tutte le parole subiscono un notevole crollo, segno che la parte più dura è alle spalle e finalmente si può parlare di ripartenza.

Numero di parole:

Dalle parole agli utenti

Da tutti i tweet raccolti usando le parole sentinella, sono stati selezionati i top 100 utenti per frequenza e dalle rispettive timeline sono state estratte le parole utilizzate nei loro tweet.

Il lavoro è stato diviso idealmente in tre fasi temporali, scandite dai provvedimenti del Governo. Per ogni fase le parole sono state divise in cluster al fine di organizzare le informazioni per argomenti e aree tematiche.
Tutto ciò al fine di comprendere lo stato d’animo degli utenti.

La divisione del periodo in tre fasi ha permesso di valutare l’evoluzione dei temi affrontati.

Le 3 Fasi

Prima fase

I cluster più significativi evidenziano la predominanza di argomentazioni a sfondo religioso (cluster 0, 7 e 8), seguiti da cluster che evidenziano una condivisione di notizie sulla situazione del virus (cluster 1) e da cluster che riguardano la situazione politico-economica del paese (cluster 9). Interessante è il cluster 2, che sembra raccogliere la frustrazione degli utenti.

Seconda fase

Il tema predominante sembra essere la positività e la speranza (cluster 2, 3, 5, 6), seguito dal tema economico e dell’interessamento ai temi politici più in voga al momento (cluster 4 e 7). In questa fase, i confini fra i differenti cluster non sono sempre così ben definiti come lo erano nella fase precedente.

Terza fase

L’ottimismo e la positività la fanno da padroni, la fase 3 coincide con le riaperture e la percezione che il peggio sia alle spalle viene evidenziato dalle parole utilizzate dagli utenti. Immancabile il tema economico: i timori di un futuro non roseo hanno rivestito grande importanza nei pensieri degli utenti attivi su Twitter.

Periodo:

Inter-Annotator Agreement

Nei problemi di classificazione di testi, è difficile pretendere che un algoritmo riesca a fare meglio di noi umani. Per questo motivo, abbiamo bisogno di un benchmark affidabile per valutarne le prestazioni.

Per l’assegnazione dei cluster nelle varie fasi, abbiamo fatto uso dell’ inter-annotator agreement , una tecnica che permette di scegliere l’etichetta a maggioranza.

Ognuno di noi, singolarmente, ha analizzato le top 50 parole più significative per ogni cluster cercando di identificarne l’argomento principale, quindi abbiamo confrontato le nostre risposte e solo dove c’era accordo (almeno 3 su 4) si è deciso di assegnare un’etichetta.

Nei casi in cui almeno due di noi avessero identificato un certo topic e gli atri due non avessero riconosciuto alcun contenuto significativo, si è deciso di dare priorità ai primi due. In tutti gli altri casi, abbiamo identificato il cluster con la sigla ### (i.e. nessun argomento rilevato).

Cluster# Fase1 Fase2 Fase3
0 Carità, accoglienza ### ###
1 Situazione virus ### Ottimismo, positività
2 Disagio, frustrazione Sentimenti positivi ###
3 Inglese Positività Positività
4 ### Emergenza economica Problematiche economiche
5 ### Positività ###
6 ### Cordialità, buone sensazioni Cordialità, buone sensazioni
7 Chiesa, sfondo religioso Polemica politica Sentimenti, senzazioni
8 Religione ### Buone sensazioni
9 Politica interna, istituzioni ### ###


La rabbia soffoca il disagio

Quello che emerge analizzando le parole degli utenti è una mancata chiara manifestazione di disagio psicologico. Anzi, viene ravvisato una propensione ad utilizzare termini legati a sentimenti caritatevoli o vicini alla polemica politica.

Sia i cluster sia le wordcloud fanno capire come da un lato assistiamo ad un’evoluzione delle espressioni lungo le fasi, dall’altro lato non si riescono ad identificare gruppi di utenti che stiano vivendo disagio da isolamento.

Una delle ipotesi, che tenta di spiegare questo, è la valutazione della natura stessa di Twitter: un social in cui non lasciarsi andare in lunghe dissertazioni sul proprio stato d’animo del momento. Un’altra possibilità considera un diverso inquadramento del disagio psicologico all’interno di un quadro più ampio, come potrebbe essere considerata l’elaborazione delle reazioni ad una pandemia da parte dei singoli.

La chiave di lettura suggerita dagli esperti

Un aiuto nell’interpretazione dei risultati viene offerta da Giuliano Castigliego, psichiatra e psicoterapeuta ad indirizzo analitico e autore del libro "Il coraggio della Fragilità. Per affrontare il trauma della pandemia e convivere con un tempo incerto”. Castigliego spiega:

“Per poter comprendere la reazione dei soggetti a una situazione così sconvolgente come una pandemia, si può prendere in prestito il modello elaborato dalla psichiatra svizzera Kubler-Ross per spiegare il processo di elaborazione del lutto da parte degli esseri umani. Le classiche fasi del lutto: rifiuto, rabbia, contrattazione, afflizione e accettazione, alle quali potrebbe essere aggiunta la fase dell’attribuzione di significato. Applicando questo schema alle reazioni nei confronti della pandemia e dell’isolamento, vediamo come la rabbia possa essere inquadrata in un tentativo di indirizzare il sentimento di rifiuto e di negazione verso qualcuno o qualcosa”.


Il DNA degli utenti

Analizzando come i cluster si distribuiscono tra gli utenti, abbiamo una chiara indicazione del loro DNA. Si riesce a comprendere come un utente si caratterizza a seconda delle parole twittate.

Questa rappresentazione è utile per mettere in evidenza le componenti dei cluster maggioritarie per ogni utente.

Periodo:
Numero utenti:
Cluster:

I Dati

Raccolta dei dati con cadenza settimale.

  • 150 keyword
  • >5 milioni tweet raccolti
  • 100 timeline utente per ogni fase
Le Tecnologie

Mix di tecniche di NLP e Clustering.

  • Feature engineering, POS tagging
  • Clustering, LDA, t-SNE
  • W2V, D2V, Inter annotator agreement
Effort

I risultati ottenuti sono frutto di un bello sforzo.

  • >10 mila righe di codice
  • >500 script avviati
  • >1000 Grafici Prodotti

Il grafico seguente, di tipo Parallel Coordinates , è una rappresentazione efficace di tipo multivariata. L'idea alla base è che ogni attributo (nel nostro caso la componente di cluster) corrisponde ad un asse e ogni utente è dunque descritto dal percorso che connette ognuno di questi attributi fra gli assi del grafico.

Questo genere di rappresentazione permette di capire la tendenza generale dei dati (zone più o meno dense) e contemporaneamente riesce a mettere in evidenza utenti che per qualche caratteristica si discostano in maniera sensibile dal gruppo.

Periodo:
User: