Cinema & Machine Learning Data, data everywhere Graphs & Networks Cinema & AI Credits

Cinema & Machine Learning

Può una macchina predire il successo di un film? Un team di aspiranti data scientist dell’Università di Pisa pensa di sì.

Per capirlo, l'equipe si è dedicata ad approfondire l’evento cinematografico più antico al mondo: gli Oscar, un premio le cui origini risalgono al 16 maggio del 1929, quando Douglas Fairnbanks e Cecil deMille presentarono la prima edizione davanti a poco più di 250 invitati, in una cerimonia in cui il premio come migliore attrice fu assegnato a Janet Gaynor.

Sono trascorsi 90 anni da allora e gli Oscar continuano a giocare un ruolo importante nell’immaginario collettivo, sia come fenomeno di costume, sia sul piano dell'impegno civile.

Come dimenticare tutti i meme dedicati a Di Caprio per la vittoria dell’Oscar come migliore attore per The Revenant, dopo anni di sconfitte? Come pure i gesti e le cause politiche portate avanti dalle star: pensiamo al rifiuto di Marlon Brando, nel 1973, di ritirare la statuetta dopo aver vinto il premio come migliore attore per il Padrino e la presenza, al suo posto, di una donna vestita da nativo-americana per denunciare il trattamento riservato agli indiani d’America nell’industria del cinema. Oppure, alle parole pronunciate da Patricia Arquette nel 2015, premiata come migliore attrice non protagonista per l’interpretazione di Olivia Evans, la quale ricordò al pubblico come «le donne non hanno pari diritti negli Stati Uniti perché la Costituzione non è stata scritta pensando a loro».

Ma come funziona la candidatura agli Oscar?

Gli Academy Awards, meglio conosciuti come Oscar, sono assegnati ogni anno dall’Academy of Motions Picture Arts and Science, organizzazione che comprende 6000 iscritti tutti con diritto di voto, la cui identità non è resa nota. Una prima selezione avviene con le nomination, quando i membri dell’Academy possono votare solo i film che appartengono alla categoria di cui fanno parte, vale a dire che i film candidati alla miglior regia possono essere votati solo dai registi iscritti dell’Academy, gli attori votati solamente dagli attori, le sceneggiature dagli sceneggiatori e così via.

Nel corso degli ultimi anni, si sono sollevati accesi dibattiti sul funzionamento delle nomination: ritroviamo un’inchiesta pubblicata dal Los Angeles Times che ha rivelato l’etnia, la composizione anagrafica e di genere di oltre 5.100 iscritti all’Academy. Sulla base di questo studio, è risultato che il giurato medio aveva un’età di 62 anni, che il 77% era maschio e il 94% era di pelle bianca. All’interno di questa critica sollevata all’Academy, si posiziona inoltre la campagna #OscarSoWhite , hashtag coniato nel 2015 da April Reigne, giornalista e attivista nel campo della diversità e dell’inclusione, per denunciare la mancanza di diversità etnica nelle nomination agli Oscar.

Quali sono, dunque, i fattori che influiscono sulle nomination agli Oscar? Quanto è importante la popolarità di un attore o della casa di produzione per candidarsi agli Oscar?

Per rispondere a questi interrogativi, i ricercatori hanno usato tecniche di machine learning per analizzare i meccanismi che si celano dietro le nomination agli Oscar e capire se esistano degli indicatori precisi che determinano il successo di un’opera cinematografica.

La comprensione e il tentativo di predire la popolarità di un film “emerge fin dalla nascita del cinema americano”, afferma Simone Arcagni, curatore del blog Post-Cinema su Nòva, quando negli anni ’20 cominciarono a riunirsi a Los Angeles una serie di case di produzione cinematografiche che diedero inizio all’attività promozionale dello star system. «Il sistema star system americano è costruito come una campagna di marketing, a ogni star è assegnato un potenziale di bigliettamento». L’investimento sugli attori era, in quel momento storico, il principale fattore che poteva decretare il successo di un’opera. Oppure, rivolgendoci ancora alla storia del cinema, pensiamo alla saga di Rambo o di Guerre Stellari, «in cui i produttori hanno individuato alcuni marchi di successo».

Ciò che cambia da questi tentativi, è la possibilità oggi di poter analizzare, attraverso il machine learning, un’enorme quantità di dati, definita dall'autore come un'«operazione di massificazione quantitativa», dai quali costruire un modello predittivo in grado di misurare cosa rende popolare un’opera.

Data, data everywhere

Le fonti principali che i ricercatori hanno utilizzato sono IMDB, sito web che raccoglie informazioni sull'industria cinematografica, dal quale sono stati estratti dati circa il nome degli attori, dei registi, la casa di produzione e il budget investito, per un arco temporale di 13 anni (dal 2006 al 2019) e il New York Times, dal quale sono state recuperate news dal 2004 al 2018. Altre sorgenti di dati sono state Open Subtitles, dal quale sono stati estratti i sottotitoli dei film candidati alle nomination e Rotten Tomatoes, sito web che aggrega le recensioni di critica e pubblico.

Graphs & Networks

Una ricerca pubblicata nel 2017 sul British Journal of Psychology ipotizza che sia più probabile essere candidato agli Oscar se il film ritrae la cultura americana. Niklas Steffens, autore principale dello studio, afferma che «la nostra percezione è fortemente influenzata dai gruppi sociali di cui siamo membri e che forniscono la base per dare un senso al mondo». Saremmo, quindi, più propensi a identificarci in un film che rappresenta la nostra appartenenza a un gruppo sociale, motivo per il quale un'opera che presenta aspetti in cui i cittadini statunitensi possono identificarsi ha molte possibilità di essere candidata alle nomination.

I ricercatori, partendo da questa intuizione, hanno voluto verificare se un fattore determinante per entrare in nomination sia la presenza nel film di temi rilevanti negli USA. Per capirlo, hanno realizzato un’analisi di complex network con la quale collegare le notizie estratte dal New York Times e i dati dei film raccolti da Imdb, sulla base delle tematihe condivise.

Come si relazionano, dunque, i film candidati alle nomination con i temi più discussi negli USA in un determinato anno?

Secondo i risultati trovati, un film in nomination non ha necessariamente topic che sono strettamente correlati con le principali notizie apparse sul New York Times, discordando pertanto dall’ipotesi secondo cui un film ha molte possibilità di essere candidato agli Oscar se porta in scena temi in cui i cittadini statunitensi possono identificarsi.

Solo il 2017, come mostrato nell'infografica poco più sotto, l'analisi presenta dei tratti differenti. Per tale anno i film in nomination, come La La Land, Moonlight, e Manchester by the Sea, appaiono condividere un numero elevato di topic affontati nelle notizie pubblicate durante tutti i 12 mesi.

Se pensiamo che il 2016 si era concluso con le elezioni di Trump, il quale aveva fondato la sua campagna elettorale sulla volontà di fortificare il muro tra Messico e Stati Uniti, e che durante il 2017 il neo-Presidente aveva spesso criticato gli attori afroamericani ritraendoli come ingrati, allora sembra perfettamente coerente che un film come Moonlight, ambientato in un ghetto nero di Miami, abbia ricevuto 8 nomination.

Un secondo metodo usato dal team di ricercatori si colloca in un ramo della data science chiamato text mining, un’analisi che è in grado di estrarre in maniera automatizzata informazioni semanticamente rilevanti dal linguaggio naturale, quello che utilizziamo come esseri umani.

Attraverso l'algoritmo Doc2vec, gli aspiranti data scientist hanno confrontato i sottotitoli dei film candidati alle nomination per costruire una rete da cui analizzare la somiglianza tra i testi. Dalla ricerca si delineano una serie di comunità molto grandi che raccolgono la maggior parte dei film, tra i quali anche la maggioranza delle pellicole andate in nomination, e alcune comunità molto piccole in cui si collocano quasi esclusivamente film non candidati. Questi ultimi trattano prevalentemente temi legati allo sport, come Creed, spin-off della saga di Rocky Balboa, o rivolti a un pubblico young adult, come Hunger Games e Twilight. L’intuizione che ne emerge è che film caratterizzati da specifici linguaggi e registri contenutistici ben definti (il cosiddetto cinema di genere), hanno scarse probabilità di andare in nomination.

Quali sono i “sentimenti” prevalenti nei film candidati alle nomination? È più probabile che si candidi un film con un linguaggio positivo, come una commedia, o il cui registro espressivo sia negativamente orientato, come un film drammatico?

Per rispondere a questa domanda, l’équipe ha usato lo strumento di analisi SentiwordNet, attraverso cui è possibile calcolare dei punteggi di positività e negatività per quanto riguarda contenuti di natura testuale. I valori ricavati dalla sua applicazione sui sottotitoli sono stati impiegati nella costruzione di un grafo con il quale evidenziarne eventuali similarità, constatando però che i film si distribuivano equamente tra due comunità, senza che emergesse una carratteristica ricorrente per i film andati i nomination. Risultato che non conferma pertanto l'ipotesi circa la sussitenza di differenze sostanziali di sentimento come fattore discriminante per il successo dell'opera.

Nel terzo e ultimo tassello, la ricerca si è focalizzata nel cercare di individuare le caratteristiche più rilevanti in grado di determinare l'approdo di una pellicola nella ristretta cerchia dei 10 candidati al miglior film attraverso una serie di algoritmi di classificazione, metodologie utilizzate in data science per costruire modelli predittivi.

Dopo aver allenato il modello con una grande quantità di dati estratti da Imdb, Google Trends e Rotten Tomatoes, l'algoritmo è riuscito ad individuare i film candidati alle nomination con una precisione molto elevata. Dai risultati è emerso che il voto del pubblico, insieme a quello della critica, oltreché gli incassi delle sale cinematografiche e la popolarità degli attori sono fattori determinanti per la candidatura alle nomination.

In conclusione, cosa rende di successo un film?

Non sembra più sufficiente una campagna di marketing tradizionale, realizzata con un alto budget, ma è necessario tenere conto di nuovi elementi, come le recensioni pubblicate su pittaforme quali Rotten Tomatoes. Il modello sembra pertanto confermaree l’ipotesi formulata da Ben Child, giornalista del Guardian, secondo cui stiamo entrando «nell’era di Rotten Tomatoes» , epoca che sta sostituendo quella dei blockbuster, avviata nel 1975 con Lo Squalo di Steven Spielberg.

Per decenni, il successo di un film era decretato da un’imponente campagna di promozione, mentre ora è in atto una trasformazione in cui è il parere degli utenti a essere un fattore decisivo. Tali considerazioni suggeriscono che le case cinematografiche dovrebbero riuscire a suscitare una reazione positiva da parte degli utenti (in primis online), per creare un clima di attesa ed entusiasmo e far sì che altri utenti diventino spettatori.

Un altro fattore decisivo per predire il successo di un film è la popolarità dell’attore, parametro che il team è riuscito ad elaborare con il contributo di dati estratti da Imdb e Google Trends. I ricercatori hanno notato che a partire dal 2010, e con picchi molto elevati nel 2012, entravano in nomination film con attrici donne molto popolari.

Il 2012 è un anno rilevante per i movimenti sociali perché è il momento in cui comincia ciò che è stata definita la quarta ondata del femminismo, fondata sulla critica al potere dominante attraverso un’analisi intersezionale, ovvero un’analisi che tenta di comprendere come l’oppressione delle donne ha luogo attraverso l’incrocio di tre fattori: genere, razza e classe. Il punto di partenza dell’intersezionalità è che l’assoggettamento di una donna bianca e benestante è diverso dai meccanismi di oppressione che si giocano su una donna nera o su una donna bianca e povera.

Una rinnovata sensibilità che, osservando il trend dell'actor power, sembra aver inciso molto anche nel ruolo delle donne nella produzione cinematografica.

Cinema & AI

Lo sviluppo tecnologico, grazie al quale possiamo chiedere a una macchina cosa rende di successo un film, si intreccia con la produzione di forme di narrazioni visive che raccontano come è cambiato il rapporto tra l’essere umano e la tecnologia.

Come evidenzia Simone Arcagni su CheFare, nella fantascienza classica il computer è il «portavoce di un sapere logico-matematico», riesce a «pensare all’interno – e solo all’interno – di un sistema di regole rigido e codificato (e formalizzato)». È con 2001 - Odissea nello Spazio di Stanley Kubrick che i confini tra organico e artificiale si confondono perché la macchina è in grado di provare interesse «per il morale dell’equipaggio fino alla “umana così umana” paura di morire».

Ripercorrendo le tappe di queste nuove rappresentazioni, ritroviamo Blade Runner, in cui dalla macchina emerge qualcosa che possiamo definire come “coscienza”, composta da ricordi e sentimenti umani, fino a giungere ad Ex machina, dove una superintelligenza artificiale riesce a manipolare l’umano. L’ultimo tassello di questo percorso evolutivo è rappresentato da Her, un’AI che è un servizio vocale così sviluppato da suscitare la volontà di condividere con lei esperienze quotidiane, fino a giungere a un rapporto di amore.

Il cambiamento della rappresentazione della macchina è stato determinato dalle innovazioni nel campo dell’AI o è stato il cinema a ispirare nuovi immaginari tecnologici?

Secondo Simone Arcagni, in questo momento storico è l’arte e non più il cinema a svolgere un ruolo fondamentale nello sviluppo della tecnologia. Nuove forme espressive, come la new media art e la digital art, cercano «di immaginare in quale mondo andremo ad abitare, attraverso un rapporto simbiotico con le nuove tecnologie». Nel cinema, invece, non stiamo assistendo a questa ricerca di «nuove modalità di interazione con la tecnologia».

Chissà, quindi, se il cinema riuscirà a farsi contaminare dalle nuove tecnologie e ad essere ancora portavoce degli «scambi simbolici che avvengono nella società».

Credits

Filippo Cassano, Guido Cei, Laura De Grazia, Simone Fabbrizzi, Lorenzo Lodi.
Master Big Data 2019, Università di Pisa.