Di social vi raccontiamo parecchio, di linguaggio e software meno. E se di Opinion Mining, che sfrutta tutte e tre quelle componenti per permetterci di dire ai nostri clienti come si parla di loro, vogliamo parlare di più, non ci resta che presentarvi chi tra linguaggio e macchine lavora: Federica Salamino, linguista computazionale CELI, che da anni collabora a tempo pieno all’interno del team Blogmeter.


Ciao Federica, parlaci di te e della tua figura professionale.

«Il tuo cognome non credo abbia niente a che fare con il salame, quanto piuttosto con Salamina, la battaglia, l’isola, con la parola araba salām…meraviglioso» – mi disse di punto in bianco un mio professore. La prima cosa che ho pensato fu che, se l’avessi saputo prima, avrei vissuto diversamente il momento dell’appello alle elementari; la seconda, che aveva ragione: era davvero meraviglioso, anche solo parlarne, ed è proprio da questo bizzarro nome di famiglia che voglio iniziare a raccontarmi, perché è un rimando immediato alla provenienza da un luogo diverso da quello in cui vivo da sempre, la Lombardia, e alla mia convinzione che anche in questo bel miscuglio risieda uno dei punti di partenza della mia passione per la diversità prima di tutto linguistica. Brianzola per nascita, lavoro a Milano e vivo a Monza, dove sono cresciuta, ma faccio parte di una famiglia per tre quarti pugliese: nella provincia di Taranto ho infatti passato abbastanza tempo da poter imparare il dialetto del luogo e, l’esposizione prolungata a due codici linguistici diversi (italiano e dialetto) legati a territori tra loro distanti, è il primo momento che considero pietra miliare sulla mia strada verso lo studio del linguaggio.

«Studi linguistica, bello! Quindi quante lingue sai?». Potrei raccontarvi se ne parlo tante o poche, quali scrivo meglio e che il fatto di aver ristretto il cerchio di quelle che mi restano da imparare mi dà un enorme sollievo, ma siamo sicuri che sia questa la domanda giusta per conoscere lo strano animale chiamato linguista? Quando ho scelto il mio corso di studi magistrale non avevo effettivamente previsto di dover rispondere così tante volte a questa domanda. Quello che sapevo per certo era che il lavoro dei miei sogni avrebbe dovuto portarmi a guardare le parole da vicino, a studiarne i comportamenti e le relazioni; quello che ignoravo era il ventaglio di possibilità che tutto questo mi avrebbe offerto. In effetti, la figura del linguista merita, soprattutto oggi, un approfondimento. Se l’utilizzo impeccabile di una lingua madre e la capacità di parlarne molte altre altrettanto bene fanno spesso parte del bagaglio di uno studioso del linguaggio, non costituiscono però il suo (unico) obiettivo: il linguista non è, cioè, il supremo parlante di una o più lingue, bensì colui che per primo, nei confronti del linguaggio, nutre dubbi e curiosità, quindi ne indaga il funzionamento. Si chiede come interagiscano tra loro le parole, e quando – come in fondo tra persone – preferiscano la compagnia di alcune e disdegnino quella di altre; ne studia l’origine, le raccoglie nei dizionari, indaga i meccanismi di acquisizione della lingua madre e di apprendimento di quelle straniere; ascolta un dialetto come si ascolterebbe un nonno raccontare il suo passato. Ascolta i suoni delle lingue e dà loro un nome. Si chiede perché una ragazza pugliese di vent’anni emigrata a Monza nel 1943 abbia completamente rimosso il suo dialetto per far suo quello brianzolo, e perché i figli bilingui di un’abitante cinese di Milano comprendano le sue domande in mandarino ma si ostinino a risponderle in italiano. Diffidente nei confronti della figura del grammarnazi, guarda l’errore da vicino e ne studia le motivazioni. Sa infatti che la lingua è in continuo movimento: quello che non è accettabile può diventarlo, poiché la norma linguistica è tale in un determinato momento storico e culturale ma si evolve senza sosta con la lingua, che è sempre al servizio dei suoi parlanti.

Ed eccomi qui: oggi faccio felicemente parte della squadra in qualità di linguista computazionale. Mi piace sempre iniziare dicendo che insegno l’italiano (e non solo) alle macchine, ma di cosa mi occupo davvero e cos’è la Linguistica Computazionale (LC)? È una disciplina che indaga il tema dell’incontro tra linguaggio umano (cosiddetto “naturale”) e software, oggi imprescindibile vista la quantità di tecnologie che hanno alla base la comprensione del linguaggio: per esempio i navigatori, i traduttori automatici, gli assistenti vocali, i correttori automatici, etc. Per realizzare simili strumenti, c’è bisogno che la lingua che noi utilizziamo tutti i giorni, che è mutevole, legata al contesto e potenzialmente ambigua, venga trasformata in un linguaggio cosiddetto formale, cioè leggibile da una macchina, quindi non ambiguo e utilizzabile per più lingue. Se la LC ci fornisce la base scientifica sul tema, quello che di meraviglioso si può realizzare poi nella pratica rientra sotto l’etichetta di Natural Language Processing (NLP), che si traduce in elaborazione o trattamento informatico del linguaggio naturale. Nello sviluppo di un software deputato a questo tipo di attività entra in gioco il linguista perché è consapevole dei meccanismi propri del linguaggio (ed eventualmente quelli specifici di alcune lingue) e riesce a trasformarli in programmi eseguibili da una macchina, la quale perciò impara e analizza la lingua in questione per restituirla come richiesta: per esempio trasformata in una voce che indica la strada, in un elenco di parole tra cui scegliere mentre si digita un messaggio, o classificata per polarità positiva o negativa. Proprio quest’ultima è l’attività principale che noi linguisti portiamo avanti per i clienti Blogmeter: prende il nome di Opinion Mining ed è una tecnologia utile per l’analisi delle percezioni dei consumatori che emergono online sui social media attraverso i testi che quelli producono. Li studiamo e istruiamo la macchina perché riconosca, nei milioni di testi che si trova ad analizzare, le opinioni contenute, le divida in positive e negative e ci permetta di raccontare al cliente come si parla di lui. La parte più bella? Il fatto che ogni settore commerciale che genera parlato sui social media corrisponda per noi linguisti a un diverso dominio terminologico che le nostre grammatiche computazionali devono conoscere, al fine di decidere, per esempio, che il verbo “rallentare”, per il settore dei trasporti sarà più facilmente negativo, come in “il treno ha rallentato più volte nel corso del viaggio”, e sarà invece positivo nel dominio farmaceutico, dove a rallentare è spesso il corso di una malattia grazie all’impiego di un farmaco.

 

Tutti parlano sempre di sentiment, facciamo un po’ di chiarezza. Perché parli anche di Opinion Mining?

Tutti parlano di sentiment, hai detto bene. Noi invece parliamo anche di Opinion Mining perché quello che facciamo emergere oggi dai testi e che vendiamo al cliente sotto forma di numeri e grafici, sono le singole opinioni espresse su marchi, prodotti, persone o eventi. È ben diverso dal fornire un’indicazione sulla polarità di un intero testo descrivendolo come prevalentemente positivo, negativo o misto. Quello che, invece, le nostre macchine sanno fare è anche individuare nel testo tutte le varianti dei nomi del marchio che è necessario monitorare o del nuovo modello di automobile o telefonino che sta per essere lanciato; sanno poi cercare l’espressione positiva o negativa che a esso si riferisce e legarli insieme, estrapolando così l’opinione. In un unico testo andiamo a caccia di tutti gli aspetti discussi da utenti e consumatori, lasciando che la macchina ci guidi nel ritrovamento di quello che già ci aspettiamo ma anche di quello che mai avremmo pensato di scoprire!

 

Ci racconti di un progetto dai risultati interessanti?

Il caso che mi viene in mente quando mi fanno questa domanda è l’analisi fatta qualche anno fa per il settore della social TV.
Stavamo monitorando il concerto degli One Direction, un evento atteso per mesi, sia da noi che dovevamo lavorarci sia dai giovanissimi fan che al concerto avrebbero partecipato, dal vivo o da casa. Ebbene, la storia di quel momento inizia da un buco nel grafico di trend del sentiment: i ragazzi stavano suonando, in piattaforma arrivavano tutti i commenti sulla serata, quando a un certo punto si crea una voragine nel bel mezzo degli altissimi picchi verdi (e rossi, ma molti meno). Sappiamo tutti quanto i nostri adolescenti oggi siano abili e impegnati nell’utilizzo dei social: ogni programma TV di loro interesse viene seguito con Twitter&Co. alla mano, tutto viene commentato, documentato con video e foto, criticato senza appello o esaltato al massimo. Quindi come mai quel buco? Come mai, per un dato periodo di tempo quella sera, pochissime opinioni sono state rilevate su quel concerto? Era incredibile, abbiamo sospettato innanzitutto un problema tecnico, colpa alle macchine! Ma dentro di noi sapevamo che la risposta non era quella, e lo abbiamo scoperto leggendo quei pochi post e tweet privi di opinioni che sulla nostra piattaforma ci erano comunque correttamente arrivati: le fan sfegatate degli One Direction si sono immobilizzate, per quel lasso di tempo, davanti ai loro idoli, che sono stati in grado di far dimenticare loro foto, tastiera e social anche se solo per qualche minuto. Al loro posto, a scrivere erano le loro madri! Emozionate per le figlie e incredule di fronte a tanta euforia ma non abili come loro nell’utilizzo dei social, scrivevano senza esprimere poi chissà che opinioni sugli One Direction… Le nostre macchine non potevano trovare in quei dati il nome della band, proprio perché le mamme non ne parlavano, e parlavano invece delle figlie e delle loro emozioni. Insomma non c’era trippa per sentiment, ed ecco spiegato in un attimo il vuoto nel bel mezzo del grafico che, superato lo spavento iniziale, ci ha raccontato una bella storia di musica, passione e un concerto seguito, per qualche minuto, alla vecchia maniera!

Questa è la storia di come sono arrivata ad avere “Linguista computazionale” sulla carta d’identità. Il come sia riuscita a convincere l’impiegata del comune a scrivere computazionale su un documento simile, è decisamente un’altra storia!