E’ inevitabile. Chiunque ami navigare su Internet, chiunque frequenti un social network, finisce con il lasciare dietro di sé una lunga serie di informazioni su che tipo di persona è: le litigate con la fidanzata, la merendina che ci piaceva tanto da piccoli, il lavoro che non si trova  (e quello che è perfino troppo), l’amministratore di condominio che quando lo cerchi non c’è mai e quella borsetta proprio bella cha abbiamo visto giusto ieri, mentre eravamo in pausa pranzo. Sta tutto lì, raccontato in modo frettoloso (e un po’ sgrammaticato) tra Facebook e MySpace, tra Badoo e LinkedIn, passando per Twitter e Bebo.

Il trattamento di questa mole di dati in maniera (semi)automatica è reso possibile grazie all’attenzione che gli studi sull’intelligenza artificiale stanno dedicando al tema dell’estrazione di informazioni non strutturate (ovvero ricavabili da testi prodotti da esseri umani). Breve stringhe di testo permettono di ricostruire la carta d’identità del parlante (genere, età, stato civile) e i suoi interessi, attitudini e opinioni. Come?

Segnaliamo arrabbiati che un imbranato su un’automobile nera ci ha appena sorpassato a destra? Un software per il trattamento di informazioni non strutturate ne deduce che siamo maggiorenni, che abbiamo un lavoro e che guidiamo la macchina. Ci lamentiamo di mariti pantofolai e di ex-mogli spendaccione? Questo dice molte cose sul nostro stato civile e sui nostri interessi. A un software che estrae informazioni non strutturate basta anche meno: un participio coniugato correttamente, e si può sapere se chi scrive è uomo o donna.

Qualche esempio pratico tratto da Twitter:

1)      Mia moglie é più pigra di me e vi assicuro che ce ne vuole…”:

Se ne può dedurre che l’autore è un uomo (visto che dice di avere un coniuge di sesso femminile), probabilmente con più di trent’anni – stando ai dati forniti annualmente dall’ISTAT, infatti, gli uomini in Italia si sposano più o meno a quell’età. Anche un tweet come “Quel brontosauro di mio figlio ha la febbre” fornisce informazioni sulla possibile età anagrafica di chi lo ha scritto: ancora una volta accorre in nostro aiuto l’Istituto Nazionale di Statistica, secondo il quale nel nostro Paese si diventa genitori attorno ai trentacinque anni (32 anni per le donne, 36 per gli uomini);

2)      “Olè per la mia università che mi costringerà a dare l’esame di geografia da non frequentante”: qui il dato interessante riguarda il titolo di studio, visto che sappiamo che per iscriversi all’Università è necessario essere in possesso del diploma di scuola media superiore (la maturità, insomma); e poi, ancora una volta, abbiamo un indizio sulla possibile età dell’autore: si tratterà di sicuro di una persona con più di diciotto anni, visto che è quella l’età minima di chi si immatricola;

3)      “quella brava e puntigliosa della mia segretaria è tornata dalla maternità. sono spaventato all’idea di entrare in ufficio”: in questo caso il sintagma (la) mia segretaria ci suggerisce che chi scrive ha un impiego (effettuando analisi più approfondite si potrebbe anche arrivare a fare delle ipotesi sul tipo di lavoro svolto, che, verosimilmente, non è di fatica); questo è a sua volta spia della (almeno) maggiore età del soggetto; la seconda parte del messaggio, invece, contiene un verbo con un participio maschile che, come si diceva qualche paragrafo fa, è rivelatore del genere di chi scrive (nel caso specifico sono spaventato =  maschile);

4)      non mi piace telecom ma ha le infrastrutture per lavorare decentemente” e “anch’io detesto la birra, ma amo i cocktail: questi tweet non esprimono nessuna informazione anagrafica sui rispettivi autori ma segnalano alcuni pareri che questi esprimono; in letteratura, l’analisi delle opinioni, delle abitudini e, in generale, dello stile di vita dei consumatori è individuata dall’acronimo inglese AIO (Attitudes, Interests and Opinions): incrociando i dati di questo tipo con quelli demografici (principalmente: genere, età, stato civile, occupazione, ed educazione) si possono ottenere in maniera automatizzata informazioni importanti sia per gli studi di carattere sociologico che per quelli di marketing e business.

La strada verso una profilazione degli internauti in maniera del tutto automatizzata, comunque, è ancora lunga, soprattutto per quanto riguarda la sofisticatezza nel trattamento del linguaggio naturale (elemento fondamentale in ambiti come quello del data mining e della sentiment analysis).

E poi, non dimentichiamoci che uno degli usi più consolidati di Internet e dei suoi tentacolari social network rimane quello di strumento di intrattenimento e di valvola di sfogo. Vale a dire: siccome in rete non ci si prende mai troppo sul serio, sarebbe ingenuo pensare che tutto quel che viene postato rispecchi fedelmente abitudini, opinioni e interessi degli utenti. Come saggiamente “cinguetta” qualcuno su Twitter: “qui siamo tutti lolloni”.