Quando si parla di sentiment analysis uno dei temi più interessanti e problematici a livello linguistico, è il riconoscimento automatico dell’ironia e del sarcasmo. Facendo riferimento ai testi provenienti da un social network come Twitter e relativi a un argomento come la politica, dove gli utenti utilizzano ampiamente l’ironia, Blogmeter ha contribuito a sviluppare Senti-TUT: il primo corpus ufficiale italiano per la sentiment analysis che aggiunge alle annotazioni della polarità una dimensione in più, quella dell’ironia.
Nell’ultimo numero della prestigiosa rivista Intelligent Systems, pubblicata dalla IEEE Computer Society, dedicato a “Knowledge-Based Approaches to Concept-Level Sentiment Analysis“, viene fornita una rassegna sullo stato dell’arte della ricerca nel settore della sentiment analysis. Le tendenze più recenti in quest’area cercano di unire metodi legati al dominio di applicazione, come l’apprendimento automatico della macchina da un insieme di documenti annotati manualmente, con risorse linguistiche e semantiche general-purpose (indipendenti dal dominio).
Le ricercatrici dell’Università di Torino, insieme a Blogmeter, analizzano costantemente la diffusione di post ironici in un corpus Twitter – cioè un insieme di documenti provenienti da Twitter – nel settore della politica, e forniscono un quadro delle relazioni tra le dimensioni della polarità (positivo, negativo, neutro), l’ironia, e le emozioni espresse.
Lo sviluppo di un corpus annotato manualmente – ovvero i cui documenti sono stati codificati in modo da esplicitare i diversi livelli di informazione linguistica come i ruoli semantici o la struttura sintattica di una frase – è indispensabile per valutare l’accuratezza dei sistemi di classificazione automatica del sentiment (mood e opinion mining). Questo lavoro ha dato origine a “Senti-TUT, il primo corpus disponibile per la lingua italiana, oggetto di studio nel paper “Developing Corpora for Sentiment Analysis: The Case of Irony and Senti-TUT” a firma di Cristina Bosco, Viviana Patti e Andrea Bolioli.