Vale la pena rilanciare e commentare questa intervista a Marco Varone su Punto Informatico, almeno per questa affermazione:
“Oggi non è pensabile un motore di ricerca (semantica) per tutto il web come Google – prosegue Varone – ma per alcuni settori, quando il problema non è troppo complesso e ci si limita ad un contesto specifico, è possibile implementare soluzioni che consentono di guadagnare tempo e ottenere risultati migliori”
Rispetto alle mirabolanti promesse di alcuni (powerset, hakia, lo stesso Varone in altri interventi) questo approccio ci riporta in un situazione un po’ più realistica.
Chi si occupa di linguistica o di intelligenza artificiale è abituato, infatti, a trovarsi a che fare con situazioni come questa: il problema è interessante ma è davvero molto complicato da risolvere, sarebbe bellissimo avere una soluzione universale che vada bene per tutte le istanze del problema, ci promettiamo che la avremo entro il prossimo anno (o lustro o secolo) e poi non riusciamo a farcela.
Di fronte a questi problemi che resistono alla soluzione, le reazione sono due. La prima è sfidare virilmente la difficoltà, affermando che il problema è risolvibile e basta risolverlo, ci vorrà tempo e denaro ma ce la faremo (addirittura alcuni dcono che è già stato risolto, ma di solito sanno che non è vero). La seconda è indebolire gli obiettivi e accontentarsi di risolvere il problema non nel caso generale, ma in alcuni (possibilmente tanti) casi particolari.
Gli ultimi due anni hanno visto una schiera di proposte che hanno adottato l’approccio “forte” per sfidare Google nell’arena dei motori di ricerca generalisti. Le pagine istituzionali di powerset, hakia, twine e compagnia sono piene di espressioni quali “comprensione” e “significato”. Tuttavia, se Varone ha ragione (e io penso che abbia ragione) gli investitori che stanno sostenendo questa “nuova generazione” di motori di ricerca potrebbero avere preso un abbaglio (abbastanza costoso, visto che ciascuno di essi ha finanziamento nell’ordine delle decine di milioni): ad oggi non sappiamo ancora come risolvere, nel caso generale, il problema della comprensione del linguaggio.
A 50 anni dalla conferenza di Dartmouth (la madre dell’intelligenza artificiale), il problema generale della comprensione del linguaggio naturale da parte di un programma di computer è un problema non risolto. Aggiungerei: per fortuna è un problema non risolto, ciò significa che è un problema su cui vale la pena ancora lavorare, innovare e fare ricerca, senza esagerare con le promesse, che quando vengono disattese generano diffidenza, fanno fare brutta figura e richiedono lunghe spiegazioni e giustificazioni (come dimostra questo post del fondatore di Twine).
La storia dei successi e dei fallimenti dell’analisi del linguaggio dimostra che l’unico approccio possibile è pragmatico: affrontare i problemi dei singoli domini applicativi uno alla volta e risolverli localmente, con l’obiettivo di migliorare le prestazioni dei sistemi e fornire strumenti che aumentino l’efficienza nei processi di analisi ed elaborazione delle informazioni.
L’analisi delle relazioni tra i cittadini della rete (che per noi è in primo luogo analisi delle conversazioni, visto che le interazioni sono in primo luogo linguistiche) è un problema complesso ed affascinante. Le dinamiche comunicative di chi conversa di moda sono diverse dalle dinamiche comunicative di chi discute di temi finanziari o di motori o di salute (alcuni dei domini su cui ci stiamo cimentando). L’obiettivo è chiaro: capire gli umori delle rete e trasformarli in insight utili per la comprensione delle dinamiche di mercato e l’analisi semantica è uno strumento fondamentale per arrivare a questo obiettivo.