Perchè aggiungere l'analisi linguistica ai motori di ricerca

“Il funzionamento molto spesso poco soddisfacente dei più comuni motori di ricerca per Internet (Google, Yahoo, Live ed altri), quando si cercano informazioni specifiche e non di massa, ha portato ad un rinnovato interesse per approcci alternativi che superino le tecnologie attuali.
Per molte tipologie di ricerche (anche se non per tutte), un motore basato sull’interpretazione del linguaggio consentirebbe innanzi tutto di porre le proprie domande nello stesso modo con cui si chiedono informazioni alle persone [..] Il concetto base della tecnologia semantica è di avere una comprensione del significato dei contenuti per riuscire a gestire la conoscenza a livello concettuale (e non più solo attraverso parole-chiave), in modo molto più simile a quanto fanno le persone.”

Queste parole di Marco Varone ci danno un’idea del cambiamento che è in atto nel mondo dei motori di ricerca, un cambiamento che muove dal riconoscere i limiti delle tecnologie di ricerca attualmente diffuse (ovvero basate su keywords e variazioni sul tema del PageRank).

Il cambiamento consiste nella migrazione, al momento lenta e faticosa, verso tecnologie di ricerca che ammettono la centralità del linguaggio naturale, visto non solo come un insieme di parole chiave o tags, ma più realisticamente come struttura complessa in cui sintassi e semantica concorrono a costruire il significato.

La Semantic Technology Conference, meeting internazionale svoltosi a San José e da poco conclusosi, ha dato la possibilità di riportare in luce alcuni dei problemi che “affliggono” le teorie semantiche dell’interpretazione del linguaggio naturale: il principale è, certamente, il problema posto dall’interpretazione del significato singolo di ogni termine o parola in una determinata lingua. Quest’ultimo, difatti, rappresenta la chiave di volta per la creazione dei cosiddetti motori di ricerca di “nuova generazione” o, in altre parole, dei motori che effettuano una ricerca semantica dei linguaggi naturali, permettendo cosi di ottenere una risposta a domande vere e proprie come “Quanto è alto il Monte Bianco?” con un conseguente risparmio di tempo impiegato nella ricerca e un elevato livello di pertinenza del risultato ottenuto.

Come lo stesso Varone riassume velocemente nel suo blog, questi nuovi strumenti di ricerca basati sul NLP trovano nella classificazione generalista tramite tag (o ontologie di concetti) la loro ragion d’essere: un documento “etichettato” da un tag particolare, è individuato per ogni volta che io cerco documenti affini ovvero “etichettati” con il medesimo tag (e cosi quando cerco “automobili” troverò anche documenti che trattano di FIAT, BMW, Mercedes ma anche di autovetture, motori, cabriolet ecc.)

La strada alternativa, e ad oggi in completo fermento, consiste nell’aggiungere alla classificazione generalista per tag, un motore linguistico in grado di analizzare e riconoscere in modo automatico le classi dei concetti, i concetti stessi, le persone, e così via, sino a livelli particolareggiati di affinamento della ricerca; grazie all’individuazione del giusto significato di un termine fra i tanti possibili e alle relazioni semantiche tra i diversi concetti, il risultato (auspicato) è quello di afferrare il vero contenuto di un testo.

“L’unica tecnologia che consente di arrivare davvero a una forma di comprensione della lingua è la semantica: è una strada decisamente in salita, ma è inutile continuare a prendere delle scorciatoie perché i fatti dimostrano che non si arriva a destinazione.”

Parole che fanno sperare nel cambiamento (in un futuro prossimo), anche se è bene restare con i piedi per terra, non promettere troppo e troppo presto e cercare di arrivare per gradi al premio più ambito: la soddisfazione degli utenti.

blogit

Perchè aggiungere l’analisi linguistica ai motori di ricerca

12 Luglio 2007