8 maggio 2006 Andrea Morandini

Il reperimento delle informazioni sul Web: dalle keyword alle reti semantiche

I motori di ricerca nascono per soddisfare un nostro bisogno informativo, cioè la necessità che ci spinge ad accrescere la nostra conoscenza su un determinato argomento. Se il nostro bisogno informativo non ci è chiaro o cambia nel tempo la ricerca per keyword risulta inefficace perché come noi impariamo dalle nostre ricerche così anche le keyword dovrebbero cambiare per seguire i cambiamenti del nostro bisogno informativo. Un modo per evitare che queste conoscenze vengano perse è l’utilizzo di sistemi che sfruttino le reti semantiche, come spiegherò di seguito.

Come affrontiamo una ricerca sul web? Siamo interessati a cercare una “maglietta sportiva per l’estate”; la nostra mente focalizza il bisogno informativo e attraverso il nostro dominio di conoscenza, cioè l’insieme dei termini che noi sappiamo essere legati al concetto di “maglietta sportiva”, decidiamo che un buon termine di ricerca da inserire in Google è “polo”. Leggendo i risultati ci accorgiamo che ci siamo imbattuti in un caso di polisemia: la parola “polo” non ha solo il significato di “maglietta sportiva”, ma è anche il modello di un’auto, una zona geografica, il nome di un aeroporto. Scorrendo i risultati, la lettura delle descrizioni ci permette di capire che il termine “Ralph Lauren” sembra essere un buon candidato per ritentare la nostra ricerca con “polo Ralph Lauren“; mentre intuitivamente abbiamo selezionato il termine per noi più pertinente abbiamo scartato tutti gli altri termini (“destinazioni”, “auto”, “università”) che non darebbero i risultati sperati; i nuovi risultati ottenuti ci fanno capire che il concetto di “maglietta sportiva” con il termine “polo” era forse troppo specifico e decidiamo di trasformare la nostra ricerca iniziale in “t-shirt“.

In questo caso, la nostra scarsa conoscenza del dominio di conoscenza iniziale ha portato ad effettuare una serie di ricerche che, attraverso un insieme di processi cognitivi, hanno permesso di aggiungere nuovi concetti e di legarli fra loro: processi di specializzazione (“maglietta sportiva” in “polo”), di associazione (“polo” e “Ralph Lauren”) e di generalizzazione (da “Polo” a “t-shirt”).

Ciò che ci permette di attivare in modo naturale questi processi è quella che Noam Chomsky chiama competenza linguistica: ogni individuo ha delle competenze innate nel capire i suoni della lingua parlata (competenza fonologica), di riconoscere frasi grammaticalmente corrette (competenza sintattica) e di estrarre significati da queste frasi (competenza semantica).

Nell’esempio riportato la polisemia della parola “polo” ci ha costretto ad attivare le nostre competenze linguistiche per associare nuovi termini alla parola accrescendo in questo modo il dominio del concetto di “maglietta estiva”; se invece di magliette avessimo cercato “automobili” la competenza semantica del SEO ci avrebbe aiutato includendo nella pagina anche i sinonimi (“auto”, “macchina” ecc.).

Va comunque sottolineato che anche i motori tradizionali si stanno spingendo in questa direzione. Google, ci viene in aiuto proponendo di raffinare la nostra ricerca aggiungendo i termini “volkswagen” e “auto” al concetto di “polo”; in altri casi Google permette di visualizzare anche i risultati che contengono i sinonimi della parola cercata.

Visual Thesaurus

Ci sono occasioni in cui il bisogno informativo non si esaurisce nel tempo o per le quali il nostro background non ci aiuta nel processo di ricerca; esempi più immediati sono il monitoraggio della nostra reputazione on-line o il controllo della concorrenza ove potrebbero nascere nuovi concorrenti o potrebbero apparire nuove terminologie di cui non eravamo a conoscenza. In questi casi è utile affidarsi a sistemi di ricerca non più basati su “parole chiave” ma su “concetti”, non sulla ricerca delle parole “auto polo” ma sulla ricerca del concetto di “modello di automobile” piuttosto che di “maglia sportiva”.

Tali sistemi di ricerca si basano sulla supposizione che nel nostro cervello i significati delle parole sono organizzati in un reticolo, una mappa stradale dove le città sono i termini ( “polo”, “auto”, “t-shirt”, “Ralph Lauren” ecc.), le strade rappresentano i collegamenti fra loro (“polo” è collegata ad “auto” e “t-shirt” ma queste ultime due non hanno un collegamento fra loro) e la distanza fra una città e l’altra rappresenta la prossimità semantica che hanno due termini, cioè l’analogia che le nostre conoscenze le attribuiscono; queste “cartine stradali” sono chiamate reti semantiche e sono uno dei possibili modelli usati per simulare nostre innate competenze linguistiche

Un esempio pratico di rete semantica per il concetto di “close fitting pullover shirt” è data dal software Visualthesaurus (ringrazio Roberta per avermelo segnalato) mostrato in figura.

Visual Thesaurus

Un sistema basato su questa rete semantica può analizzare i documenti trovati attraverso una ricerca in rete e può giudicare come buoni documenti quelli che si adattano alla rete (il termine “t-shirt” per esempio) ed aggiungere eventuali nuovi concetti per migliorare e definire la conoscenza del dominio (a “polo-neck” si potrà collegare il termine “Ralph Lauren”).

Con la nostra semplice ricerca abbiamo scoperto che nella “mente” di Google il concetto di “auto” è più vicino a “polo” di quello di “t-shirt” perché i documenti indicizzati gli fanno “presumere” che anche noi se cerchiamo “polo” è perché vogliamo comprare un’auto piuttosto che una maglietta. La stessa ricerca mostra anche il limite di questi sistemi, perché se la invece fossimo orientati alla scoperta di tutti i possibili concorrenti nella vendita di magliette Google non ci avrebbe aiutato ma ci avrebbe depistato verso un campo di ricerca completamente estraneo al nostro bisogno informativo.

Per questo è necessario utilizzare dei sistemi che possano essere inizialmente guidati nella costruzione di una ontologia, uno schema concettuale esaustivo e rigoroso che permette di capire quali sono i nostri criteri per discernere se un documento trovato è pertinente, che nel tempo si possa arricchire dei nuovi concetti acquisiti: le “polo” non si vendono solo nei “negozi” ma anche negli “outlet”, le polo non sono solo “Ralph Lauren” ma anche “Lacoste” ecc.

L’intervento di un esperto “istruirà” nei primi passi il sistema, scegliendo fra i risultati delle ricerche effettuate le fonti da ritenere autorevoli e pertinenti: un portale specializzato nella moda sicuramente ci fornirà informazioni più utili di un motore di ricerca generalista.

Ho voluto solo presentare una breve panoramica su come una ricerca tramite keyword possa essere inefficace in alcuni frangenti e come i sistemi che utilizzano reti semantiche possono colmare queste lacune; aspetto i vostri commenti per sapere se qualcuno è interessato a discutere di qualche aspetto in particolare.