A brand of tswstrategies.com

TSW strategies

Blog TSW

Feed RSS

Ogni conversazione è un bene prezioso

Benvenuti nel blog di TSW, un luogo di confronto sul marketing online.
Un blog a più mani, espressione delle diverse competenze e personalità di TSW.

Twitter Flickr Slideshare Youtube


TSW Research & Developer

Il reperimento delle informazioni sul Web: dalle keyword alle reti semantiche

8 maggio 2006

I motori di ricerca nascono per soddisfare un nostro bisogno informativo, cioè la necessità che ci spinge ad accrescere la nostra conoscenza su un determinato argomento. Se il nostro bisogno informativo non ci è chiaro o cambia nel tempo la ricerca per keyword risulta inefficace perché come noi impariamo dalle nostre ricerche così anche le keyword dovrebbero cambiare per seguire i cambiamenti del nostro bisogno informativo. Un modo per evitare che queste conoscenze vengano perse è l’utilizzo di sistemi che sfruttino le reti semantiche, come spiegherò di seguito.

Come affrontiamo una ricerca sul web? Siamo interessati a cercare una “maglietta sportiva per l’estate”; la nostra mente focalizza il bisogno informativo e attraverso il nostro dominio di conoscenza, cioè l’insieme dei termini che noi sappiamo essere legati al concetto di “maglietta sportiva”, decidiamo che un buon termine di ricerca da inserire in Google è “polo”. Leggendo i risultati ci accorgiamo che ci siamo imbattuti in un caso di polisemia: la parola “polo” non ha solo il significato di “maglietta sportiva”, ma è anche il modello di un’auto, una zona geografica, il nome di un aeroporto. Scorrendo i risultati, la lettura delle descrizioni ci permette di capire che il termine “Ralph Lauren” sembra essere un buon candidato per ritentare la nostra ricerca con “polo Ralph Lauren“; mentre intuitivamente abbiamo selezionato il termine per noi più pertinente abbiamo scartato tutti gli altri termini (“destinazioni”, “auto”, “università”) che non darebbero i risultati sperati; i nuovi risultati ottenuti ci fanno capire che il concetto di “maglietta sportiva” con il termine “polo” era forse troppo specifico e decidiamo di trasformare la nostra ricerca iniziale in “t-shirt“.

In questo caso, la nostra scarsa conoscenza del dominio di conoscenza iniziale ha portato ad effettuare una serie di ricerche che, attraverso un insieme di processi cognitivi, hanno permesso di aggiungere nuovi concetti e di legarli fra loro: processi di specializzazione (“maglietta sportiva” in “polo”), di associazione (“polo” e “Ralph Lauren”) e di generalizzazione (da “Polo” a “t-shirt”).

Ciò che ci permette di attivare in modo naturale questi processi è quella che Noam Chomsky chiama competenza linguistica: ogni individuo ha delle competenze innate nel capire i suoni della lingua parlata (competenza fonologica), di riconoscere frasi grammaticalmente corrette (competenza sintattica) e di estrarre significati da queste frasi (competenza semantica).

Nell’esempio riportato la polisemia della parola “polo” ci ha costretto ad attivare le nostre competenze linguistiche per associare nuovi termini alla parola accrescendo in questo modo il dominio del concetto di “maglietta estiva”; se invece di magliette avessimo cercato “automobili” la competenza semantica del SEO ci avrebbe aiutato includendo nella pagina anche i sinonimi (“auto”, “macchina” ecc.).

Va comunque sottolineato che anche i motori tradizionali si stanno spingendo in questa direzione. Google, ci viene in aiuto proponendo di raffinare la nostra ricerca aggiungendo i termini “volkswagen” e “auto” al concetto di “polo”; in altri casi Google permette di visualizzare anche i risultati che contengono i sinonimi della parola cercata.

Visual Thesaurus

Ci sono occasioni in cui il bisogno informativo non si esaurisce nel tempo o per le quali il nostro background non ci aiuta nel processo di ricerca; esempi più immediati sono il monitoraggio della nostra reputazione on-line o il controllo della concorrenza ove potrebbero nascere nuovi concorrenti o potrebbero apparire nuove terminologie di cui non eravamo a conoscenza. In questi casi è utile affidarsi a sistemi di ricerca non più basati su “parole chiave” ma su “concetti”, non sulla ricerca delle parole “auto polo” ma sulla ricerca del concetto di “modello di automobile” piuttosto che di “maglia sportiva”.

Tali sistemi di ricerca si basano sulla supposizione che nel nostro cervello i significati delle parole sono organizzati in un reticolo, una mappa stradale dove le città sono i termini ( “polo”, “auto”, “t-shirt”, “Ralph Lauren” ecc.), le strade rappresentano i collegamenti fra loro (“polo” è collegata ad “auto” e “t-shirt” ma queste ultime due non hanno un collegamento fra loro) e la distanza fra una città e l’altra rappresenta la prossimità semantica che hanno due termini, cioè l’analogia che le nostre conoscenze le attribuiscono; queste “cartine stradali” sono chiamate reti semantiche e sono uno dei possibili modelli usati per simulare nostre innate competenze linguistiche

Un esempio pratico di rete semantica per il concetto di “close fitting pullover shirt” è data dal software Visualthesaurus (ringrazio Roberta per avermelo segnalato) mostrato in figura.

Visual Thesaurus

Un sistema basato su questa rete semantica può analizzare i documenti trovati attraverso una ricerca in rete e può giudicare come buoni documenti quelli che si adattano alla rete (il termine “t-shirt” per esempio) ed aggiungere eventuali nuovi concetti per migliorare e definire la conoscenza del dominio (a “polo-neck” si potrà collegare il termine “Ralph Lauren”).

Con la nostra semplice ricerca abbiamo scoperto che nella “mente” di Google il concetto di “auto” è più vicino a “polo” di quello di “t-shirt” perché i documenti indicizzati gli fanno “presumere” che anche noi se cerchiamo “polo” è perché vogliamo comprare un’auto piuttosto che una maglietta. La stessa ricerca mostra anche il limite di questi sistemi, perché se la invece fossimo orientati alla scoperta di tutti i possibili concorrenti nella vendita di magliette Google non ci avrebbe aiutato ma ci avrebbe depistato verso un campo di ricerca completamente estraneo al nostro bisogno informativo.

Per questo è necessario utilizzare dei sistemi che possano essere inizialmente guidati nella costruzione di una ontologia, uno schema concettuale esaustivo e rigoroso che permette di capire quali sono i nostri criteri per discernere se un documento trovato è pertinente, che nel tempo si possa arricchire dei nuovi concetti acquisiti: le “polo” non si vendono solo nei “negozi” ma anche negli “outlet”, le polo non sono solo “Ralph Lauren” ma anche “Lacoste” ecc.

L’intervento di un esperto “istruirà” nei primi passi il sistema, scegliendo fra i risultati delle ricerche effettuate le fonti da ritenere autorevoli e pertinenti: un portale specializzato nella moda sicuramente ci fornirà informazioni più utili di un motore di ricerca generalista.

Ho voluto solo presentare una breve panoramica su come una ricerca tramite keyword possa essere inefficace in alcuni frangenti e come i sistemi che utilizzano reti semantiche possono colmare queste lacune; aspetto i vostri commenti per sapere se qualcuno è interessato a discutere di qualche aspetto in particolare.

Post correlati:

Tags: , , , ,

Categorie: Search Engine Optimization

14 Commenti a “Il reperimento delle informazioni sul Web: dalle keyword alle reti semantiche”

10 maggio 2006 alle 17:21

Complimenti per il post, l’ho segnalato nel Forum GT :-)

fradefra scrive:
10 maggio 2006 alle 21:34

Ottimo! Passo anche io a segnalare sul blog di html.it :-)

Marco Bianchi scrive:
11 maggio 2006 alle 18:33

Complimenti anche da parte mia. Davvero interessante.

11 maggio 2006 alle 21:21

[...] Splendida riflessione sul blog di TSW che apre una prospettiva semantica al search engines marketing. Come si affrontano i casi di polisemia? Il nostro cervello, addestrato dalla pragamatica della lingua, ha buon gioco nel risolvere le ambiguit semantiche. Ma il web, e il motore di ricerca? Le ontologie del web semantico sembrano la strada maestra. A percorrerla, un software davvero significativo. Tags [...]

paocavo scrive:
12 maggio 2006 alle 11:29

Molto interessante (sia l’articolo che il SW segnalato)! Grazie!
Vorrei segnalarti un mio studio che sto portando avanti sul Forum di GT:
“Analisi semantica delle Keyword”
http://www.giorgiotave.it/forum/viewtopic.php?t=9566

Osserva l’immagine dell’ultimo mio post:
Quelli che io chiamo Insiemi “Keyphrases Sets” possono essere riconducibili a “mini” domini di conoscenza?

davide.tarasconi scrive:
12 maggio 2006 alle 15:01

Reti semantiche, ontologie e strutture linguistiche sono studiate da tempo da quella branca delle computer sciences che si chiama Computational Linguistics, linguistica computazionale.
Materia di studio interessantissima perch unisce diverse discipline, informatica, sociologia, statistica, matematica…

Vengono utilizzate molto a livello di applicazioni commerciali anche nel campo del text mining, stessa cosa del data mining ma su dati testuali, non strutturati.

Questi software di text mining sono in grado, sostanzialemente, di “capire” il significato dei documenti testuali, estraendone informazioni.
Ovviamente nel campo dei motori di ricerca vengono sfruttate all’ennesima potenza dato il tipo di “filtro” che bisogna fare su milioni di documenti non strutturati: Clusty un motore di ricerca sperimentale che utilizza proprio concetti come la clusterizzazione (raggruppamento) secondo domini di conoscenza/appartenenza di una keyword.

Wikipedia links:
Text mining
Computational linguistics

Andrea_TSW scrive:
12 maggio 2006 alle 15:44

Per paocavo:
Il termine di dominio generale e sicuramente pu essere applicato ai tuoi “Keyphrases Sets”, in quanto definiscono la conoscenza che il tuo sistema ha sulle categorie trovate.
Per essere pi specifici un tuo “Keyphrases Sets” pu essere definito come “glossario”, cio come una “raccolta di termini non strutturata di un ambito specifico e circoscritto”.

Ne approfitto per farti i miei complimenti per lo studio che stai portando avanti e per la volont di condividerlo con gli altri; continuer a seguire la discussione sul forum.

17 giugno 2006 alle 05:17

[...] Il reperimento delle informazioni sul Web: dalle keyword alle reti semantiche I motori di ricerca nascono per soddisfare un nostro bisogno informativo. Se il nostro bisogno informativo non ci chiaro o cambia nel tempo la ricerca per keyword risulta inefficace, le keyword dovrebbero cambiare per seguire i cambiamenti del nostro b (tags: seo search italian) [...]

ricdm scrive:
12 luglio 2006 alle 14:39

Volevo segnalare un “congegno” che ho realizzato con la mia azienda, che tenta di automatizzare il processo di raffinamento per keyword descritto nel post.
Potete provarlo all’indirizzo http://www.smartcluster.it
E’ possibile eseguire una normale ricerche che viene eseguita su Google e altri motori di ricerca. I risultati vengono analizzati in tempo reale e organizzati in cluster la cui label terminologia fortemente correlata alla query, almeno in base a quello che esiste in rete. Infine il sistema propone anche delle keyword per raffinare la ricerca. E’ importante che non esiste una rete semantica di base ma le correlazioni vengono scoperte “on the fly” attraverso l’analisi dell’uso pragmatico del linguaggio. Mi piacerebbe avere i vostri commenti.
Lo strumento funziona solo con browser Microsoft (sorry!).

Andrea_TSW scrive:
12 luglio 2006 alle 15:00

Per rcmd:
i miei complimenti per uno strumento che ho trovato veloce e decisamente usabile. Ho provato alcune ricerche; devo dire che le categorie rilevate rispecchiavano pi o meno quelle che mi sarei aspettato di trovare, quindi anche a precisione sembra comportarsi bene.
Molto interessante.

ricdm scrive:
12 luglio 2006 alle 17:17

L’oggetto parte di un progetto tecnologio finalizzato a realizzare servizi di mining su contenuti Web (news, portali, documenti) e blog, rivolto alle aziende, similare per certi aspetti a blogpulse.com, ma rivolto ad un mercato italiano.
Mi piacerebbe parlartene perch penso che potrebbero nascere delle collaborazioni con TSW e la mia azienda.

paocavo scrive:
18 luglio 2006 alle 19:51

Per rcmd:
http://www.cavone.com/keywords_analyzer/clusteringkmeans.aspx
Seguendo i consigli di Low sono giunto anch’io all’adozione di algoritmi di clustering K-means per la classificazione di keyphrases utilizzate nei motori di ricerca ed ottenere statistiche ed aggrgazioni “intelligenti” sulle visite di un sito web…

Nikita Seo scrive:
1 giugno 2007 alle 18:36

Ehi complimenti davvero, segnalo le ricerche correlate per alcune ricerche (ad esempio “scarpe nike”)

Marco

InfoBroker scrive:
14 febbraio 2008 alle 10:58

Il bello della rete e dei blog di alto livello come questo è che le informazioni interessanti e utili restano nel tempo!
Volevo fare i complimenti a tutti gli autori di TSW e ai grandi SEO che commentano sui vostri post.
Sono un novello Information Broker, e le vostre lezioni gratuite valgono più dell’oro!
Sarebbe bello se tutti coloro che scrivono in rete utilizzassero dei criteri corretti, per permettere agli altri, anche ai meno esperti, di trovare le informazioni che cercano e non meno importante… farsi trovare nella selva oscura dei motori di ricerca.

Lascia un commento

Scrivi:

* Campi obbligatori.