Piersante Paneghel
SEM Project Manager
Hijack 302 dopo il Big Daddy: a volte ritornano
16 giugno 2006Le ragioni per le quali Google ha dato vita al Big Daddy sono state diverse. Una tra le più importanti è stata porre fine ai problemi delle redirezioni, in modo particolare al famigerato hijack 302.
Così Matt Cutts ai primi di Gennaio
“…the new infrastructure at the Bigdaddy data center will let us tackle canonicalization, dupes, and redirects in a much better way going forward compared to the current Google infrastructure…”
Fin dai primi anni del millennio infatti questo fastidioso e temibile effetto ha iniziato ciclicamente ad affliggere le SERP di Google. Tra lo sconcerto dei webmaster cominciava a diventare evidente che colleghi più o meno maliziosi potevano agevolmente modificare le SERP e dirottare traffico da un sito verso il proprio o verso altre destinazioni. Il tutto con poco sforzo da parte dell’”attaccante” e senza possibilità di rimedio rapido da parte dell’”attaccato”. Le virgolette sono d’obbligo poichè, come vedremo, nella maggior parte dei casi non vi era e non vi è alcun intento di danneggiamento, semplicemente il problema si presentava, e si presenta, come un effetto preterintenzionale, senza movente, senza cioè l’intenzione di fare danno. In breve: un bug di Google.
Il problema era serio sia per chi ne era colpito e sia per la qualità generale delle SERP del principale motore.
Big Daddy ha risolto questo problema? Non sembra, il problema continua a rimanere serio.
Al SES di Milano a fine Aprile ho avuto modo di esporre alcuni degli effetti del redirect 302 in un caso particolare: Google aveva equivocato il dominio canonico di un sito, interpretando i link provenienti da affiliazioni (con 302) come naturali, elevando a principale il dominio di terzo livello a cui puntavano e provocando uno smottamento nei posizionamenti, probabilmente per deficit di fattori off-the-page (link popularity in primis) che continuavano ad insistere sul vecchio ed effettivo dominio principale.
Approfondiamo la questione da un altro punto di vista: le SERP.
Cos’è in definitiva un hijack 302?
Ci sono moltissimi documenti in rete che illustrano questo vero e proprio baco di google. Ve ne segnalo uno che, anche se datato, mi è particolarmente piaciuto per il taglio e la chiarezza, nonostante il focus sia sugli usi consapevoli e maliziosi dell’exploit che ritengo siano i meno diffusi.
http://clsc.net/research/google-302-page-hijack.htm
In realtà , a quello che si vede attualmente nelle SERP, la gran parte degli hijack è inconsapevole ed è determinata da pratiche legittime quali le affiliazioni, che fanno largo uso della redirezione 302 secondo lo schema:
affiliato ==> script di tracciamento con redirezione 302 ==> merchant
Come si manifesta un Hijack? Vediamolo in pratica simulando una ricerca.
Supponiamo di voler usare Google per trovare e prenotare un volo da, poniamo, Napoli a Parigi.
http://www.google.it/search?q=volo+napoli+parigi
Dopo le prime due coppie di risultati legittimi (kelkoo e edreams, noti player del ramo), al quinto posto abbiamo:

Che pagina è questa al quinto posto, con url atipica e title del merchant?
Semplicemente non è una pagina, non esiste in quanto documento. E’ un semplice script che traccia la provenienza del click e lo instrada via 302 verso il sito del merchant (in questo esempio edreams), il quale pagherà una fee per il servizio, variabile da pochi centesimi a qualche decina di euro a seconda del tipo di accordo (per click o per conversion). Da notare che tutto il meccanismo è studiato per funzionare coi lettori umani dentro il sito affiliato, non con gli spider che naturalmente non convertono (e non portano referrer) e tantomeno per lavorare nelle SERP.
Tecnicamente, semplificando, avviene che il primo spider che vede quel link in un sito affiliato crea un record nel db di google con l’url dello script (script.circuitoaffiliazione.com/click?somenumber). Un successivo spider che tenta di visitare l’url dello script viene rediretto via 302 sulla vera pagina (www.merchant.it/somepage) e inserisce quindi nel record i veri dati della pagina di arrivo, associati alla url creata dal primo spider. Altri spider avranno comunque la possibilità di aprire un record con il vero indirizzo della pagina di arrivo, in attesa che il filtro anti-duplicazione si incarichi a questo punto, visti i contenuti uguali, di dirimere la questione su quale sia la pagina che merita di restare in vita. Se la pagina soccombente è lo script tutto fila liscio, se invece per qualche ragione soccombe la pagina naturale ecco che si manifesta l’hijack 302.
Da questo momento la pagina naturale è persa e avremo un risultato, di fatto a pagamento, incastonato nei risultati organici/naturali. Una pagina virtuale, uno script, nato a scopo di tracciamento, si troverà inopinatamente nelle SERP ed entrerà in competizione con pagine vere, spesso scalzandole, ma sempre eliminando almeno una pagina del merchant dal db del motore e quindi dalle SERP. Forse il risultato in termini di traffico non si perderà , ma certamente si pagherà per cosi’ dire due volte: una come organico e una come affiliazione. Soprattutto, se per qualche ragione dovesse cessare l’affiliazione il risultato sarà perso.
Da rilevare tre cose:
- la pagina che produce l’hijack va a sommarsi alle due mostrate tipicamente in SERP per dominio e NON le sostituisce. In molti casi si è notato come per alcune ricerche vengano mostrati nella stessa pagina una coppia di risultati legittimi e una coppia di risultati-hijack che puntano allo stesso dominio, con risultati antipatici (per i competitori) visto l’effetto saturazione della pagina SERP.
- più è specifica la ricerca e più appare presente l’effetto hijack.
http://www.google.it/search?hl=it&q=volo+napoli
prima coppia di snippet al dominio legittimo, hijack in settima posizione
http://www.google.it/search?hl=it&q=volo+napoli+parigi
terza e quarta posizione per il sito legittimo, quinta per l’hijack
http://www.google.it/search?hl=it&q=volo+napoli+parigi+edreams
prima e seconda posizione per l’hijack, terza e quarta per il sito legittimo, chiaramente evocato nella query. - Non sono affatto chiari i criteri che il filtro anti-duplicazione usa per dirimere la prevalenza di una delle due pagine. Il page-rank pare non c’entrare, almeno non da solo. E’ probabile che il numero di link abbia un ruolo importante, visto che gli annunci a volte si ripetono identici in tutte le pagine del sito affiliato, incarnati nel template.
In ogni caso il risultato è preoccupante per la qualità generale delle SERP e anche per la salute del sito merchant. Le pagine “perse” sostituite dallo script possono diventare molte in poco tempo e produrre guasti nel posizionamento organico anche di notevole portata, svuotando una promozione dal di dentro senza che vi siano ripercussioni apparenti nel traffico da motori (molla che generalmente attiva gli interventi di troubleshooting). In pratica quando ci si accorge del problema è quasi sempre tardi per porvi rimedio, gli sforzi saranno necessariamente lunghi e gli esiti incerti.
Non solo.
Vi è un notevole rischio di perdita di rilevanza all’aumentare oltre una certa soglia del numero di pagine sostituite da script ma, soprattutto, vi è un fattore non pilotato e non pilotabile da SEO/webmaster che va a interferire con lo sviluppo degli interventi.
Non sappiamo cosa potrà succedere ad un sito eroso dall’interno dall’effetto hijack 302, al mutare dell’algoritmo. Quali che siano i risultati nel breve periodo la risultante complessiva sarà comunque una certa perdita del controllo della promozione.
Come evitare l’Hijack 302?
Ribadito che, nel caso specifico di hijack 302 da affiliazioni, non vi è nessuna colpa da parte del circuito di affiliazione e tantomeno del sito affiliato, vi sono alcuni interventi che possono evitarlo o comunque ridurre grandemente il rischio, in attesa che Google, unico responsabile di questa situazione, affronti alla radice il problema.
- Stare alla larga dal redirect 302. Se gestite un sito merchant chiedete al circuito di affiliazione di usare il redirect 301 invece del 302. Nel frattempo fate in modo che gli annunci vengano indirizzati in landing pages sterilizzate per gli spider con noindex, nofollow.
- Il circuito di affiliazione, benchè non direttamente responsabile della situazione, puo’ tuttavia risolverla agevolmente sterilizzando tutti gli script di redirezione via robots.txt.
- Inserire il metatag base in tutte le pagine del vostro sito e usate, se possibile, url assolute e non relative.
Questi interventi dovrebbero ridurre in modo significativo il rischio.
Una volta che una pagina è vittima di un hijack non vi sono molte soluzioni: una buona dose di pazienza, un 404 not found sullo script di redirezione e una richiesta di rimozione della pagina direttamente a Google.
Come spesso accade la prevenzione è la politica migliore.
Post correlati:
Tags: posizionamento naturale, redirect HTTP, tecniche fraudolente, tecniche SEO
Categorie: Search Engine Optimization
7 Commenti a “Hijack 302 dopo il Big Daddy: a volte ritornano”
[...] Segnalo, come han fatti in molti, ma vuole essere anche un contributo indiretto e un grazie a PierSante di TSW che anche al SES aveva parlato di questo tema con una acutezza migliore di altri, questo suo interessantissimo aritcolo sul 302 hijack, articolo che è stato ripreso anche dal forum di GiorgioTave dove si posson leggere interessanti commenti sempre sul tema. [...]
Sono d’accordo con te Piero quando parli della salute della serp, non soltanto per quanto possa essere irritante una situazione del genere, ma anche per la poca “eleganza” dei risultati, tanto di quelli che tu chiami legittimi come di quelli “non legittimi” per non chiamarli in modo più aggressivo.
W3C (www consortium) definisce il redirect 302 come: “The requested resource resides temporarily under a different URI”, questo presuppone che la risorsa potrebbe tornare all’URI precedente, a differenza del 301 che segnala: “The requested resource has been assigned a new permanent URI”… Sarà questa la base di un business sul posizionamento organico?
Secondo me questo reindirizzamento temporale potrebbe essere interpretato dai motori di ricerca cosi: “l’url non viene aggiornato perchè potrebbe improvvisamente tornare al URI originale.” in questo caso il circuito di affiliazione manterrebbe sempre il suo business assicurato e l’utilizzo del 301 sappiamo prima o poi posizionerebbe il nuovo URI…
E’ solo una mia idea… :)
ecco il link: http://www.w3.org/Protocols/rfc2616/rfc2616-sec10.html
[...] Gi? Ciao Lord Baron, il 302 rappresenta una vera spina nel fianco di google, che non riesce a venirne a capo. Se rifaccio ora le query che mi avevano incuriosito qualche tempo fa vedo risultati ancora peggiori di quelli che avevo notato. http://www.google.it/search?q=volo+napoli+parigi Attualmente gli annunci affiliati che redirigono via 302 continuano ad abbattere le landing pages a cui puntano, e c’?n’altro aspetto: in molti casi ?omplicato, per non dire impossibile eliminare il problema da parte dell’owner del sito hijack-to. Serve un 404 per rimuovere la pagina, e nessuno fa 404 su pagine (script) che portano ingressi… probabilmente preferiscono piuttosto pagare il clik. In questo modo pero’ per certe query abbiamo un cugino del PpC che spadoneggia nelle SERP a sbafo. Pare che per ora non sia il pensiero principale di google e nemmeno (e questo ?i?iu’ comprensibile) dei circuiti di affiliazione. Curioso pero’ che neppure gli owner dei siti colpiti si preoccupino. Ciao. [...]
[...] HTTP/1.1 404 Not Found Date: Mon, 22 Jan 2007 19:29:08 GMT Server: Apache X-mod-choke: 0.06 Last-Modified: Sat, 24 Sep 2005 08:55:01 GMT ETag: “300008f-556-43351465″ Content-Length: 1366 Connection: close Content-Type: text/html il 302 potrebbe provocarti l’hijack (su cui sto facendo dei test, risultati a voi in futuro ) ma fatto da solo ti turberebbe ben poco il 200 dice allo spider che la pagina esiste quando invece è sparita (termine tipico dei puponi de roma… es.: la juve è sparita dalla serie A ), poco male se non fosse che tutte le n pagine assenti risultano identiche (se ho capito bene) Quote: [...]
[...] ciao, in questo momento non riesco a vederlo ma in ogni caso è un posizionamento non voluto causato da un bug/fenomeno di Google, l’Hijack 302 che TWS spiega bene qui sostanzialmente se parliamo della stessa cosa, l’url del programma di affiliazione reindirizza verso la pagina del cliente con un header http 302 (redirect temporaneo), google in questi casi capita che si confonda __________________ Scambio link? NO…ancora più facile Article Marketing, costruisci la tua visibilità online [...]
Status HTTP, un dettaglio non trascurabile
Gli status HTTP sono uno degli argomenti spesso poco considerati nel SEO, nel post un veloce riepilogo del loro utilizzo.












[...] Appena finito di aggiornare il post dove si dice che i professionisti (non) diffondono la propria conoscenza, che mi ritrovo a leggere un bellissimo articolo fatto da Pieropan di TSW sulle problematiche riguardanti i link di affiliazione che poi invadono le SERP. Questo articolo è molto interessante perchè offre un quadro completo con spiegazioni tecniche, case history e consigli. Pieropan lo segnala in una discussione inerente sul Forum di Giorgiotave.it dove c’è stato uno scambio di informazioni notevole. Vuoi ricevere gratis le ultime novita’ di Wmtools? Lascia qui la tua email… Tuo Nome E-mail [...]