Google e il contenuto duplicato
Pubblico di seguito, i punti salienti di un importante documento apparso recentemente sul blog ufficiale di Google, e ripreso e tradotto da Marco Ziero, riguardo ai contenuti duplicati e ai feed rss.
- Prima di tutto, la Definizione di Contenuto Duplicato.
“Il contenuto duplicato si riferisce generalmente a blocchi sostanziali di contenuto all’interno dello stesso dominio o tra diversi domini che combaciano esattamente con altri contenuti o sono molto simili tra loro.
La maggior parte delle volte è del tutto non intenzionale o per lo meno non fatto con malizia: forum che generano pagine normali o pagine dinamiche prese da altri siti, negozi che mostrano (e, peggio ancora, linkano) diversi URL, e così via.
In qualche caso i contenuti duplicati sono creati nell’intento di manipolare il posizionamento sui motori di ricerca o guadagnare più traffico per chiavi più o meno popolari”.
- Passiamo ora alla Definizione di Cosa non è, un contenuto duplicato.
Gli algoritmi di Google “non vedono come contenuto duplicato lo stesso articolo scritto in Inglese e Spagnolo. Similarmente, non dovreste preoccuparvi che snippets occasionali (virgolette e altro) vengano evidenziati come contenuto duplicato”.
Allora, perché è importante la questione dei contenuti duplicati?
Perché ogni volta che un utente esegue una ricerca vuole vedere e trovare diverse sezioni e diverse informazioni su uno stesso contenuto, e non, al contrario, trovare le stesse informazioni per lo stesso contenuto.
Per questo motivo Google, tende a indicizzare e mostrare sempre pagine con diversi contenuti.
Quindi, se un sito contiene un articolo “regolare” e lo stesso nella versione “da stampare”, e non c’è nessun limite nel robots.txt o attraverso il meta tag noindex, Google sceglierà di mostrare solo una delle due versioni.
E se si dovesse percepire che il contenuto duplicato, vuol essere mostrato per manipolare il ranking e di conseguenza, deviare i navigatori, verranno presi i relativi accorgimenti per quanto riguarda l’indicizzazione e il posizionamento dell’intero sito in questione.
Inoltre, potrà spesso accadere, che nei risultati delle ricerche, sia visualizzata la versione dell’articolo (tra le due) “meno desiderata” dai webmaster.
- Ecco allora 10 buone regole da seguire per i contenuti duplicati:
- Aiutare gli algoritmi a determinare quale sia la versione del documento che si vuole far indicizzare, per esempio, disabilitando le versioni stampabili o usando espressioni regolari nel file robots.txt.
- Usare intelligentemente il redirect 301 (redirect permanente).
- Essere consistenti nel linking interno del sito. Non linkando per esempio, una volta a /pagina/, poi a /pagina e poi a /pagina/index.htm.
- Usare possibilmente domini geografici, directory appropriate o sottodomini per indicare la versione più appropriata di un documento.
- Condividere con attenzione i contenuti di un sito con altri siti, assicurandosi che gli altri contengano un link verso il contenuto originale.
- Usare l’opzione “dominio preferito” nel pannello per i webmaster: scegliendo di far indicizzare la versione con www o senza, quando altri siti linkano il vostro sito.
- Minimizzare le ripetizioni anche parziali nel sito.
- Evitare la pubblicazione di bozze e pagine vuote.
- Conoscere bene le debolezze del vostro CMS.
- Non preoccuparsi troppo dei siti che prendono i contenuti dal vostro sito, è molto improbabile che possano influenzare negativamente la sua presenza su Google.
Per il documento originale, potete leggere il post sul blog ufficiale di Google.









Hit Parade Del Web Marketing / Seo - Gennaio 2007 Scrive: Scritto il 1 Febbraio 2007 alle 10:14
[...] LucaC in questo tiepido gennaio 2007, oltre ad essersi aggiudicato la prima posizione della top ten con l’articolo sopra, ha scritto un secondo post che ho particolarmente gradito, argomento: Google e il contenuto duplicato. Fulcro del suo post, una lista con 10 regole da seguire per non icorrere in una penalizzazione per contenuti duplicati. [...]