Seit Wochen zermartere ich mir das Hirn zum Thema Duplicate Content, wie man diesen verhindern kann und WordPress diesbezüglich optimal einstellt.

Was ist Duplicate Content?

Unter Duplicate Content (DC) versteht man inhaltliche Dubletten, die im Internet, vom Autor bewußt oder unbewußt erstellt, von Google indexiert werden. Kann man ein und denselben Artikel unter zwei unterschiedlichen URLs aufrufen, hat man technisch besehen Duplicate Content.

Google sieht das Internet technisch und zudem mag es Duplicate Content nicht. Weshalb das so ist, sei nur am Rande erwähnt. Dubletten deuten zum einen auf Spamer, Content-Spamer als auch schlampige Websites und Blogs hin.

Duplicate Content vs. Unique Content – Die 2 Dimensionen von Google

Widrig wird es, wenn man den Versuch unternimmt, an Dubletten rauszuhauen, was geht.

Nach meinem Dafürhalten gibt es wenigstens 2 Dimensionen von Google. In der ersten Dimension wäre da alles, was Google bei einer Suchanfrage als Suchergebnisse ausweist. Die zweite Dimension ist der Suchindex. Beide Dimensionen haben nichts miteinander zu tun.

Im Suchindex landet alles bzw. indexiert wird alles, wessen Google habhaft werden kann im Internet. Davon zu trennen ist die Frage, was Google letztlich als Ergebnis einer Suchanfrage ausspuckt.

Die Google-Dimensionen Suchanfrage und Suchindex

Deutlich wird dies, wenn man sich Erläuterungen zur Indexierung in offiziellen Google-Stellungnahmen durchliest. Zum von Google neu eingeführten Meta-Tag unavailable_after liest man im offiziellen Google-Blog folgende Anmerkungen:

After the removal, the page stops showing in Google search results but it is not removed from our system. If you need a page to be excised from our systems completely, including any internal copies we might have, you should use the existing URL removal tool which you can read about on our Webmaster Central blog.

(Hervorhebungen durch mich)

Mit Hilfe des Meta-Tags unavailable_after wird eben nur etwas in der 1. Dimension geändert, nicht aber in der 2.

Wer meint, mittels Removal-Request über die Webmaster-Zentrale bei Google beliebige Inhalte aus dem Google-Index, also der 2. Dimension, raushauen zu können, dürfte sich getäuscht sehen. Zum einen sind die Anforderungen an die Löschung aus dem Index technisch sehr hoch und zum anderen weiß man nicht wirklich, ob Google durch Änderungen in der 1. Dimension nur vorgaukelt, man habe besagte Inhalte auch aus dem Index vollkommen gelöscht.

Was bedeutet das für Duplicate Content?

Aus dem Genannten folgt, daß man kaum eine Möglichkeit hat Informationen, die irgendwie bei Google im Index gelandet sind (2. Dimension), dort jemals wieder rauszubekommen. Anstrengungen, mittels Robot.txt usf. Verzeichnisse vor Google-Augen zu schützen sind lediglich Empfehlungen für Google, die dortigen Entdeckungen in der 1. Dimension (bei den Suchanfragen) nicht auszuweisen.

Dubletten und das Wahlverfahren

Selbiges gilt auch für Dubletten.

Ist ein Artikel fünfmal unter einer URL zu finden, indexiert Google diesen Artikel auch fünfmal. Nunmehr kann man mittels Robot.txt- und sonstigen Anti-Duplicate-Content-Maßnahmen lediglich Google anweisen, welche der Dubletten man bevorzugt und ergo in der 1. Dimension erscheinen soll.

Google kann nicht zwischen Haupt-Content und Dubletten unterscheiden!?

Google kann sehr wohl unterscheiden, was Haupt-Content und was Dublette ist, zumal wenn sämtliche Inhalte unter einer URL firmieren.

Duplicate Content und der Faktor Mensch

Durch den Vergleich der Maßnahmen, die ein Blog-Inhaber anstrengt, um Dubletten zu beseitigen, in Vorher/Nachher-Manier versucht Google wohl einzuschätzen, wie wichtig einem Website-Inhaber die Website ist.

Wertiger wird eine Website bzw. ein Blog aus meiner Sicht daher nicht, daß der Blog Dubletten (Duplicate Content) aufweist, sondern daß der Inhaber des Blogs klarmacht, daß er Google das Leben erleichtern will.

Wie Websites bewertet werden

An dieser Stelle dürfte auch wieder der Faktor Mensch eine Rolle bei der Bewertung einer Website spielen. Ein Spamer hat kaum Interesse daran, sich die Mühe zu machen, und Dubletten aus Google rauszuhauen, während ein redlicher Mensch dieses Interesse besitzt respektive besitzen sollte.

Einfacher wird es dadurch nicht, Duplicate Content zu verhindern, und schmeichelhaft finde ich meine Theorie auch nicht.

Wenn Dir der Artikel gefallen hat, registriere den kostenlosen RSS-Feed von ProbloggerWorld.