Was ihr über Duplicate Content wissen müsst

SEO-Trainee.de

Was ihr über Duplicate Content wissen müsst

Geschrieben von
Was ihr über Duplicate Content wissen müsst
Share on Facebook45Share on Google+29Tweet about this on TwitterEmail this to someone

Duplicate Content wurde in letzter Zeit häufig diskutiert, nicht zuletzt auch aufgrund von widersprüchlichen Aussagen von Google selbst. Doch beginnen wir von vorne: In diesem Fachartikel will ich klären, was Duplicate Content überhaupt ist, wie man ihn vermeidet und natürlich, ob er wirklich schädlich ist.

Was ist Duplicate Content?

Stempel Original und Duplizierung

Quelle: webseoanalytics.com

Als Duplicate Content (DC) oder doppelten Inhalt bezeichnet man sich wiederholende oder ähnliche Textpassagen bzw. Inhalte, die über verschiedene URLs aufzurufen sind. Diese können innerhalb einer Domain auftreten oder es handelt sich um gleiche Inhalte auf unterschiedlichen Domains. Suchmaschinen haben den Anspruch, ihren Usern nur einzigartige Ergebnisse anzuzeigen. Wenn eine Suchmaschine auf Duplicate Content stößt und ihn als solchen erkennt, zeigt sie häufig nur eines der Ergebnisse in den SERPs an und wählt nach eigenen Kriterien aus, welches der Ergebnisse angezeigt wird. Welche Kriterien das sind, lest ihr in der folgenden Infografik, die ich auf searchengineland gefunden habe:

Wie Duplicate Content bestimmt wird

Quelle: searchengineland.com

Wenn andere Domains auf den Inhalt der Website verlinken, wird das Problem größer. Einige verlinken auf den Content unter URL A, andere auf denselben Content unter URL B. Da nur eine der URLs von Google gewertet wird, geht wertvolle Power verloren. Mit DC kann man also nicht sein ganzes Ranking-Potenzial ausschöpfen.

Wie kommt es zu Duplicate Content?

Die Gründe, wieso es zu doppelten Inhalten kommt, sind sehr vielseitig. Häufig liegen technische Fehler vor:

Durch identische Produktbeschreibungen, Texte und Metaangaben

Häufig werden Produktbeschreibungen der Einfachheit halber kopiert oder es werden keine individuellen Titles und Descriptions im Quellcode hinterlegt, sodass Duplicate Content entsteht.

Durch URL-Parameter

URL-Parameter ermöglichen viele nützliche Funktionen, wie das Tracken von Traffic-Quellen. Für die Suchmaschine entstehen durch jegliche Parameter unterschiedliche URLs und damit Duplicate Content.

Durch Kommentarpaginierung

In einigen Content-Management-Systemen gibt es die Option, die Kommentare per Paginierung auf verschiedenen Seiten zu verteilen. Es entsteht dadurch www.beispiel.de sowie www.beispiel.de/kommentarseite-1/, www.beispiel.de/kommentarseite-2/ usw.

Durch Print-Versionen der Seiten

Wenn die Artikelseiten einer Website auf die Print-Versionen verlinken, stößt auch der Google-Bot auf sie und wird dann DC feststellen.

Durch Session-IDs

Um die Besucher einer Website zu tracken, vergibt man Sessions. Sessions ermöglichen es beispielsweise, dass der User Produkte in den Warenkorb legen kann. Die Session-IDs dienen dabei als einzigartiges Identifikationsmerkmal. Da jedem User eine neue Session-ID zugeordnet wird, besteht die Gefahr von DC.

Durch andere Domains, die den Inhalt ebenfalls veröffentlichen

Tatsächlich liegen die Gründe von Duplicate Content häufig innerhalb der Domain und sind auf „Fehler“ des Webmasters zurückzuführen. Es entstehen aber auch doppelte Inhalte, wenn andere Websites den Content ebenfalls bei sich selber online stellen, evtl. sogar mit Genehmigung des Urhebers. Wenn allerdings nicht auf die Originalquelle verlinkt wird, kann Google nicht erkennen, wem der Vorzug in den Suchergebnissen gegeben werden soll.

Durch URLs mit und ohne www

Wenn die Seite mit und ohne www davor aufrufbar ist, handelt es sich um Duplicate Content. Häufig erkennt die Suchmaschine trotz unterschiedlicher Schreibweisen, dass es sich um dieselbe Seite handelt. Dasselbe gilt für http und https. Allerdings ist es besser, sich nicht darauf zu verlassen, denn manchmal erkennt die Suchmaschine es eben doch nicht.

Durch Groß- und Kleinschreibung in URLs

Es empfiehlt sich, ausschließlich Kleinschreibung in der URL zu verwenden. Aus derselben URL mit Groß- und Kleinschreibung erkennt Google sonst zwei unterschiedliche Seiten:  www.beispiel.de/Beispielseite und www.beispiel.de/beispielseite.

Durch unterschiedliche Reihenfolge von Parametern

URL-Parameter sollten generell im Hinblick auf Duplicate Content vermieden werden. Die Parameter in einer URL sind in ihrer Reihenfolge austauschbar, das heißt: www.beispiel.de/?cat=2&id=1 ist dieselbe Seite wie www.beispiel.de/?id=1&cat=2. Für die Suchmaschine sind das zwei komplett unterschiedliche Seiten.

Durch gewollte Manipulation der Suchergebnisse

Wer denselben Content absichtlich auf mehreren Seiten veröffentlicht, um besser zu ranken oder mehr Traffic zu generieren, riskiert eine Abstrafung von Google. Meist wird DC aber unbeabsichtigt geschaffen. Google selber sagt: Nur wer DC als Manipulationsinstrument nutzt, muss eine Abstrafung von Google fürchten.

Duplicate Content finden

Um zu prüfen, ob eine Website von Duplicate Content betroffen ist, bietet sich die Google-Suche an. Dazu kopiert man in das Suchfeld einen Satz, der auf der Website steht. Erhält man mehr als einen Treffer, gibt es Duplicate Content, den die Suchmaschine noch nicht herausgefiltert hat. Wenn die Suchmaschine Duplicate Content herausfiltert, wird er erstmal nicht in den SERPs angezeigt. Der folgende Text von Google, der in den SERPs erscheinen kann, lässt auf Duplicate Content schließen:Dieser Text lässt auf Duplicate Content schließen

Im Falle, dass dieser Text angezeigt wird, sollte man sich auch die herausgefilterten Ergebnisse anzeigen lassen, um DC aufzudecken. Auch bestimmte Parameter sind bei der Google-Suche hilfreich. Die Abfrage Site:beispiel.de intitle:“Beispielseite“ zeigt alle Seiten der Domain www.beispiel.de an, die das Keyword „Beispielseite“ im Title enthalten. Eine weitere Möglichkeit: In den Webmaster Tools bekommt man unter Search Appearance > HTML Improvements doppelte Title-Tags angezeigt.

Interner Duplicate Content lässt sich weiterhin sehr gut mit dem Screaming Frog entdecken. Hier könnt ihr euren Crawl nach dem „Hash“ sortieren. Duplicate Content wird im Screaming Frog durch einen identischen Hash angezeigt.

Duplicate Content vermeiden

Weiterleitungen

Wenn Inhalte auf einer Seite umgezogen werden, was im Rahmen eines Relaunches häufig vorkommt, dann muss man konsequent auf Weiterleitungen achten. Dazu kann man in der htaccess-Datei die Statuscodes 301 und 302 anwenden. 301 ist für eine dauerhafte Weiterleitung gedacht, vererbt den Linkjuice weiter und sollte daher für permanente Veränderungen vorgezogen werden. 302 ist nur für temporäre Weiterleitungen empfehlenswert, da sie den Linkjuice nicht vererbt. Für eine genaue Anleitung kann ich diesen SEO-Trainee-Artikel empfehlen.

Canonical-Tag

Das Canonical Tag verweist auf eine in den SERPs zu bevorzugende Version der angezeigten URL. Es kommt daher besonders bei Onlineshops zum Einsatz, die auf mehreren Seiten identische Produkte anzeigen. Das Canonical Tag kann aber auch domain-übergreifend angewendet werden, wenn eine andere Quelle zitiert wird und man Google zeigen möchte, wer der Urheber des Textes ist. Das Tag wird als Meta Tag im Head-Bereichs des HTML-Dokuments gesetzt: <link href=“http://www.beispiel.de/kanonische-version-dieser-seite/“ rel=“canonical“ />

Interne Verlinkung

Die interne Verlinkung sollte einheitlich erfolgen. Ist die kanonische Seite als http://www.beispiel.de definiert, sollte immer auf die URL-Version mit http:// und www. verlinkt werden (z. B. auf http://www.beispiel.de/beispiel.html und nicht auf http://beispiel.de/seite.html).

CC TLDs nutzen

Um länderspezifischen Content kenntlich zu machen, empfiehlt Google, die Country Code Top Level Domains .de, .co.uk, .fr usw. zu nutzen. Also lieber http://www.beispiel.de als http://www.beispiel.com/de.

Google Webmaster Tools nutzen

Über die Webmaster Tools kann man Google mitteilen, wie die Domain indexiert werden soll: zum Beispiel http://www.beispiel.de oder http://beispiel.de. Außerdem kann man Google über das Parameter Handling Tool mitteilen, wie mit unterschiedlichen URL-Parametern umgegangen werden soll.

Einzigartige Inhalte schaffen

Für Produkte, die sich ähneln, sind trotzdem individuelle Produktbeschreibungen sinnvoll.

Das Meta-Tag „noindex, follow“ nutzen

Mit dem „noindex, follow“-Tag versehene Seiten werden von Google nicht indexiert.

Auf Originalquelle verweisen

Wenn das Setzen des Canonical-Tags nicht möglich sein sollte (z. B. kein Zugriff auf den Head-Bereich im HTML-Dokument), kann immer per Link auf die Originalquelle verwiesen werden.

Weg mit Platzhalterseiten

Wenn noch Content für eine Seite fehlt, sollte sie bestenfalls nicht veröffentlicht werden. Alternativ kann das Meta-Tag „noindex“ verwendet werden.

Das eigene Content-Management-System (CMS) verstehen

Inhalte werden vom CMS teilweise automatisch unter verschiedenen URLs veröffentlicht. Blogger kennen das: Der Blog-Post erscheint gleichzeitig auf der Homepage, im Archiv und unter der Seite, unter der alle Artikel zu demselben Schlagwort erschienen sind.

Wie schädlich ist Duplicate Content wirklich?

Darüber, wie schädlich doppelte Inhalte wirklich sind, wird unter SEOs viel diskutiert. Schenkt man dem Video von Matt Cutts Glauben, schadet DC nur, wenn er spammy ist oder Keyword-Stuffing enthält. Allerdings ist es eine Sache, einer Abstrafung wegen DC zu entgehen, und eine andere Sache, sein Ranking-Potenzial voll und ganz auszunutzen. Denn DC ist, auch wenn er nicht zur Abstrafung führt, eine verschenkte Chance. Mehr einzigartige Inhalte bedeuten a) eine bessere User-Experience und b) das Ausschöpfen von Keyword-Potenzialen. Sowohl die Suchmaschine als auch der Nutzer können bei der Vermeidung von Duplicate Content die Struktur einer Seite besser verstehen: Wo sind welche Inhalte zu finden? Welche Seiten sind für welches Keyword wirklich relevant? Im Hinblick auf Duplicate Content sollte man also nicht nur für Google optimieren, sondern auch für den Nutzer. Denn dann ist auch Google glücklich!

Noch eine schöne Restwoche wünschen euch

Gesa und die SEO Trainees

SEO Trainee
Was die wundervolle Welt des SEO noch alles für mich bereithält, weiß ich noch nicht genau – aber dass die SEO-Welt spannend, bunt und abwechslungsreich ist, habe ich schon gemerkt! Ich liebe es ganz besonders zu schreiben und kreativ mit Worten umzugehen. Daher ist es für mich toll, diesen Blog weiter mit Leben füllen zu dürfen. Da ich seit meinem Studium beratend tätig sein möchte, freue ich mich jetzt schon sehr darauf, im direkten Kontakt mit den Kunden zu stehen. Viele weitere Facetten der Suchmaschinenoptimierung warten noch darauf, von mir entdeckt zu werden. Ich bin gespannt!

Bewerte unsere Artikel

Hat dir der Artikel gefallen? Sag es uns und bewerte ihn mit den Hütchen.
0
 
6.7/7 (26 Bewertungen)
Dieser Artikel wurde am Mittwoch, den 11. September 2013 geschrieben. Wir freuen uns auf Deine Meinung, nutz hierfür einfach die Kommentarfunktion.
37 Kommentare bisher • RSS-Feed für Kommentare
Hinterlasse Deinen Kommentar!

Ergänzungen oder Fragen? Diesen Artikel kommentieren: