Was ihr über Duplicate Content wissen müsst

SEO Trainee

Was ihr über Duplicate Content wissen müsst

Geschrieben von
Was ihr über Duplicate Content wissen müsst
Share on Facebook0Share on Google+33Tweet about this on TwitterEmail this to someone

Duplicate Content wurde in letzter Zeit häufig diskutiert, nicht zuletzt auch aufgrund von widersprüchlichen Aussagen von Google selbst. Doch beginnen wir von vorne: In diesem Fachartikel will ich klären, was Duplicate Content überhaupt ist, wie man ihn vermeidet und natürlich, ob er wirklich schädlich ist.

Was ist Duplicate Content?

Stempel Original und Duplizierung

Quelle: webseoanalytics.com

Als Duplicate Content (DC) oder doppelten Inhalt bezeichnet man sich wiederholende oder ähnliche Textpassagen bzw. Inhalte, die über verschiedene URLs aufzurufen sind. Diese können innerhalb einer Domain auftreten oder es handelt sich um gleiche Inhalte auf unterschiedlichen Domains. Suchmaschinen haben den Anspruch, ihren Usern nur einzigartige Ergebnisse anzuzeigen. Wenn eine Suchmaschine auf Duplicate Content stößt und ihn als solchen erkennt, zeigt sie häufig nur eines der Ergebnisse in den SERPs an und wählt nach eigenen Kriterien aus, welches der Ergebnisse angezeigt wird. Welche Kriterien das sind, lest ihr in der folgenden Infografik, die ich auf searchengineland gefunden habe:

Wie Duplicate Content bestimmt wird

Quelle: searchengineland.com

Wenn andere Domains auf den Inhalt der Website verlinken, wird das Problem größer. Einige verlinken auf den Content unter URL A, andere auf denselben Content unter URL B. Da nur eine der URLs von Google gewertet wird, geht wertvolle Power verloren. Mit DC kann man also nicht sein ganzes Ranking-Potenzial ausschöpfen.

Wie kommt es zu Duplicate Content?

Die Gründe, wieso es zu doppelten Inhalten kommt, sind sehr vielseitig. Häufig liegen technische Fehler vor:

Durch identische Produktbeschreibungen, Texte und Metaangaben

Häufig werden Produktbeschreibungen der Einfachheit halber kopiert oder es werden keine individuellen Titles und Descriptions im Quellcode hinterlegt, sodass Duplicate Content entsteht.

Durch URL-Parameter

URL-Parameter ermöglichen viele nützliche Funktionen, wie das Tracken von Traffic-Quellen. Für die Suchmaschine entstehen durch jegliche Parameter unterschiedliche URLs und damit Duplicate Content.

Durch Kommentarpaginierung

In einigen Content-Management-Systemen gibt es die Option, die Kommentare per Paginierung auf verschiedenen Seiten zu verteilen. Es entsteht dadurch www.beispiel.de sowie www.beispiel.de/kommentarseite-1/, www.beispiel.de/kommentarseite-2/ usw.

Durch Print-Versionen der Seiten

Wenn die Artikelseiten einer Website auf die Print-Versionen verlinken, stößt auch der Google-Bot auf sie und wird dann DC feststellen.

Durch Session-IDs

Um die Besucher einer Website zu tracken, vergibt man Sessions. Sessions ermöglichen es beispielsweise, dass der User Produkte in den Warenkorb legen kann. Die Session-IDs dienen dabei als einzigartiges Identifikationsmerkmal. Da jedem User eine neue Session-ID zugeordnet wird, besteht die Gefahr von DC.

Durch andere Domains, die den Inhalt ebenfalls veröffentlichen

Tatsächlich liegen die Gründe von Duplicate Content häufig innerhalb der Domain und sind auf „Fehler“ des Webmasters zurückzuführen. Es entstehen aber auch doppelte Inhalte, wenn andere Websites den Content ebenfalls bei sich selber online stellen, evtl. sogar mit Genehmigung des Urhebers. Wenn allerdings nicht auf die Originalquelle verlinkt wird, kann Google nicht erkennen, wem der Vorzug in den Suchergebnissen gegeben werden soll.

Durch URLs mit und ohne www

Wenn die Seite mit und ohne www davor aufrufbar ist, handelt es sich um Duplicate Content. Häufig erkennt die Suchmaschine trotz unterschiedlicher Schreibweisen, dass es sich um dieselbe Seite handelt. Dasselbe gilt für http und https. Allerdings ist es besser, sich nicht darauf zu verlassen, denn manchmal erkennt die Suchmaschine es eben doch nicht.

Durch Groß- und Kleinschreibung in URLs

Es empfiehlt sich, ausschließlich Kleinschreibung in der URL zu verwenden. Aus derselben URL mit Groß- und Kleinschreibung erkennt Google sonst zwei unterschiedliche Seiten:  www.beispiel.de/Beispielseite und www.beispiel.de/beispielseite.

Durch unterschiedliche Reihenfolge von Parametern

URL-Parameter sollten generell im Hinblick auf Duplicate Content vermieden werden. Die Parameter in einer URL sind in ihrer Reihenfolge austauschbar, das heißt: www.beispiel.de/?cat=2&id=1 ist dieselbe Seite wie www.beispiel.de/?id=1&cat=2. Für die Suchmaschine sind das zwei komplett unterschiedliche Seiten.

Durch gewollte Manipulation der Suchergebnisse

Wer denselben Content absichtlich auf mehreren Seiten veröffentlicht, um besser zu ranken oder mehr Traffic zu generieren, riskiert eine Abstrafung von Google. Meist wird DC aber unbeabsichtigt geschaffen. Google selber sagt: Nur wer DC als Manipulationsinstrument nutzt, muss eine Abstrafung von Google fürchten.

Duplicate Content finden

Um zu prüfen, ob eine Website von Duplicate Content betroffen ist, bietet sich die Google-Suche an. Dazu kopiert man in das Suchfeld einen Satz, der auf der Website steht. Erhält man mehr als einen Treffer, gibt es Duplicate Content, den die Suchmaschine noch nicht herausgefiltert hat. Wenn die Suchmaschine Duplicate Content herausfiltert, wird er erstmal nicht in den SERPs angezeigt. Der folgende Text von Google, der in den SERPs erscheinen kann, lässt auf Duplicate Content schließen:Dieser Text lässt auf Duplicate Content schließen

Im Falle, dass dieser Text angezeigt wird, sollte man sich auch die herausgefilterten Ergebnisse anzeigen lassen, um DC aufzudecken. Auch bestimmte Parameter sind bei der Google-Suche hilfreich. Die Abfrage Site:beispiel.de intitle:“Beispielseite“ zeigt alle Seiten der Domain www.beispiel.de an, die das Keyword „Beispielseite“ im Title enthalten. Eine weitere Möglichkeit: In den Webmaster Tools bekommt man unter Search Appearance > HTML Improvements doppelte Title-Tags angezeigt.

Interner Duplicate Content lässt sich weiterhin sehr gut mit dem Screaming Frog entdecken. Hier könnt ihr euren Crawl nach dem „Hash“ sortieren. Duplicate Content wird im Screaming Frog durch einen identischen Hash angezeigt.

Duplicate Content vermeiden

Weiterleitungen

Wenn Inhalte auf einer Seite umgezogen werden, was im Rahmen eines Relaunches häufig vorkommt, dann muss man konsequent auf Weiterleitungen achten. Dazu kann man in der htaccess-Datei die Statuscodes 301 und 302 anwenden. 301 ist für eine dauerhafte Weiterleitung gedacht, vererbt den Linkjuice weiter und sollte daher für permanente Veränderungen vorgezogen werden. 302 ist nur für temporäre Weiterleitungen empfehlenswert, da sie den Linkjuice nicht vererbt. Für eine genaue Anleitung kann ich diesen SEO-Trainee-Artikel empfehlen.

Canonical-Tag

Das Canonical Tag verweist auf eine in den SERPs zu bevorzugende Version der angezeigten URL. Es kommt daher besonders bei Onlineshops zum Einsatz, die auf mehreren Seiten identische Produkte anzeigen. Das Canonical Tag kann aber auch domain-übergreifend angewendet werden, wenn eine andere Quelle zitiert wird und man Google zeigen möchte, wer der Urheber des Textes ist. Das Tag wird als Meta Tag im Head-Bereichs des HTML-Dokuments gesetzt: <link href=“http://www.beispiel.de/kanonische-version-dieser-seite/“ rel=“canonical“ />

Interne Verlinkung

Die interne Verlinkung sollte einheitlich erfolgen. Ist die kanonische Seite als http://www.beispiel.de definiert, sollte immer auf die URL-Version mit http:// und www. verlinkt werden (z. B. auf http://www.beispiel.de/beispiel.html und nicht auf http://beispiel.de/seite.html).

CC TLDs nutzen

Um länderspezifischen Content kenntlich zu machen, empfiehlt Google, die Country Code Top Level Domains .de, .co.uk, .fr usw. zu nutzen. Also lieber http://www.beispiel.de als http://www.beispiel.com/de.

Google Webmaster Tools nutzen

Über die Webmaster Tools kann man Google mitteilen, wie die Domain indexiert werden soll: zum Beispiel http://www.beispiel.de oder http://beispiel.de. Außerdem kann man Google über das Parameter Handling Tool mitteilen, wie mit unterschiedlichen URL-Parametern umgegangen werden soll.

Einzigartige Inhalte schaffen

Für Produkte, die sich ähneln, sind trotzdem individuelle Produktbeschreibungen sinnvoll.

Das Meta-Tag „noindex, follow“ nutzen

Mit dem „noindex, follow“-Tag versehene Seiten werden von Google nicht indexiert.

Auf Originalquelle verweisen

Wenn das Setzen des Canonical-Tags nicht möglich sein sollte (z. B. kein Zugriff auf den Head-Bereich im HTML-Dokument), kann immer per Link auf die Originalquelle verwiesen werden.

Weg mit Platzhalterseiten

Wenn noch Content für eine Seite fehlt, sollte sie bestenfalls nicht veröffentlicht werden. Alternativ kann das Meta-Tag „noindex“ verwendet werden.

Das eigene Content-Management-System (CMS) verstehen

Inhalte werden vom CMS teilweise automatisch unter verschiedenen URLs veröffentlicht. Blogger kennen das: Der Blog-Post erscheint gleichzeitig auf der Homepage, im Archiv und unter der Seite, unter der alle Artikel zu demselben Schlagwort erschienen sind.

Wie schädlich ist Duplicate Content wirklich?

Darüber, wie schädlich doppelte Inhalte wirklich sind, wird unter SEOs viel diskutiert. Schenkt man dem Video von Matt Cutts Glauben, schadet DC nur, wenn er spammy ist oder Keyword-Stuffing enthält. Allerdings ist es eine Sache, einer Abstrafung wegen DC zu entgehen, und eine andere Sache, sein Ranking-Potenzial voll und ganz auszunutzen. Denn DC ist, auch wenn er nicht zur Abstrafung führt, eine verschenkte Chance. Mehr einzigartige Inhalte bedeuten a) eine bessere User-Experience und b) das Ausschöpfen von Keyword-Potenzialen. Sowohl die Suchmaschine als auch der Nutzer können bei der Vermeidung von Duplicate Content die Struktur einer Seite besser verstehen: Wo sind welche Inhalte zu finden? Welche Seiten sind für welches Keyword wirklich relevant? Im Hinblick auf Duplicate Content sollte man also nicht nur für Google optimieren, sondern auch für den Nutzer. Denn dann ist auch Google glücklich!

Noch eine schöne Restwoche wünschen euch

Gesa und die SEO Trainees

SEO Trainee
Was die wundervolle Welt des SEO noch alles für mich bereithält, weiß ich noch nicht genau – aber dass die SEO-Welt spannend, bunt und abwechslungsreich ist, habe ich schon gemerkt! Ich liebe es ganz besonders zu schreiben und kreativ mit Worten umzugehen. Daher ist es für mich toll, diesen Blog weiter mit Leben füllen zu dürfen. Da ich seit meinem Studium beratend tätig sein möchte, freue ich mich jetzt schon sehr darauf, im direkten Kontakt mit den Kunden zu stehen. Viele weitere Facetten der Suchmaschinenoptimierung warten noch darauf, von mir entdeckt zu werden. Ich bin gespannt!

Bewerte unsere Artikel

Hat dir der Artikel gefallen? Sag es uns und bewerte ihn mit den Hütchen.
0
 
6.7/7 (24 Bewertungen)
Dieser Artikel wurde am Mittwoch, den 11. September 2013 geschrieben. Wir freuen uns auf Deine Meinung, nutz hierfür einfach die Kommentarfunktion.
37 Kommentare bisher • RSS-Feed für Kommentare
Hinterlasse Deinen Kommentar!
  • Lara sagt:

    Hallo Gesa,

    vielen Dank für diese ausführliche Beleuchtung. Am besten entgeht man dem DC-Problem, wenn man tatsächlich einzigartigen Inhalt veröffentlicht. Problematisch sehe ich dies nur bei Zitaten und bei Pressemitteilungen. Ohnehin wundert es mich, das identische Pressemitteilungen und Artikel in Artikelverzeichnissen ranken, obgleich es offensichtlich der identische Inhalt ist.

    Die Frage die auch interessant ist, ist die Menge an DC. Ist es problematisch, wenn der Inhalt zu 10%, 20%, 30% 40% identisch ist, oder wird dies womöglich als Erweiterung/ Vertiefung eines Themas interpretiert?

    Antworten darauf habe ich weder bei den google webmaster hilfen noch in anderen Foren gefunden. Also müssen wir wohl selber testen.

    Viele Grüsse
    Lara

    • Gesa sagt:

      Hi Lara,

      danke für deine Meinung! Ich denke, Google wird uns nie genügend Informationen zur Verfügung stellen, um das Puzzle „Algorithmus“ zu lösen. Es bleibt also beim Ausprobieren. 🙂 Hier ein Video von Matt Cutts in dem auch das Thema Pressemitteilungen angesprochen wird. Bei Pressemitteilungen ist man auf jeden Fall auf der sicheren Seite, wenn man sie zuerst auf der eigenen Website veröffentlicht und in der Mitteilung auf diese Originalquelle verweist. Aber viele Fragen bleiben offen…

      Liebe Grüße

      Gesa

  • Sebastian sagt:

    Witzigerweise habe ich mir vor wenigen Stunden genau die Frage gestellt, die auch Lara hat: Ab wann ist DC DC? – Antworten darauf habe ich bisher leider auch noch nicht finden können.

    Danke für den Artikel und die gute Zusammenfassung Gesa. Schön, hier nochmal alles wichtige auf einen Blick zu haben.

    • Gesa sagt:

      Ja, das stimmt! Selbst bei intensiver Recherche findet man nicht die Antworten auf alle Fragen und das macht es doch sehr schwierig. So müssen wir selber ausprobieren oder auf ein „Häppchen“ von Matt Cutts warten, wenn mal wieder ein neues Webmaster Help Video zum Thema DC erscheint.

  • Maria sagt:

    Hallo Lara,

    Es ist erstaunlich wie viel man beim Online Marketing beachten muss. „Nur wer DC als Manipulationsinstrument nutzt, muss eine Abstrafung von Google fürchten.“

    Dies ist zwar keine eindeutige Angabe darüber, ab wann ein Dublicate Content kreiert wird, aber es ist doch eindeutig feststellbar, ob ein Teil eines Satzes zufällig identisch ist mit dem eines anderen Textes, oder ob der Text aus anderem Content übernommen wurde.

    Ich freue mich schon auf weitere Beiträge 🙂

  • […] Was Ihr über Duplicate Content wissen müsst […]

  • Robin sagt:

    Hallo,

    sehr anschaulicher und ausführlich beschreibender Artikel, bei dem die wichtigsten Aspekte über duplicate content gut ausgeführt werden. Danke.

    Grüße

  • Harald sagt:

    Endlich ein schöner Artikel zu DC!!!

    Dem Thema „Durch gewollte Manipulation der Suchergebnisse“ habe ich mich am Beispiel der Presseportale angenommen und nebst rel=canonical auch rel=nofollow betrachtet: http://primweb.de/presseportale-seo-tod/

  • Patrick Jander sagt:

    Hey,

    vielen Dank für den guten Beitrag.
    Auf dem Gebiet kenne Ich mich noch nicht wirklich aus. Meine Seite hat da definitiv noch Defzite.

    Aber mit Hilfe von eurem Blog weiss Ich nun wieder etwas mehr.
    Vielen Dank hierfür.

    Schönen Abend,

    Patrick

    • Gesa sagt:

      Hi Patrick,
      an dieser Stelle ein altkluger Spruch: Im SEO lermt man nie aus und man muss sich ständig weiterbilden! Daher schön, wenn du unseren Blog liest 😉

  • Marco De Micheli sagt:

    Sehr guter Beitrag, der die Problematik des Dublicate Content sehr gut umschreibt. Bei massiven Verletzungen kann Google jemanden dadurch empfindlich abstrafen. Interessant wäre noch die Frage, ab welchen und wie vielen Modifikationen ein Text nicht mehr als DC definiert wird.

  • Patricia sagt:

    Wo ich mir trotzdem nicht sicher bin:
    Wenn in einem Webshop 2x der gleiche Artikel auftaucht (unter der selben Domain) – einmal in weiß und eimal in schwarz und die Produktbeschreibung im Fließtext identisch ist, ist das dann DC oder nicht?
    Herzlichen Dank schon mal für eure fachmännische Antwort!

    • Gesa sagt:

      Hallo Patricia,
      ja da würde man von DC sprechen – wie Google damit umgeht ist aber nicht immer absehbar. Ich würde sagen, lieber auf Nummer sicher gehen. 🙂 Wer genügend Ressourcen hat, erstellt im Idealfall individuelle Produktbeschreibungen, so dass man mit beiden Produkten bei Google ranken kann. So wirst du gefunden, wenn jemand nach „Pullover schwarz“ als auch „Pullover weiß“ sucht. Google liebt einzigartige Inhalte! Allerdings ist das sicherlich sehr aufwendig. Wer also identische Produktbeschreibungen für zwei unterschiedliche Produkte einsetzt, sollte unbedingt das Canonical Tag benutzen. Ich hoffe, ich konnte helfen?

      Liebe Grüße
      Gesa

      • Patricia sagt:

        Ja, vielen Dank!
        Hatte mir etwas weniger Arbeit erhofft 😉

        • Hendrik sagt:

          Hallo Patricia,

          es gibt Abkürzungen, die zwar etwas umstritten sind, aber derzeit super funktionieren. Dabei handelt es sich um sogenanntes Text-Spinning.

          Beim Spinning macht man durch Hinzufügen von Absatz-, Satz- und weiteren Synonymen aus einem 20, 50 oder noch mehr Texte. Diese Maßnahme ist besonders kosteneffizient für die Kategorie-Beschreibungen von Online-Shops. Mehr dazu hier: http://www.hewo-internetmarketing.de/anleitungen/seo-suchmaschinenoptimierung/text-spinning/

          Wichtig dabei ist, dass man sehr „tief“ spinnen muss, damit es wirklich kein Duplicate Content ist. Und man sollte natürlich auf die Leserlichkeit achten, damit man seine Besucher nicht vergrault.

          Bei Fragen kannst du mich gerne ansprechen.

          Grüße

          Hendrik

          • Patricia sagt:

            Danke dir Henrik!
            Bei meinem aktuellen Projekt lassen es Umfang und Budget leider nicht zu so tief und technisch einzusteigen, aber vielleicht brauch ich das ein andermal.
            Viele Grüße
            Patricia

  • Google Webmaster Tools - eine Einführung sagt:

    […] sehr wichtig, wenn man dynamische URLs auf seiner Seite generiert. Denn so können Probleme mit Duplicate Content gelöst und ein effizientes Crawling der Seite ermöglicht […]

  • Bing Webmaster Tools – eine Einführung sagt:

    […] ist eine wichtige Funktion, um Duplicate Content, also doppelte Inhalte, zu vermeiden. Parameter entstehen zum Beispiel durch Filterfunktionen oder […]

  • Lothar sagt:

    Gut, dann will ich hier mal eine Frage in den Raum stellen. Ich habe eine kleine Affilite-Seite. Ich beobachte meine Konkurrenz. Und muss sagen, dass die 2 stärksten Seiten in diesem Metier mehrmals pro Monat eine Pressemitteilung aus irgendeinem Presseportal fast wortwörtlich als Artikel dahin stellen. Unter der Rubrik „News“. Die beiden Seiten, die das machen, wären – wenn sie von Google abgestraft würden – sicher nicht die 2 stärksten Seiten. Für mich stellt sich die Frage, ob ich das auch machen soll. So dass ca. jeder 5. Artikel eine Pressemitteilung ist. Die ich aber etwas umschreiben würde. Reines Kopieren gibts bei mir nicht.
    Frage 1 wäre also: was meint ihr dazu? Frage 2 wäre: hat jemand eine Ahnung, ob man Pressemitteilungen einfach so nehmen darf. Auch wenn man sie umschreibt. Es geht bei dieser Frage um Uhrheberrecht.
    Ich freue mich auf eure Antworten. Vielen Dank!

  • Stanke sagt:

    Guten Tag,

    wie kann ich prüfen ob meine Internetseite Dublicate Content aufweisst ?
    Meine WEbseite lautet : http://www.limo-mieten.com

    Vielen Dank!

  • Chris sagt:

    „Auf Originalquelle verweisen

    Wenn das Setzen des Canonical-Tags nicht möglich sein sollte (z. B. kein Zugriff auf den Head-Bereich im HTML-Dokument), kann immer per Link auf die Originalquelle verwiesen werden.“

    Ist das verifiziert?
    D.h. ich schreibe einfach unter meinen Text:
    „Dieser Beitrag XYZ wurde veröffentlicht auf meinedomain.de.“ …und verlinke diesen Teil auf den Original-Artikel?

    Dann habe/bekomme ich kein DC Problem?

    • Gesa sagt:

      Hi Chris,

      ja, so in etwa würde ich mir das vorstellen! Hier ein Zitat von Google dazu: „However, it is helpful to ensure that each site on which your content is syndicated includes a link back to your original article.“

  • […] Man sollte nicht den Fehler machen und andere Blogs einfach kopieren. Dies könnte nicht nur rechtliche Konsequenzen nach sich ziehen, auch Google mag solche Kopien gar nicht und entwertet kopierte Artikel (Duplicate Content). […]

  • […] Der Grund: Die Suchmaschine möchte den Usern einzigartige Ergebnisse anzeigen. Wenn sie auf Duplicate Content stößt, entscheidet sie quasi nach eigenem Ermessen, welches der Ergebnisse tatsächlich in den […]

  • Lutze sagt:

    Gibt da eine ganz gute Möglichkeit, die Webseite überprüfen zu lassen.
    http://www.seitenreport.de
    Aber is alles mit Vorsicht zu genießen, weil keiner genau weiß, was Google wirklich will..;-)

  • […] Duplicate Content sollte immer vermieden werden. Man sendet damit ein Signal, dass man technisch in der Lage ist, einen vernünftige Website oder einen hochwertigen Shop zu programmieren. Wenn sich Duplicate Content partout nicht vermeiden lässt, dann muss das „canonical“-Tag zum Einsatz kommen. Denn nur so kann man Google 100%ig eindeutig mitteilen, wo sich der Original-Content befindet.   Mythos 9: Je mehr relevante bzw. ähnliche Artikel ich auf einer Produktseite verlinke, umso besser. […]

  • Vinil sagt:

    Hello from USA, Gesa,
    I’ve been referred to this article as a great resource regarding duplicate content for e-commerce sites. It looks like a lot of great information. Do you have this in an english version by any chance? I’m sure a lot more people could benefit from this knowledge!
    Thanks,

  • fatih sagt:

    seo content ist sehr wichtig für google Rank oder auch Traffic

  • Mixer Vergleich sagt:

    Vielen Dank für diesen sehr hilfreichen Artikel!

  • Marcel sagt:

    Hallo, guter Artikel aber eins ist mir nicht klar geworden;

    Ich und auch sehr viele andere verwenden von WIKIPEDIA Text / ganze Seiten, muss der Canonical-Tag also immer auf WikiPedia gesetzt werden ?

  • Sven123 sagt:

    Anscheinend gibt es ein neues Tool, das sehr zuverlässig doppelten Content in Google finden kann. Hier der Post bei Abakus:

    https://goo.gl/h2PIi5

    Gruß Sven

Ergänzungen oder Fragen? Diesen Artikel kommentieren: