Robots.txt – So wird´s gemacht

Fachartikel
April 18, 2012

An diesem Mittwoch dreht sich alles rund um das Thema Robots.txt. Wir wollen uns anschauen, wie man eine Robots.txt erstellt, wie man die häufigsten Fehler vermeiden kann und welche Alternativen es gibt. Bevor ich jedoch anfange, möchte ich ein paar Grundlagen erklären.

Robots.txt – Was ist das?

Mit der Robots.txt hat der Webmaster die Möglichkeit festzulegen, welche Unterseiten und Verzeichnisse seiner Webseite von den Suchmaschinen nicht indiziert werden sollen. Es gibt eine Vielzahl an Gründen, warum Seiten oder Verzeichnisse von der Indexierung ausgeschlossen werden. So sollten beispielsweise keine Seiten indexiert werden, die sich noch im Aufbau befinden oder lediglich für private Zwecke genutzt werden.

Das Robots Exclusion Standard Protokol

Um das zu ermöglichen, wurde 1994 durch eine unabhängige Gruppierung der Robots Exclusion Standard ins Leben gerufen. Mittlerweile gilt das Protokoll als allgemein anerkannt und kann als Quasi-Standard betrachtet werden.

Im Protokoll ist festgelegt, dass ein User Agent (Robot) beim Aufruf einer Webseite zuerst im Root-Verzeichnis der Domain nach einer Datei mit Namen robots.txt sucht und diese anschließend ausliest und interpretiert.
!!Wichtig!! – Der Dateiname muss komplett in Kleinbuchstaben geschrieben werden.
In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Robot besucht werden darf. Das Protokoll ist rein hinweisend und somit auf die Mitarbeit der Robots angewiesen. Die bekannten Suchmaschinen halten sich in der Regel an die Anweisungen in der Robots.txt, sofern diese syntaktisch korrekt sind.
Das ausschließen bestimmter URLs einer Webpräsenz durch das Protokoll garantiert keine Geheimhaltung. Um ein Dokument wirklich geheim zu halten, sollte man auf andere Verfahren wie eine Http-Authentifizierung, eine Access Control List (ACL) oder eine ähnliche Variante zurückgreifen. Nähere Informationen zum Schutz von Webseiten findet ihr unter anderem bei der Uni Koblenz Landau.

Der Aufbau einer Robots.txt

Nachdem ich jetzt etwas auf die Grundlagen eingegangen bin, wollen wir uns mit dem Aufbau der Robots.txt beschäftigen. Eine Robots.txt ist prinzipiell leicht zu erstellen, man braucht nichts weiter als einen Texteditor. Mittlerweile finden sich auch einige kostenlose Tools für Webmaster, die den Prozess automatisieren. In den Webmaster Tools von Google gibt es ebenfalls einen Robots.txt-Generator. Hierfür wird allerdings ein Google-Konto benötigt.
Die Robots.txt besteht aus verschiedenen Datensätzen (records), die nach einem ganz bestimmten Schema aufgebaut sind. Ein Datensatz besteht grundsätzlich aus zwei Teilen. Im ersten Teil wird angegeben, für welche Robots (User Agents) die nachfolgenden Anweisungen gelten sollen. Im zweiten Teil werden die Anweisungen selbst notiert:

User-agent: Googlebot
Disallow:

Mit dem User Agent haben wir also festgelegt, dass dieser Datensatz nur für den Googlebot gilt. In der nächsten Zeile finden wir einen leeren Disallow-Eintrag. Verzichtet man beim Disallow auf die Angabe einer Datei oder eines Verzeichnisses bedeutet das, dass alle Seiten in den Index aufgenommen werden dürfen.

– Den gegenteiligen Effekt hat die Verwendung eines einzelnen Slashs (/), hier wird die gesamte Webseite von der Indexierung ausgenommen:

User-agent: Googlebot
Disallow: /

– Möchte man bestimmte Dateien oder Verzeichnisse für alle Robots ausschließen, gibt es eine sogenannte Wildchar (*) – einen Platzhalter, der für alle Robots gilt:

User-agent: *
Disallow: /beispiel-verzeichnis/

– Es kann natürlich vorkommen, dass wir eine Regel formulieren wollen, die beispielsweise nur für den Googlebot und den Yahoo!-Webcrawler gilt. Die Robots.txt erlaubt deshalb auch Mehrfacheinträge. Die Namen der verschiedenen Webcrawler (Robots) findet ihr beispielsweise auf der Seite robotstxt.org. Für diejenigen unter euch, die es ganz genau wissen wollen, kann man sich dort auch die vollständigen Daten zu den Robots anschauen.

Einige wichtige User Agents habe ich mal in einer kleinen Liste zusammengetragen:

User Agent	Suche
Googlebot	Google
Googlebot-Image	Google-Bildersuche
Adsbot-Google	Google-Adwords
MediaPartners-Google	Google-Adsense
Slurp	Yahoo
Msnbot / bingbot	MSN / bing
ia_archiver	Internet Archive

User-agent: googlebot
User-agent: slurp
Disallow: /beispiel-verzeichnis/

– Möchte man mehrere Seiten von der Indexierung ausschließen, muss für jede Datei bzw. jedes Verzeichnis eine eigene Disallow-Zeile erstellt werden. Die Angabe mehrerer Pfade in einer Disallow-Zeile führt zu Fehlern.

User-agent: googlebot
Disallow: /beispiel-verzeichnis/
Disallow: /beispiel-verzeichnis-2/
Disallow: /beispiel-datei.html

– Die Robots.txt erlaubt zwar keine regulären Ausdrücke, aber es gibt eine Möglichkeit Dateien auszuschließen, die eine bestimmte Zeichenfolge enthalten:

User-agent: *
Disallow: /beispiel

Diese Regel würde dazu führen, dass alle URLs, die mit /beispiel anfangen, nicht in den Index aufgenommen werden. Dabei spielt es keine Rolle, ob es sich um eine Datei (/beispiel.html) oder um ein Verzeichnis (/beispiel-verzeichnis/datei-1.html) handelt.

– Die letzte allgemeine Regel, die ich anspreche, ermöglicht das Ausschließen von Dateien mit bestimmten Dateiendungen:

User-agent: *
Disallow: /*.jpg$

Der Stern dient an dieser Stelle als Platzhalter für eine beliebige Zeichenfolge. Das Dollar-Zeichen am Ende besagt, dass nach der Dateiendung nichts mehr folgen darf. Wir haben also ein Mittel um verschiedene Datei-Typen, wie Bilder, Programmdateien oder auch Log-Files von der Indexierung auszuschließen.

Erweiterungen der Regeln

Es gibt noch ein paar weitere sehr interessante Regeln, die allerdings nicht von allen Robots interpretiert werden können. Deshalb werde ich alle folgenden Regel auf den Googlebot beziehen, da dieser in der Lage ist diese Regeln zu verstehen.
Möchte man speziell Verzeichnisse ausschließen, die mit einer bestimmten Zeichenkette beginnen, kann folgende Regel angewendet werden:

User-agent: Googlebot
Disallow: /beispiel-verzeichnis*/

So würden beispielsweise die Verzeichnisse /beispiel-verzeichnis-1/ und /beispiel-verzeichnis-2/ nicht indexiert werden.

– Häufig kommt es vor, dass dieselbe Seite durch die Verwendung von Parametern mehrmals im Index der Suchmaschinen auftaucht. Dies kann beispielsweise durch die Verwendung von Formularen oder bestimmter Filter-Funktionen passieren:

User-agent: Googlebot
Disallow: /*?

Durch diese Regel werden alle Pfade, die ein Fragezeichen in der URL enthalten, von der Indexierung ausgeschlossen.

– Ein weiterer Eintrag, der häufig in der Robots.txt zu finden ist, ist die Angabe einer Sitemap:

Sitemap: http://www.beispielseite.de/sitemap.xml

Dieser Eintrag sagt dem Robot, wo er die Sitmap der Seite finden kann. An dieser Stelle sollten alle Sitemaps einer Seite aufgeführt werden.

– Mehrere Einträge sind folgendermaßen anzugeben:

Sitemap: http://www.beispielseite.de/sitemap.xml
Sitemap: http://www.beispielseite.de/sitemap-bilder.xml

Die IETF (Internet Engineering Task Force) führte neben der Disallow-Anweisung auch die Allow-Anweisung ein, diese wird noch nicht von jedem Robot unterstützt. Man sollte also lieber darauf verzichten und sich auf Disallow-Anweisungen beschränken.

Prüfen der fertigen Robots.txt

Natürlich können sich bei längeren Regeln schnell Fehler einschleichen, deswegen sollte man die erstellten Regeln nochmal überprüfen lassen. Eine Möglichkeit bieten die Google-Webmaster-Tools (Website-Konfiguaration –>Crawler-Zugriff), ein weiteres Tool findet man hier und hier. Bei den beiden letztgenannten Tools muss die Robots.txt bereits auf dem Server liegen.

Alternativen zur Robots.txt

Nachdem wir nun ausführlich auf die Erstellung einer Robots.txt eingegangen sind, wollen wir uns noch eine Alternative anschauen. Die Robots.txt ist nicht die einzige Möglichkeit um den Suchmaschinen mitzuteilen, welche Seiten in den Index aufgenommen werden dürfen. Eine Alternative ist das Robots-Meta-Tag, welches wie die anderen Meta-Tags im Head-Bereich einer Seite definiert wird. Diese Variante bietet sich an, um einzelne Seiten von der Indexierung auszuschließen. Das ausschließen ganzer Verzeichnisse ist hier allerdings nicht möglich. Möchte man jedoch sicher gehen, dass eine Seite nicht im Index der Suchmaschinen auftaucht ist dies die sicherere Variante.

<meta name=“robots“ content=“noindex, follow“ />

Mit diesem Eintrag, können wir den Suchmaschinen-Robots mitteilen, dass die Seite nicht indexiert werden soll, jedoch die Links auf dieser Seite vom Crawler besucht werden sollen.

– Möchte man jetzt auch noch das Archivieren einer Seite durch die Suchmaschinen untersagen, dann lässt sich ein dritter Wert einfügen:

<meta name=“robots“ content=“noindex, nofollow, noarchive“ />

Fazit:

Abschließend möchte ich nochmal kurz ein paar Worte zur Robots.txt verlieren. Was man sich immer vor Augen halten muss ist, dass ein Eintrag in der Robots.txt nicht garantiert, dass eine Seite nicht indexiert wird. Möchte man wirklich sicher gehen, sollte man die entsprechende Seite über das Robots-Meta-Tag auf noindex setzen. Matt Cutts geht in diesem kurzen Video genau auf diese Problematik ein:

Sie sehen gerade einen Platzhalterinhalt von Youtube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Inhalt entsperren Erforderlichen Service akzeptieren und Inhalte entsperren

Zum Abschluss möchte ich noch ein paar Hinweise geben, die man im Umgang mit der Robots.txt beachten sollte:

Groß- und Kleinschreibung ist signifikant
Zwei Regeln werden durch eine Leerzeile voneinander getrennt
Jede Regel wirkt für sich selbst, es gibt keine Abhängigkeiten
Falsche Syntax kann zu schweren Fehlern führen (Syntax checken)
Jede Disallow-Anweisung sollte mit einem Slash (/) beginnen

Weiterführende Informationen zum Thema:

Ich hoffe, euch hat der Artikel gefallen, auch wenn es diesmal sehr viele Code-Zeilen zu lesen gab. Falls ihr noch weiterer Anregungen oder Fragen habt, können wir dies gerne in den Kommentaren diskutieren.

Phillip und die SEO-Trainees.

OnPage

Lust auf einen Gastartikel?

Möchtest du einen Gastartikel auf SEO-Trainee.de veröffentlichen? Dann schau dir unsere Richtlinien für Gastbeiträge an und melde dich ganz einfach bei uns! Wir freuen uns von dir zu hören

Kontakt aufnehmen

39 Antworten

Ani sagt:

8. April 2017 um 07:21 Uhr

Dank euch konnte ich nun endlich meine URL bei den Webmastertools erfolgreich einreichen. Danke für diesen ausführlichen und nicht langweilige Textbeschreibung.

Antworten
Anna sagt:

2. März 2017 um 17:26 Uhr

Auch wenn der Beitrag etwas älter ist sind die Infos aktuell. Danke dafür!

Antworten
Eugen Detastic sagt:

1. Oktober 2015 um 14:52 Uhr

Find den Beitrag soweit auch super und gelungen. Eine Verständnisfrage habe ich allerdings noch. Wenn ich das richtig verstanden habe dann kann man alle Ordner und Seiten, die auf dem Server liegen, von der Indexierung ausschließen. Bei der WordPress Installation hat man aber keine Seiten wie im klassischen Stil. Wie geht man da vor? Habe ich etwas überlesen?

Mfg Eugen

Antworten
1. Phillip sagt:
  
  5. Oktober 2015 um 09:22 Uhr
  
  Hallo Eugen,
  
  das hast du richtig verstanden, prinzipiell ist das möglich. Bei WordPress verhällt es sich am Ende genau so, nur das die einzelnen Seiten nicht physisch auf dem Server liegen, sondern erst zur Laufzeit auf dem Server generiert werden. Dies macht es etwas schwieriger, bestimmten Verzeichnisse oder Seiten ein noindex mitzugeben. Die einfachste Lösung ist hier der Einsatz eines SEO-Plugins, wie Beispielsweise das von uns sehr zu empfehlende Plugin WordPress SEOvon Yoast. Das Plugin bietet Dir die Möglichkeit die Indexierung einzelner Artikel, statischer Seiten oder auch ganzer Kategorien und vieles nützliches mehr. Hoffe das bringt Dich einen Schritt weiter.
  
  Viele Grüße
  Phillip
  
  Antworten
hundekörbchen sagt:

31. August 2015 um 03:15 Uhr

Hallo toller beitrag..ich hab mal ne frage und zwar hab ich eine wordpress seite erstellt habe gleich am anfang suchmaschinen indixierung ausgeschalten..weil ich noch nicht wollte das meine Seite indixiert wird..erst wenn sie fertig ist…so jetz hab ich das Häkchen wieder weggemacht..das die suchmaschienen meine Seite finden..aber irgendwie ist die Seite dennoch nicht sichtbar für Suchmaschinen..dauert das ne weile bis die nicht indixierung wieder weg ist?? oder muss ich da jetz an der robot txt was ändern meine robot txt sieht momentan so aus :
User-agent: *
Disallow: /wp-admin/
was bedeutet denn das jetz disallow/wp-admin??
würd mich auf ne antwort freuen gruss

Antworten
1. Sandra Mannebach sagt:
  
  31. August 2015 um 16:21 Uhr
  
  Hallo!
  Es kann durchaus sein, dass der Suchmaschinen-Bot eine Weile braucht, bis er die Seiten gecrawlt und indexiert hat. Wenn das wirklich deine einzigen Einträge in der robots-txt sind, musst du dir keine Sorgen machen. „Disallow: /wp-admin/“ steht für die Einlog-Seite deiner Website und bedeutet, dass nur deine Login-Seite nicht indexiert werden soll. Dies ist auch völlig in Ordnung so! Viele Grüße!
  
  Antworten
  1. hundekörbchen sagt:
    
    12. September 2015 um 14:01 Uhr
    
    Okay hört sich gut an..dann wart ich mal ab.
    Danke für die schnelle Antwort.
    LG
    
    Antworten
David sagt:

29. Oktober 2014 um 17:38 Uhr

Danke für den Artikel. Eine kleine Frage hierzu: Du schreibst, dass jeder Eintrag für sich selbst wirkt, es also keine Abhängigkeiten gibt. Was passiert aber, wenn sich widersprechende Regeln gefunden werden. Beispiel:

User-agent: Googlebot-Image
Disallow:

User-agent: *
Disallow: /

Darf hier der Googlebot-Image crawlen oder nicht? Das * aus dem zweiten Eintrag würde sich ja auch auf Googlebot-Image beziehen und dem Bot das Crawlen verbieten. Würde es einen Unterschied machen, wenn ich die beiden Einträge vertauschen würde? Oder zieht die erste Regel in jedem Fall, da sie spezieller ist als die *-Regel?

Antworten
1. Phillip sagt:
  
  7. November 2014 um 15:12 Uhr
  
  Hallo David, entschuldige die späte Rückmeldung. Die Angaben in der robots.txt werden von oben nach unten verarbeitet. Sobald ein Robot auf eine Anweisung stößt, die Ihn selbst betrifft, werden keine anderen Regeln mehr verarbeitet. Desshalb empfiehlt es sich Anweisungen für spezielle Robots vor den allgemeinen Anweisungen zu platzieren. Also um deine Frage zu beantworten, ein Vertauschen der Reglen würde durchaus einen Unterschied machen.
  
  Viele Grüße
  Phillip
  
  Antworten
Lothar sagt:

26. September 2014 um 19:03 Uhr

Hallo. Die Begriffe verwirren mich ein wenig. Befindet sich das Root-Verzeichnis innerhalb des Ordners WordPress. Oder eine Ebene oberhalb? In meinem Server ganz oben ist ein unbenannter gelber Ordner. Darunter ist der Ordner WordPress. Wo gehört nun die robots.txt rein? Ganz oben in den unbenannten? Oder in den Ordner WordPress? Es wäre schön, wenn Sie mir antworten könnten. Vielen Dank!

Antworten
1. Tobias Nitschke sagt:
  
  29. September 2014 um 16:34 Uhr
  
  Hallo Lothar,
  
  die robots.txt ist generell im ersten Ordner, dort, wo beispielsweise auch die .htaccess-Datei liegt oder ordner wie WP-Admin, WP-Content etc. – da gehört die robots.txt rein.
  
  Viele Grüße
  Tobias
  
  Antworten
2. Tobias Nitschke sagt:
  
  6. Oktober 2014 um 11:36 Uhr
  
  Hallo Lothar,
  
  mit Root-Verzeichnis ist das WordPress Stammverzeichnis gemeint, also der Ordner indem das WordPress installiert wurde. Es ist nicht das Root-Verzeichnis des Servers gemeint, dies hat vermutlich zu der Verwirrung geführt. Wenn ich ihre Mail richtige interpretiere dann ist das WordPress-Root-Verzeichnis bei Ihnen der Ordner WordPress. Innerhalb des Ordners WordPress sollte sich im Normalfall die wp-config.php, die robots.txt und auch die .htaccess-Datei befinden.
  Ich schreibe im Normallfall, weil es auch Möglichkeiten gibt einige Dateien und Verzeichnisse aus dem WordPress-Root-Verzeichnis herauszunehmen. Dies ist aber nicht ohne weitere Anpassungen möglich und bei Ihnen vermutlich nicht der Fall. Wenn Sie also eine Standard WordPress-Installation verwenden, dann bitte wie oben beschrieben alle genannten Dateien in das Verzeichnis WordPress legen, denn ohne die wp-config.php wird die Website nicht mehr funktionieren, da hier die Zugangsdaten für die Datenbank hinterlegt sind.
  
  Ich hoffe ich konnte die Unklarheiten beseitigen.
  
  Viele Grüße
  Tobias
  
  Antworten
Michael sagt:

2. Juli 2014 um 14:34 Uhr

Das mit der Indexierung ist doch Unsinn. Eine robots.txt schützt in keinem Fall vor Indexierung. Sonst gäbe es nicht diese Vielzahl von Ergebnissen im Google Index, an denen der Hinweis erscheint, dass Google nicht mehr dazu verraten kann, weil die robots.txt die Seite für Google sperrt.
Also eine robots.txt dient der Einschränkung des Crawlings, nicht der Einschränkung der Indexierung.

Antworten
1. Gesa sagt:
  
  2. Juli 2014 um 14:45 Uhr
  
  Hallo Michael,
  da hast du vollkommen recht. Dies schreibt Phillip ja auch unter der Überschrift „Alternativen zur robots.txt“ und empfiehlt stattdessen das noindex-Meta-Tag, wenn man sichergehen möchte, dass Inhalte nicht indexiert werden.
  
  Liebe Grüße,
  Gesa
  
  Antworten
Markus Dörle sagt:

20. Mai 2014 um 20:30 Uhr

Ich habe das mit den veralteten Metatags leider immer noch nicht richtig verstanden ?

Antworten
1. Sabine sagt:
  
  21. Mai 2014 um 09:48 Uhr
  
  Hallo Markus,
  
  vielleicht hilft dir da unser Glossar-Eintrag zu den Meta-Tags weiter: https://www.seo-trainee.de/glossar/meta-tags/
  
  Viele Grüße,
  Sabine
  
  Antworten
  1. Markus Dörle sagt:
    
    22. Mai 2014 um 13:42 Uhr
    
    Hi Sabine,
    
    ok hab ich soweit verstanden, warum aber zeigt w3c bei manchen metas fehler an ?
    
    Antworten
    1. Sabine sagt:
      
      22. Mai 2014 um 14:58 Uhr
      
      Hi Markus,
      
      das kann ich dir ohne genaue Informationen leider nicht sagen. Vielleicht ist ein Fehler in der Syntax deines HTML-Codes.
      Falls du den Validator vom W3C genutzt hast, gibt es hier Tipps dazu:
      
      http://validator.w3.org/docs/help.html
      
      Ansonsten kannst du auch im XHTML-Forum nachschauen:
      
      http://xhtmlforum.de/
      
      Viele Grüße,
      Sabine
      
      Antworten
Jeffrey sagt:

2. Mai 2014 um 15:52 Uhr

Wenn ich die „Alternativen zur Robots.txt“ benutze bin ich da auf der sicheren Seite oder ist das eher schlecht. Eine Seite von mir bekommt das stets bei Seitwert „Die Datei robots.txt wurde nicht gefunden“ angezeigt, aber ich benutze ja den meta tag.

Antworten
Andreas sagt:

29. Januar 2014 um 10:50 Uhr

Hallo Phillip,

wie sieht es mittlerweile mit der Allow-Anweisung aus?
In meiner Robot.txt ist folgendes enthalten:

# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*

Danke für den Beitrag und viele Grüße
Andreas

Antworten
Daniela sagt:

2. Juli 2013 um 11:37 Uhr

Hallo,

habe leider noch keine Lösung gefunden. Wer kann mir helfen?

Wie kann ich der virtuellen robots.txt des WordPress-Plugins ‚Google XML Sitemap‘ Absätze hinzufügen? (betrifft Sachen die nicht in den Plugin-Einstellungen vorhanden sind)

Danke im voraus und liebe Grüsse
Daniela

Antworten
bridge sagt:

14. Mai 2013 um 10:16 Uhr

Danke für das informative Artikel. Habe ebene diese Informationen gesucht!

Antworten
Andreas sagt:

28. Januar 2013 um 21:41 Uhr

Vielen Dank für den super Artikel. Genau was ich gesucht habe. Sehr hilfreich.

Antworten
Daniela sagt:

5. Oktober 2012 um 08:05 Uhr

Hallo,

danke für den auführlichen Kommentar. Ich nutze ebenfalls die virtuelle robots.txt von WordPress, was super funktioniert.

Eine Frage hätte ich noch dazu: Wie kann ich in dieser virtuellen Datei Änderungen vornehmen um einzelne Teile der Webseite auszuschließen? Bei den Webmaster-tools habe ich zwar unter Status – Blockierte URLs die Möglichkeit zum testen, aber diese Änderungen werden nicht gespeichert.

Danke. LG Daniela

Antworten
Hans sagt:

12. September 2012 um 09:01 Uhr

Einfach nur gut!
Vielen Dank – konnte vor dem Artikel net wirklich viel mit Robots.txt anfangen, das hat sich nun geändert 🙂
lg

Antworten
ElMeik sagt:

11. Juli 2012 um 22:08 Uhr

Hey Phil 🙂

Wie immer mal wieder ein sehr aufschlußreicher Artikel. Besonders das Video von Matt hat mir sehr gut gefallen und jetzt verstehe ich das mit der robots.txt auch besser…eigentlich will ich gar nichts ausschließen aber ich habe gelesen, dass das reine Vorhandensein der (leere) Datei bereits etwas bringen soll, da es wie eine Einladung gewertet wird. Frei nach dem Motto „Immer hereinspaziert Ihr Robots..hier gibts nix was nicht gesehen werden darf“ 🙂 Hoffe das meine Info an der Stelle korrekt ist. Ich freue mich schon auf weiteren Input von Euch – weiter so!

Antworten
Mika sagt:

7. Juni 2012 um 18:26 Uhr

Wirklich klasse erklärt, Respekt!

Viele Grüße Mika

Antworten
Sven sagt:

29. April 2012 um 08:44 Uhr

Hallo, na endlich mal ne schöne ausführliche Beschreibung zur Robots.txt. Danke schön geschrieben. Mal sehen ob ich das alles Fehlerfrei umsetze.

Antworten
Andy sagt:

26. April 2012 um 10:08 Uhr

Vielen Dank, für das tolle und ausführliche Tutorial. Habe mich davor noch nie mit der Robots beschäftigt, weil ich keine Ahnung davon hatte. Jetzt kann ich mich auch mal an das Thema ran wagen.

Antworten
Phillip sagt:

25. April 2012 um 10:31 Uhr

Vielen Dank für das große Lob. Freut mich das es euch gefallen hat, mal sehen was wir uns als nächstes einfallen lassen ;).

Beste Grüße
Phillip

Antworten
Beatrice sagt:

24. April 2012 um 23:02 Uhr

Danke für die Super-Erklärung. Das wurde wirklich mal sehr ausführlich behandelt und führt alle Möglichkeiten auf, wie robots.txt so zu erstellen ist, wie man es für die eigene Website braucht und die Suchroboter diese auch exakt lesen können.

Antworten
Christian sagt:

23. April 2012 um 17:32 Uhr

Danke für die Erklärung! Es geistern ja einige fertige Copy&Paste-robots.txt im Netz herum, bei denen aber teilweise noch die Feed-Seite ausgesperrt wird. Früher dachte man dass das zu DC führen könnte… tut es nicht. Wessen Blog also nicht in der Google-Blogsuche erscheint, sollte mal seine robots checken.

Antworten
Harald sagt:

23. April 2012 um 07:04 Uhr

Vielen Dank für die Erläuterungen. Ich habe gerade einen neune Blog angefangen und da erstmal einen Beitrag draufgestellt. Das mit der robots.txt wusste ich gar nicht und habe es gleich mal ergänzt.

Antworten
David sagt:

22. April 2012 um 15:10 Uhr

Ich danke sehr herzlich für die Tipps. Sind die zwei Microsoftbots eigentlich unterschiedlich, das heißt muss ich beide ausstellen, oder genügt es, den bingbot zu kappen?

Antworten
1. Phillip sagt:
  
  25. April 2012 um 10:27 Uhr
  
  Hi David,gerne doch. Das kann ich dir nicht sicher beantworten, im Zweifel würde ich einfach beide ansprechen. Du hast ja die Möglichkeit, eine Regel auch für zwei User Agents anzulegen.
  
  Beste Grüße
  Phillip
  
  Antworten
Don sagt:

21. April 2012 um 08:30 Uhr

Vielen Dank euch für den Artikel, als ob ihr Gedanken lesen könntet, genau das To Do, was ich diese Tage brauchen werde.

Antworten
Otti sagt:

19. April 2012 um 08:45 Uhr

Hallo,
das ist eine sehr interessante Zusammenfassung und wirklich gute Erklärung, echt top.

Ich hätte zu dem Thema zwei Fragen. Werden die Angaben in der robots.txt gegenüber den Angaben im Meta-Tag bevorzugt behandelt?

Ich nutze in meionem Blog das Google XML Sitemaps Plugin, dort wird von einer virtuellen robots.txt von WordPress gesprochen. Kann man diese irgendwie einsehen?

Gruß Otti

Antworten
1. Phillip sagt:
  
  19. April 2012 um 10:25 Uhr
  
  Moin Otti,
  vielen Dank. Freut mich, dass dir der Artikel gefällt.
  
  Zu deinen ersten Frage:
  Soweit ich weiß, wird die robots.txt nicht bevorzugt behandelt, die Robots der Suchmaschinen schauen sich in der Regel beide Varianten an, bevor Sie eine Webseite besuchen. Es gibt jedoch ein kleinen Unterschied zwischen den Angaben in der Robots.txt und den in den Metas, der in dem angehängten Video von Matt Cutts deutlich wird. Eine Seite die durch die robots.txt von der Indexierung ausgeschlossen wird, kann trotzdem in den Serps auftauchen, wenn Google der Meinung ist, dass diese Seite wichtig ist. Dies kann beispielsweise dann der Fall sein, wenn die Seite sehr stark von außen verlinkt ist.
  Um sicherzugehen, dass die Seite nicht im Index auftaucht, musst du die Meta-Angabe setzen. Zusätzlich bieten die Webmaster-Tools noch die Möglichkeit bestimmte Seiten aus dem Index zu entfernen.
  
  Zu der zweiten Frage:
  Das ist richtig, WordPress legt immer dann eine virtuelle robots.txt an, wenn keine physische robots.txt in deinem Root-Verzeichnis liegt. Du musst einfach mal versuchen deine-domain.de/robots.txt aufzurufen, dann solltest du sie sehen können. Sobald du eine eigene robots.txt angelegt hast, ist die virtuelle von WordPress eh hinfällig.
  
  Beste Grüße
  Phillip
  
  Antworten
  1. Otti sagt:
    
    19. April 2012 um 15:56 Uhr
    
    Hallo Phillip,
    
    vielen Dank für die ausführliche und klärende Rückantwort.
    
    Ok, den Aufruf der robots.txt in Bezug auf die virtuell erstellte Datei von WordPress, hätte ich mir denken können bzw. sollen. 😉 *facepalm*
    
    So kann ich also ruhig meine robtos.txt von Hand anlegen, den Inhalt der virtuell erstellten Datei dort einfügen und um meine gewünschten Optionen ergänzen. Ich werde mich ein wenig näher damit befassen und Deine weiterführenden Links dazu nutzen. Es scheint ja doch eine ganze Menge möglich zu sein.
    
    Gruß Otti
    
    Antworten

Robots.txt – So wird´s gemacht

Robots.txt – Was ist das?

Das Robots Exclusion Standard Protokol

Der Aufbau einer Robots.txt

Erweiterungen der Regeln

Prüfen der fertigen Robots.txt

Alternativen zur Robots.txt

Fazit:

Weiterführende Informationen zum Thema:

Lust auf einen Gastartikel?

Autor:In

Recap – CAMPIXX 2023

Save the Date – Online Expert Days 2023s (OMX & SEOkomm)

Save the Date – CAMPIXX 2024

Buchrezension: Conversion-Optimierung: Erfolgreiche Webseiten und Digitalkampagnen von Tobias Looschelders

SEO-Monatsrückblick Oktober 2023

SEO-Trainee.de wird 13! 13 SEO-Trends für 2023 & Geburtstagsgewinnspiel

Themen

Related Posts

Der 12. e-Commerce Day by Kaufland – Die Veranstaltung für die Digital-Community

Buchrezension: Conversion-Optimierung: Erfolgreiche Webseiten und Digitalkampagnen von Tobias Looschelders

SEO-Monatsrückblick Februar 2024

39 Antworten

Schreibe einen Kommentar Antworten abbrechen

SEO-Trainee.de ist der Blog der SEO-Trainees der artaxo GmbH.