Robots.txt – So wird´s gemacht

SEO-Trainee.de

Robots.txt – So wird´s gemacht

Geschrieben von
Robots.txt – So wird´s gemacht
Share on Facebook37Share on Google+12Tweet about this on TwitterEmail this to someone

An diesem Mittwoch dreht sich alles rund um das Thema Robots.txt. Wir wollen uns anschauen, wie man eine Robots.txt erstellt, wie man die häufigsten Fehler vermeiden kann und welche Alternativen es gibt. Bevor ich jedoch anfange, möchte ich ein paar Grundlagen erklären.

Robots.txt – Was ist das?

Mit der Robots.txt hat der Webmaster die Möglichkeit festzulegen, welche Unterseiten und Verzeichnisse seiner Webseite von den Suchmaschinen nicht indiziert werden sollen. Es gibt eine Vielzahl an Gründen, warum Seiten oder Verzeichnisse von der Indexierung ausgeschlossen werden. So sollten beispielsweise keine Seiten indexiert werden, die sich noch im Aufbau befinden oder lediglich für private Zwecke genutzt werden.

Das Robots Exclusion Standard Protokol

Um das zu ermöglichen, wurde 1994 durch eine unabhängige Gruppierung der Robots Exclusion Standard ins Leben gerufen. Mittlerweile gilt das Protokoll als allgemein anerkannt und kann als Quasi-Standard betrachtet werden.

© iStockphoto/Thinkstock

Im Protokoll ist festgelegt, dass ein User Agent (Robot) beim Aufruf einer Webseite zuerst im Root-Verzeichnis der Domain nach einer Datei mit Namen robots.txt sucht und diese anschließend ausliest und interpretiert.
!!Wichtig!! – Der Dateiname muss komplett in Kleinbuchstaben geschrieben werden.
In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Robot besucht werden darf. Das Protokoll ist rein hinweisend und somit auf die Mitarbeit der Robots angewiesen. Die bekannten Suchmaschinen halten sich in der Regel an die Anweisungen in der Robots.txt, sofern diese syntaktisch korrekt sind.
Das ausschließen bestimmter URLs einer Webpräsenz durch das Protokoll garantiert keine Geheimhaltung. Um ein Dokument wirklich geheim zu halten, sollte man auf andere Verfahren wie eine Http-Authentifizierung, eine Access Control List (ACL) oder eine ähnliche Variante zurückgreifen. Nähere Informationen zum Schutz von Webseiten findet ihr unter anderem bei der Uni Koblenz Landau.

Der Aufbau einer Robots.txt

Nachdem ich jetzt etwas auf die Grundlagen eingegangen bin, wollen wir uns mit dem Aufbau der Robots.txt beschäftigen. Eine Robots.txt ist prinzipiell leicht zu erstellen, man braucht nichts weiter als einen Texteditor. Mittlerweile finden sich auch einige kostenlose Tools für Webmaster, die den Prozess automatisieren. In den Webmaster Tools von Google gibt es ebenfalls einen Robots.txt-Generator. Hierfür wird allerdings ein Google-Konto benötigt.
Die Robots.txt besteht aus verschiedenen Datensätzen (records), die nach einem ganz bestimmten Schema aufgebaut sind. Ein Datensatz besteht grundsätzlich aus zwei Teilen. Im ersten Teil wird angegeben, für welche Robots (User Agents) die nachfolgenden Anweisungen gelten sollen. Im zweiten Teil werden die Anweisungen selbst notiert:


User-agent: Googlebot
Disallow:

Mit dem User Agent haben wir also festgelegt, dass dieser Datensatz nur für den Googlebot gilt. In der nächsten Zeile finden wir einen leeren Disallow-Eintrag. Verzichtet man beim Disallow auf die Angabe einer Datei oder eines Verzeichnisses bedeutet das, dass alle Seiten in den Index aufgenommen werden dürfen.

 

– Den gegenteiligen Effekt hat die Verwendung eines einzelnen Slashs (/), hier wird die gesamte Webseite von der Indexierung ausgenommen:


User-agent: Googlebot
Disallow: /

 

– Möchte man bestimmte Dateien oder Verzeichnisse für alle Robots ausschließen, gibt es eine sogenannte Wildchar (*) – einen Platzhalter, der für alle Robots gilt:


User-agent: *
Disallow: /beispiel-verzeichnis/

 

– Es kann natürlich vorkommen, dass wir eine Regel formulieren wollen, die beispielsweise nur für den Googlebot und den Yahoo!-Webcrawler gilt. Die Robots.txt erlaubt deshalb auch Mehrfacheinträge. Die Namen der verschiedenen Webcrawler (Robots) findet ihr beispielsweise auf der Seite robotstxt.org. Für diejenigen unter euch, die es ganz genau wissen wollen, kann man sich dort auch die vollständigen Daten zu den Robots anschauen.

Einige wichtige User Agents habe ich mal in einer kleinen Liste zusammengetragen:

User Agent Suche
Googlebot Google
Googlebot-Image Google-Bildersuche
Adsbot-Google Google-Adwords
MediaPartners-Google Google-Adsense
Slurp Yahoo
Msnbot / bingbot MSN / bing
ia_archiver Internet Archive

User-agent: googlebot
User-agent: slurp
Disallow: /beispiel-verzeichnis/

 

– Möchte man mehrere Seiten von der Indexierung ausschließen, muss für jede Datei bzw. jedes Verzeichnis eine eigene Disallow-Zeile erstellt werden. Die Angabe mehrerer Pfade in einer Disallow-Zeile führt zu Fehlern.


User-agent: googlebot
Disallow: /beispiel-verzeichnis/
Disallow: /beispiel-verzeichnis-2/
Disallow: /beispiel-datei.html

 

– Die Robots.txt erlaubt zwar keine regulären Ausdrücke, aber es gibt eine Möglichkeit Dateien auszuschließen, die eine bestimmte Zeichenfolge enthalten:


User-agent: *
Disallow: /beispiel

Diese Regel würde dazu führen, dass alle URLs, die mit /beispiel anfangen, nicht in den Index aufgenommen werden. Dabei spielt es keine Rolle, ob es sich um eine Datei (/beispiel.html) oder um ein Verzeichnis (/beispiel-verzeichnis/datei-1.html) handelt.

 

– Die letzte allgemeine Regel, die ich anspreche, ermöglicht das Ausschließen von Dateien mit bestimmten Dateiendungen:


User-agent: *
Disallow: /*.jpg$

Der Stern dient an dieser Stelle als Platzhalter für eine beliebige Zeichenfolge. Das Dollar-Zeichen am Ende besagt, dass nach der Dateiendung nichts mehr folgen darf. Wir haben also ein Mittel um verschiedene Datei-Typen, wie Bilder, Programmdateien oder auch Log-Files von der Indexierung auszuschließen.

Erweiterungen der Regeln

Es gibt noch ein paar weitere sehr interessante Regeln, die allerdings nicht von allen Robots interpretiert werden können. Deshalb werde ich alle folgenden Regel auf den Googlebot beziehen, da dieser in der Lage ist diese Regeln zu verstehen.
Möchte man speziell Verzeichnisse ausschließen, die mit einer bestimmten Zeichenkette beginnen, kann folgende Regel angewendet werden:


User-agent: Googlebot
Disallow: /beispiel-verzeichnis*/

So würden beispielsweise die Verzeichnisse /beispiel-verzeichnis-1/ und /beispiel-verzeichnis-2/ nicht indexiert werden.

 

– Häufig kommt es vor, dass dieselbe Seite durch die Verwendung von Parametern mehrmals im Index der Suchmaschinen auftaucht. Dies kann beispielsweise durch die Verwendung von Formularen oder bestimmter Filter-Funktionen passieren:


User-agent: Googlebot
Disallow: /*?

Durch diese Regel werden alle Pfade, die ein Fragezeichen in der URL enthalten, von der Indexierung ausgeschlossen.

 

– Ein weiterer Eintrag, der häufig in der Robots.txt zu finden ist, ist die Angabe einer Sitemap:


Sitemap: http://www.beispielseite.de/sitemap.xml

Dieser Eintrag sagt dem Robot, wo er die Sitmap der Seite finden kann. An dieser Stelle sollten alle Sitemaps einer Seite aufgeführt werden.

 

– Mehrere Einträge sind folgendermaßen anzugeben:


Sitemap: http://www.beispielseite.de/sitemap.xml
Sitemap: http://www.beispielseite.de/sitemap-bilder.xml

Die IETF (Internet Engineering Task Force) führte neben der Disallow-Anweisung auch die Allow-Anweisung ein, diese wird noch nicht von jedem Robot unterstützt. Man sollte also lieber darauf verzichten und sich auf Disallow-Anweisungen beschränken.

Prüfen der fertigen Robots.txt

Natürlich können sich bei längeren Regeln schnell Fehler einschleichen, deswegen sollte man die erstellten Regeln nochmal überprüfen lassen. Eine Möglichkeit bieten die Google-Webmaster-Tools (Website-Konfiguaration –>Crawler-Zugriff), ein weiteres Tool findet man hier und hier. Bei den beiden letztgenannten Tools muss die Robots.txt bereits auf dem Server liegen.

Alternativen zur Robots.txt

Nachdem wir nun ausführlich auf die Erstellung einer Robots.txt eingegangen sind, wollen wir uns noch eine Alternative anschauen. Die Robots.txt ist nicht die einzige Möglichkeit um den Suchmaschinen mitzuteilen, welche Seiten in den Index aufgenommen werden dürfen. Eine Alternative ist das Robots-Meta-Tag, welches wie die anderen Meta-Tags im Head-Bereich einer Seite definiert wird. Diese Variante bietet sich an, um einzelne Seiten von der Indexierung auszuschließen. Das ausschließen ganzer Verzeichnisse ist hier allerdings nicht möglich. Möchte man jedoch sicher gehen, dass eine Seite nicht im Index der Suchmaschinen auftaucht ist dies die sicherere Variante.


<meta name=“robots“ content=“noindex, follow“ />

Mit diesem Eintrag, können wir den Suchmaschinen-Robots mitteilen, dass die Seite nicht indexiert werden soll, jedoch die Links auf dieser Seite vom Crawler besucht werden sollen.

 

– Möchte man jetzt auch noch das Archivieren einer Seite durch die Suchmaschinen untersagen, dann lässt sich ein dritter Wert einfügen:


<meta name=“robots“ content=“noindex, nofollow, noarchive“ />

Fazit:

Abschließend möchte ich nochmal kurz ein paar Worte zur Robots.txt verlieren. Was man sich immer vor Augen halten muss ist, dass ein Eintrag in der Robots.txt nicht garantiert, dass eine Seite nicht indexiert wird. Möchte man wirklich sicher gehen, sollte man die entsprechende Seite über das Robots-Meta-Tag auf noindex setzen. Matt Cutts geht in diesem kurzen Video genau auf diese Problematik ein:

Zum Abschluss möchte ich noch ein paar Hinweise geben, die man im Umgang mit der Robots.txt beachten sollte:

  • Groß- und Kleinschreibung ist signifikant
  • Zwei Regeln werden durch eine Leerzeile voneinander getrennt
  • Jede Regel wirkt für sich selbst, es gibt keine Abhängigkeiten
  • Falsche Syntax kann zu schweren Fehlern führen (Syntax checken)
  • Jede Disallow-Anweisung sollte mit einem Slash (/) beginnen

Weiterführende Informationen zum Thema:

Ich hoffe, euch hat der Artikel gefallen, auch wenn es diesmal sehr viele Code-Zeilen zu lesen gab. Falls ihr noch weiterer Anregungen oder Fragen habt, können wir dies gerne in den Kommentaren diskutieren.

Phillip und die SEO-Trainees.

Bewerte unsere Artikel

Hat dir der Artikel gefallen? Sag es uns und bewerte ihn mit den Hütchen.
0
 
5.9/7 (39 Bewertungen)
Dieser Artikel wurde am Mittwoch, den 18. April 2012 geschrieben. Wir freuen uns auf Deine Meinung, nutz hierfür einfach die Kommentarfunktion.
55 Kommentare bisher • RSS-Feed für Kommentare
Hinterlasse Deinen Kommentar!
  • Ani sagt:

    Dank euch konnte ich nun endlich meine URL bei den Webmastertools erfolgreich einreichen. Danke für diesen ausführlichen und nicht langweilige Textbeschreibung.

  • Anna sagt:

    Auch wenn der Beitrag etwas älter ist sind die Infos aktuell. Danke dafür!

Ergänzungen oder Fragen? Diesen Artikel kommentieren: