Robots.txt – Begriffsdefinition

SEO Trainee

. 2 3 4 5 A B C D E F G H I J K L M N O P Q R S T U V W X Y

Robots.txt

Share on Facebook0Share on Google+0Tweet about this on TwitterEmail this to someone

Die Robots.txt-Datei bietet dem Webmaster die Möglichkeit, der Suchmaschine mitzuteilen, welche Seiten oder Verzeichnisse vom Bot gecrawlt beziehungsweise nicht gecrawlt werden sollen. Dies ermöglicht es dem Webmaster, seine Crawling-Ressourcen zu schonen, da unwichtige Verzeichnisse keine Crawling-Kapazität verbrauchen.

Roboter hält eine Erdkugel in den Händen

© iStockphoto/Thinkstock

Gemäß des Robots-Exclusion-Protokolls liest der Crawler beim Besuch einer Website als erstes die robots.txt-Datei aus, um so Informationen zu erhalten, welche Seiten er crawlen darf und welche nicht. Damit der Bot die Robots.txt findet, ist diese immer auf dem Standardpfad domain.de/robots.txt abgelegt. Die großen Suchmaschinen-Bots, wie der Google- oder der Bing-Bot, halten sich in der Regel an die Anweisungen in der robots.txt. Und wie sieht eine robots.txt-Datei aus?

Die Robots.txt-Datei besteht aus sogenannten Records. Ein Record besteht aus zwei Teilen:

  • Im ersten Teil wird der User Agent genannt, für den die Anweisung gilt. Das kann zum Beispiel Google-Bot sein.
  • Im zweiten Teil werden die Anweisungen an den Bot festgehalten. Dabei arbeitet man mit den Begriffen allow und disallow.

Eine einfache Robots.txt-Datei kann zum Beispiel so aussehen:

User-agent: *
Disallow: domain.de/beispiel

Nach dieser Datei dürfen alle User Agents das Verzeichnis domain.de/beispiel nicht crawlen. Das Sternchen steht als Platzhalter für alle User Agents.

Hier ein zweites Beispiel:

User-agent: googlebot
Disallow: /
User-agent: bingbot
Disallow: domain.de/beispiel

Demnach darf der Google-Bot die gesamte Seite nicht crawlen. Der Bing-Bot darf nur die Seite domain.de/beispiel nicht crawlen.

Achtung: Wenn sich ein Fehler in die Robots.txt eingeschlichen hat und zum Besipiel die gesamte Website vom Crawl ausgeschlossen ist, kann es zu Ranking-Verlusten kommen. Bei unerklärlicher geringer Sichtbarkeit lohnt sich also ein Blick in die Datei. Um zu überprüfen, ob die Robots.txt-Datei richtig formatiert ist und vom Bot korrekt ausgelesen werden kann, gibt es in den Google Webmaster Tools  eine entsprechende Testfunktion. Übrigens: Generell bedeutet es nicht, wenn der Bot eine Seite nicht crawlen darf, dass sie nicht auch indexiert werden kann! Wenn Links auf eine Seite eingehen, erachtet die Suchmaschine sie möglicherweise als so wichtig, dass sie trotzdem indexiert wird. Um eine Seite von der Indexierung auszuschließen, empfiehlt sich stattdessen das Robots-Meta-Tag.

Weiterführende Informationen

Robots.txt – so wird’s gemacht!

Robots Exclusion Protocol und das Geheimnis des X-Robots-Tag