Robots.txt

März 19, 2014

Die Robots.txt-Datei bietet dem Webmaster die Möglichkeit, der Suchmaschine mitzuteilen, welche Seiten oder Verzeichnisse vom Bot gecrawlt beziehungsweise nicht gecrawlt werden sollen. Dies ermöglicht es dem Webmaster, seine Crawling-Ressourcen zu schonen, da unwichtige Verzeichnisse keine Crawling-Kapazität verbrauchen.

Roboter hält eine Erdkugel in den Händen — © iStockphoto/Thinkstock

Gemäß des Robots-Exclusion-Protokolls liest der Crawler beim Besuch einer Website als erstes die robots.txt-Datei aus, um so Informationen zu erhalten, welche Seiten er crawlen darf und welche nicht. Damit der Bot die Robots.txt findet, ist diese immer auf dem Standardpfad domain.de/robots.txt abgelegt. Die großen Suchmaschinen-Bots, wie der Google- oder der Bing-Bot, halten sich in der Regel an die Anweisungen in der robots.txt. Und wie sieht eine robots.txt-Datei aus?

Die Robots.txt-Datei besteht aus sogenannten Records. Ein Record besteht aus zwei Teilen:

Im ersten Teil wird der User Agent genannt, für den die Anweisung gilt. Das kann zum Beispiel Google-Bot sein.
Im zweiten Teil werden die Anweisungen an den Bot festgehalten. Dabei arbeitet man mit den Begriffen allow und disallow.

Eine einfache Robots.txt-Datei kann zum Beispiel so aussehen:

User-agent: *
Disallow: domain.de/beispiel

Nach dieser Datei dürfen alle User Agents das Verzeichnis domain.de/beispiel nicht crawlen. Das Sternchen steht als Platzhalter für alle User Agents.

Hier ein zweites Beispiel:

User-agent: googlebot
Disallow: /
User-agent: bingbot
Disallow: domain.de/beispiel

Demnach darf der Google-Bot die gesamte Seite nicht crawlen. Der Bing-Bot darf nur die Seite domain.de/beispiel nicht crawlen.

Achtung: Wenn sich ein Fehler in die Robots.txt eingeschlichen hat und zum Besipiel die gesamte Website vom Crawl ausgeschlossen ist, kann es zu Ranking-Verlusten kommen. Bei unerklärlicher geringer Sichtbarkeit lohnt sich also ein Blick in die Datei. Um zu überprüfen, ob die Robots.txt-Datei richtig formatiert ist und vom Bot korrekt ausgelesen werden kann, gibt es in den Google Webmaster Tools eine entsprechende Testfunktion. Übrigens: Generell bedeutet es nicht, wenn der Bot eine Seite nicht crawlen darf, dass sie nicht auch indexiert werden kann! Wenn Links auf eine Seite eingehen, erachtet die Suchmaschine sie möglicherweise als so wichtig, dass sie trotzdem indexiert wird. Um eine Seite von der Indexierung auszuschließen, empfiehlt sich stattdessen das Robots-Meta-Tag.

Weiterführende Informationen

Robots.txt – so wird’s gemacht!

Robots Exclusion Protocol und das Geheimnis des X-Robots-Tag

Lust auf einen Gastartikel?

Möchtest du einen Gastartikel auf SEO-Trainee.de veröffentlichen? Dann schau dir unsere Richtlinien für Gastbeiträge an und melde dich ganz einfach bei uns! Wir freuen uns von dir zu hören

Kontakt aufnehmen

Robots.txt

Weiterführende Informationen

Lust auf einen Gastartikel?

Recap – Online Expert Days (OMX & SEOkomm) 2023

SEO-Monatsrückblick April 2023

Save the Date – eoSearchSummit 2024

Save the Date: e-Commerce Day 2024

Buchrezension: Conversion-Optimierung: Erfolgreiche Webseiten und Digitalkampagnen von Tobias Looschelders

Vorstellungsrunde Teil 37 – Désirée

Themen

Related Posts

Der 12. e-Commerce Day by Kaufland – Die Veranstaltung für die Digital-Community

Buchrezension: Conversion-Optimierung: Erfolgreiche Webseiten und Digitalkampagnen von Tobias Looschelders

SEO-Monatsrückblick Februar 2024

SEO-Trainee.de ist der Blog der SEO-Trainees der artaxo GmbH.