Robots.txt – So wird´s gemacht

SEO Trainee

Robots.txt – So wird´s gemacht

Geschrieben von
Robots.txt – So wird´s gemacht
Share on Facebook0Share on Google+12Tweet about this on TwitterEmail this to someone

An diesem Mittwoch dreht sich alles rund um das Thema Robots.txt. Wir wollen uns anschauen, wie man eine Robots.txt erstellt, wie man die häufigsten Fehler vermeiden kann und welche Alternativen es gibt. Bevor ich jedoch anfange, möchte ich ein paar Grundlagen erklären.

Robots.txt – Was ist das?

Mit der Robots.txt hat der Webmaster die Möglichkeit festzulegen, welche Unterseiten und Verzeichnisse seiner Webseite von den Suchmaschinen nicht indiziert werden sollen. Es gibt eine Vielzahl an Gründen, warum Seiten oder Verzeichnisse von der Indexierung ausgeschlossen werden. So sollten beispielsweise keine Seiten indexiert werden, die sich noch im Aufbau befinden oder lediglich für private Zwecke genutzt werden.

Das Robots Exclusion Standard Protokol

Um das zu ermöglichen, wurde 1994 durch eine unabhängige Gruppierung der Robots Exclusion Standard ins Leben gerufen. Mittlerweile gilt das Protokoll als allgemein anerkannt und kann als Quasi-Standard betrachtet werden.

© iStockphoto/Thinkstock

Im Protokoll ist festgelegt, dass ein User Agent (Robot) beim Aufruf einer Webseite zuerst im Root-Verzeichnis der Domain nach einer Datei mit Namen robots.txt sucht und diese anschließend ausliest und interpretiert.
!!Wichtig!! – Der Dateiname muss komplett in Kleinbuchstaben geschrieben werden.
In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Robot besucht werden darf. Das Protokoll ist rein hinweisend und somit auf die Mitarbeit der Robots angewiesen. Die bekannten Suchmaschinen halten sich in der Regel an die Anweisungen in der Robots.txt, sofern diese syntaktisch korrekt sind.
Das ausschließen bestimmter URLs einer Webpräsenz durch das Protokoll garantiert keine Geheimhaltung. Um ein Dokument wirklich geheim zu halten, sollte man auf andere Verfahren wie eine Http-Authentifizierung, eine Access Control List (ACL) oder eine ähnliche Variante zurückgreifen. Nähere Informationen zum Schutz von Webseiten findet ihr unter anderem bei der Uni Koblenz Landau.

Der Aufbau einer Robots.txt

Nachdem ich jetzt etwas auf die Grundlagen eingegangen bin, wollen wir uns mit dem Aufbau der Robots.txt beschäftigen. Eine Robots.txt ist prinzipiell leicht zu erstellen, man braucht nichts weiter als einen Texteditor. Mittlerweile finden sich auch einige kostenlose Tools für Webmaster, die den Prozess automatisieren. In den Webmaster Tools von Google gibt es ebenfalls einen Robots.txt-Generator. Hierfür wird allerdings ein Google-Konto benötigt.
Die Robots.txt besteht aus verschiedenen Datensätzen (records), die nach einem ganz bestimmten Schema aufgebaut sind. Ein Datensatz besteht grundsätzlich aus zwei Teilen. Im ersten Teil wird angegeben, für welche Robots (User Agents) die nachfolgenden Anweisungen gelten sollen. Im zweiten Teil werden die Anweisungen selbst notiert:


User-agent: Googlebot
Disallow:

Mit dem User Agent haben wir also festgelegt, dass dieser Datensatz nur für den Googlebot gilt. In der nächsten Zeile finden wir einen leeren Disallow-Eintrag. Verzichtet man beim Disallow auf die Angabe einer Datei oder eines Verzeichnisses bedeutet das, dass alle Seiten in den Index aufgenommen werden dürfen.

 

– Den gegenteiligen Effekt hat die Verwendung eines einzelnen Slashs (/), hier wird die gesamte Webseite von der Indexierung ausgenommen:


User-agent: Googlebot
Disallow: /

 

– Möchte man bestimmte Dateien oder Verzeichnisse für alle Robots ausschließen, gibt es eine sogenannte Wildchar (*) – einen Platzhalter, der für alle Robots gilt:


User-agent: *
Disallow: /beispiel-verzeichnis/

 

– Es kann natürlich vorkommen, dass wir eine Regel formulieren wollen, die beispielsweise nur für den Googlebot und den Yahoo!-Webcrawler gilt. Die Robots.txt erlaubt deshalb auch Mehrfacheinträge. Die Namen der verschiedenen Webcrawler (Robots) findet ihr beispielsweise auf der Seite robotstxt.org. Für diejenigen unter euch, die es ganz genau wissen wollen, kann man sich dort auch die vollständigen Daten zu den Robots anschauen.

Einige wichtige User Agents habe ich mal in einer kleinen Liste zusammengetragen:

User Agent Suche
Googlebot Google
Googlebot-Image Google-Bildersuche
Adsbot-Google Google-Adwords
MediaPartners-Google Google-Adsense
Slurp Yahoo
Msnbot / bingbot MSN / bing
ia_archiver Internet Archive

User-agent: googlebot
User-agent: slurp
Disallow: /beispiel-verzeichnis/

 

– Möchte man mehrere Seiten von der Indexierung ausschließen, muss für jede Datei bzw. jedes Verzeichnis eine eigene Disallow-Zeile erstellt werden. Die Angabe mehrerer Pfade in einer Disallow-Zeile führt zu Fehlern.


User-agent: googlebot
Disallow: /beispiel-verzeichnis/
Disallow: /beispiel-verzeichnis-2/
Disallow: /beispiel-datei.html

 

– Die Robots.txt erlaubt zwar keine regulären Ausdrücke, aber es gibt eine Möglichkeit Dateien auszuschließen, die eine bestimmte Zeichenfolge enthalten:


User-agent: *
Disallow: /beispiel

Diese Regel würde dazu führen, dass alle URLs, die mit /beispiel anfangen, nicht in den Index aufgenommen werden. Dabei spielt es keine Rolle, ob es sich um eine Datei (/beispiel.html) oder um ein Verzeichnis (/beispiel-verzeichnis/datei-1.html) handelt.

 

– Die letzte allgemeine Regel, die ich anspreche, ermöglicht das Ausschließen von Dateien mit bestimmten Dateiendungen:


User-agent: *
Disallow: /*.jpg$

Der Stern dient an dieser Stelle als Platzhalter für eine beliebige Zeichenfolge. Das Dollar-Zeichen am Ende besagt, dass nach der Dateiendung nichts mehr folgen darf. Wir haben also ein Mittel um verschiedene Datei-Typen, wie Bilder, Programmdateien oder auch Log-Files von der Indexierung auszuschließen.

Erweiterungen der Regeln

Es gibt noch ein paar weitere sehr interessante Regeln, die allerdings nicht von allen Robots interpretiert werden können. Deshalb werde ich alle folgenden Regel auf den Googlebot beziehen, da dieser in der Lage ist diese Regeln zu verstehen.
Möchte man speziell Verzeichnisse ausschließen, die mit einer bestimmten Zeichenkette beginnen, kann folgende Regel angewendet werden:


User-agent: Googlebot
Disallow: /beispiel-verzeichnis*/

So würden beispielsweise die Verzeichnisse /beispiel-verzeichnis-1/ und /beispiel-verzeichnis-2/ nicht indexiert werden.

 

– Häufig kommt es vor, dass dieselbe Seite durch die Verwendung von Parametern mehrmals im Index der Suchmaschinen auftaucht. Dies kann beispielsweise durch die Verwendung von Formularen oder bestimmter Filter-Funktionen passieren:


User-agent: Googlebot
Disallow: /*?

Durch diese Regel werden alle Pfade, die ein Fragezeichen in der URL enthalten, von der Indexierung ausgeschlossen.

 

– Ein weiterer Eintrag, der häufig in der Robots.txt zu finden ist, ist die Angabe einer Sitemap:


Sitemap: http://www.beispielseite.de/sitemap.xml

Dieser Eintrag sagt dem Robot, wo er die Sitmap der Seite finden kann. An dieser Stelle sollten alle Sitemaps einer Seite aufgeführt werden.

 

– Mehrere Einträge sind folgendermaßen anzugeben:


Sitemap: http://www.beispielseite.de/sitemap.xml
Sitemap: http://www.beispielseite.de/sitemap-bilder.xml

Die IETF (Internet Engineering Task Force) führte neben der Disallow-Anweisung auch die Allow-Anweisung ein, diese wird noch nicht von jedem Robot unterstützt. Man sollte also lieber darauf verzichten und sich auf Disallow-Anweisungen beschränken.

Prüfen der fertigen Robots.txt

Natürlich können sich bei längeren Regeln schnell Fehler einschleichen, deswegen sollte man die erstellten Regeln nochmal überprüfen lassen. Eine Möglichkeit bieten die Google-Webmaster-Tools (Website-Konfiguaration –>Crawler-Zugriff), ein weiteres Tool findet man hier und hier. Bei den beiden letztgenannten Tools muss die Robots.txt bereits auf dem Server liegen.

Alternativen zur Robots.txt

Nachdem wir nun ausführlich auf die Erstellung einer Robots.txt eingegangen sind, wollen wir uns noch eine Alternative anschauen. Die Robots.txt ist nicht die einzige Möglichkeit um den Suchmaschinen mitzuteilen, welche Seiten in den Index aufgenommen werden dürfen. Eine Alternative ist das Robots-Meta-Tag, welches wie die anderen Meta-Tags im Head-Bereich einer Seite definiert wird. Diese Variante bietet sich an, um einzelne Seiten von der Indexierung auszuschließen. Das ausschließen ganzer Verzeichnisse ist hier allerdings nicht möglich. Möchte man jedoch sicher gehen, dass eine Seite nicht im Index der Suchmaschinen auftaucht ist dies die sicherere Variante.


<meta name=“robots“ content=“noindex, follow“ />

Mit diesem Eintrag, können wir den Suchmaschinen-Robots mitteilen, dass die Seite nicht indexiert werden soll, jedoch die Links auf dieser Seite vom Crawler besucht werden sollen.

 

– Möchte man jetzt auch noch das Archivieren einer Seite durch die Suchmaschinen untersagen, dann lässt sich ein dritter Wert einfügen:


<meta name=“robots“ content=“noindex, nofollow, noarchive“ />

Fazit:

Abschließend möchte ich nochmal kurz ein paar Worte zur Robots.txt verlieren. Was man sich immer vor Augen halten muss ist, dass ein Eintrag in der Robots.txt nicht garantiert, dass eine Seite nicht indexiert wird. Möchte man wirklich sicher gehen, sollte man die entsprechende Seite über das Robots-Meta-Tag auf noindex setzen. Matt Cutts geht in diesem kurzen Video genau auf diese Problematik ein:

Zum Abschluss möchte ich noch ein paar Hinweise geben, die man im Umgang mit der Robots.txt beachten sollte:

  • Groß- und Kleinschreibung ist signifikant
  • Zwei Regeln werden durch eine Leerzeile voneinander getrennt
  • Jede Regel wirkt für sich selbst, es gibt keine Abhängigkeiten
  • Falsche Syntax kann zu schweren Fehlern führen (Syntax checken)
  • Jede Disallow-Anweisung sollte mit einem Slash (/) beginnen

Weiterführende Informationen zum Thema:

Ich hoffe, euch hat der Artikel gefallen, auch wenn es diesmal sehr viele Code-Zeilen zu lesen gab. Falls ihr noch weiterer Anregungen oder Fragen habt, können wir dies gerne in den Kommentaren diskutieren.

Phillip und die SEO-Trainees.

Bewerte unsere Artikel

Hat dir der Artikel gefallen? Sag es uns und bewerte ihn mit den Hütchen.
0
 
5.9/7 (38 Bewertungen)
Dieser Artikel wurde am Mittwoch, den 18. April 2012 geschrieben. Wir freuen uns auf Deine Meinung, nutz hierfür einfach die Kommentarfunktion.
53 Kommentare bisher • RSS-Feed für Kommentare
Hinterlasse Deinen Kommentar!
  • Otti sagt:

    Hallo,
    das ist eine sehr interessante Zusammenfassung und wirklich gute Erklärung, echt top.

    Ich hätte zu dem Thema zwei Fragen. Werden die Angaben in der robots.txt gegenüber den Angaben im Meta-Tag bevorzugt behandelt?

    Ich nutze in meionem Blog das Google XML Sitemaps Plugin, dort wird von einer virtuellen robots.txt von WordPress gesprochen. Kann man diese irgendwie einsehen?

    Gruß Otti

    • Phillip sagt:

      Moin Otti,
      vielen Dank. Freut mich, dass dir der Artikel gefällt.

      Zu deinen ersten Frage:
      Soweit ich weiß, wird die robots.txt nicht bevorzugt behandelt, die Robots der Suchmaschinen schauen sich in der Regel beide Varianten an, bevor Sie eine Webseite besuchen. Es gibt jedoch ein kleinen Unterschied zwischen den Angaben in der Robots.txt und den in den Metas, der in dem angehängten Video von Matt Cutts deutlich wird. Eine Seite die durch die robots.txt von der Indexierung ausgeschlossen wird, kann trotzdem in den Serps auftauchen, wenn Google der Meinung ist, dass diese Seite wichtig ist. Dies kann beispielsweise dann der Fall sein, wenn die Seite sehr stark von außen verlinkt ist.
      Um sicherzugehen, dass die Seite nicht im Index auftaucht, musst du die Meta-Angabe setzen. Zusätzlich bieten die Webmaster-Tools noch die Möglichkeit bestimmte Seiten aus dem Index zu entfernen.

      Zu der zweiten Frage:
      Das ist richtig, WordPress legt immer dann eine virtuelle robots.txt an, wenn keine physische robots.txt in deinem Root-Verzeichnis liegt. Du musst einfach mal versuchen http://www.deine-domain.de/robots.txt aufzurufen, dann solltest du sie sehen können. Sobald du eine eigene robots.txt angelegt hast, ist die virtuelle von WordPress eh hinfällig.

      Beste Grüße
      Phillip

      • Otti sagt:

        Hallo Phillip,

        vielen Dank für die ausführliche und klärende Rückantwort.

        Ok, den Aufruf der robots.txt in Bezug auf die virtuell erstellte Datei von WordPress, hätte ich mir denken können bzw. sollen. 😉 *facepalm*

        So kann ich also ruhig meine robtos.txt von Hand anlegen, den Inhalt der virtuell erstellten Datei dort einfügen und um meine gewünschten Optionen ergänzen. Ich werde mich ein wenig näher damit befassen und Deine weiterführenden Links dazu nutzen. Es scheint ja doch eine ganze Menge möglich zu sein.

        Gruß Otti

  • […] wollten wir gerne einen ähnlichen Beitrag zur robots.txt machen. Jetzt waren die SEO Trainees schneller und schreiben “Robots.txt – so wird’s gemacht“. Na gut, muss uns […]

  • […] Die SEO Trainees zeigen was man mit der robots.txt alles so anstellen kann. Da ich noch nie einen derart ausführlichen Beitrag zu diesem Thema gelesen habe und ein großer Fan von SEO Grundlagen bin: here we go! […]

  • Don sagt:

    Vielen Dank euch für den Artikel, als ob ihr Gedanken lesen könntet, genau das To Do, was ich diese Tage brauchen werde.

  • […] schnellen Überblick auf die wichtigen SEO Kennzahlen seiner Projekte bekommen. Weiter…Robots.txt – So wird´s gemacht – An diesem Mittwoch dreht sich alles rund um das Thema Robots.txt. Wir wollen uns anschauen, […]

  • David sagt:

    Ich danke sehr herzlich für die Tipps. Sind die zwei Microsoftbots eigentlich unterschiedlich, das heißt muss ich beide ausstellen, oder genügt es, den bingbot zu kappen?

    • Phillip sagt:

      Hi David,gerne doch. Das kann ich dir nicht sicher beantworten, im Zweifel würde ich einfach beide ansprechen. Du hast ja die Möglichkeit, eine Regel auch für zwei User Agents anzulegen.

      Beste Grüße
      Phillip

  • Harald sagt:

    Vielen Dank für die Erläuterungen. Ich habe gerade einen neune Blog angefangen und da erstmal einen Beitrag draufgestellt. Das mit der robots.txt wusste ich gar nicht und habe es gleich mal ergänzt.

  • Christian sagt:

    Danke für die Erklärung! Es geistern ja einige fertige Copy&Paste-robots.txt im Netz herum, bei denen aber teilweise noch die Feed-Seite ausgesperrt wird. Früher dachte man dass das zu DC führen könnte… tut es nicht. Wessen Blog also nicht in der Google-Blogsuche erscheint, sollte mal seine robots checken.

  • Beatrice sagt:

    Danke für die Super-Erklärung. Das wurde wirklich mal sehr ausführlich behandelt und führt alle Möglichkeiten auf, wie robots.txt so zu erstellen ist, wie man es für die eigene Website braucht und die Suchroboter diese auch exakt lesen können.

  • Phillip sagt:

    Vielen Dank für das große Lob. Freut mich das es euch gefallen hat, mal sehen was wir uns als nächstes einfallen lassen ;).

    Beste Grüße
    Phillip

  • Mobile Internetseiten sind im Trend – So optimiert ihr eure mobile Seite | SEO Trainee - Ab hier geht´s nach oben sagt:

    […] sich Phillip jüngst mit dem Thema robots.txt auseinandergestzt hat, soll es auch hier zur Sprache kommen. Manchmal rankt die Desktop-Version der […]

  • Andy sagt:

    Vielen Dank, für das tolle und ausführliche Tutorial. Habe mich davor noch nie mit der Robots beschäftigt, weil ich keine Ahnung davon hatte. Jetzt kann ich mich auch mal an das Thema ran wagen.

  • Sven sagt:

    Hallo, na endlich mal ne schöne ausführliche Beschreibung zur Robots.txt. Danke schön geschrieben. Mal sehen ob ich das alles Fehlerfrei umsetze.

  • Mika sagt:

    Wirklich klasse erklärt, Respekt!

    Viele Grüße Mika

  • […] Vielleicht hast du eine robots.txt auf deinen FTP-Server hochgeladen. Dort legt man die Regeln der Indexierung für die Bots/Crawler fest. Wie man die robots.txt vernünftig nutzt, kann man bei den SEO-Trainees wunderbar nachlesen. […]

  • […] Specifications” oder auch bei den SEO-Trainees, die sich ebenfalls im Artikel Robots.txt – So wird´s gemacht der kleinen, aber wichtigen Textdatei […]

  • ElMeik sagt:

    Hey Phil 🙂

    Wie immer mal wieder ein sehr aufschlußreicher Artikel. Besonders das Video von Matt hat mir sehr gut gefallen und jetzt verstehe ich das mit der robots.txt auch besser…eigentlich will ich gar nichts ausschließen aber ich habe gelesen, dass das reine Vorhandensein der (leere) Datei bereits etwas bringen soll, da es wie eine Einladung gewertet wird. Frei nach dem Motto „Immer hereinspaziert Ihr Robots..hier gibts nix was nicht gesehen werden darf“ 🙂 Hoffe das meine Info an der Stelle korrekt ist. Ich freue mich schon auf weiteren Input von Euch – weiter so!

  • […] Das Obere Beispiel gilt für alle Crawler für /beispiel-verzeichnis/ und alle Unterseiten. Was man sonst noch mit der robots.txt machen kann, haben die SEO-Trainiees vor einiger Zeit sehr ausführlich dargelegt. […]

  • Hans sagt:

    Einfach nur gut!
    Vielen Dank – konnte vor dem Artikel net wirklich viel mit Robots.txt anfangen, das hat sich nun geändert 🙂
    lg

  • Daniela sagt:

    Hallo,

    danke für den auführlichen Kommentar. Ich nutze ebenfalls die virtuelle robots.txt von WordPress, was super funktioniert.

    Eine Frage hätte ich noch dazu: Wie kann ich in dieser virtuellen Datei Änderungen vornehmen um einzelne Teile der Webseite auszuschließen? Bei den Webmaster-tools habe ich zwar unter Status – Blockierte URLs die Möglichkeit zum testen, aber diese Änderungen werden nicht gespeichert.

    Danke. LG Daniela

  • Robots Exclusion Protocol und X-Robots-Tag | SEO Trainee - Ab hier geht´s nach oben sagt:

    […] des Robots-Exclusion-Protokolls liest ein Crawler beim Auffinden einer Website zuerst die robots.txt, die sich im Stammverzeichnis (“root”) einer Domain befindet. Diese Datei ist quasi der […]

  • Andreas sagt:

    Vielen Dank für den super Artikel. Genau was ich gesucht habe. Sehr hilfreich.

  • SEO-Projekte ohne große Mittel voranbringen | SEO Trainee - Ab hier geht´s nach oben sagt:

    […] Fehlerfreie Robots.txt […]

  • SEO für internationale Websites: hreflang | SEO Trainee sagt:

    […] Webseiten ab und empfiehlt, diese, wenn sie nicht zu vermeiden sind, von der Indexierung mittels robots.txt auszuschließen, da sie als Spam angesehen werden […]

  • bridge sagt:

    Danke für das informative Artikel. Habe ebene diese Informationen gesucht!

  • Daniela sagt:

    Hallo,

    habe leider noch keine Lösung gefunden. Wer kann mir helfen?

    Wie kann ich der virtuellen robots.txt des WordPress-Plugins ‚Google XML Sitemap‘ Absätze hinzufügen? (betrifft Sachen die nicht in den Plugin-Einstellungen vorhanden sind)

    Danke im voraus und liebe Grüsse
    Daniela

  • […] Reguliert eine robots.txt Datei das Crawler-Verhalten sinnvoll?(Die richtige robots.txt Datei) […]

  • Yandex Webmaster Tools – eine Einführung sagt:

    […] analysis: Die robots.txt ist ein wichtiges Mittel, um den Suchmaschinen-Crawlern mitzuteilen, wie sie die Seite crawlen […]

  • Google Webmaster Tools - eine Einführung sagt:

    […] das zum Beispiel daran liegen, dass einige Seiten über das Meta Tag “noindex” oder die robots.txt von der Indexierung ausgeschlossen sind. Ist der Unterschied zwischen eingereichten und indexierten […]

  • Andreas sagt:

    Hallo Phillip,

    wie sieht es mittlerweile mit der Allow-Anweisung aus?
    In meiner Robot.txt ist folgendes enthalten:

    # allow google image bot to search all images
    User-agent: Googlebot-Image
    Allow: /*

    Danke für den Beitrag und viele Grüße
    Andreas

  • […] man eine robots.txt erstellt, könnt ihr im Artikel robots.txt – so wird’s gemacht […]

  • […] der Crawler auf einer Seite unerwünscht sein, kann dieser mittels robots.txt ausgeschlossen […]

  • Jeffrey sagt:

    Wenn ich die „Alternativen zur Robots.txt“ benutze bin ich da auf der sicheren Seite oder ist das eher schlecht. Eine Seite von mir bekommt das stets bei Seitwert „Die Datei robots.txt wurde nicht gefunden“ angezeigt, aber ich benutze ja den meta tag.

  • Ich habe das mit den veralteten Metatags leider immer noch nicht richtig verstanden ?

  • Michael sagt:

    Das mit der Indexierung ist doch Unsinn. Eine robots.txt schützt in keinem Fall vor Indexierung. Sonst gäbe es nicht diese Vielzahl von Ergebnissen im Google Index, an denen der Hinweis erscheint, dass Google nicht mehr dazu verraten kann, weil die robots.txt die Seite für Google sperrt.
    Also eine robots.txt dient der Einschränkung des Crawlings, nicht der Einschränkung der Indexierung.

    • Gesa sagt:

      Hallo Michael,
      da hast du vollkommen recht. Dies schreibt Phillip ja auch unter der Überschrift „Alternativen zur robots.txt“ und empfiehlt stattdessen das noindex-Meta-Tag, wenn man sichergehen möchte, dass Inhalte nicht indexiert werden.

      Liebe Grüße,
      Gesa

  • Lothar sagt:

    Hallo. Die Begriffe verwirren mich ein wenig. Befindet sich das Root-Verzeichnis innerhalb des Ordners WordPress. Oder eine Ebene oberhalb? In meinem Server ganz oben ist ein unbenannter gelber Ordner. Darunter ist der Ordner WordPress. Wo gehört nun die robots.txt rein? Ganz oben in den unbenannten? Oder in den Ordner WordPress? Es wäre schön, wenn Sie mir antworten könnten. Vielen Dank!

    • Hallo Lothar,

      die robots.txt ist generell im ersten Ordner, dort, wo beispielsweise auch die .htaccess-Datei liegt oder ordner wie WP-Admin, WP-Content etc. – da gehört die robots.txt rein.

      Viele Grüße
      Tobias

    • Hallo Lothar,

      mit Root-Verzeichnis ist das WordPress Stammverzeichnis gemeint, also der Ordner indem das WordPress installiert wurde. Es ist nicht das Root-Verzeichnis des Servers gemeint, dies hat vermutlich zu der Verwirrung geführt. Wenn ich ihre Mail richtige interpretiere dann ist das WordPress-Root-Verzeichnis bei Ihnen der Ordner WordPress. Innerhalb des Ordners WordPress sollte sich im Normalfall die wp-config.php, die robots.txt und auch die .htaccess-Datei befinden.
      Ich schreibe im Normallfall, weil es auch Möglichkeiten gibt einige Dateien und Verzeichnisse aus dem WordPress-Root-Verzeichnis herauszunehmen. Dies ist aber nicht ohne weitere Anpassungen möglich und bei Ihnen vermutlich nicht der Fall. Wenn Sie also eine Standard WordPress-Installation verwenden, dann bitte wie oben beschrieben alle genannten Dateien in das Verzeichnis WordPress legen, denn ohne die wp-config.php wird die Website nicht mehr funktionieren, da hier die Zugangsdaten für die Datenbank hinterlegt sind.

      Ich hoffe ich konnte die Unklarheiten beseitigen.

      Viele Grüße
      Tobias

  • David sagt:

    Danke für den Artikel. Eine kleine Frage hierzu: Du schreibst, dass jeder Eintrag für sich selbst wirkt, es also keine Abhängigkeiten gibt. Was passiert aber, wenn sich widersprechende Regeln gefunden werden. Beispiel:

    User-agent: Googlebot-Image
    Disallow:

    User-agent: *
    Disallow: /

    Darf hier der Googlebot-Image crawlen oder nicht? Das * aus dem zweiten Eintrag würde sich ja auch auf Googlebot-Image beziehen und dem Bot das Crawlen verbieten. Würde es einen Unterschied machen, wenn ich die beiden Einträge vertauschen würde? Oder zieht die erste Regel in jedem Fall, da sie spezieller ist als die *-Regel?

    • Phillip sagt:

      Hallo David, entschuldige die späte Rückmeldung. Die Angaben in der robots.txt werden von oben nach unten verarbeitet. Sobald ein Robot auf eine Anweisung stößt, die Ihn selbst betrifft, werden keine anderen Regeln mehr verarbeitet. Desshalb empfiehlt es sich Anweisungen für spezielle Robots vor den allgemeinen Anweisungen zu platzieren. Also um deine Frage zu beantworten, ein Vertauschen der Reglen würde durchaus einen Unterschied machen.

      Viele Grüße
      Phillip

  • Hallo toller beitrag..ich hab mal ne frage und zwar hab ich eine wordpress seite erstellt habe gleich am anfang suchmaschinen indixierung ausgeschalten..weil ich noch nicht wollte das meine Seite indixiert wird..erst wenn sie fertig ist…so jetz hab ich das Häkchen wieder weggemacht..das die suchmaschienen meine Seite finden..aber irgendwie ist die Seite dennoch nicht sichtbar für Suchmaschinen..dauert das ne weile bis die nicht indixierung wieder weg ist?? oder muss ich da jetz an der robot txt was ändern meine robot txt sieht momentan so aus :
    User-agent: *
    Disallow: /wp-admin/
    was bedeutet denn das jetz disallow/wp-admin??
    würd mich auf ne antwort freuen gruss

    • Hallo!
      Es kann durchaus sein, dass der Suchmaschinen-Bot eine Weile braucht, bis er die Seiten gecrawlt und indexiert hat. Wenn das wirklich deine einzigen Einträge in der robots-txt sind, musst du dir keine Sorgen machen. „Disallow: /wp-admin/“ steht für die Einlog-Seite deiner Website und bedeutet, dass nur deine Login-Seite nicht indexiert werden soll. Dies ist auch völlig in Ordnung so! Viele Grüße!

  • Find den Beitrag soweit auch super und gelungen. Eine Verständnisfrage habe ich allerdings noch. Wenn ich das richtig verstanden habe dann kann man alle Ordner und Seiten, die auf dem Server liegen, von der Indexierung ausschließen. Bei der WordPress Installation hat man aber keine Seiten wie im klassischen Stil. Wie geht man da vor? Habe ich etwas überlesen?

    Mfg Eugen

    • Phillip sagt:

      Hallo Eugen,

      das hast du richtig verstanden, prinzipiell ist das möglich. Bei WordPress verhällt es sich am Ende genau so, nur das die einzelnen Seiten nicht physisch auf dem Server liegen, sondern erst zur Laufzeit auf dem Server generiert werden. Dies macht es etwas schwieriger, bestimmten Verzeichnisse oder Seiten ein noindex mitzugeben. Die einfachste Lösung ist hier der Einsatz eines SEO-Plugins, wie Beispielsweise das von uns sehr zu empfehlende Plugin WordPress SEOvon Yoast. Das Plugin bietet Dir die Möglichkeit die Indexierung einzelner Artikel, statischer Seiten oder auch ganzer Kategorien und vieles nützliches mehr. Hoffe das bringt Dich einen Schritt weiter.

      Viele Grüße
      Phillip

Ergänzungen oder Fragen? Diesen Artikel kommentieren: