SEO Trainee

Wie funktionieren Suchmaschinen?

Geschrieben von
Wie funktionieren Suchmaschinen?

In meinem letzten Artikel Robots Exclusion Protocol und das Geheimnis des X-Robots-Tag gibt es eine kurze Passage zum Thema Suchmaschinen, in der ich bereits flüchtig auf deren Funktionsweise eingehe. Daran möchte ich heute gerne anknüpfen und erläutern, wie Suchmaschinen funktionieren. Welche Rolle dabei ein schwarzer Labrador, Spinnen und Ponys spielen, werdet ihr natürlich auch erfahren!

Der deutsche Comedian Paul Panzer machte vor einiger Zeit den Versuch, das Internet zu erklären: “Du hast ja bei Internet(z) so’n umgebauten Fernseher mit ‘ner Taschtatur und wenn du dann mit dem Kabel in die Telefonbuchse gehst und irgendwo auf der Welt hatte irgendein anderer Heini die gleiche blöde Idee, dann triffste den!” Rischtisch, Paul! ;)

Allerdings ist der Umgang mit dem World Wide Web, dieser komplizierten virtuellen Welt, gar nicht so einfach. Das weiß auch Herr Panzer, der sehr anschaulich beschreibt, wie man sich am besten im Internet orientiert: “(…) um sich in diesem Internet(z) zurechtzufinden, gibt et sogenannte Suchmaschinen. Goggel. Du musst dazu auf diese Seite von Goggel, da ist dann oben so’n Fächlein und in dieses Fächlein gibst du stichwortpunktartig ein, wat du suchst. Und dann fahren die Jungs von Goggel in Bibliotheken, machen… äh… machen Fotos vor Ort und dann krichst du sehr schnell ‘n Bericht zugeschickt, von diesem Emil und dann weißte worum et geht.” Wenn es doch nur so einfach wäre!

Leider ist die Funktionsweise von Suchmaschinen viel komplexer als in diesem Sketch dargestellt. Aber wer sich an dieser Stelle nicht nur mit dem komödiantischen YouTube Video begnügt und weiterliest, dem versichere ich, dass die Thematik rund um Suchmaschinen nach der Lektüre des Artikels um einiges verständlicher sein wird.

Volltext- und Metasuchmaschinen

Vertikale Suchmaschinen, Föderierte Suchmaschinen, Enterprise Search – wie soll man bei der Vielzahl an Kategorisierungsmöglichkeiten für Suchmaschinen den Überblick behalten? Ich halte es an dieser Stelle ganz einfach und unterteile Suchmaschinen in zwei wesentliche Arten: Metasuchmaschinen und Volltextsuchmaschinen. Letztere, zu denen u. a. Google, Bing und Lycos *wuff, wuff* zählen – zum Niedergang von Lycos Europe: Schnüffelhund hat ausgebellt –, durchsuchen und indizieren den gesamten Text einer Webseite bzw. eines Dokumentes. Das heißt, Suchmaschinen, die auf einer Volltextsuche basieren, verweisen bei der Abfrage nach einem beliebigen Begriff oder einer Wortgruppe auf alle relevanten Dokumente, die sie durchsucht haben und in denen der gesuchte Begriff enthalten ist.

Infografik zu Volltextsuchmaschinen

© seo-trainee.de

Metasuchmaschinen wie MetaGer oder die “diskreteste Suchmaschine der Welt” ixquick hingegen sammeln gar nicht selber, sondern übergeben eine Suchanfrage an mehrere andere Suchmaschinen, greifen deren Ergebnisse ab und verarbeiten die Informationen zu einer eigenen Trefferliste (SERPs).

Infografik zu Metasuchmaschinen

© seo-trainee.de

Arbeitsweise von Suchmaschinen

Leider ist es so, dass die einzelnen Suchdienste unterschiedliche Algorithmen für den Suchprozess verwenden und weil diese mindestens genauso gut behütet sind wie die Kronjuwelen von Queen Elizabeth, kann man nicht exakt sagen, wie Suchmaschinen funktionieren – jedoch sind die allgemeinen Funktionen gleich.

Crawler

Der Crawler wird auch Spider genannt

© Hemera / ThinkStock

Um die Funktionsweise von Suchmaschinen zu verstehen, ist es wichtig zu wissen, dass Suchmaschinen bei einer Suchanfrage (Query Processing) nicht das gesamte World Wide Web durchsuchen, sondern immer nur die Seiten, die sie in ihrem Index haben – demnach beginnt die Arbeit einer Suchmaschine weit vor der eigentlichen Suche.

An erster Stelle steht der Crawler, auch Spider, Robot oder Bot genannt. Er ist ein vollautomatischer Informationssammler, der für die Erfassung von Dokumenten im Web zuständig ist. Dafür ruft er eine Webseite nach der anderen auf und speichert diese in einer Datenbank (Repository) ab, beginnend mit den Websites und URLs, die von den Webmastern angemeldet wurden. Bei Google geht das ganz einfach mithilfe der Webmaster Tools.

Beim Crawlen stehen ganz klar HTML-Dokumente im Fokus, aber auch die Indexierung von Texten aus .ppt- oder .pdf-Dateien ist möglich. Der Crawler durchsucht aber nicht nur den Content einer Website sondern auch deren Meta-Tags. Außerdem folgt er den Links auf der Seite (Harvesting) und entdeckt mitunter Seiten, die sich noch nicht in der Datenbank befinden.

Weitere Keyfacts im Überblick:

  • Crawler nehmen nur eine bestimmte Anzahl an Seiten einer Domain in die Datenbank auf
  • Domains mit einer hohen Popularität (z. B. hoher PageRank) werden gründlicher erfasst
  • Die Anzahl der Linkebenen, die ein Crawler in einer Site hinuntersteigt, unterscheidet sich von Suchmaschine zu Suchmaschine
  • Die Zyklen, in denen Crawler zu einer Domain zurückkehren, variieren; wenn eine Site häufig aktualisiert wird, kommt z. B. der Googlebot täglich vorbei
  • Meistens sind mehrere Crawler auf einmal unterwegs – 7% des gesamten Netzverkehrs wird durch Robots verursacht

Sollte der Crawler auf einer Seite unerwünscht sein, kann dieser mittels robots.txt ausgeschlossen werden.

Indexer

Der Indexer bereitet die vom Crawler gesammelten Daten, die er sich aus dem Repository abholt, auf und erstellt damit einen Index. Für jedes Wort wird ein Eintrag mit der genauen Position im Datenbestand erstellt (Invertierte Datei). Dadurch wird der Index schnell und effizient durchsuchbar gemacht. Wenn nun eine Suchanfrage gestellt wird, schaut die Suchmaschine zuerst im Index nach, auf welchen Internetseiten der gesuchte Begriff vorkommt. Danach holt sie sich aus dem Repository Informationen zu jeder Seite wie z. B. Title und Description und stellt diese in den SERPs dar – sollten keine vorhanden sein, generiert die Suchmaschine diese automatisch.

Ach und noch etwas: um nicht ständig auf einer von diesen “Sexualitätsseiten”, wie Paul Panzer sie nennt, oder anderen fragwürdigen Seiten zu landen – es sei denn man sucht explizit danach – und um die Auswahl aus den mitunter Tausenden von Suchergebnissen zu erleichtern, wird von den Suchmaschinen eine automatische Bewertung des Index bzw. der Relevanz eines Suchtreffers vorgenommen (Ranking). Jede Suchmaschine setzt dabei andere Mechanismen ein, weshalb die einzelnen Suchmaschinen trotz gleicher Dokumente im Index unterschiedliche Ergebnisse liefern. Aspekte, die in diese Evaluation mit einbezogen werden, sind u. a. die Anzahl der übereinstimmenden Wörter, die Häufigkeit des Vorkommens von Suchbegriffen (URL, Title, Description, Hauptüberschrift) sowie deren Position oder die Verlinkung von anderen Websites.

Searcher

Der Searcher ist die einzig sichtbare Funktion einer Suchmaschine. Von ihm wird die Suchanfrage des Internetnutzers ausgewertet. Während einer Suchanfrage gleicht diese Systemkomponente die eingegebenen Begriffe mit den im Index gespeicherten Informationen ab und gibt die entsprechenden Ergebnisse als SERPs aus (Matching).

Puh, alles verstanden? Solltet ihr noch Fragen haben, stellt diese gerne in den Kommentaren.

Zu den Ponys muss ich wohl nichts mehr sagen. ;)

Sandra und die SEO Trainees.

SEO Trainee
Online Marketing ist meine Welt! Warum? Mich reizen die vielen abwechslungsreichen Aufgaben in einem schnelllebigen, dynamischen Arbeitsumfeld. Besonders schlägt mein Herz dabei für Content- und Social Media Marketing – da blühe ich richtig auf! Aber nicht nur das Kreative hat es mir angetan, nein, auch die technischen und analytischen Aspekte der Suchmaschinenoptimierung faszinieren mich. Genau dieser Facettenreichtum macht SEO für mich so attraktiv!

Bewerte unsere Artikel

Hat dir der Artikel gefallen? Sag es uns und bewerte ihn mit den Hütchen.
0
 
5.8/7 (26 Bewertungen)
Dieser Artikel enthält folgende Tags und wurde am Mittwoch, den 14. November 2012 geschrieben. Wir freuen uns auf Deine Meinung, nutz hierfür einfach die Kommentarfunktion.
26 Kommentare bisher • RSS-Feed für Kommentare
Hinterlasse Deinen Kommentar!
  • Dom sagt:

    Hallo Sandra,

    danke für den super Artikel. Ich finde das anschaulich erklärt und sehr gut dargestellt. Ich bezweifle allerdings, dass der durch Bots und Spider verursachte Traffic lediglich bei 7% liegen soll. Unter der angegebenen Quelle kann man leider nicht qualifizieren von wann die Daten stammen und auch nicht woher sie stammen. Anfang des Jahres hab ich gelesen, dass ca. 50% der Traffics nicht von Menschen stammen (http://www.at-web.de/blog/20120316/nur-49-der-besucher-einer-website-sind-menschen.htm). Das erscheint mir plausibler. Ich glaube aber über Bots und Spider etc. könnte man alleine einen Artikel schreiben ;-)

    BG
    Dom

    • Sandra sagt:

      Lieber Dominik,

      vielen Dank für die zusätzlichen Infos. Bezüglich des von Crawlern verursachten Traffics scheint es wirklich keine eindeutigen Zahlen zu geben.
      Hm, vielleicht bedarf es aber auch nur mehr Recherchezeit. Ein Artikel über Suchmaschinen-Robots erscheint mir eine gute Idee, ist notiert! :)

  • Lisa sagt:

    Eine sehr veranschaulische Grafik und tolle Erklärung mit den Suchmaschinen.
    Auch toll ist das Video :D

  • Matthias sagt:

    Die Grafiken verdichten die Zusammenhänge sehr gut. Danke für den Artikel!

    • Sandra sagt:

      Matthias, Lisa,
      es freut mich das euch der Artikel gefallen hat. Die Grafiken sind in der Tat wunderbar gelungen. Da hat unsere Grafikabteilung wirklich sehr gute Arbeit geleistet! Großes Lob von mir an dieser Stelle! :)

  • Patricia sagt:

    Danke für den tollen Artikel, trotzdem möchte ich jetzt noch was zu den Ponys wissen ;-).

    • Sandra sagt:

      Ich freue mich, dass dir der Artikel gefallen hat! Über die Ponys gibt dir übrigens das YouTube-Video Aufschluss, also einfach mal reinschauen! ;)

  • Lukas sagt:

    Super Erklärt und tolle Grafiken!!!
    Manchmal möchte man den Leuten wirklich sagen “Geht nach Hause und lernt die Basics” – nun kann man auf diesen Artikel verweisen! :)

  • Thomas sagt:

    Toller Artikel. Sehr verständlich und “rischtisch” gut geschrieben.

  • Michael sagt:

    Sehr schön geschriebener Artikel. Jeder der sich mit SEO auseinandersetzt, sollte sich vorher zuerst mit der Funktionsweise der Suchmaschinen im Allgemeinen beschäftigen. Dazu bietet euer Artikel einen sehr guten Einstieg.

    • Sandra sagt:

      Da stimme ich dir zu, Michael. Aber ich musste feststellen, das lange nicht alle SEOs wissen, wie eine Suchmaschine genau funktioniert. Schade, dabei ist das Thema sehr spannend und wichtig, um Suchmaschinenoptimierung (richtig) betreiben zu können.

  • [...] Wie funktionieren Suchmaschinen? – In meinem letzten Artikel Robots Exclusion Protocol und das Geheimnis des X-Robots-Tag gibt es eine kurze Passage zum Thema Suchmaschinen, in der ich bereits flüchtig auf deren Funktionsweise eingehe. Weiter… [...]

  • Mario sagt:

    Ich klebe an deinen Worten. Dieser Blog ist einer der besten, der die SEO / Arbeitsweise der Suchmaschinen – Zusammenhänge auch VERSTÄNDLICH beschreibt. Klasse!

  • Tom sagt:

    Danke fuer die gute Erklaerung :)

  • Daniel sagt:

    Ich glaube, so versteht es jeder! ;-)

  • alex sagt:

    Danke ffür den Beitrag und die erläuterung

  • anne sagt:

    Bin grad am stöbern gewesen und habe diesen Artikel entdeckt. der gefällt mir sehr gut. und ist auch wunderbar verständlich

  • Dirk sagt:

    Liebe Sandra,
    ich habe viel gelernt, aber meine (womöglich dumme) Frage bleibt offen. Ich wollte dies herausfinden: wenn eine Suchmaschine neu in einen Blog gestellte Bilder oder Dokumente aufnimmt, ist das Finden der Bilder/Dokumente nur dann möglich, wenn der Blog aktiv (online) ist, oder findet die Suchmaschine auch diese Dokumente, wenn der Blog passiv (offline) ist?
    Viele Grüsse von Dirk

    • Sandra sagt:

      Dumme Fragen gibt es nicht, Dirk. Eine Suchmaschine kann Bilder und Dokumente in einem Blog nur finden, wenn sie von dessen Existenz weiß, d. h. entweder zeigen Links auf den Blog und stoßen die Suchmaschine quasi mit der Nase auf die vorhandene Website oder du zeigst das Vorhandensein deines Blogs bei den Google Webmaster Tools an – dieses Vorgehen würde ich jedem Webmaster empfehlen.

      Zur Veranschaulichung: Szenario 1.) Wenn du also einen neuen Blog hast, auf diesen aber noch keine Links verweisen und du ihn auch noch nicht bei den Webmaster Tools eingereicht hast, dann wird die Suchmaschine den Blog und die sich darauf enthaltenen Bilder und Dokumente nicht finden. Szenario 2.) Wenn du die letzten drei Jahre einen Blog betrieben hast und in der Zeit auch ein paar Links eingesammelt wurden, der Blog dann aber offline geschaltet wird, besteht die Möglichkeit, dass der Blog und dessen Inhalte weiterhin gefunden und indexiert werden. Die Entfernung von Blog-Inhalten aus dem Index einer Suchmaschine ist mitunter schwierig, aber nicht unmöglich wie ich aus eigener Erfahrung weiß. WordPress hat das in der Vergangenheit für mich super gelöst.

Ergänzungen oder Fragen? Diesen Artikel kommentieren: