Semantisches Web - das Potenzial der Daten

SEO-Trainee.de

Semantisches Web – das Potenzial der Daten

Geschrieben von
Semantisches Web - das Potenzial der Daten
Share on Facebook31Share on Google+29Tweet about this on TwitterEmail this to someone

Als Tim Berners-Lee 2001 vom „semantic Web“ sprach, hat er die Zukunft des Internet zunächst vage und erst im Laufe der Zeit zunehmend konkreter beschrieben. Durchaus visionär sind seine Vorstellungen von einer im WWW aggregierten Datenmenge, die auf ihrer Bedeutungsebene nicht nur von Menschen, sondern auch von Maschinen interpretierbar sein soll. Gute zehn Jahre später hat die Vision alles utopische abgelegt: die maschinelle Verarbeitung semantischer Informationen schreitet schnell voran.

Sucht man jetzt bei Google nach Schauspielern, die im St. Pauli Theater auftreten, erhält man die nötigen Informationen über Umwege aus vielen verschiedenen Quellen. Das liegt daran, dass das traditionelle WWW ein Netzwerk aus miteinander verbundenen Dokumenten ist. Gibt es kein Dokument, was sich explizit mit „Schauspieler im St. Pauli Theater“ beschäftigt, kann es auch nicht ausgegeben werden.

Wenn nun nicht Dokumente, sondern semantisch ausgezeichnete Daten miteinander verbunden wären, würde das die Möglichkeiten der Suchergebnisse ins schier Unbegrenzte katapultieren. Auf eine Anfrage wie „alle Schauspieler des St. Pauli Theaters mit Tanzausbildung“ könnten die nötigen Daten aggregiert und angezeigt werden, auch ohne dass ein entsprechendes Dokument existieren würde.

Ziel des semantischen Webs ist es deshalb, einen einheitlichen, globalen Datenraum (Linked Data) zu erschaffen, auf den jeder Zugriff hat und über Anwendungen für sich nutzen könnte. Aber wie soll das funktionieren, was bedeutet das für SEO und was lässt sich sonst noch mit den „richtigen“ Daten anstellen?

Die Technik der SERP-Semantik

Um die Bedeutung von Daten und ihre Zusammenhänge untereinander eindeutig repräsentieren zu können, müssen sie beschrieben werden. Einfache Zusammenhänge zwischen Objekten lassen sich mithilfe des Ressource Description Frameworks (RDF) festlegen, das auf der Extensible Markup Language (XML) und XML Schema aufbaut. Die RDF-Variante RDFa erleichtert die Integration in XHTML, ähnlich wie Microformats.
Innerhalb von RDF werden Aussagen in Form von einem “Triple” gemacht, da sie aus drei Elementen bestehen: Subjekt, Prädikat, Objekt.
Nehmen wir als Beispiel das Theater als Subjekt, das unter anderem dadurch ausgezeichnet wird, dass es eine Bühne hat:

Subjekt: Theater (x)
Objekt: Bühne (y)
Prädikat: hat einen Teil (D)

Damit lässt sich die Aussage machen:

D(x,y)

Dieser Zusammenhang kann als RDF/XML-Code modelliert werden:

RDF/XHTML Auszeichnung
image-26101

 

 

 

 

 

Für SEOs dürfte RDF keine neue Nummer sein: Auszeichnungen mit RDFa tauchen in den Rich Snippets auf. Dazu sollte man sich am besten den Standards von schema.org oder an GoodRelations für E-commerce  halten. Unkomplizierte Auszeichnungen wie Preise, Verfügbarkeit, Versandoptionen und Bilder lassen sich äußerst einfach in den eigenen Quellcode integrieren: Mit dem Rich Snippet Generator können sogar Code-Fragmente im W3C-RDFa-Format generiert werden, die sich dann per Copy-and-Paste in die eigene Webseite einbetten lassen.

jürgen vogel knowledge graph US
image-26102

Knowledge Graph von Jürgen Vogel in den US-SERPs

Der Knowledge Graph von Google zieht sich die nötigen Daten unter anderem über eine semantische Datenbank, bzw. einer Graphendatenbank. Mitte 2012 umfasste diese 500 Millionen Einheiten mit mehr als 3,5 Billionen Beziehungen untereinander, die u. a. über RDF definiert werden. Diese Graphendatenbank wird auch über den normalen Crawling-Prozess befüllt – ein wichtiges Detail, denn bedient man den Crawler mit strukturierten Daten, werden diese unter Umständen auch prominent ausgegeben. Zur Zeit beschränkt sich der Knowledge Graph auf die englische Sprache, aber auch in den deutschen SERPs werden Produkte, Bewertungen und Personen in der RDFa-Serialisierung schon jetzt zur besseren Strukturierung der Suchergebnisse herangezogen.

Google unterstützt zwar auch Microformats, sollen allerdings spezielle Informationen beschrieben werden, die über Kontaktdaten und Termine etc. hinausgehen, dann führt kein Weg an RDFa vorbei. RDFa erlaubt maximale Flexibilität, da eigene Vokabularien definiert werden können. Und am wichtigsten: Daten, die mit RDFa beschrieben sind, haben das Potenzial, für viele Anwendungen genutzt werden zu können.

Das Potenzial der Daten: Mashups²

Das Potenzial der Daten lässt sich zum jetzigen Zeitpunkt am besten an Mashups zeigen.
Ein Mashup ist eine Webapplikation oder eine Website, die bestehende Inhalte von zwei oder mehreren externen Online-Angeboten kombiniert und in einer neuen Anwendung integriert. So werden Inhalte und Daten unterschiedlichster Webservices auf neue Art und Weise präsentiert.
Wenn nicht über offizielle Programmierschnittstellen (APIs) auf Daten zugegriffen werden kann, können Daten auch gezielt von Seiten extrahiert werden (Screen Scraping), oder aber über Feeds angezapft werden.

mashups und api
image-26103
Popurls.com ist so ein Mashup: aus vielen verschiedenen Informationsquellen (Reddit, Huffington Post, Google News, Hacker News etc.) erstellt Popurls.com ein sehr angenehmes Dashboard, das auf einem Blick die wichtigsten Inhalte aus dem Web anzeigt.
Amazon macht auch einige Daten durch den Amazon E-Commerce Service öffentlich zugänglich, so dass Entwickler eigene Shop-Oberflächen entwickeln können. Amazon erreicht so, dass Ware über eine Vielzahl an Kanälen vertrieben wird, und im Gegenzug werden die Anbieter an den Erlösen beteiligt.
Die ZEIT ONLINE hat erst vor kurzem eine Text-API zur Verfügung gestellt, die alle Texte seit 1946 umfasst. Autor, Kategorien und Schlagworte sind zusätzlich über Metadaten ausgezeichnet worden und lassen so „örtliche oder inhaltliche Zusammenhänge, Zeitbezüge [und] Dinge sichtbar werden, die beim einfachen Lesen nicht unbedingt zutage treten.“

Im Gegensatz zu klassischen Web 2.0 Mashups sind semantische Mashups nicht durch eine vorher festgelegte Menge an Datenquellen beschränkt, sondern operieren in einem offenen Datenraum, der u. a. durch RDF als standardisiertes Datenmodell möglich gemacht wird. Gapminder.org macht sich schon jetzt große Bestände strukturierter Daten zunutze, die losgelöst von den Beschränkungen einer API in der sogenannten Linked Open Data Cloud zur Verfügung stehen.
Dieses Netzwerk an annotierten Daten ist öffentlich zugänglich und wird unter anderem von der British Broadcasting Corporation (BBC), der New York Times, The Guardian, der Deutschen Zentralbibliothek für Wirtschaftswissenschaften und data.gov unterstützt.

Ausblick

Das Internet als Medium für Datensammlungen ermöglicht schon jetzt innovative Anwendungen. In Zukunft werden Dank semantischer Auszeichnungssprachen zusätzlich völlig neuartige, datengetriebene Einsatzmöglichkeiten geschaffen.
Zwar hat das semantische Web noch einen weiten Weg vor sich und viele dringende Fragen zu beantworten, aber der Grundstein von logisch ausgezeichneten Daten über RDF ist schon lange gelegt worden. Die Vorteile sich mit dieser Entwicklung auseinander zu setzen betreffen bei weitem nicht nur SEOs, aber sie sollten auf jeden Fall ganz vorn mit dabei sein.

Mit bedeutungsvollen Grüßen

Ines und die SEO Trainees.

 

© Bild: iStockphoto / ThinkStock. Mit freundlicher Unterstützung von lorm.de

Produktmanagerin
Von den SEO Trainees wird Kreativität und analytisches Denken verlangt – eine reizvolle Kombination, die sich auch in meinem Studium der Rechts- und Japanwissenschaften widerspiegelt. Nach dem Traineeship kann ich als Produktmanagerin bei der wirkungsvoll GmbH meiner Leidenschaft für Innovationsökonomie nachgehen. Neben Fortschritt und Wandel macht mich auch smartes Linkbuilding glücklich. Und Whisky. Und Schokolade.

Bewerte unsere Artikel

Hat dir der Artikel gefallen? Sag es uns und bewerte ihn mit den Hütchen.
0
 
6.4/7 (7 Bewertungen)
Dieser Artikel wurde am Mittwoch, den 28. November 2012 geschrieben. Wir freuen uns auf Deine Meinung, nutz hierfür einfach die Kommentarfunktion.
16 Kommentare bisher • RSS-Feed für Kommentare
Hinterlasse Deinen Kommentar!

Ergänzungen oder Fragen? Diesen Artikel kommentieren: