Mit Wolfram Alpha und Google Squared wurden im Mai 2009 die ersten 2 ernstzunehmenden semantischen Suchmaschinen vorgestellt. Beide bieten anders als herkömmliche Suchmaschinen keine Webseiten als Suchergebnisse sondern konkrete Antworten auf die gestellte Frage an. Damit wird es Menschen ermöglicht schnell und ohne viele weitere Klicks Antworten auf eine Frage zu erhalten. Besitzer von Webseiten müssen hierzu umdenken: nicht alleine die Webseite an sich spielt eine Rolle im Internet sondern die Informationen die auf dieser zur Verfügung gestellt werden.
[Letzte Aktualisierung: 22.05.2012]
Semantik ist eine aus dem griechischen stammende Bezeichnung für die Bedeutungslehre, die Wissenschaft von der Bedeutung von Zeichen. In Zusammenhang mit modernen Computern versteht man darunter das Verständnis von Maschinen für von Menschen verfasste Texte. Das naheliegendste Beispiel für semantische Texte sind HTML-Codes. Jedes HTML-Element hat für die Maschinen eine Bedeutung.
Beispiel:
Derartig formatierter Text wird von Maschinen als ein betonter Text gelesen. Menschen lesen ihn ebenfalls bevorzugt, weil er von den meisten Browsern fett, also hervorgehoben, dargestellt wird.
Semantische Suchmaschinen greifen wie herkömmliche Suchmaschinen auf einen gigantischen Fundus an zugrundeliegenden, gesammelten Daten zurück. Anders als die bisher bekannten Suchmaschinen berechnen semantische Suchmaschinen die Ergebnisse einer Anfrage und die Reihenfolge dieser Ergebnisse nicht auf Grundlage der technischen Eigenschaften der Seiten in der eigenen Datenbank sondern auf Grundlage der Inhalte dieser Datenbanken. Das erfordert natürlich ein Verständnis für die menschliche Sprache sowie die mit der menschlichen Sprache übergebenen Informationen.
Beispiel: "Was ergibt rot und gelb?"
Bei diesem Beispiel muss eine semantische Suchmaschine zunächst die relevanten Wörter erkennen. Im Idealfall wäre das "rot" und "gelb". Die Maschine ermittelt danach alle inhaltlich relevanten Daten die mit diesen beiden Wörtern in Zusammenhang stehen. Z.B. wäre eine Antwort "orange", aber auch Informationen über die Hexadezimalwerte der beiden Farben wären möglich. Der Fragesteller erhält somit konkrete Antworten auf seine Frage und muss sich nicht, wie bisher üblich, durch viele weitere Seiten klicken.
Ähnliche Fragen könnte man auch zu weniger banalen Dingen stellen. Z.B. würde eine Anfrage zu "Leipzig" alle Daten über Leipzig liefern (Einwohnerzahl, Geschichte, Standort etc.); oder eine Frage nach "Microsoft" Informationen über Umsätze, Marktanteile oder Mitarbeiter liefern.
Da stellt sich für uns Menschen natürlich die Frage, welche Qualität solche Antworten von Maschinen haben. Semantische Suchmaschinen beziehen die Daten der Antworten wie auch herkömmliche Suchmaschinen aus dem Quellcode von Millionen von Webseiten. Die Qualität der Antworten richtet sich somit primär nach der Qualität der verfügbaren Daten und somit nach der technischen Qualität von Webseiten.
Moderne Webseiten, in XHTML oder HTML5 geschrieben, verwenden jedes HTML-Element auch für seine eigentliche Bedeutung. Bei solchen Seiten fällt das Auslesen dieser Daten für Maschinen leicht. Leider gibt es immernoch hunderttausende Webseiten die sich nicht an diese seit Jahren üblichen Standards halten und größtenteils auch nicht validen, für Maschinen sauber lesbaren HTML-Code enthalten. Hier fällt das Auslesen nützlicher Informationen für jede Art (Such-)Maschine natürlich schwerer.
Einmal aus einer Webseite ausgelesen, werden die Informationen durch die Maschinen anhand ihrer Bedeutung (Semantik) analyisiert und verwertet. Beispielsweise wird eine Seite über Backrezepte auch inhaltlich in diese "Kategorie" einsortiert. Die detaillierte Zusammenstellung eines Rezeptes wird nicht als solches sondern in Einzelteilen vermerkt - eine mögliche Information die tatsächlich den Weg in den Speicher einer semantischen Suchmaschine gespeichert wird wäre z.B. "zu Mehl kann man auch Ei dazugeben".
Stellt ein Besucher dann eine Anfrage werden die so eingelesenen Daten für die Antwort(en) berücksichtigt.
Wie auch bei herkömmlichen Suchmaschinen sollten Webmaster ihre Webseiten mit validem HTML-Code ausstatten und darauf achten, dass jedes HTML-Element auch für dessen vorgesehenen Zweck verwendet wird. Auch andere semantische Formate wie Microformate, GoogleBase und RSS-Feeds sind von Vorteil.
Microformate erlauben es z.B. einzelne Inhalte mit besonderen Merkmalen zu versehen. So kann man z.B. eine Adresse auch als "Adresse" markieren. Würde eine semantische Suche danach gefragt werden ("Wie ist die Adresse von ...") würde sie (im Idealfall) die derartig formatierten Inhalte als Antwort an den Fragesteller zurückgeben.
Webmaster die bereits mit diesen Formaten arbeiten und die Webseiten für herkömmliche Suchmaschinen optimiert haben, müssen somit nur wenig an ihrer Technik ändern. Mit allen modernen Content-Management-Systemen (wie VIO.Matrix) ist diese semantisch korrekte Aufbereitung des Quellcodes sehr leicht möglich.
Als Webseitenbesitzer, der für die Inhalte der eigenen Seite verantwortlich ist, muss man umdenken: es geht nicht mehr allein darum eine Webseite für das eigene Unternehmen zu haben. Es geht darum Informationen über das eigene Unternehmen anzubieten und somit Werbung für sich selbst zu machen. Die Webseite selbst als Marketingobjekt tritt in den Hintergrund - die darauf bereitgestellten Inhalte zählen.
Daraus ergibt sich aber auch ein kleines Problem. Möchte man wirklich alle Informationen die man auf der Webseite bereitstellt einer anderen Webseite zur eigenen Verwendung zur Verfügung stellen?
Ein Nachteil einiger semantischen Suchmaschinen ist, dass die Antworten auf eine Frage keine Links zur Herkunft der Daten enthalten. Somit wird eine Webseite die als Quelle einer Information dient nicht auch als Quelle genannt. Einige Webseitenbesitzer wird dies nicht freuen zumal dadurch Informationen verwendet werden ohne, dass dafür mit Werbung für die eigene Seite "gedankt" wird.
Der einzige Weg eine Information vor semantischen Suchmaschinen zu verstecken ist es die Information nicht mal ins Internet zu stellen. Das hat natürlich gleichzeitig zur Folge, dass diese Information nicht über herkömmliche Suchmaschinen gefunden werden kann. Ein Zwiespalt für den man als Webseiteninhaber für sich selbst (und auch ggfs. für das eigene Unternehmen) einen Kompromiss finden muss.
Anfang 2009 wurde Wolfram Alpha als "rechnende Wissensmaschine" angekündigt. Die von Mathematiker Stephen Wolfram erdachte "Suchmaschine" basiert komplett auf dessen mathematischen Berechnungen zur semantischen Analyse von Informationen. Ob dieses Vorgehen von Vorteil ist, ist umstritten. Manche Google-Kritiker meinen diese Frage-Antwort-Maschine könnte Google den Rang ablaufen. Seit Wolfram Alpha online ist kann man jedoch sehen, dass diese semantische Maschine lediglich für banale Anfragen sehr gute Antworten liefert - möchte man jedoch konkrete Informationen über Produkte, z.B. über VIO.Matrix, erhalten scheitert diese Suchmaschine. Da Wolfram Alpha bisher auch nur auf englisch verfügbar ist, kann man nur hoffen, dass sich aus diesem Projekt noch mehr entwickelt als man derzeit sehen kann.
Google Squared befand sich seit der Bekanntgabe der Entwicklung im Mai 2009 in einer Testphase und wurde innerhalb von Googles eigenen TechLabs entwickelt. Im Frühjahr 2012 wurden die Ergebnisse dieser Entwicklung in die eigentliche Google-Suchmaschine integriert. Google wurde folglich zu einer, wenn auch noch kleinen semantischen Suchmaschine. Denn die semantische Suche greift bisher "nur" auf rund 500 Millionen Fakten zurück die man über die Google-Datenbank automatisiert herausfischen konnte. Diese werden als Quelle für jeden Suchbegriff herangezogen - derzeit allerdings noch nur in der englischen Sprache.
Daneben gibt es noch zahlreiche kleinere semantische Suchmaschinen die z.T. nur für einige Bereiche des Internets bestimmt sind. So durchsucht powerset z.B. den Datenbestand der Online-Enzyklopädie Wikipedia.
Links:
Man kann davon ausgehen, dass semantischen Suchalgorithmen die Zukunft gehört. Die aktuellen Entwicklungen sind nur der Anfang. In den kommenden Jahren wird vermutlich auch jede normale Suchmaschinen mit (noch mehr) semantischen Fähigkeiten ausgestattet. Damit wird sich sowohl unser Verhalten im Internet verändern wie auch die Art und Weise wie Redakteure die Inhalte ihrer Webseiten pflegen.
Weiterführende Links: