Googelst du noch
oder findest du schon?

Wie das Semantic Web Ordnung ins Internet bringen will

 

Text: Astrid Lamm

 

Ausgabe 57
Upgrade der Wirklichkeit:
Zur Zukunft des World Wide Web





Startseite
Editorial
Bestellt und nicht abgeholt.
Interview mit Esther Dyson.

Digitalisierter Alltag:
Wirklichkeit und virtuelle Welt verschmelzen

Das Internet der Zukunft:
Wohin geht die Reise?

Die totale Vernetzung
Googelst du noch
oder findest du schon?

Filmgenres 2.0: Zurück in die Zukunft
Du bist die Weltkarte
Fast backward: Die Rückkehr der Geschichte im Internet
Erfolgreiche Obama-Show im Internet
Content is King – Entertainment is Queen: Branded Entertainment
Quo vadis Markenführung im Web
Geistiges Eigentum muss
geschützt werden

Zukunftsmusik

Autoren dieser Ausgabe




Impressum
Themen des Magazins
Ausgabenverzeichnis
Stichwortverzeichnis
Verzeichnis aller Autoren


Newsletter und RSS-Feed
Link in del.icio.us ablegen
Artikel drucken

Presse

Das Lustige am Web 3.0 alias Semantic Web ist, dass es schon erfunden wurde, als es das Web 2.0 noch gar nicht gab. Es hat Tim Berners-Lee, der vor 20 Jahren auch das World Wide Web erfand, in den letzten Jahren verständlicherweise gewurmt, dass seine in den späten 90ern entwickelte Vision des Semantic Web zunehmend in Abhängigkeit geriet zu Tim O’Reillys Web 2.0-Begriff. Von nun an wurde Semantic Web als Web 3.0 periodisiert und einsortiert: als das Web, das erst noch kommen sollte, während wir 2.0 schon hatten. Aber Berners-Lees Idee betrat früher als die ersten Web 2.0-Applikationen die Cyberspace-Bühne – als noch weder das eine noch das andere ahnte, das die aus der Software-Entwicklung bekannten Versions-Bezeichnungen bald auch für die avisierten Paradigmenwechsel des Internets benutzt werden würden.

Während Tim O’Reilly die neuen Web-Programme und Geschäftsideen, die trotz des Internet-Crashs ab 2003 wieder Erfolge feierten, rückblickend wie eine kathartische Selbst-Reinigung des Netzes las, mittels derer das Web – philosophisch gesprochen – endlich zu sich selbst komme, ist die Idee des Semantic Web ein kühner Entwurf dessen, was das Web künftig erst noch werden solle. In dieser Hinsicht handelt es sich teilweise um gegensätzliche Ansätze: Wo das Web 2.0 hinsichtlich seiner Interfaces, Programmier-schnittstellen und interaktiven Angebote mit Einfachheit punktet, vordergründig Überflüssiges reduziert und nebenher auch erste Antworten auf Fragen und Probleme der Ordnung und Auffindbarkeit gibt (genau diese Fragen aber auch selbst verschärft, weil sich mittels User Generated Content immer neue Datenfluten nun viel leichter generieren lassen), da will das Semantic Web mit anspruchsvollen, komplexen Programmier-Zielen ansetzen und neue Ordnungs-Hierarchien erschaffen, um die Probleme des Web zu lösen.

Kurz gefasst ist es die Idee des Semantic Web, Webseiten mit Bedeutungsbeschreibungen zu unterlegen, die nicht nur Menschen, sondern auch Computer lesen können. Auf dieser Stufe könnten dann nicht nur Menschen mit Computern ganz neu kommunizieren, sondern auch die Maschinen untereinander. Das wiederum, so die Idee, würde die Menschen, die sich bislang mühselig durch den Information Overload des Web pflügen und dabei immer neu Brauchbares von Unsinnigem selbst unterscheiden müssen, schlagartig entlasten, denn diese Aufgabe sollen dann Programme für ihn übernehmen können. Eine neue, heute noch etwas paradiesisch anmutende Kooperation könnte so entstehen.

Wer sich mit Ordnung und Finden relevanter Informationen im Web befasst, kommt um die Beschäftigung mit dem Suchen nicht herum. Das erledigen zuallererst Suchmaschinen für uns, allen voran Google. Wir haben uns daran gewöhnt, dass wir auf eine Suchanfrage zumeist Tausende und Abertausende von Treffern erhalten – Treffer, die wir nicht brauchen und niemals anschauen werden, denn sonst wäre es unsere letzte Suche im Netz gewesen. Zwar realisieren wir, dass es nicht zuverlässig die für uns geeignetsten Treffer sind, die Google uns zuoberst listet, und dass auf den hinteren Seiten Treffer sein mögen, die uns viel mehr nutzen würden – aber wir haben nicht die Zeit, sie alle anzuschauen und zu überprüfen. Wir bräuchten an dieser Stelle eine Suchmaschine, die für uns die Treffer der Suchmaschine durchsucht: nach unseren eigenen, nur für uns sinn- und bedeutungsvollen Kriterien, die weder Google noch Yahoo und auch nicht Ask und die anderen Maschinen-Kollegen kennen oder verstehen. Das in etwa ist das Arbeitsprogramm, das sich das Semantic Web vorgenommen hat.

Google muss seine Treffer priorisieren, die es dank unglaublicher Server-Power in Sekunden aus den von seinen Web-Crawlern zuvor indizierten Daten heraus filtert – stolz zeigt Google stets auch die Geschwindigkeit der Suche bis zum Ergebnis an, so als sei nur sie relevant – und tut dies u. a. nach dem einst innovativen Prinzip der Verlinkungshäufigkeit. Das erscheint einer hypertextuell, nicht linear organisierten Ordnung zwar auch gemäß, führt aber auf Dauer zum Beispiel zu Verzerrungen, weil die Suchmaschine den eigenen Verzerrungseffekt nicht rausrechnen kann: bei Google top gelistete Webseiten werden aufgrund dieser Platzierung immer wieder neu verlinkt und natürlich ungleich häufiger aufgerufen als andere. Das Ergebnis ist, dass sie ihre führende Stellung immer weiter ausbauen und viele Anfragen so zuoberst mit Jahre alten Informationen bedient werden oder auch mit endlos weiter kolportierten Diskussionssträngen aus irgendwelchen Foren, die die eigentliche Suchanfrage nicht lösen.

Auch falsche Informationen können sich so hartnäckig fortpflanzen, und dies vollkommen unkontrolliert. Diese Eigenschaft des Web, die jüngst immer wieder dem Wikipedia-Projekt vorgehalten wird, trifft auf Suchanfragen ungleich schärfer zu. Denn wir neigen dazu, in die Treffer-Reihenfolge mehr Bedeutung hinein zu lesen als darin enthalten ist, weil es ein in uns verwurzeltes Prinzip ist, dass zuoberst das beste, valideste Ergebnis stehen müsse. Diese Erwartung hat mit der Funktionsweise einer Search Engine technisch aber nichts zu tun. Ob zumindest das Grundprinzip gilt: was viele verlinken und anschauen, muss richtiger sein als selten abgefordertes Web-Wissen, ist eine noch nicht abgeschlossene Debatte, die das Web 2.0 gerade erst so richtig ins Rollen gebracht hat. Es ist diese menschliche Erwartungshaltung, die zu befriedigen Berners-Lee den Programmen beibringen will.

Dabei geht es nicht darum, die vielbeschworene künstliche Intelligenz zu realisieren. Der Ansatz ist eher, Mehrarbeit in die Erstellung von Webseiten zu stecken – und auch ein wenig noch in die Nachpflege der paar Milliarden bereits existierenden Seiten –, um im Ergebnis Zeit und Aufwand zu sparen, indem standardisierte und für Computerprogramme auslesbare Sprachen und Protokolle entwickelt und den Seiten beigegeben werden, die semantische Informationen enthalten. In seinem Grundprinzip ist dieser Plan nicht so weit entfernt von dem, wie alles begann: Denn bereits html ist eine Auszeichnungssprache (und kein Programm), die Metadaten enthält, die nur für Maschinen bestimmt sind (und auch von ihnen gelesen werden), und funktioniert in Verknüpfung mit dem URI-Standard (Unified Resource Identifier), der auch die Basis des Semantic Web bilden soll.

Neben den verschiedenen technischen Spezifikationen, aus denen heraus das Semantic Web entwickelt werden soll (allem voran XML, idealerweise und vom W3C empfohlen zudem OWL), will es auch das Problem des Vertrauens lösen, und zwar so: Software-Agenten, die meine Interessen kennen, sollen für mich das Netz durch forsten und entscheiden können, welcher Quelle ich vertrauen und glauben will. Ich sehe mir nur noch die Ergebnisse der Agenten-Arbeit an.

Schon heute lernen Programme in dieser Richtung beträchtlich hinzu. Spam-Filter sind ein gutes Beispiel dafür, wie Agenten arbeiten könnten, die man im Semantic Web erst anlernen und dann ins Netz entlassen können soll. Die neueste Version des Firefox-Browsers lernt von den Adressen, die man im Netz mit ihm abruft, indem er nicht nur Übereinstimmungen aus der Web-Historie präsentiert, sondern auch ein Gewichtungsmoment in seine Vorschläge einbaut, je nachdem, wie häufig man die entsprechenden Sites bereits früher konsultierte. Eine Unzahl von Web 2.0-Seiten und Browser-Addons präsentiert mittlerweile Surf-Vorschläge aus der Fülle des Webs, die auf Daten beruhen, die diese Programme von einer Masse an Nutzern sammeln. Diese Empfehlungsfunktion kann aktiv und passiv gefüttert werden. Eine Seite wie Amazon merkt sich über Cookies, besser noch über die personalisierte Login-Funktion, welche Bücher, Filme und Musik Nutzer X in welcher Reihenfolge anschaute, und gleicht diese Reihenfolge ab mit den Reihenfolgen, die Nutzer Y und Z generieren, während sie ähnliche Produkte betrachten. Das Programm erkennt darin Muster, die dazu führen, dass Amazon Nutzer X nun thematisch passende weitere Vorschläge machen kann, die X noch gar nicht kannte und nicht allein gefunden hätte, wohl aber Y und Z, und umgekehrt. Diese Informationsaustausch-Funktion, die auf Ähnlichkeiten basiert, funktioniert auch mit Surf-Reihenfolgen oder Videos, Fotos und Musik, wobei Programme ähnliche Webseiten vorschlagen, ähnliche Musik (populärstes Beispiel ist hier Last.fm), ähnliche Nachrichten usw.

Ein aktives Moment kommt hinzu durch das im Web 2.0 allgegenwärtige Tagging. Das kollektive Verschlagworten von allem und jedem im Netz, sei es eine wissenschaftliche Publikation, ein Song, ein Blog-Beitrag oder ein Konsum-Produkt, führt dazu, dass gleich oder ähnliche getaggte andere Fundorte möglich werden. Auch das Prinzip des gemeinschaftlichen Bookmarkens nutzt diese menschlich zugewiesenen Beschreibungen, indem sowohl über die Recherche in getaggten Bookmarks als auch über die Einsicht fremder Bookmark-Sammlungen neue Informationen gefunden werden, die mehr Relevanz enthalten mögen als die herkömmlichen Suchmaschinen-Treffer. Mit der weiteren Möglichkeit der Bewertung, die das Web 2.0 realisiert hat, kommt eine nächste Ebene hinzu, Vertrauen zu schaffen und zu versuchen, Bedeutendes von Unbedeutendem zu unterscheiden.

So hilfreich dies aber alles ist, so sehr beruht es letztlich doch immer auf Empfehlungen und Einschätzungen von Fremden, und nicht jedem Web-Teilnehmer möchte ich womöglich gleich vertrauen, zumal denen nicht, die das für mich Irrelevante überhaupt erst erzeugt haben. Natürlich kann ich schon heute dieses ganze Empfehlungssystem reduzieren auf ein Freunde-System. Aber wenn meine Freunde alles wüssten, was ich brauche, bräuchte ich gar nichts mehr im Netz suchen. Was also wähle ich, was grenze ich aus, wann immer ich niemanden kenne, der mir eine Empfehlung geben kann?

Auch baut das Web 2.0 die Informationsflut so weniger ab als oft genug überhaupt erst auf. Konnte ich mich bisher vielleicht als zwar unwissend und naiv, aber glücklich schätzen, weil ich gar nicht wusste, dass auch noch 500 andere Webseiten als die, die ich zu bestimmten Zecken regelmäßig besuche, ähnliche Informationen, nur noch viel besser für mich bereit halten, so werde ich jetzt, wenn ich die neuen Tools nutzen will, geradezu bombardiert mit einer Vervielfältigung qualitativ ansprechender Treffer, die mich schnell überfordern. Mit Google ist man noch fertig geworden, indem man sich einfach auf die Top drei der ersten Trefferseite konzentriert, vielleicht mal die erste Seite ganz überfliegt, wenn’s gerade ein Sonntag ist. Diese Strategie reicht im Web 2.0 aber nicht mehr aus, denn die Treffer werden bereits besser, aber nicht weniger.

Das Semantic Web will hier weiter helfen, indem letztlich die Kommunikation mit dem Autor von Webseiten-Informationen über eine Art Beipackzettel, die er diesen Informationen mit gibt, möglich wird, und Suchmaschinen und andere Programme nicht mehr nur die Inhalte von Webseiten absurfen, sondern auch deren Gebrauchsanweisungen verstehen und weiter zu vermitteln lernen. Alles mit dem einen Ziel: nicht nur Besseres, sondern davon endlich auch weniger zu finden. Dann wäre ein Traum wahr geworden.

Die Autorin




Astrid Lamm hat 1998 ein Studium der Germanistik, Soziologie und Politikwissenschaften in Göttingen abgeschlossen. Berufliche Stationen waren zunächst die Personalarbeit und Weiterbildung, später die Online-Redaktion und Öffentlichkeitsarbeit. Zur Zeit ist sie Stipendiatin und Lehrbeauftragte am Fachbereich Verwaltungswissen-schaften der Hochschule Harz (FH).