Zweiter Bericht von der Web-Konferenz WWW2010 in Raleigh, NC, USA

Am zweiten Tag der Konferenz stand ein ganztägiger Workshop zum Thema „Linked Data on the Web“ (LDOW) auf meinem Programm. Das Spektrum der Diskussionen reichte von sehr technisch bis philosophisch.
Linked Data – so etwas wie die Vorstufe zum Semantic Web – ist neben Web Science seit vielen Jahren eines der Lieblingsthemen von Tim Berners Lee (unter Insidern auch liebevoll „TBL“ genannt). So war es nicht erstaunlich, dass er als Mitorganisator für diesen Workshop zeichnete und auch sehr aktiv an den Diskussionen teilnahm. Einmal mehr bewunderte ich im Laufe des Tages, wie TBL trotz den zahlreichen Ehrungen und Auszeichnungen ein ganz normaler Mensch ohne Starallüren geblieben ist. Es gibt keine Sonderbehandlung, in der Kaffeepause stellt er sich wie alle anderen in die Reihe.

Es wurden sehr viele Themen rund um „linked Data“ diskutiert. Zum einen wurden diverse Ansätze vorgestellt, wie aus sogenannten „legacy Daten“ mehr oder weniger automatisiert RDF-Tripplets erzeugt werden können. Solange aber die Daten in traditionellen Datenbanken gepflegt werden, müssen sie immer wieder neu extrahiert werden, das scheint mir ein unglücklicher Umstand zu sein. Wenn die Datenmenge und die Anzahl Änderungen pro Zeiteinheit überschaubar bleiben, so mag dieser Ansatz praktikabel sein, aber irgendwann stösst man an eine Grenze des vertretbaren Aufwandes. Auf dem Weg von „linked Data“ zum Sematic Web kommt irgendwann OWL ins Spiel, eine Sprache um Zusammenhänge zwischen Daten zu beschreiben und diese für Maschinen interpretierbar zu machen. Nun ist das Interpretieren von Daten so eine Sache. Bei einer Zeitangabe für den Beginn einer Vorlesung oder der Abfahrt des nächsten Zuges ist man sich selbst auf einer globalen Skala – abgesehen von den sehr unterschiedlichen Zeitformaten – vermutlich bald über deren Bedeutung einig. Bei Begriffen wie „Feiertag“ wird es aber dann schon viel schwieriger, selbst innerhalb eines kleinen Landes wie der Schweiz. Ein Teilnehmer warnte, die unterschiedliche Interpretation des Begriffs „Gott“ hätte die Menschheit schon in Kriege geführt, was dann zur Eingangs erwähnten philosophischen Diskussion führte.

Nach dem Mittagessen – welches übrigens in Anbetracht des Durchführungsortes durchaus als schmackhaft und vielseitig bezeichnet werden darf – beruhigten sich die Gemüter dann wieder. Erik Wilde – einst „Mister XML“ an der ETH Zürich – erläuterte in seinem Kurzvortrag Ansätze, wie z.B. Informationen aus Webseiten gewonnen und in RDF-Tripplets gespeichert werden können. Was mir bei seinem Ansatz besonders gefiel war die Idee, die Informationshäppchen in den Webseiten nicht nur auf Grund von Tags und dem Format der Information selbst zu identifizieren (eine Telefonnummer oder Email-Adresse lässt sich maschinell recht gut erkennen), sondern die CSS-Klassen zu Hilfe zu nehmen. Würde also z.B. auf einer Webseite mit Angaben zu einer Person CSS-Klassen wie „Vorname“, „Nachname“, „Telefonnummer“ usw. benutzt, so könnte man den Inhalt mit grosser Zuverlässigkeit maschinell interpretieren.

Ganz besonders mein Interesse geweckt hat dann am Nachmittag noch der Vortrag mit dem Titel „An HTTP-Based Versioning Mechanism for Linked Data“. Hier ging es nämlich um Archivierung, wenn auch nicht direkt im Sinne eines Webarchivs, sondern eher um eine Art „Snapshots“. Im Vortrag wurde allerdings nicht behandelt, wie diese Snapshots zustande kommen, es wurde offensichtlich als selbstverständlich vorausgesetzt, dass der Inhalt der betroffenen Dokumente periodisch gespeichert wird. Es ging nun darum, wie man die verschiedenen Versionen eines Dokumentes adressieren könnte. Dazu wurde ein Time Server und eine Erweiterung der HTTP-Spezifikationen vorgeschlagen. Im aktuellen Dokument sollte ein Link zum Time Server eingebaut werden. Im erweiterten HTTP-Datenpaket soll der Zeitpunkt mitgegeben werden, für welchen man den Stand des Dokumentes haben möchte. Der Time Server liefert dann das entsprechende Dokument und versteht auch Anweisungen wie „vorangehende Version“, „nachfolgende Version“, „erste Version“ usw. Ich bin sehr gespannt, ob sich dieser Ansatz durchsetzen kann – die Idee schien nicht nur mir bestechend. Allerdings nützt die ganze Übung nur etwas, wenn man auch von Zeit zu Zeit eine Kopie der aktuellen Dokumente erstellt und diese archiviert. A propos Archivierung: Es wurde erwähnt, dass die Library of Congress sämtliche „Twitters“ archivieren werde. Den Info-Häppchen wird als zeitgenössische Dokumente grosser und kleiner Ereignisse genug Bedeutung zugemessen, als dass sie der Nachwelt erhalten bleiben sollen. Dieses Vorgehen stimmt genau mit meiner Überzeugung überein, dass nur eine archivierte Information eine gute Information ist.

Damit gehen die Tage der Tutorials und Workshops zu Ende. Morgen nun geht es dann richtig los mit der Konferenz. Ich freue mich sehr, denn es sind einige sehr interessante Rednerinnen und Redner angekündigt. Übrigens sind gemäss Teilnehmerliste 1040 Personen registriert, davon sind nach meiner Schätzung mindestens 66% aus den USA. 8 TeilnehmerInnen aus der Schweiz sind aufgeführt, darunter eine Person von der EPFL und Cesare Pautasso von der Universität Lugano. Letzteren kenne ich von der Webkonferenz in Peking, wo wir zusammen mit Erik einen Tag lang die Verbotene Stadt besucht hatten.

Posted on
in Mail, Web, Support Tags: , , ,