Oskar Welzl: 23 Oktober 2007

Semantic Web à la twoday

In letzter Zeit spricht man auch bei mir in der Firma (z.B. in einem unserer „Corporate Blogs“ - ja, ich weiß, die sind out, Urlaubsblogs sind in) ganz offen über meine geheimste erotische Phantasie, meinen bizarrsten Fetisch: das semantische Web. Grund genug, den twoday-Server wieder einmal ans Andreaskreuz zu fesseln und diesmal so lange zu mißhandeln, bis er RDF/XML ausspuckt. (Die Vergangenen Folter-Sessions hat er ganz gut überlebt: Planet à la twoday, Geotagging à la twoday und Tagging à la twoday, wobei mit letzterem sogar ganz nebenbei sauberes RSS entstanden ist.)

Ums vorweg zu nehmen: Wirklich implementieren kann man eine RDF-Version des eigenen Blogs hier nicht, dazu müßte serverseitig zu viel geschraubt werden. Aber mit nur wenig manuellem Aufwand alle 4-8 Wochen kommt man recht nah ran.

Die erste Frage ist die nach einem brauchbaren Vokabular. SIOC ist dafür wie geschaffen - unter anderem wahrscheinlich deswegen, weils extra dafür erfunden wurde. Es ist nichts leichter, als den von twoday bereitgestellten RSS 1.0-Feed um ein paar SIOC-Informationen zu bereichern. Daß der entsprechende Beitrag vom rdf:type sioc:Post ist, welches sioc:topic er hat und welcher sioc:User ihn geschrieben hat zum Beispiel. An dieser Stelle wirds Zeit für einen dankbaren Kniefall vor den knallgrauen Göttern: Würden die nämlich Atom oder RSS 2.0 statt des RDF-basierenden RSS 1.0 verwenden, wär's Essig mit der semantischen Erweiterbarkeit des Feeds. Diese ist aber besonders wichtig, weil sie die einzige Möglichkeit zur Echtzeit-Einbindung aktueller Posts und Kommentare in das semantische Web direkt auf dem Server darstellt. Alles andere ist, wie vorhin erwähnt, Handarbeit.

Sobald nämlich Beiträge aus den RSS-Feeds rausrutschen und von neueren verdrängt werden, bleibt nur noch eins: die RDF-Version selber schnitzen. Das geht relativ leicht: Im Export-Modul von twoday läßt sich frei bestimmen, welche Information exportiert werden soll. Dabei bleibt die Hierarchie „Beitrag > Kommentar > Kommentar zum Kommentar“ erhalten. Alles, was man machen muß, ist die Export-Skins so umzuschreiben, daß sie XML-Fragmente exportieren. Diese lassen sich dann abspeichern, zu einer XML-Datei vereinen und per Stylesheet zu RDF/XML verarbeiten. Auf diese RDF/XML-Datei verlinkt man dann aus dem <head> einer HTML-Seite heraus. (Achtung: Die Export-Funktion verliert damit übrigens ihren ursprünglichen Zweck, die so exportierten Daten lassen sich nicht mehr importieren.)

Natürlich ist die scriptgesteuerte Umwandlung besonders spannend, denn hier besteht die Gelegenheit, zusätzliche Infos einzufügen: Auf welche externen Seiten verweist ein Artikel? Welche Quellen werden zitiert? Welche Personen sind auf den Fotos zu sehen? In welcher Beziehung stehen diese Personen zueinander? Ein Gemisch aus SIOC, FOAF und Dublin Core kann alle relevanten Informationen ausdrücken, mehr ist nicht notwendig. Ach ja, doch: WGS84 kommt auch noch vor - immerhin haben wir ja gerade erst gelernt, wie man Geotags in Blogposts einfügt. ;)

Wem das alles was nützt? Bösen Datensammlern in Schurkenstaaten vielleicht. Dem 08/15-User im Web derzeit kaum, obwohl man mit gut gemeinten Tools wie der Firefox Tabulator Extension zumindest halbherzigen Zugriff auf die Daten hat. Egal - Hauptsache mir geht jedesmal einer ab, wenn mein Shell-Script die RDF/XML-Files generiert und hochlädt. Wie gesagt: meine geheimste erotische Phantasie … ;-)