Hasso-Plattner-Institut für Softwaresystemtechnik
Linked Data Profiling

Prof. Dr. Felix Naumann

Hasso-Plattner-Institut
für Softwaresystemtechnik
Prof.-Dr.-Helmert-Str. 2-3
D-14482 Potsdam, Germany

Linked Data Profiling

Ausgangslage

Seit einiger Zeit bemüht sich die Semantic Web community um die Erzeugung und Bereitstellung von Linked Data – frei verfügbarer, semi-strukturierter und verknüpfter Daten. Ein prominentes Beispiel ist das DBPedia Projekthttp://dbpedia.org/About, welches strukturierte Anteile von Wikipedia-Seiten in Form riesiger Mengen an Daten-Tripeln zum Download zur Verfügung stellt. Die Firma IBM wird z.B. durch eine Vielzahl von Tripeln wie <IBM, location, Armonk> oder <IBM, keyPeople, Sam Palmisano> beschrieben. Die so entstehenden Daten sind zwar strukturiert, aber aufgrund ihrer Quelle sehr heterogen und fehlerbehaftet.

Das Ziel des Seminars ist die Entwicklung von Algorithmen und einem Werkzeug zur Erforschung solcher Linked Data Datenmengen. Ein Nutzer soll leicht und schnell ein Verständnis des untersuchten Datenbestandes erlangen. Zu diesem Zweck sind (mindestens) vier Probleme zu überwinden.

  • Erstens sind Daten über ein Objekt nicht in Tupel- oder Objektform gespeichert, sondern in Form von Tripeln. So sind beispielsweise Aggregationen über Eigenschaften (z.B. Anzahl Firmen pro Stadt) schwierig zu spezifizieren und aufwändig auszuführen. Anfragesprachen wie SPARQL oder JAQL, aber auch SQL können helfen.
  • Zweitens sind die Datenbestände meist riesig. Der Infoboxdatenbestand aus DBPedia enthält 30 Mio. Tripel, Freebase stellt über 200 Mio. Tripel zur Verfügung. Zur Beantwortung komplexer Anfragen können beispielsweise parallele Cloud-Plattformen wie Hadoop helfen.
  • Drittens beschreiben Datenbestände Objekte aus einer Vielfalt an Domänen. Informationen über Personen, Orte, Ereignisse, Firmen usw. treten vermengt auf und sind nicht leicht zu unterscheiden. Um einen Überblick über die Daten zu erhalten, ist es sinnvoll, Objekte zunächst nach ihrer Domäne zu klassifizieren, beispielsweise durch Betrachtung der sie beschreibenden Eigenschaften (Firmen haben ein „Gründungsjahr“, Personen hingegen einen „Geburtstag“).
  • Viertens sind die Datenbestände heterogen. Gleiche Eigenschaften erhalten unterschiedliche Namen, gleiche Realwelt-Werte haben unterschiedliche Ausprägungen. Beispielsweise werden in DBPedia Firmen mit über 6000 verschiedenen Eigenschaften beschrieben, die meisten darunter überlappen sich semantisch (companyName vs. Name vs. NameOfCompany, …) Diese Heterogenität aufzudecken und anzuzeigen ist eines der Ziele des Projekts.

Ziele

  • Analyse gängiger Data Profiling Algorihtmen und Werkzeuge in Hinblick auf ihre Eignung für Linked Data.
  • (Weiter-)Entwicklung von Methoden und Algorithmen zum Profiling großer Mengen an Linked Data.
  • Entwicklung eines web-basierten Werkzeuges zum interaktiven Profiling von Linked Data.

Die Ergebnisse des Projekts sollen der interessierten community zur Vefügung gestellt werden. Der potenzielle impact ist groß!


Hier ein Screencast des Ergebnisses:

Play this video
Dauer: 0:05:26

Betreuer

  • Prof. Dr. Felix Naumann
  • Christoph Böhm

Terminplanung

  • Regelmäßige Treffen Mittwochs 9:15 - 10:45

Datum

Thema

Sprecher

Folien

22.04.2009

Einführung

Felix Naumann

pdf

29.04.2009
ACHTUNG: 13:00 Uhr

DBPedia

Prof. Chris Bizer

06.05.2009

Themenvorstellung und -vergabe

alle

13.05.2009

20.05.2009

27.05.2009

03.06.2009

10.06.2009

17.06.2009

24.06.2009

01.07.2009

08.07.2009

15.07.2009

22.07.2009

Format

  • Anzahl Teilnehmer: Dieses Projektseminar ist auf sechs Teilnehmer beschränkt. Die vorläufige Anmeldung erfolgt per kurzer E-Mail direkt an mich. Ich gebe Ihnen rechtzeitig vor dem Seminar über die endgültige Teilnahme Bescheid.
  • Termine: Es finden mindestens zwei wöchentliche Treffen statt: Eines mit dem Seminarleiter zum Berichten über aktuelle Erkenntnisse und Ergebnisse und mindestens ein internes Treffen zum Austausch von Ideen und zur Koordination.
  • Umfang: 4SWS
  • Themengebiete:Systems Architecture, Systems Integration, Information Systems, Human Computer Interaction