
Prof. Dr. Felix Naumann
Hasso-Plattner-Institut
für Softwaresystemtechnik
Prof.-Dr.-Helmert-Str. 2-3
D-14482 Potsdam, Germany
Daniel Rinser wins award for his masters thesis
IQ Best Master Degree Wettbewerb der Deutschen Gesellschaft für Informations- und Datenqualität e....
HPI TV releases video about GovWILD
See the new video about our Government Data Integration platform GovWILD.
Tool voidGen released
As part of our winning submission at the 2010 Billion Triple Challenge at the International...
ICDE Paper Accepted
28th IEEE International Conference on Data Engineering (ICDE) Washington, DC, USA Adaptive...
GovWILD in LOD cloud
The GovWILD team is happy to announce that the latest version of the LOD cloud (September 2011)...
CoopIS Paper Accepted
The 19th International Conference on Cooperative Information Systems (CoopIS) Crete, Greece...
ICSOC Paper Accepted
Revealing Hidden Relations among Web Services Using Business Process Knowledge ... Mohammed...
5 Papers Accepted at CIKM 2011/ 1 Paper Accepted at the co-located SMER Workshop
Proceedings of the 20th ACM Conference on Information and Knowledge Management, CIKM 2011, Glasgow,...
Ausgangslage
Seit einiger Zeit bemüht sich die Semantic Web community um die Erzeugung und Bereitstellung von Linked Data – frei verfügbarer, semi-strukturierter und verknüpfter Daten. Ein prominentes Beispiel ist das DBPedia Projekthttp://dbpedia.org/About, welches strukturierte Anteile von Wikipedia-Seiten in Form riesiger Mengen an Daten-Tripeln zum Download zur Verfügung stellt. Die Firma IBM wird z.B. durch eine Vielzahl von Tripeln wie <IBM, location, Armonk> oder <IBM, keyPeople, Sam Palmisano> beschrieben. Die so entstehenden Daten sind zwar strukturiert, aber aufgrund ihrer Quelle sehr heterogen und fehlerbehaftet.
Das Ziel des Seminars ist die Entwicklung von Algorithmen und einem Werkzeug zur Erforschung solcher Linked Data Datenmengen. Ein Nutzer soll leicht und schnell ein Verständnis des untersuchten Datenbestandes erlangen. Zu diesem Zweck sind (mindestens) vier Probleme zu überwinden.
- Erstens sind Daten über ein Objekt nicht in Tupel- oder Objektform gespeichert, sondern in Form von Tripeln. So sind beispielsweise Aggregationen über Eigenschaften (z.B. Anzahl Firmen pro Stadt) schwierig zu spezifizieren und aufwändig auszuführen. Anfragesprachen wie SPARQL oder JAQL, aber auch SQL können helfen.
- Zweitens sind die Datenbestände meist riesig. Der Infoboxdatenbestand aus DBPedia enthält 30 Mio. Tripel, Freebase stellt über 200 Mio. Tripel zur Verfügung. Zur Beantwortung komplexer Anfragen können beispielsweise parallele Cloud-Plattformen wie Hadoop helfen.
- Drittens beschreiben Datenbestände Objekte aus einer Vielfalt an Domänen. Informationen über Personen, Orte, Ereignisse, Firmen usw. treten vermengt auf und sind nicht leicht zu unterscheiden. Um einen Überblick über die Daten zu erhalten, ist es sinnvoll, Objekte zunächst nach ihrer Domäne zu klassifizieren, beispielsweise durch Betrachtung der sie beschreibenden Eigenschaften (Firmen haben ein „Gründungsjahr“, Personen hingegen einen „Geburtstag“).
- Viertens sind die Datenbestände heterogen. Gleiche Eigenschaften erhalten unterschiedliche Namen, gleiche Realwelt-Werte haben unterschiedliche Ausprägungen. Beispielsweise werden in DBPedia Firmen mit über 6000 verschiedenen Eigenschaften beschrieben, die meisten darunter überlappen sich semantisch (companyName vs. Name vs. NameOfCompany, …) Diese Heterogenität aufzudecken und anzuzeigen ist eines der Ziele des Projekts.
Ziele
- Analyse gängiger Data Profiling Algorihtmen und Werkzeuge in Hinblick auf ihre Eignung für Linked Data.
- (Weiter-)Entwicklung von Methoden und Algorithmen zum Profiling großer Mengen an Linked Data.
- Entwicklung eines web-basierten Werkzeuges zum interaktiven Profiling von Linked Data.
Die Ergebnisse des Projekts sollen der interessierten community zur Vefügung gestellt werden. Der potenzielle impact ist groß!
Hier ein Screencast des Ergebnisses:

Betreuer
- Prof. Dr. Felix Naumann
- Christoph Böhm
Terminplanung
- Regelmäßige Treffen Mittwochs 9:15 - 10:45
Datum | Thema | Sprecher | Folien |
|---|---|---|---|
22.04.2009 | Einführung | Felix Naumann | |
29.04.2009 | DBPedia | Prof. Chris Bizer | |
06.05.2009 | Themenvorstellung und -vergabe | alle | |
13.05.2009 | |||
20.05.2009 | |||
27.05.2009 | |||
03.06.2009 | |||
10.06.2009 | |||
17.06.2009 | |||
24.06.2009 | |||
01.07.2009 | |||
08.07.2009 | |||
15.07.2009 | |||
22.07.2009 | |||
Format
- Anzahl Teilnehmer: Dieses Projektseminar ist auf sechs Teilnehmer beschränkt. Die vorläufige Anmeldung erfolgt per kurzer E-Mail direkt an mich. Ich gebe Ihnen rechtzeitig vor dem Seminar über die endgültige Teilnahme Bescheid.
- Termine: Es finden mindestens zwei wöchentliche Treffen statt: Eines mit dem Seminarleiter zum Berichten über aktuelle Erkenntnisse und Ergebnisse und mindestens ein internes Treffen zum Austausch von Ideen und zur Koordination.
- Umfang: 4SWS
- Themengebiete:Systems Architecture, Systems Integration, Information Systems, Human Computer Interaction


