
Prof. Dr. Felix Naumann
Hasso-Plattner-Institut
für Softwaresystemtechnik
Prof.-Dr.-Helmert-Str. 2-3
D-14482 Potsdam, Germany
Paper accepted at SSDBM
Proceedings of the 24th International Conference on Scientific and Statistical Database...
JWS Article Accepted
Integrating Open Government Data with Stratosphere for more Transparency Arvid Heise and Felix...
LREC Paper Accepted
The eighth international conference on Language Resources and Evaluation (LREC), Istanbul,...
Daniel Rinser wins award for his masters thesis
IQ Best Master Degree Wettbewerb der Deutschen Gesellschaft für Informations- und Datenqualität e....
HPI TV releases video about GovWILD
See the new video about our Government Data Integration platform GovWILD.
Tool voidGen released
As part of our winning submission at the 2010 Billion Triple Challenge at the International...
ICDE Paper Accepted
28th IEEE International Conference on Data Engineering (ICDE) Washington, DC, USA Adaptive...
Beschreibung
Die Integration von Datenquellen kann als dreistufiger Prozess modelliert werden, der Thema des Seminars sein wird. Zuerst müssen übereinstimmende Attribute gefunden werden, die in unterschiedlichen Quellen gleiche Dinge beschreiben. Das Ergebnis dieses Schrittes ist ein Schema Mapping, das benutzt werden kann, um die Quellen in eine einheitliche Repräsentation zu überführen (Umbenennung, Umstrukturierung von Attributen).
In einem zweiten Schritt müssen gleiche Objekte der realen Welt, die auf unterschiedliche Art und Weise in den Quellen beschrieben werden erkannt werden. Auf diese Weise, mit Hilfe von verschiedenen Techniken der Duplikaterkennung, werden unterchiedliche, möglicherweise inkonsistente Repräsentationen desselben Objektes der realen Welt gefunden.
In einem letzten Schritt müssen die unterschiedlichen Repräsentationen kombiniert und zu einer einheitlichen Repräsentation fusioniert werden, wobei die möglicherweise auftretenden Inkonsistenzen behandelt, um günstigsten Fall aufgelöst werden. Dieser letzte Schritt wird in der Literatur als Datenfusion bezeichnet.
Das Seminar beschäftigt sich mit den drei Hauptproblemen beim Betrieb eines solchen integrierenden Systems:
1. Wie können die unterschiedlich strukturierten Datenbanken zu einer einzigen Sicht kombiniert werden? Wie entdeckt man Übereinstmmungen in der Art und Weise wie Objekte in den Quellen repräsentiert werden?
2. Wie können Duplikate, also mehrfach repräsentierte Objekte in den Datenquellen gefunden werden?
3. Wie können die Widersprüche und Inkonsistenzen zwischen den unterschiedlichen Repräsentationen eines Objektes behandelt werden, die zwangsläufig auftreten?
Das Seminar richtet sich an Studenten im Masterstudiengang. Die Leistungserfassung besteht aus einem Seminarvortrag und einer Ausarbeitung zu einem ausgewählten Thema, und der Einarbeitung in ein weiteres, thematisch verwandtes Thema. (Paarungen werden noch bekannt gegeben.)
Anmeldung: durch Anwesenheit am ersten Termin.
Termine, Themen und Themenvergabe
Thema | Literatur | Bearbeiter | Termin | Folien | |
Einführung, Themenvergabe | Prof. Dr. Felix Naumann, Melanie Weis, Jens Bleiholder | 19.10.2006 | |||
Schema Matching | |||||
Cupid Matcher | Christian Tinnefeld | 30.11.2006 | -- | ||
DUMAS Matcher | Matthias Weidlich | 30.11.2006 | -- | ||
| |||||
Duplikaterkennung | |||||
Data Warehouse Duplikate | Alexander Küchler | 21.12.2006 | -- | ||
PIM Duplikaterkennung | Andreas Fahle | 21.12.2006 | -- | ||
| |||||
Datenfusion | |||||
Feature basierte Datenfusion | Kathleen Haucke | 25.1.2007 |


