
Prof. Dr. Felix Naumann
Hasso-Plattner-Institut
für Softwaresystemtechnik
Prof.-Dr.-Helmert-Str. 2-3
D-14482 Potsdam, Germany
Paper accepted at SSDBM
Proceedings of the 24th International Conference on Scientific and Statistical Database...
JWS Article Accepted
Integrating Open Government Data with Stratosphere for more Transparency Arvid Heise and Felix...
LREC Paper Accepted
The eighth international conference on Language Resources and Evaluation (LREC), Istanbul,...
Daniel Rinser wins award for his masters thesis
IQ Best Master Degree Wettbewerb der Deutschen Gesellschaft für Informations- und Datenqualität e....
HPI TV releases video about GovWILD
See the new video about our Government Data Integration platform GovWILD.
Tool voidGen released
As part of our winning submission at the 2010 Billion Triple Challenge at the International...
ICDE Paper Accepted
28th IEEE International Conference on Data Engineering (ICDE) Washington, DC, USA Adaptive...
Beschreibung
Datenreinigung bezeichnet sowohl das Erkennen als auch das Korrigieren von Daten, die aus verschiedensten Gründen Fehler aufweisen, und somit geschäftskritische Analysen verfälschen. Typische Fehler sind Rechtschreibfehler, veraltete Daten (Adressen) und mehrfaches Auftreten eines Objekts (eines Kunden).
In diesem Seminar werden verschiedene Kernthemen der Datenreinigung sowohl aus Forschungssicht als auch aus Sicht der Industrie behandelt. Dazu gehören z.B. Data Profiling, das automatische Erkennen von Doubletten, oder das Zusammenführen von Doubletten.
Das Seminar richtet sich an Studenten im Masterstudiengang. Die Leistungserfassung besteht aus einem Seminarvortrag und einer Implementierung bzw. einer Ausarbeitung (themenabhängig) zu einem ausgewählten Thema.
Anmeldung und Themenvergabe:
- Anwesenheit am ersten Termin
- Geordnete Themenwunschliste bis spätestens 1.5.07 per mail an Frank.Kaufer(at)hpi.uni-potsdam.de mit mind. 2 Themen aus mind. 2 Themengebieten (siehe unten); Bei Implementierungsthemen bitte auch den Teampartner angeben.
- Vergabe der Themen am 2.5.07; Benachrichtigung per mail
Termine und Themenvergabe
Termin | Thema | Vortragender |
24.4.07 | Jana Bauckmann, | |
12.6.07 | Jens Bleiholder | |
19.6.07 | Probabilistische Fusion: Partial Natural Outer Join | Andreas Meyer, Andreas Blueher |
26.6.07 | Data Profiling: Bellman | Tobias Vogel, Matthias Kunze |
3.7.07 | Doublettenerkennung: Sorted Neighborhood | Oliver Wonneberg, Robert Kunze |
10.7.07 | Demos |
Themen
Data Profiling
- Bellman: Erkennen von Strukturmerkmalen einer Datenbank mit Hilfe von "summaries" (Beschreibung des Systems, Anwendungsbericht) - Implementierung des Findens von Join-Pfaden
- Finden von mehrattributigen Inklusionsabhängigkeiten (INDs) mit Hilfe von Cliquen in Hypergraphen (Short Paper, Technical Report) - Implementierung des Findens von INDs mit mind. 3 Attributen
- http://comjnl.oxfordjournals.org/cgi/reprint/42/2/100?ck=nckTANE: Finden von Funktionalen Abhängigkeiten - Implementierung des Findens exakter FDs und Vergleich mit den kommerziellen Produkten IBM® WebSphere® Information Analyzer und Microsoft® SSIS
Doublettenerkennung
- Die Sorted Neighborhood Methode + Erweiterungen für Doublettenerkennung in relationalen Daten (Implementierung)
- Doublettenerkennung in Graph Daten (Implementierung)
- DELPHI und DogmatiX: Duplikaterkennung in hierarchischen relationalen und XML Daten (Ausarbeitung)
Datenfusion
- Probabilistische Fusion: Partial Natural Outer Join (Implementierung)
- Subsumption als Fusion: Full Disjunction (Implementierung)
- TSIMMIS und Hermes, 2 Fusionssysteme (Ausarbeitung)
- Consistent Query Answering (Theorie / Systeme) (Ausarbeitung)
Datenreinigungssysteme
- Data-Cleaning Konzepte und Methoden kommerzieller Produkte, z.B. IBM® WebSphere® QualityStage und Microsoft® SSIS Einordnung und Bewertung (Implementierung)
- Deklaratives Data Cleaning in relationalen un XML Daten, z.B. AJAX vs. XClean (Ausarbeitung)


