Hasso-Plattner-Institut für Softwaresystemtechnik
Datenreinigung

Prof. Dr. Felix Naumann

Hasso-Plattner-Institut
für Softwaresystemtechnik
Prof.-Dr.-Helmert-Str. 2-3
D-14482 Potsdam, Germany

Datenreinigung

Beschreibung

Datenreinigung bezeichnet sowohl das Erkennen als auch das Korrigieren von Daten, die aus verschiedensten Gründen Fehler aufweisen, und somit  geschäftskritische Analysen verfälschen. Typische Fehler sind Rechtschreibfehler, veraltete Daten (Adressen) und mehrfaches Auftreten eines Objekts (eines Kunden).

In diesem Seminar werden verschiedene Kernthemen der Datenreinigung sowohl aus Forschungssicht als auch aus Sicht der Industrie behandelt. Dazu gehören z.B. Data Profiling, das automatische Erkennen von Doubletten, oder das Zusammenführen von Doubletten.

Das Seminar richtet sich an Studenten im Masterstudiengang. Die Leistungserfassung besteht aus einem Seminarvortrag und einer Implementierung bzw. einer Ausarbeitung (themenabhängig) zu einem ausgewählten Thema.

Anmeldung und Themenvergabe:

  • Anwesenheit am ersten Termin
  • Geordnete Themenwunschliste bis spätestens 1.5.07 per mail an Frank.Kaufer(at)hpi.uni-potsdam.de mit mind. 2 Themen aus mind. 2 Themengebieten (siehe unten); Bei Implementierungsthemen bitte auch den Teampartner angeben.
  • Vergabe der Themen am 2.5.07; Benachrichtigung per mail

Termine und Themenvergabe

Termin

Thema

Vortragender

24.4.07

Einführung in die Datenreinigung und Themen

Jana Bauckmann,
Melanie Weis,
Alexander Albrecht,
Jens Bleiholder

12.6.07

LateX Einführung, Latex Vorlage Bericht

Jens Bleiholder

19.6.07

Probabilistische Fusion: Partial Natural Outer Join

Andreas Meyer, Andreas Blueher

26.6.07

Data Profiling: Bellman

Tobias Vogel, Matthias Kunze

3.7.07

Doublettenerkennung: Sorted Neighborhood

Oliver Wonneberg, Robert Kunze

10.7.07

Demos

Themen

Data Profiling
Doublettenerkennung
Datenfusion
  • Probabilistische Fusion: Partial Natural Outer Join (Implementierung)
  • Subsumption als Fusion: Full Disjunction (Implementierung)
  • TSIMMIS und Hermes, 2 Fusionssysteme (Ausarbeitung)
  • Consistent Query Answering (Theorie / Systeme) (Ausarbeitung)
Datenreinigungssysteme
  • Data-Cleaning Konzepte und Methoden kommerzieller Produkte, z.B. IBM® WebSphere® QualityStage und Microsoft® SSIS Einordnung und Bewertung (Implementierung)
  • Deklaratives Data Cleaning in relationalen un XML Daten, z.B. AJAX vs. XClean (Ausarbeitung)