Hasso-Plattner-Institut für Softwaresystemtechnik
Datenfusion

Prof. Dr. Felix Naumann

Hasso-Plattner-Institut
für Softwaresystemtechnik
Prof.-Dr.-Helmert-Str. 2-3
D-14482 Potsdam, Germany

Datenfusion

Überblick

Datenfusion befasst sich mit der Fusion von Informationen über gleiche Objekte aus unterschiedlichen Datenquellen. Informationen über gleiche Objekte aus heterogenen Datenquellen können sich sowohl ergänzen als auch widersprechen. Ziel dieses Projektes ist es, dem Nutzer eines integrierenden Informationssystems eine Spezifikation der Lösung der (möglicherweise) auftretenden Datenkonflikte zu ermöglichen. Dies geschieht durch die Erweiterung der Anfragesprache SQL um ein entsprechendes Konstrukt, die "FUSE BY"-Anweisung. Darauf aufbauend wird im Weiteren die Optimierung solcher relationaler Fusionsanfragen betrachtet, sowie ein Tool entwickelt, mit dem man "FUSE BY" mit anderen Fusionstechniken vergleichen kann.

Fusionskomponente in HumMer

Der letzte Schritt in einem Datenintegrationsprozess, nachdem Schemamatching und Duplikaterkennung durchgeführt worden sind, ist das Zusammenführen unterschiedlicher, sich u.U. widersprechender, Repräsentationen ein und desselben Objektes in eine einzige konsistente Repräsentation. Diesen Schritt bezeichnet man als Datenfusion. Er zielt darauf ab, die in den Attributwerten vorhandenen Unsicherheiten und Widersprüche zu entfernen.

Im Rahmen des HumMer Systems wurde eine Datenfusionskomponente implementiert. Diese erlaubt es, spaltenweise Konfliktlösungsfunktionen auf Daten anzuwenden. Die Funktionen werden auf Gruppen von Tupeln angewendet, die jeweils ein Objekt repräsentieren. Am Ende wird dem Nutzer eine einzige, fusionierte, Repräsentation pro Objekt präsentiert. Die Fusionskomponente erlaubt es weiterhin durch Ausnutzung von Lineage-Information Konflikte in den Daten farblich hervorzuheben, wie auf dem Bild rechts zu sehen ist.

Weitere Informationen liefert die Webseite zum HumMer-Projekt.

Vergleich von Fusionssemantiken mittels FuSem

Neben der von uns entwickelten "FUSE BY"-Anweisung gibt es in der Literatur noch eine Reihe weiterer Vorschläge Daten zu fusionieren, die alle über ihre eigenen Vor- und Nachteile verfügen. Mit dem FuSem-Sytem (abkürzend für FusionsSemantiken) geben wir dem Nutzer die Möglichkeit mehrere dieser unterschiedlichen Arten Daten zu fusionieren auszuprobieren. Zu den momentan zur Verfügung stehenden Techniken stehen neben "FUSE BY" rein SQL basierte Techniken (wie z.B. outer union, outer join), der MERGE Operator, der MatchJoin, sowie der ConQuer-Ansatz aus dem Bereich des consistent query answering.

Neben der - falls möglich auch optimierten - Ausführung dieser Fusionstechniken bildet der Vergleich unterschiedlicher Fusionsergebnisse einen weiteren Schwerpunkt dieses Systems. Dies geschieht zum einen durch den tabellarischen Vergleich zweier oder mehrerer Fusionsergebnisse, zum anderen aber auch durch eine graphisch Ansicht. Mit Hilfe von Venndiagrammen werden gleiche und unterschiedliche Fusionsergebnisse dargestellt. Die graphische Darstellung vereinfacht es einem Nutzer unterschiedliche Fusionssemantiken zu testen, zu vergleichen und schlußendlich die für die aktuelle Aufgabe geeignetste Art der Fusion zu finden.

Weitere Informationen liefert die Webseite zum FuSem-Projekt.

Veröffentlichungen

  • Data Fusion. Jens Bleiholder und Felix Naumann. ACM Computing Surveys 41(1). Dezember 2008.
  • FuSem - Exploring Different Semantics of Data Fusion (demo). Jens Bleiholder, Karsten Draba und Felix Naumann. VLDB 2007. Wien, Österreich. September 2007.
  • Data Fusion in Three Steps: Resolving Schema, Tuple, and Value Inconsistencies. Felix Naumann, Alexander Bilke, Jens Bleiholder und Melanie Weis. IEEE Data Engineering Bulletin 29(2):21-31, Juni 2006.
  • Conflict Handling Strategies in an Integrated Information System. Jens Bleiholder und Felix Naumann. In WWW Workshop in Information Integration on the Web (IIWeb). Edinburgh, UK. Mai 2006.
  • Declarative Data Fusion - Syntax, Semantics and Implementation. Jens Bleiholder und Felix Naumann. ADBIS 2005. Tallin, Estland. September 2005. In: LNCS 3631, pp. 58-73, © Springer-Verlag
  • Automatic Data Fusion with HumMer (demo). Alexander Bilke, Jens Bleiholder, Christoph Böhm, Karsten Draba, Felix Naumann und Melanie Weis. VLDB 2005. Trondheim, Norwegen. September 2005.
  • FUSE BY: Syntax und Semantik zur Informationsfusion in SQL. Jens Bleiholder und Felix Naumann. Informatik 2004 Workshop über Dynamische Informationsfusion. Ulm, Deutschland. September 2004.