
Prof. Dr. Felix Naumann
Hasso-Plattner-Institut
für Softwaresystemtechnik
Prof.-Dr.-Helmert-Str. 2-3
D-14482 Potsdam, Germany
Paper accepted at SSDBM
Proceedings of the 24th International Conference on Scientific and Statistical Database...
JWS Article Accepted
Integrating Open Government Data with Stratosphere for more Transparency Arvid Heise and Felix...
LREC Paper Accepted
The eighth international conference on Language Resources and Evaluation (LREC), Istanbul,...
Daniel Rinser wins award for his masters thesis
IQ Best Master Degree Wettbewerb der Deutschen Gesellschaft für Informations- und Datenqualität e....
HPI TV releases video about GovWILD
See the new video about our Government Data Integration platform GovWILD.
Tool voidGen released
As part of our winning submission at the 2010 Billion Triple Challenge at the International...
ICDE Paper Accepted
28th IEEE International Conference on Data Engineering (ICDE) Washington, DC, USA Adaptive...
Das Fachgebiet Informationssysteme bietet laufend Masterarbeiten in den folgenden Bereichen an:
- Duplikaterkennung
- Data Profiling
- Metadata and ETL Management
- Similarity Search
- Collaborative Filtering
- Machine Learning
- Information Lifecycle Management
- Intranet-Search
- Service Quality
- Service-oriented Computing
Wichtiger Hinweis: Unten sehen Sie nur eine kleine Auswahl möglicher Themen. Bitte sprechen Sie uns wegen weiterer Themen oder eigener Vorschläge an.
Anfragewächter: Automatisierte Überwachung von Suchanfragen
Ausgangslage
Die SCHUFA nimmt täglich ca. 200.000 Suchanfragen nach Personen entgegen. Je nach Beschaffenheit und Qualität der Anfrage verursachen Anfragen unterschiedliche Aufwände innerhalb der SCHUFA und zeitigen Antworten unterschiedlicher Qualität. Eine dauerhafte und zeitnahe Überwachung der Anfragen kann Anomalien und Trends entdecken, die es der SCHUFA ermöglichen, rechtzeitig Maßnahmen zu ergreifen, insbesondere durch Warnungen an den anfragenden Kunden.
Beispiele für Anomalien sind plötzlich und fortgesetzt fehlende oder falsch formatierte Inputparameter; in kurzer Folge wiederholte Anfragen; Anfragen zu ungewohnten Zeiten; zeitliche oder geographische Häufungen von Anfragen. Ohne das Erkennen solcher Anomalien entstehen technische Probleme bei der SCHUFA sowie verlängerte Antwortzeiten und Mehrkosten bei den Kunden.
Da anfänglich nicht bekannt ist, welche Eigenschaften der Anfragen überwacht werden müssen, sollen zunächst eine sehr große Vielfalt an Indikatoren entwickelt und eingesetzt werden. Im Laufe des Einsatzes kann teil-automatisiert entschieden werden, welche Indikatoren nützlich sind, und mit welchen Schwellwerten sie zu versehen sind, um nur hilfreiche Warnungen zu veranlassen.
Zielstellung
Im Rahmen der Masterarbeit soll ein prototypisches System entwickelt werden, welches zwischen Anfrageinput und Anfrageverarbeitung eingesetzt werden kann. Es soll eingehende Anfragen nach verschiedenen Gesichtspunkten untersuchen und gegebenenfalls Warnungen ausgeben. Unter Umständen werden Anfragen zurückgewiesen. Die Anforderungen an das System sind insbesondere:
- Untersuchung einzelner Anfragen nach verschiedenen Indikatoren
- Aggregierte Untersuchung des Anfragestroms nach verschiedenen Indikatoren
- Verarbeitungsdurchsatz: max. 500 Anfragen/Minute
- Erweiterbarkeit auf neue Indikatoren
Im Rahmen der Masterarbeit sollen Sie u.a. folgende Schritte unternehmen:
- Untersuchung vorhandener Datenstrommanagementsysteme (kommerzielle und frei verfügbare Systeme; gegebenenfalls eigene (schlanke) Entwicklung)
- Einrichtung einer Simulationsumgebung; Simulation einer geeigneten real-world Anfragemenge
- Entwicklung von unären und aggregierenden Problemindikatoren
- Entwicklung einer Speicherstruktur zur Speicherung von Soll- und Istwerten der Indikatoren.
- Bestimmung geeigneter Schwellwerte anhand von Simulationsdaten und echten Anfragen
Ansprechpartner
Prof. Felix Naumann (naumann@hpi) und Dustin Lange (dustin.lange@hpi)
Regelbasierte Duplikaterkennung
Duplikaterkennung beschreibt Verfahren zum Auffinden identischer Realweltobjekte in einem oder mehreren Datenbeständen. Zur Beurteilung, ob zwei Elemente das gleiche Realweltobjekt repräsentieren, wird klassischerweise mit Hilfe von Ähnlichkeitsfunktionen, die paarweise die Elementattribute miteinander vergleichen, die Ähnlichkeit der beiden Elemente berechnet. In Abhängigkeit eines zuvor definierten Schwellwertes werden die Elemente anschließend als Duplikat oder Nicht-Duplikat klassifiziert.
Für viele Anwendungsfälle lässt sich die Duplikat-Entscheidung jedoch nicht ausreichend durch eine Kombination solcher Ähnlichkeitsfunktionen abbilden. Vielmehr wird eine Menge von Regeln definiert, die sequentiell bis zu einer endgültigen Entscheidung als Duplikat oder Nicht-Duplikat abgearbeitet werden.
Ein Beispiel für einen solchen Anwendungsfall ist der CORA-Datensatz, welcher eine Vielzahl von bibliografischen Referenzen enthält. In Abhängigkeit davon, wie gut eine Referenz gepflegt wurde, bzw. um welchen Referenztyp (z.B. Journal, Buch, Technischer Report) es sich handelt, sind unterschiedliche Attribute vorhanden. In dem unten stehenden Beispiel wird ersichtlich, dass eine rein auf der Ähnlichkeit von Attributwerten basierende Ähnlichkeitsfunktion für eine Klassifizierung nur bedingt geeignet ist. Die Attribute "author", "title" und "year" enthalten ähnliche Attributwerte, wohingegen die Attribute "booktitle", "address", "publisher", "journal" und "volume" nur in jeweils einer Referenz enthalten sind.
Beispiel CORA-Datensatz (Nicht-Duplikat):
Im Rahmen der Masterarbeit soll folgendes untersucht und entwickelt werden:
- Spezifizierung sowie Implementierung eines regelbasierten Systems zur Duplikaterkennung
Es ist eine geeignete Syntax für Duplikaterkennungsregeln mittels Ähnlichkeitsfunktionen zu definieren und für das lehrstuhleigene Duplikaterkennungs-Toolkit „DuDe“ zu implementieren. - Optimierung der Regelsequenz
Es soll untersucht werden, inwieweit sich die Reihenfolge der Regeln auf das Ergebnis der Duplikaterkennung auswirkt. Mit Hilfe von Datensatz-Goldstandards soll eine automatisierte Optimierung des Regelwerks implementiert werden.
Die Implementierungen sind anhand des CORA-Datensatzes sowie mindestens eines weiteren Datensatzes zu validieren.
Referenzen:
- Weis et. al. Industry-scale duplicate detection. Proceedings of the VLDB Endowment, 2008.
- Hernandez and Stolfo. The merge/purge problem for large databases. Proceedings of the ACM International Conference on Management of Data (SIGMOD), 1995.
- DuDe
Ansprechpartner: Uwe Draisbach
Flexible Spezifikation und Entdeckung von Datenfehlern im SAP BW
In großen Enterprise-Systemen wie dem SAP Business Warehouse (SAP BW) fallen täglich sehr große Datenmengen an, die aufbereitet, transformiert und bereinigt werden müssen, um schließlich z.B. für Analysen zur Verfügung zu stehen. Die große Datenmenge, die Komplexität der Systeme sowie die Vielfalt an Datenquellen führen oft zu Fehlern in den Daten oder deren Verarbeitung. Solche Fehler stören den reibungslosen Ablauf oder verfälschen den Datenbestand im Warehouse, was zu Nichtverfügbarkeit oder zu falschen Analyseergebnissen führen kann. Ein wichtiges Ziel bei der Spezifikation von Datenflüssen (wie z.B. ETL Prozesse) ist somit die Erkennung (und soweit möglich die Vermeidung) von Fehlern.
Das Ziel der Masterarbeit ist ein Framework zur übergreifenden Prüfung der Daten im SAP BW. Zu diesem Zweck müssen drei Komponenten entworfen und entwickelt werden.
- Eine leicht erweiterbare, high-level Sprache zur Spezifikation der Fehlerentdeckung: Entwickler sollen nicht nur Merkmale von Datenfehlern ausdrücken können, sondern auch die Frequenz der Prüfung und die zu ergreifenden Maßnahmen.
- Eine effiziente Ausführungskomponente, welche leicht als zusätzlicher Schritt in einen Datenfluss/ETL Programm eingefügt werden kann und die zuvor spezifizierten Methoden/Regeln anwendet.
- Eine Konvention für eine allgemeingültige Protokollierung der Fehler. Die Behebung der Fehler ist ausdrücklich vom Umfang der Masterarbeit ausgenommen.
Die Masterarbeit erfolgt in Kooperation mit der IKOR und einem großen Geschäftskunden der IKOR. Die experimentelle Grundlage der Arbeit bilden konkrete real-world Daten und Datenflüsse des Kunden.
Ansprechpartner
Felix Naumann (naumann@hpi) und Dr. Arnd Geldermann: arnd.geldermann@ikor.de


