Hasso-Plattner-Institut für Softwaresystemtechnik
Open theses

Prof. Dr. Felix Naumann

Hasso-Plattner-Institut
für Softwaresystemtechnik
Prof.-Dr.-Helmert-Str. 2-3
D-14482 Potsdam, Germany

Open theses

Das Fachgebiet Informationssysteme bietet laufend Masterarbeiten in den folgenden Bereichen an:

  • Duplikaterkennung
  • Data Profiling
  • Metadata and ETL Management
  • Similarity Search
  • Collaborative Filtering 
  • Machine Learning
  • Information Lifecycle Management
  • Intranet-Search
  • Service Quality
  • Service-oriented Computing

Wichtiger Hinweis: Unten sehen Sie nur eine kleine Auswahl möglicher Themen. Bitte sprechen Sie uns wegen weiterer Themen oder eigener Vorschläge an.


Anfragewächter: Automatisierte Überwachung von Suchanfragen

Ausgangslage

Die SCHUFA nimmt täglich ca. 200.000 Suchanfragen nach Personen entgegen. Je nach Beschaffenheit und Qualität der Anfrage verursachen Anfragen unterschiedliche Aufwände innerhalb der SCHUFA und zeitigen Antworten unterschiedlicher Qualität. Eine dauerhafte und zeitnahe Überwachung der Anfragen kann Anomalien und Trends entdecken, die es der SCHUFA ermöglichen, rechtzeitig Maßnahmen zu ergreifen, insbesondere durch Warnungen an den anfragenden Kunden.

Beispiele für Anomalien sind plötzlich und fortgesetzt fehlende oder falsch formatierte Inputparameter; in kurzer Folge wiederholte Anfragen; Anfragen zu ungewohnten Zeiten; zeitliche oder geographische Häufungen von Anfragen. Ohne das Erkennen solcher Anomalien entstehen technische Probleme bei der SCHUFA sowie verlängerte Antwortzeiten und Mehrkosten bei den Kunden.

Da anfänglich nicht bekannt ist, welche Eigenschaften der Anfragen überwacht werden müssen, sollen zunächst eine sehr große Vielfalt an Indikatoren entwickelt und eingesetzt werden. Im Laufe des Einsatzes kann teil-automatisiert entschieden werden, welche Indikatoren nützlich sind, und mit welchen Schwellwerten sie zu versehen sind, um nur hilfreiche Warnungen zu veranlassen.

Zielstellung

Im Rahmen der Masterarbeit soll ein prototypisches System entwickelt werden, welches zwischen Anfrageinput und Anfrageverarbeitung eingesetzt werden kann. Es soll eingehende Anfragen nach verschiedenen Gesichtspunkten untersuchen und gegebenenfalls Warnungen ausgeben. Unter Umständen werden Anfragen zurückgewiesen. Die Anforderungen an das System sind insbesondere:

  • Untersuchung einzelner Anfragen nach verschiedenen Indikatoren
  • Aggregierte Untersuchung des Anfragestroms nach verschiedenen Indikatoren
  • Verarbeitungsdurchsatz: max. 500 Anfragen/Minute
  • Erweiterbarkeit auf neue Indikatoren

Im Rahmen der Masterarbeit sollen Sie u.a. folgende Schritte unternehmen:

  • Untersuchung vorhandener Datenstrommanagementsysteme (kommerzielle und frei verfügbare Systeme; gegebenenfalls eigene (schlanke) Entwicklung)
  • Einrichtung einer Simulationsumgebung; Simulation einer geeigneten real-world Anfragemenge
  • Entwicklung von unären und aggregierenden Problemindikatoren
  • Entwicklung einer Speicherstruktur zur Speicherung von Soll- und Istwerten der Indikatoren.
  • Bestimmung geeigneter Schwellwerte anhand von Simulationsdaten und echten Anfragen

Ansprechpartner

Prof. Felix Naumann (naumann@hpi) und Dustin Lange (dustin.lange@hpi)


Regelbasierte Duplikaterkennung

Duplikaterkennung beschreibt Verfahren zum Auffinden identischer Realweltobjekte in einem oder mehreren Datenbeständen. Zur Beurteilung, ob zwei Elemente das gleiche Realweltobjekt repräsentieren, wird klassischerweise mit Hilfe von Ähnlichkeitsfunktionen, die paarweise die Elementattribute miteinander vergleichen, die Ähnlichkeit der beiden Elemente berechnet. In Abhängigkeit eines zuvor definierten Schwellwertes werden die Elemente anschließend als Duplikat oder Nicht-Duplikat klassifiziert.

Für viele Anwendungsfälle lässt sich die Duplikat-Entscheidung jedoch nicht ausreichend durch eine Kombination solcher Ähnlichkeitsfunktionen abbilden. Vielmehr wird eine Menge von Regeln definiert, die sequentiell bis zu einer endgültigen Entscheidung als Duplikat oder Nicht-Duplikat abgearbeitet werden.

Ein Beispiel für einen solchen Anwendungsfall ist der CORA-Datensatz, welcher eine Vielzahl von bibliografischen Referenzen enthält. In Abhängigkeit davon, wie gut eine Referenz gepflegt wurde, bzw. um welchen Referenztyp (z.B. Journal, Buch, Technischer Report) es sich handelt, sind unterschiedliche Attribute vorhanden. In dem unten stehenden Beispiel wird ersichtlich, dass eine rein auf der Ähnlichkeit von Attributwerten basierende Ähnlichkeitsfunktion für eine Klassifizierung nur bedingt geeignet ist. Die Attribute "author", "title" und "year" enthalten ähnliche Attributwerte, wohingegen die Attribute "booktitle", "address", "publisher", "journal" und "volume" nur in jeweils einer Referenz enthalten sind.

Beispiel CORA-Datensatz (Nicht-Duplikat): 

Im Rahmen der Masterarbeit soll folgendes untersucht und entwickelt werden:

  1. Spezifizierung sowie Implementierung eines regelbasierten Systems zur Duplikaterkennung
    Es ist eine geeignete Syntax für Duplikaterkennungsregeln mittels Ähnlichkeitsfunktionen zu definieren und für das lehrstuhleigene Duplikaterkennungs-Toolkit „DuDe“ zu implementieren.

  2. Optimierung der Regelsequenz
    Es soll untersucht werden, inwieweit sich die Reihenfolge der Regeln auf das Ergebnis der Duplikaterkennung auswirkt. Mit Hilfe von Datensatz-Goldstandards soll eine automatisierte Optimierung des Regelwerks implementiert werden.

Die Implementierungen sind anhand des CORA-Datensatzes sowie mindestens eines weiteren Datensatzes zu validieren.

Referenzen:

  • Weis et. al. Industry-scale duplicate detection. Proceedings of the VLDB Endowment, 2008.
  • Hernandez and Stolfo. The merge/purge problem for large databases. Proceedings of the ACM International Conference on Management of Data (SIGMOD), 1995.
  • DuDe

Ansprechpartner: Uwe Draisbach


Flexible Spezifikation und Entdeckung von Datenfehlern im SAP BW

In großen Enterprise-Systemen wie dem SAP Business Warehouse (SAP BW) fallen täglich sehr große Datenmengen an, die aufbereitet, transformiert und bereinigt werden müssen, um schließlich z.B. für Analysen zur Verfügung zu stehen. Die große Datenmenge, die Komplexität der Systeme sowie die Vielfalt an Datenquellen führen oft zu Fehlern in den Daten oder deren Verarbeitung. Solche Fehler stören den reibungslosen Ablauf oder verfälschen den Datenbestand im Warehouse, was zu Nichtverfügbarkeit oder zu falschen Analyseergebnissen führen kann. Ein wichtiges Ziel bei der Spezifikation von Datenflüssen (wie z.B. ETL Prozesse) ist somit die Erkennung (und soweit möglich die Vermeidung) von Fehlern.

Das Ziel der Masterarbeit ist ein Framework zur übergreifenden Prüfung der Daten im SAP BW. Zu diesem Zweck müssen drei Komponenten entworfen und entwickelt werden.

  1. Eine leicht erweiterbare, high-level Sprache zur Spezifikation der Fehlerentdeckung: Entwickler sollen nicht nur Merkmale von Datenfehlern ausdrücken können, sondern auch die Frequenz der Prüfung und die zu ergreifenden Maßnahmen.
  2. Eine effiziente Ausführungskomponente, welche leicht als zusätzlicher Schritt in einen Datenfluss/ETL Programm eingefügt werden kann und die zuvor spezifizierten Methoden/Regeln anwendet.
  3. Eine Konvention für eine allgemeingültige Protokollierung der Fehler. Die Behebung der Fehler ist ausdrücklich vom Umfang der Masterarbeit ausgenommen.

Die Masterarbeit erfolgt in Kooperation mit der IKOR und einem großen Geschäftskunden der IKOR. Die experimentelle Grundlage der Arbeit bilden konkrete real-world Daten und Datenflüsse des Kunden.

Ansprechpartner

Felix Naumann (naumann@hpi) und Dr. Arnd Geldermann: arnd.geldermann@ikor.de