Hasso-Plattner-Institut
Prof. Dr. Felix Naumann
 

SAP Business Objects Workshop am 13.10. - 15.10.2010

Innerhalb eines Unternehmens werden Kundendaten häufig in unterschiedlichen Systemen gehalten. Die Gründe dafür können in der Struktur des Unternehmens (getrennte Sparten), in unterschiedlichen Vertriebskanälen oder in einer Unternehmensfusion liegen. Um eine einheitliche Sicht auf den Kunden zu bekommen, müssen die Daten aus diesen Systemen zusammengeführt werden. Ein wichtiges Ziel ist dabei die automatische Erkennung von Dubletten, d.h. die Tatsache, dass ein Kunde in mehreren Systemen vorkommt, also in mehreren Beziehungen zum Unternehmen steht.

Sie sollen erkennen, welche Arten von Problemen beim Zusammenführen von Datenbeständen auftreten, welche Probleme sich mit einfachen Mitteln (SQL, Scripte, Text-Editor, etc.) lösen lassen und welche nicht. In praktischer Teamarbeit implementieren Sie Algorithmen zur Dublettenerkennung für große Datenmengen (1 Mio. Kundendatensätze). Das Team mit den meisten richtig gefundenen Dubletten gewinnt! Die in den beiden ersten Tagen gewonnenen Erkenntnisse und Lösungen sollen am Abschlusstag präsentiert werden.

Die Partner bei SAP Business Objects haben einige große Personendatenbanken generiert und präpariert, um Ihnen die Reinigung besonders schwer zu machen! Im Laufe des Workshops

  • führen Sie eine automatisierte Standardisierung von Kundendaten mit selbst-entwickelten Methoden durch,
  • entwickeln Sie Ähnlichkeitsmaße um doppelte Kunden (Duplikate) zu finden,
  • entwickeln Sie effiziente Methoden um nicht alle Paare von Kundendaten vergleichen zu müssen,
  • arbeiten Sie im Team um gemeinsame Lösungen zu finden (2er Teams),
  • vergleichen Ihre Methoden mit denen anderer und stellen fest, ob Sie alle Duplikate korrekt erkennen - die beste Lösung wird prämiert,
  • erhalten Sie eine Teilnahmeurkunde.

Der Workshop richtet sich also an Studenten und Doktoranden, die

  • Interesse and der Lösung realer Informatik-Probleme haben,
  • Lust auf eine Herausforderung haben (einige der Duplikate finden selbst professionelle Tools nicht),
  • schon ein wenig programmieren können (Java, Perl oder ähnliches)
  • schon ein wenig in die Welt der Datenbanken hineingeschaut haben (DBS I oder auch Berufserfahrung mit Datenbanken genügen)

Zeit und Ort

Der Workshop findet in den Tagen vor der Vorlesungszeit des Sommersemesters statt:

  • Mittwoch 13. Oktober ganztägig
  • Donnerstag 14. Oktober ganztägig
  • Freitag 15. Oktober vormittags

Ein genaueres Programm folgt.

Vormittags verbringen wir ca. 2 Stunden im Seminarraum H-E.51-52. Für die restliche Zeit haben wir den Poolraum H-E.11-13 im neuen Hauptgebäude reserviert.

Anmeldung

Es können sich Bachelor-, Master- und Promotionsstudenten anmelden. Sie sollten mindestens im 3. Semester sein und Datenbankgrundkenntnisse (DBS I) haben. Wir werden Zweierteams bilden.

Anmeldung bitte per formloser E-Mail an: office-naumann@hpi.uni-potsdam.de

Es werden maximal 20 Teilnehmer zugelassen; wir führen eine Warteliste.

Programm

Mittwoch, 13. Oktober - Standardisierung
ZeitThemaSprecherRaumFolien
9:00 - 10.15Einführung in die Aufgabenstellung:
Einheitliche Struktur und Darstellung der Daten
Schmid, NaumannH-E.51-52
10:15 - 10:30Pause
10:30 - 12:30Betreute Gruppenarbeit H-E.11-13
12:30 - 13:30Gemeinsames MittagessenMensa
13:30 - 15:00Betreute Gruppenarbeit H-E.11-13
15:00 - 15:30Kaffee und Kuchen
15:00 - 17:30Betreute Gruppenarbeit H-E.11-13
Donnerstag 14. Oktober - Dublettenerkennung
ZeitThemaSprecherRaumFolien
9:00 - 10:15Duplikate und DuplikaterkennungFelix NaumannH-E.51-52
10:15 - 10:30Pause
10:30 - 12:30Betreute Gruppenarbeit H-E.11-13
12:30 - 13:30Gemeinsames MittagessenMensa
13:30 - 15:00Betreute Gruppenarbeit H-E.11-13
15:00 - 15:30Kaffee und Kuchen
15:30 - 17:30Betreute Gruppenarbeit und Vorbereitung der Präsentationen H-E.11-13
18:00Abgabefrist I der Lösungen
23:00Abgabefrist II der Lösungen (freiwillig)
Freitag, 15. Oktober - Auswertung
9:00 - 10:00Zusammenführung von Datenbeständen bei SAP Business ObjectsJoachim SchmidH-E.51-52
10:00 - 12:00Präsentationen der TeamsH-E.51-52
12:00 - 12:30Auswertung und SiegerehrungH-E.51-52