Informatik Informatik III TU München
Personen Lehre Lehrstuhl Forschung Suche
DAs&SEPs Praktika <- SS2002 WS2002 SS2003 WS2003 SS2004

Verteilte Datenbanktechnologien für die dynamische Informationsfusion

Hauptseminar Informatik im Sommersemester 2004

Prof. Dr. Alfons Kemper


Termin: steht noch nicht fest. Das Seminar wird erst in der zweiten Semesterhälfte starten und dann werden jeweils zwei Vorträge an einem Termin sein.
Ort: FMI-Bau Garching, Boltzmannstr. 3, Ted Codd Seminarraum (2.9.14)
(II. Stock, zwischen 9. und 11. Finger)
Beginn: steht noch nicht fest, ca. Ende Mai / Anfang Juni
Anmeldung: ab sofort per Email an reiser@in.tum.de. Dieses Seminar ist für Studierende mit Vorkenntnissen in und speziellem Interesse an Datenbanksystemen gedacht und dient u.a. der Vorbereitung von Diplomarbeiten in dem Bereich. Bitte geben Sie bei der Anmeldung ein umfassendes Bild Ihres bisherigen Studienverlaufs an (Studiengang, Semesterzahl, DB-Kenntnisse, Leistungen im Hauptstudium, ..) sowie Ihre weiteren Pläne.
Ansprechpartner/in: Prof. Dr. Alfons Kemper (kemper@db.fmi.uni-passau.de)
Dr. Angelika Reiser (reiser@in.tum.de)
Raum 2.11.53, Tel. 289-17284
Vorkenntnisse: Stoff der Vorlesung Datenbanksysteme; Vordiplom bei Diplomstudierenden
Schein: Benoteter Schein bei Vortrag und regelmäßiger aktiver Teilnahme (Diskussionsbeiträge)
Bereiche:
  • Diplom Informatik
  • Bachelor Informatik
  • Bachelor Wirtschaftsinformatik
  • Bachelor Informatik, Schwerpunkt Datenbanksysteme
    weitere Schwerpunktseminare, siehe hier und hier und hier.


Allgemeine Themenbeschreibung

Über das Internet rücken im Prinzip alle weltweit persistenten Daten in Zugriffsreichweite. Eine sprunghafte Zunahme des Datenvolumens entsteht durch Peer-to-Peer-Datenverbünde, die durch eine sehr hohe Zahl von typischerweise nur temporär zugänglichen Datenquellen gekennzeichnet sind. Weiterhin werden zunehmend kontinuierliche Ströme von Daten, z.B. durch datenerfassende Geräte wie Sensoren, generiert. Die Beherrschung und effektive Nutzung dieser Datenflut erfordert eine bedarfsgetriebene automatisierte Kopplung und Integration der vielfältigen Datenquellen, die wir als dynamische Informationsfusion bezeichnen. Die dynamische Informationsfusion ist von essentieller Bedeutung für zahlreiche innovative Anwendungsbereiche, insbesondere in Wirtschaft und Wissenschaft sowie im Gesundheitswesen und Katastrophenmanagement. Die derzeitigen Ansätze zur Integration von Daten in verteilten Informationssystemen sind auf eine statisch festgelegte, meist sehr kleine Zahl von Datenbeständen beschränkt und verlangen einen hohen intellektuellen Aufwand. Diese Vorgehensweise ist für die neuen Herausforderungen völlig unzureichend, da die Unterstützung sehr vieler Datenquellen und von Datenströmen eine dynamische, hochgradig automatisierte Kooperations- und Integrationsansätze erfordert. Die dynamische Informationsfusion impliziert somit einen Paradigmenwechsel bei der Integrationsmethodik. Gegenüber früher verfolgten Integrationsansätzen soll ein methodischer Schwerpunkt auf der „inhaltsorientierten“ Fusion liegen, bei der z.B. durch Data-Mining-Techniken statistisch signifikante Vorkommen gleicher Attributwerte und damit vergleichbare Attribute bestimmt werden können. Einen weiteren methodischen Schwerpunkt bilden neue Formen der Metadatenverwaltung mit deskriptiven Operatoren zur Analyse und Manipulation unterschiedlichster Metadatenmodelle. Eine Schlüsselrolle kommt dabei der Nutzung ontologischer Metadaten zu, um eine semantisch aussagekräftige Fusion und Analyse der Daten zu erreichen. Große Bedeutung haben darüber hinaus neue Methoden zur Analyse und Verbesserung der Datenqualität sowie zum Datenschutz. Die technischen Voraussetzungen zur dynamischen Informationsfusion sind aufgrund von Basistechnologien wie XML, Grid-Computing und Web-Services für den Datenaustausch und die Interoperabilität von Anwendungsdiensten weitgehend verfügbar und sollen im Rahmen des Seminars einführend vorgestellt werden.
Um die Skalierbarkeit gewährleisten zu können, müssen neuartige Architekturansätze verfolgt werden, die den neuen Entwicklungen in der verteilten Infrastruktur, wie den Peer-to-Peer-Netzen aufbauen. Im Internet werden Daten zunehmend als Datenströme bereitgestellt, so dass die Daten nur flüchtig zur Verfügung gestellt werden. Hier gilt es durch entsprechende Publish/Subsribe-Verfahren die relevanten Daten zu verknüpfen und sie den Nutzern in aufbereiteter Form (gefiltert, aggregiert, bereinigt) zur Verfügung zu stellen. Für die dynamische Informationsfusion muss eine verteilte Infrastruktur realisiert werden, die man nicht mehr zentral administrieren kann. Aus Gründen der Skalierbarkeit benötigt man ein sich selbst organisierendes Architekturkonzept, das man heute auch mit dem Begriff „autonomic computing“ bezeichnet. Um aussagekräftige Erkenntnisse aus fusionierten Daten gewinnen zu können ist die korrekte Einschätzung der Datenqualität von entscheidender Bedeutung. Des Weiteren muss bei der verteilt ausgeführten Fusionierung von Datenquellen die Bearbeitung laufend beobachtet und angepasst werden, da man auf sich ändernde Auslastungen und Antwortzeiten reagieren muss. Die weitläufige Verknüpfbarkeit von Daten führt unweigerlich zu Sicherheitsproblemen, die es zu lösen gilt, um den Datenschutz personenbezogener Daten zu garantieren.

Angelika Reiser, Anne Einenkel
Last modified: Thu Feb 12 10:42:16 MET 2004
DAs&SEPs Praktika <- SS2002 WS2002 SS2003 WS2003 SS2004
Personen Lehre Lehrstuhl Forschung Suche