|
|
Verteilte Datenbanktechnologien für die dynamische Informationsfusion
Hauptseminar Informatik im Sommersemester 2004
Prof. Dr. Alfons Kemper
Termin: |
steht noch nicht fest. Das Seminar wird erst in der zweiten Semesterhälfte starten und dann werden jeweils zwei Vorträge an einem Termin sein. |
Ort: |
FMI-Bau Garching, Boltzmannstr. 3, Ted Codd Seminarraum (2.9.14)
(II. Stock, zwischen 9. und 11. Finger) |
Beginn: |
steht noch nicht fest, ca. Ende Mai / Anfang Juni |
Anmeldung: |
ab sofort per Email an reiser@in.tum.de.
Dieses Seminar ist für Studierende mit Vorkenntnissen in und speziellem
Interesse an Datenbanksystemen gedacht und dient u.a. der Vorbereitung von
Diplomarbeiten in dem Bereich. Bitte geben Sie bei der Anmeldung ein
umfassendes Bild Ihres bisherigen
Studienverlaufs an (Studiengang, Semesterzahl, DB-Kenntnisse, Leistungen im
Hauptstudium, ..) sowie Ihre weiteren Pläne.
|
Ansprechpartner/in: |
Prof. Dr. Alfons Kemper (kemper@db.fmi.uni-passau.de)
Dr. Angelika Reiser
(reiser@in.tum.de)
Raum 2.11.53, Tel. 289-17284 |
Vorkenntnisse: |
Stoff der Vorlesung Datenbanksysteme; Vordiplom bei Diplomstudierenden |
Schein: |
Benoteter Schein bei Vortrag und regelmäßiger aktiver Teilnahme
(Diskussionsbeiträge) |
Bereiche: |
- Diplom Informatik
- Bachelor Informatik
- Bachelor Wirtschaftsinformatik
- Bachelor Informatik, Schwerpunkt Datenbanksysteme
weitere Schwerpunktseminare, siehe
hier und hier und
hier.
|
Allgemeine Themenbeschreibung
Über das Internet rücken im Prinzip alle weltweit persistenten Daten in
Zugriffsreichweite. Eine sprunghafte Zunahme des Datenvolumens entsteht
durch Peer-to-Peer-Datenverbünde, die durch eine sehr hohe Zahl von
typischerweise nur temporär zugänglichen Datenquellen gekennzeichnet
sind. Weiterhin werden zunehmend kontinuierliche Ströme von Daten, z.B.
durch datenerfassende Geräte wie Sensoren, generiert. Die Beherrschung
und effektive Nutzung dieser Datenflut erfordert eine bedarfsgetriebene
automatisierte Kopplung und Integration der vielfältigen Datenquellen,
die wir als dynamische Informationsfusion bezeichnen. Die dynamische
Informationsfusion ist von essentieller Bedeutung für zahlreiche
innovative Anwendungsbereiche, insbesondere in Wirtschaft und
Wissenschaft sowie im Gesundheitswesen und Katastrophenmanagement.
Die derzeitigen Ansätze zur Integration von Daten in verteilten
Informationssystemen sind auf eine statisch festgelegte, meist sehr
kleine Zahl von Datenbeständen beschränkt und verlangen einen hohen
intellektuellen Aufwand. Diese Vorgehensweise ist für die neuen
Herausforderungen völlig unzureichend, da die Unterstützung sehr vieler
Datenquellen und von Datenströmen eine dynamische, hochgradig
automatisierte Kooperations- und Integrationsansätze erfordert. Die
dynamische Informationsfusion impliziert somit einen Paradigmenwechsel
bei der Integrationsmethodik. Gegenüber früher verfolgten
Integrationsansätzen soll ein methodischer Schwerpunkt auf der
„inhaltsorientierten“ Fusion liegen, bei der z.B. durch
Data-Mining-Techniken statistisch signifikante Vorkommen gleicher
Attributwerte und damit vergleichbare Attribute bestimmt werden können.
Einen weiteren methodischen Schwerpunkt bilden neue Formen der
Metadatenverwaltung mit deskriptiven Operatoren zur Analyse und
Manipulation unterschiedlichster Metadatenmodelle. Eine Schlüsselrolle
kommt dabei der Nutzung ontologischer Metadaten zu, um eine semantisch
aussagekräftige Fusion und Analyse der Daten zu erreichen. Große
Bedeutung haben darüber hinaus neue Methoden zur Analyse und
Verbesserung der Datenqualität sowie zum Datenschutz. Die technischen
Voraussetzungen zur dynamischen Informationsfusion sind aufgrund von
Basistechnologien wie XML, Grid-Computing und Web-Services für den
Datenaustausch und die Interoperabilität von Anwendungsdiensten
weitgehend verfügbar und sollen im Rahmen des Seminars einführend
vorgestellt werden.
Um die Skalierbarkeit gewährleisten zu können, müssen neuartige
Architekturansätze verfolgt werden, die den neuen Entwicklungen in der
verteilten Infrastruktur, wie den Peer-to-Peer-Netzen aufbauen. Im
Internet werden Daten zunehmend als Datenströme bereitgestellt, so dass
die Daten nur flüchtig zur Verfügung gestellt werden. Hier gilt es durch
entsprechende Publish/Subsribe-Verfahren die relevanten Daten zu
verknüpfen und sie den Nutzern in aufbereiteter Form (gefiltert,
aggregiert, bereinigt) zur Verfügung zu stellen. Für die dynamische
Informationsfusion muss eine verteilte Infrastruktur realisiert werden,
die man nicht mehr zentral administrieren kann. Aus Gründen der
Skalierbarkeit benötigt man ein sich selbst organisierendes
Architekturkonzept, das man heute auch mit dem Begriff „autonomic
computing“ bezeichnet. Um aussagekräftige Erkenntnisse aus fusionierten
Daten gewinnen zu können ist die korrekte Einschätzung der Datenqualität
von entscheidender Bedeutung. Des Weiteren muss bei der verteilt
ausgeführten Fusionierung von Datenquellen die Bearbeitung laufend
beobachtet und angepasst werden, da man auf sich ändernde Auslastungen
und Antwortzeiten reagieren muss. Die weitläufige Verknüpfbarkeit von
Daten führt unweigerlich zu Sicherheitsproblemen, die es zu lösen gilt,
um den Datenschutz personenbezogener Daten zu garantieren.
Angelika Reiser, Anne Einenkel
Last modified: Thu Feb 12 10:42:16 MET 2004
|