Informationsintegration Einführung 18.10.2005 Felix Naumann

Preview:

Citation preview

InformationsintegrationEinführung

18.10.2005

Felix Naumann

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 2

Integrierte Informationssysteme

Oracle,DB2…

Web Service

Anwen-dung

HTML Form

IntegriertesInfo.-system

Datei-system

Anfrage

Integriertes Informations-system

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 3

Einige Untertitel

Content Merging Objekt Fusion Datenintegration Data Amalgamation Data Cleansing Intelligent Information Integration: I³ Data Consolidation

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 4

Überblick

Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am

Beispiel Ausblick auf das Semester

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 5

Forschungsgruppe Informationsintegration

Juniorprofessor: Felix Naumann Wissenschaftliche Mitarbeiter / Doktoranden

Jens Bleiholder Melanie Weis Armin Roth Alexander Bilke

Studentische Hilfskräfte Karsten Draba (HumMer Projekt) Veronique Tietz (Aladin Projekt) Erik Witzmann (DB2 Metasearch Projekt)

http://www.informatik.hu-berlin.de/mac/

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 6

DBMS DBMS XML XML... ...

Schema conversion

RDB2XML

RDB2XML

XML2RDB

XML2RDB

QueryOptimization

SQL XQuery

DataFusion

Que

ry E

xecu

tion

DuplicateDetection

Graphical Query Builder

SQL XQuery

Data Visualization

Tables XML

Metadata Services

MetadataRepository

SchemaMapping

SchemaMatching

DataLineage

DataStatistics

Samples

RDB XML

RDB XML

Data transformation

Hum

Mer

Hum

bol

dt M

erge

rD

ata

Im

port

U

ser

Inte

rfac

e

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 7

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 8

Laufende Studien- und Diplomarbeiten

Diplomarbeiten Entwicklung einer Testumgebung für ein Peer Data

Management System Entwurf eines Peer Data Management Systems mit

Steuerungs- und Simulationskomponente Datentransformation mittels Schema Mapping Tree-Edit Distance für XML Duplikaterkennung

Studienarbeiten Transformation von DB2 Datenbanken in XML Dokumente

mittels SQL/XML Similar Pattern Search in History Data Minimum Union als DB2 table function

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 9

Freie Stellen

Studentische Hilfskraft HumMerDB: Testdaten für den Humboldt Merger 80h / Monat Demnächst ausgeschrieben

Studien- und Diplomarbeiten Zurzeit keine frei Themenvorschläge sind aber willkommen Mehr gegen Ende des Semesters

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 10

Überblick

Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am

Beispiel Ausblick auf das Semester

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 11

Voraussetzungen

Vordiplom VL Datenbanken I (DBS I) oder äquivalente

Grundkenntnisse in Datenbanken Falls Sie Fragen haben in Bezug auf die äquivalenten

Grundkenntnisse, schreiben Sie mir bitte eine Email. Es genügt nicht, DBS I parallel zu dieser VL zu hören.

Einordnung in den Fahrplan zum Datenbankstudium Voraussetzung zur Zulassung zur mündlichen Prüfung

ist die erfolgreiche Teilnahme am Praktikum.

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 12

Termine Vorlesung

Dienstags 13:15 – 14:45 Donnerstags 13:15 – 14:45

Praktikum Dienstags 15:15 – 16:45 Erstes Praktikum: 25.10.

Letzte Vorlesung: 16.2.2005 Weihnachten: 19.12. – 29.12. Insgesamt 32 Veranstaltungen Prüfungstermine

i.d.R. 2 Wochen nach Wintersemester i.d.R. 2 Wochen vor Sommersemester

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 13

Andere Veranstaltungen

Fahrplan durch das DB Studium http://www.informatik.hu-berlin.de/mac/fahrplandatenbanke

n.html

Forschungsseminar Neue Entwicklungen in der Bioinformatik und

Informationsintegration Termin: Mittwochs 11 Uhr in 4.113

Weitere: Blockseminar: Graphmanagement in Datenbanken

Dozent: Prof. Ulf Leser

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 14

Feedback Schon Evaluation angesehen?

http://www.informatik.hu-berlin.de/~koessler/evalu/Fragebogen_auswertung.html

Evaluation am Ende des Semesters Fragen bitte jederzeit!

In der VL Sprechstunde: Donnerstags, nach der Vorlesung (15 Uhr) Email: naumann@informatik.hu-berlin.de

Anregungen zur Verbesserung: Z.B. zu

Gebrauch der Folien Infos im WWW

Jeweils nach der VL oder in der Sprechstunde Oder per Email: naumann@informatik.hu-berlin.de

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 15

Literatur Leider kein geeignetes Lehrbuch Themen u.a. aus

Föderierte Datenbanksysteme. Konzepte der Datenintegration, Stefan Conrad, ISBN: 3540631763

Principles of Distributed Database SystemsM. Tamer Özsu, Patrick ValduriezISBN: 0136597076

Jeweils Hinweise in den Vorlesungen Alle genannten Artikel können von mir per Email angefragt

werden. Oder: Google Scholar: http://scholar.google.com/ DBLP: http://www.informatik.uni-trier.de/~ley/db/index.html CiteSeer: http://citeseer.ist.psu.edu/ Homepages der Autoren

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 16

Fotos

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 17

Praktikum Metasuchmaschine Web Services Phase I

Wrapper Web Service für eine Suchmaschine Phase II

Spezielle Web Services für die Metasuchmaschine, z.B. WrapperService: Automatische Erstellung eines neuen Suchmaschinen

Wrappers DirectoryService: Liste aller verfügbaren Suchmaschinen mit Metadaten SamplingService: Metadaten Sammlung OptimierungsService: Auswahl relevanter Suchmaschinen DuplikaterkennungsService: Erkennung doppelter HTML Seiten DatenfusionsService: Konfliktlösung verschiedener Suchergebnisse RankmergingService: Erstellung eines globalen Ergebnisrankings AnfrageerweiterungsService: Automatisches Umschreiben einer Anfrage

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 18

Praktikum

Scheinvoraussetzungen Besuch der Vorlesung Informationsintegration Aktive Teilnahme an den Praktikumsterminen Erfolgreiche Erstellung eines Wrapper-Services für eine

Suchmaschine in Einzelarbeit Kurze Vorstellung Ihres Wrapper-Services vor dem Plenum Erfolgreiche Erstellung eines weiteren Web Services für die

Metasuchmaschine in Gruppenarbeit Vorstellung Ihres Integrations-Services vor dem Plenum Erstellung eines Abschlußberichts in Gruppenarbeit

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 19

Überblick

Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am

Beispiel Ausblick auf das Semester

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 20

Integrierte Informationssysteme

Integriertes Informations-system

Oracle,DB2…

Web Service

Anwen-dung

HTML Form

IntegriertesInfo.-system

Datei-system

Anfrage

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 21

Was ist Informationsintegration?

Informationsintegration ist die Zusammenführung von Daten und Inhalt verschiedener Quellen zu einer einheitlichen Informationsmenge.

Informationsintegration ist die korrekte, vollständige und effiziente Zusammenführung von Daten und Inhalt verschiedener, heterogener Quellen zu einer einheitlichen und strukturierten Informationsmenge zur effektiven Interpretation durch Nutzer und Anwendungen.

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 22

Wo herrscht Informationsintegration?

Im weiteren Sinne Business-Integration Application-Integration Prozess-Integration (Workflow-Integration)

Im engeren Sinne Datenbanken und Informationssysteme

Verteilt Autonom Heterogen

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 23

Beispiele für Informationssysteme

Dateisystem Informationseinheit:

Flat file Anfrage:

File search, RegEx

Struktur: Flach oder

hierarchisch

Beispiele NTFS NIS FTP Zugriff

Einsatzgebiete WWW (HTML Dateien) Desktop-Anwendungen

(Textverarbeitung, etc.)

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 24

Beispiele für Informationssysteme

Datei Informationseinheit:

Zeile /Token Anfrage:

Parser Struktur:

Flach

Beispiele Komma-delimited files Annotated files

Einsatzgebiete SwissProt

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 25

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 26

Beispiele für Informationssysteme

Markup Datei Informationseinheit:

Tagged text Anfrage:

Parser, Anfragesprache Struktur:

Flach, hierarchisch oder graph-basiert

Beispiele XML HTML

Einsatzgebiete Web Services Messages Interoperationale

Anwendungen

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 27

Beispiele für Informationssysteme

Datenbank Anfrage:

Komplexe Sprache, z.B. SQL

Informationseinheit: Tupel / Attribut, Objekt

Struktur:Relational, OO, Hierarchisch

Beispiele Relationale DBMS OO DBMS Auch: XML DBMS

Einsatzgebiete Data Warehouses OLTP Banken/Versicherungen

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 28

Beispiele für Informationssysteme

HTML Formular Informationseinheit:

HTML Seite, Text Anfrage:

Suchworte, Formular (inkl. Radiobutton, dropdown-list, etc.)

Struktur:wie Markup Datei: Flach, hierarchisch oder graph-basiert I.d.R. flach

Beispiele Einfache Suchformulare Komplexe

Anfrageformulare Einsatzgebiete

Suchmaschinen Reisedienste Kataloge

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 29

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 30

Beispiele für Informationssysteme Web Service

Informationseinheit:XML Dokument

AnfrageXML Dokument

Struktur:Wie XML: Flach, hierarchisch,

graph- basiert

Beispiele Einfach:

Temperaturdienst, etc Komplex:

Reservierungen (Schachtelung und Verknüpfung von Web Services)

Einsatzgebiete Intra-organisatorische

Workflows E-Marketplaces Datenaustausch

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 31

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 32

Beispiele für Informationssysteme

Anwendung Informationseinheit:

Java Objekt, Text Anfrage:

via Anwendungs-schnittstelle oder

GUI Struktur:

Objekt (Interface)Display (GUI)

Beispiele Java, C++, etc Legacy

Informationssysteme

Einsatzgebiete Komplexe Analysen

(Data Mining, Statistik)

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 33

Beispiele für Informationssysteme

Integriertes Informationssystem Verhält sich in Anfrage,

Struktur und Informationseinheit je nach Design: DBMS HTML Formular Web Service ...

Beispiele Data Warehouses Föderierte Datenbanken Portale

Einsatzgebiete: Meta Search Life Sciences Int. Unternehmen Intranets

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 34

Integrierte Informationssysteme

Integriertes Informations-system

Oracle,DB2…

Web Service

Anwen-dung

HTML Form

IntegriertesInfo.-system

Datei-system

Anfrage

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 35

Integrierte Suchmaschinen

Meta-Suchmaschine

IntranetIndex

Thesaurus

Anfrage

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 36

Integration = Abstraktion

1. Logisches DB-Design abstrahiert von physischem DB-Design

Datenunabhängigkeit Anfragen: Prozedural vs. deklarativ

2. Informationsintegration abstrahiert von logischen DB Design

Quellenunabhängigkeit (Speicherort) Datenmodell- und Syntaxunabhängigkeit Unabhängigkeit von semantischen

Unterschieden (hoffentlich!)

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 37

Anwendungsgebiet 1: Business[Halevy04]

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 38

Anwendungsgebiet 2: Wissenschaft [Halevy04]

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 39

Anwendungsgebiet 3: Das Web[Halevy04]

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 40

Informationsintegration: Ein altes Problem Seit 50 Jahren auf der Forschungsagenda Frühe Systeme in den 70ern Integration per Hand natürlich noch früher Neue Probleme

Viele, viele Quellen Heterogenität Neue Arten von Daten (XML, GIS, OO,...) Neue Arten von Anfragen (Search, UDFs,...) Neue Arten von Ergebnissen (Ranking, Visualisierung, ...) Neue Arten von Nutzern (Laien, Manager, Admins, ...)

Alon Halevy: „It‘s plain hard!“ [Halevy04]

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 41

Warum ist es so schwer? [Halevy04]

System-bedingte Gründe Verschiedene Plattformen Anfragebearbeitung über mehrere Systeme

Soziale Gründe Finden relevanter Daten in Unternehmen Beschaffen relevanter Daten in Unternehmen Menschen zur Zusammenarbeit überreden

Logik-bedingte Gründe Schema- und Datenheterogenität Dies ist unabhängig von der jeweiligen

Integrationsarchitektur.

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 42

Überblick

Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am

Beispiel Ausblick auf das Semester

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 43

Informationsintegration

Fusion Optimierung VisualisierungIdentifikationIntegration

Web Service

B

Web Service

A

<pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren></pub>

<publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year></publication>

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 44

Beispiel – Web Service A

Web Service A Standort: Trier Operation:

getPubByAuthor(firstName, lastName) getPubByTitle(title)

Output-Struktur:

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 45

Beispiel – Web Service A Output

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 46

Beispiel – Web Service B

Web Service B Standort: Humboldt-Universität Operation: myPubs(Autor, Jahr) Struktur:

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 47

Beispiel – Web Service B Output

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 48

Integration von Web Services A & B

1. Nutzerschnittstelle2. Schema Integration / Schema Mapping3. Anfrage-Umwandlung4. Zeit abschätzen (Optimierung)5. Requests an beide Services abschicken6. Antworten einholen7. Objektidentifikation8. Integrationsschritte

1. Konfliktlösung etc.2. Entscheidung kleinster gemeinsamer Nenner?3. Durchführung (deklarativ, prozedural)

9. Anzeige beim Nutzer

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 49

Nutzerschnittstellen

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 50

<pub> <Titel> </Titel> <Autoren> <Autor> </Autor> <Autor> </Autor> </Autoren> <year> </year></pub>

Informationsintegration

Web Service

B

Web Service

A

<pub> <Titel> Federated Database Systems </Titel> <Autoren> <Autor> Amit Sheth </Autor> <Autor> James Larson </Autor> </Autoren></pub>

<publication> <title> Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title> <auth> Scheth & Larson </auth> <year> 1990 </year></publication>

Schemaintegration

Schema Mapping

Modellierung durch eine Menge von Anfragen (Views)

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 51

Anfrage Umwandlung

Integration der Anfrage durch Mediator: Integrierte Schnittstelle Z.B.

Concat(First Name, Last Name) = Autor

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 52

Anfrageoptimierung

Was ist besser: Eine schnelle Antwort oder vollständige Antwort? Web Service A in Trier (remote) Web Service B in Adlershof (local) Web Service A hat mehr Attribute und mehr Objekte. Web Service B hat weniger Attribute.

Außerdem: Eine Suche nach „year“ kann nur durch Web Service B

beantwortet werden. Transformationen können teuer sein.

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 53

Zwei Resultate

Web Service A

Web Service B

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 54

Schema Matching

?

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 55

Objektidentifikation

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 56

Objektidentifikation

Edit-distance: 5

Edit-distance: 6Zusammen?

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 57

Stand der Dinge

Wir haben die heterogenen Informationen. Wir wissen, was wir integrieren wollen. Aber noch nicht wie:

Integriertes Schema Integrierte Daten

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 58

Angestrebtes Integrationsergebnis

Integriertes Schema:

=

+

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 59

Angestrebtes Integrationsergebnis

Integrierte Daten:

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 60

Integrierte Daten – was ist passiert?

Konflikt-lösung

Neu-Strukturierung

Vorher: „Naumann“

Neu

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 61

Implementierung

Auf Folien ist alles klar, aber wie implementieren? Deklarativ?

SQL, XQuery, XSLT Oft nicht alles möglich Langsam

Prozedural? Java, C++ Schlecht wartbar Schnell

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 62

Anzeige beim Nutzer

Visualisierung der Datenherkunft Qualität veränderten Daten Operationen

Konflikt-lösung

Vorher: „Naumann“

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 63

Überblick

Vorstellung der Arbeitsgruppe Organisatorisches Informationssysteme Informationsintegration am

Beispiel Ausblick auf das Semester

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 64

Integrierte Informationssysteme

Integriertes Informations-system

Oracle,DB2…

Design time

Web Service

Anwen-dung

HTML Form

IntegriertesInfo.-system

Datei-system

Anfrage

Architekturen

Anfragesprache

Schemamanagement

Wrapper

Run time

Anfrageausführung

Optimierung

Anfrageplanung

Datenfusion / ETL

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 65

Erste Hälfte

1. Einführung in die Informationsintegration2. Szenarien der Informationsintegration3. Verteilung und Autonomie4. Heterogenität5. Materialisierte und virtuelle Integration6. Klassifikation integrierter Informationssysteme und 5-Schichten

Architektur 7. Mediator/Wrapper-Architektur8. Global-as-View und Lokal-as-View Modellierung9. Global-as-View Anfragebearbeitung 10. SchemaSQL11. Verteilte Anfragebearbeitung12. Dynamische Programmierung in verteilten Datenbanken13. Top-N Anfragen

ProblemstellungArchitekturenModellierungOptimierung

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 66

Zweite Hälfte

1. Informationsqualität2. Duplikaterkennung3. ETL & Data Lineage 4. Datenfusion - Union & Co.5. Containment & Local-as-View Anfragebearbeitung6. Bucket Algorithmus 7. Peer-Data-Management Systeme (PDMS) 8. Schema Mapping9. Schema Matching 10. Hidden Web11. Semantic Web12. Forschungsprojekte  - TSIMMIS, Garlic, Revere, etc13. Data Streams

KonflikteAnfragen

SystemeMapping

18.10.2005 Felix Naumann, VL Informationsintegration, WS 05/06 67

Fragen, Wünsche und Vorstellungen

Jetzt, oder...

Raum: IV.122 Sprechstunden: Donnerstags 15 Uhr

oder n.V. Email: naumann@informatik Telefon: (030) 2093 3905

Recommended