53
Informationsintegration Einführung 10.4.2012 Felix Naumann

Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

InformationsintegrationEinführung

10.4.2012Felix Naumann

Page 2: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Integrierte Informationssysteme

Felix Naumann | Informationsintegration | Sommer 2012

2

Oracle,DB2…

Web Service

Anwen-dung

HTML Form

IntegriertesInfo.-system

Datei-system

Anfrage

Integriertes Informations-system

Page 3: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Überblick

Felix Naumann | Informationsintegration | Sommer 2012

3

■ Vorstellung der Arbeitsgruppe■ Organisatorisches■ Informationssysteme■ Informationsintegration am Beispiel■ Ausblick auf das Semester

Page 4: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Katrin Heinrich

Alexander Albrecht

Data Fusion

Matching

Service-Oriented Systems

Prof. Felix Naumann

Information Integration

Information Quality

Information Systems Team

Felix Naumann | Informationsintegration | Sommer 2012

Christoph Böhm

Schufa

IBM

HPI Research School

Data Profiling

Tobias Vogel

Johannes Lorey

Entity Search

Duplicate Detection Dustin Lange

Arvid Heise

RDF Data Mining

ETL Management

project M.ETL

project DuDe

project Stratosphere

Data as a Service

Ziawasch Abedjan

Opinion Mining

Dr. Saeedeh Momtazi

bbf

Uwe Draisbach

Data Scrubbingproject GovWILD

Dependency Detection

Linked Open Data

Data Cleansing

DFG

Dr. Gjergji Kasneci Toni Grütze

Web Data

4

Page 5: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Other courses in this semester

Felix Naumann | Informationsintegration | Sommer 2012

5

Lectures■ DBS I■ Natural Language Processing■ Data Mining and

Probabilistic Reasoning■ Information Integration

Seminars■ Bachelor: Beauty is our Business■ Master: Algorithms for Pattern Mining

Bachelorprojects■ A Cloud Platform for On-Demand

Access to Open Data■ CelebDB: Harvesting Celebrity Data

Page 6: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Proseminar

Beauty is our Business

„Wenn wir uns klarmachen, daß der Kampf gegen Chaos, Durcheinander und unbeherrschte Kompliziertheit eine der größten Herausforderungen der Informatik ist, müssen wir zugestehen: Beauty is our Business.“ Edsger W. Dijkstra, 1978

Felix Naumann | Informationsintegration | Sommer 2012

6

Page 7: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

SE Algorithms for Pattern Mining

■ 2 SWS, implementation, presentation, evaluation report■ Elaborate algorithms for large scale data analysis■ Discover co-occurring items and relationships in large

transactional data sets

Felix Naumann | Informationsintegration | Sommer 2012

7

TID transaction… …1003 beer, diaper, bread1004 tea, coffee, bread… …..

Page 8: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

VL Data Mining and Probabilistic Reasoning

“…every two days we create as much information as we did from the dawn of civilization up until 2003! … 5 Exabytes of data”Eric Schmidt

Data Mining Analyzing data, finding

patterns, detecting outliers Learning predictive models Discovering knowledge

Probabilistic Reasoning Representing and quantifying

uncertainty in data Predicting likely outcomes of

random variables, occurrence of events

Choosing the right model Application areas

Web mining (e.g. find documents for a given topic) Bioinformatics (e.g. analyze protein-protein interactions) Stock market analysis (e.g. predict value of a given stock asset) Physics (e.g. modeling Brownian motion of particles) …

Felix Naumann | Informationsintegration | Sommer 2012

8

Page 9: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Natural Language Processing

■ What are the main techniques and applications for processing human languages by computers?□ How search engines can find the most relevant pages for input

queries?□ How a machine translator can translate a text from one

language to another?□ How online shopping sites can summarize opinions about the

products?□ How Watson can answer the Jeopardy questions?

In this lecture, we will learn how to make a machine able to understand the human language.

Felix Naumann | Informationsintegration | Sommer 2012

9

Page 10: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Überblick

Felix Naumann | Informationsintegration | Sommer 2012

10

■ Vorstellung der Arbeitsgruppe■ Organisatorisches■ Informationssysteme■ Informationsintegration am Beispiel■ Ausblick auf das Semester

Page 11: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Termine und Leistungserfassung

Felix Naumann | Informationsintegration | Sommer 2012

11

■ Vorlesung□ Dienstags 9:15 – 10:45

■ Praktikum□ begleitend

■ Erste Vorlesung□ 10.4.2012

■ Letzte Vorlesung□ 10.7.2012

■ Feiertag(e)□ 1.5. Maifeiertag

■ Prüfung□ Mündlich, 30 Minuten□ Erste Woche nach

Vorlesungszeitraum■ Voraussetzungen

□ Zur Teilnahme◊ Datenbankkenntnisse

(z.B. DBS I)□ Zur Prüfung

◊ Besuch der Vorlesung◊ Aktive Teilnahme an

den Praktikumsterminen

◊ „Bestehen“ des Praktikums

Page 12: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Feedback

■ Evaluation am Ende des Semesters■ Fragen bitte jederzeit!

□ In der VL□ Sprechstunde: Dienstags 15-16□ Email: [email protected]

■ Anregungen zur Verbesserung: □ Z.B. zu

◊ Gebrauch der Folien◊ Infos im WWW

□ Jeweils nach der VL oder in der Sprechstunde□ Oder per Email: [email protected]

Felix Naumann | Informationsintegration | Sommer 2012

12

Page 13: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Lehrbuch

■ Informationsintegration■ Ulf Leser und Felix

Naumann□ dpunkt Verlag, 2006

■ 42 Euro■ n-mal in Bibliothek

Felix Naumann | Informationsintegration | Sommer 2012

13

Page 14: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Weitere Literatur

■ Themen u.a. aus□ Föderierte Datenbanksysteme. Konzepte der Datenintegration, Stefan

Conrad, 1997, ISBN: 3540631763 □ Principles of Distributed Database Systems

M. Tamer Özsu, Patrick ValduriezISBN: 0136597076

■ Jeweils Literaturhinweise in den Vorlesungen■ Alle genannten Artikel können von mir per Email angefragt werden. Oder:

□ Google Scholar: http://scholar.google.com/

□ DBLP: http://www.informatik.uni-trier.de/~ley/db/index.html□ CiteSeer: http://citeseer.ist.psu.edu/□ ACM Digital Library: www.acm.org/dl/□ Homepages der Autoren

Felix Naumann | Informationsintegration | Sommer 2012

14

Page 15: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Übung: Integrationsprojekt

Felix Naumann | Informationsintegration | Sommer 2012

15

Page 16: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Vorstellung – Hörer

■ Welches Semester?■ HPI oder IfI?■ Erasmus o.ä.?

□ English?■ Datenbankkenntnisse?

□ Andere relevante Lehrveranstaltungen?■ Ihre Motivation?

□ Schon mal integriert?□ DWH?

Felix Naumann | Informationsintegration | Sommer 2012

16

Page 17: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Überblick

Felix Naumann | Informationsintegration | Sommer 2012

17

■ Vorstellung der Arbeitsgruppe■ Organisatorisches■ Informationssysteme■ Informationsintegration am Beispiel■ Ausblick auf das Semester

Page 18: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Integrierte Informationssysteme

Felix Naumann | Informationsintegration | Sommer 2012

18

Integriertes Informations-system

Oracle,DB2…

Web Service

Anwen-dung

HTML Form

IntegriertesInfo.-system

Datei-system

Anfrage

Page 19: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Felix Naumann | Informationsintegration | Sommer 2012

19

Page 20: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Felix Naumann | Informationsintegration | Sommer 2012

20

Page 21: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Felix Naumann | Informationsintegration | Sommer 2012

21

Page 22: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Felix Naumann | Informationsintegration | Sommer 2012

22

Page 23: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Felix Naumann | Informationsintegration | Sommer 2012

23

Page 24: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Felix Naumann | Informationsintegration | Sommer 2012

24

Page 25: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Was ist Informationsintegration?

Informationsintegration ist die Zusammenführung von Daten und Inhalt verschiedener Quellen zu einer einheitlichen Informationsmenge.

Informationsintegration ist die korrekte, vollständige und effizienteZusammenführung von Daten und Inhalt verschiedener, heterogenerQuellen zu einer einheitlichen und strukturierten Informationsmenge zur effektiven Interpretation durch Nutzer und Anwendungen.

Felix Naumann | Informationsintegration | Sommer 2012

25

Page 26: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Wo herrscht Informationsintegration?

■ Im weiteren Sinne□ Business-Integration□ Application-Integration□ Prozess-Integration (Workflow-Integration)

■ Im engeren Sinne□ Datenbanken und Informationssysteme

◊ Verteilt◊ Autonom◊ Heterogen

Felix Naumann | Informationsintegration | Sommer 2012

26

Page 27: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Felix Naumann | Informationsintegration | Sommer 2012

27

Page 28: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Amazon Suchformular

Felix Naumann | Informationsintegration | Sommer 2012

28

Page 29: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

XMethods

Felix Naumann | Informationsintegration | Sommer 2012

29

Page 30: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

StrikeIron

Felix Naumann | Informationsintegration | Sommer 2012

30

Page 31: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Programmable Web

Felix Naumann | Informationsintegration | Sommer 2012

31

Page 32: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Google FusionTables

Felix Naumann | Informationsintegration | Sommer 2012

32

Page 33: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Integrierte Informationssysteme

Felix Naumann | Informationsintegration | Sommer 2012

33

Integriertes Informations-system

Oracle,DB2…

Web Service

Anwen-dung

HTML Form

IntegriertesInfo.-system

Datei-system

Anfrage

Page 34: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Integrierte Suchmaschinen

Felix Naumann | Informationsintegration | Sommer 2012

34

Meta-Suchmaschine

IntranetIndex

Thesaurus

Anfrage

Page 35: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Integration = Abstraktion

1. Logisches DB-Design abstrahiert von physischem DB-Design□ Datenunabhängigkeit□ Anfragen: Prozedural vs. deklarativ

2. Informationsintegration abstrahiert von logischen DB Design□ Quellenunabhängigkeit (Speicherort)□ Datenmodell- und Syntaxunabhängigkeit□ Unabhängigkeit von semantischen Unterschieden

(hoffentlich!)

Felix Naumann | Informationsintegration | Sommer 2012

35

Page 36: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Anwendungsgebiet 1: Business[Halevy04]

Felix Naumann | Informationsintegration | Sommer 2012

36

Page 37: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Anwendungsgebiet 2: Wissenschaft [Halevy04]

Felix Naumann | Informationsintegration | Sommer 2012

37

Page 38: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Anwendungsgebiet 3: Das Web[Halevy04]

Felix Naumann | Informationsintegration | Sommer 2012

38

Page 39: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Informationsintegration: Ein altes Problem

■ Seit 50 Jahren auf der Forschungsagenda■ Frühe Systeme in den 70ern■ Integration per Hand natürlich noch früher■ Neue Probleme

□ Viele, viele Quellen□ Heterogenität□ Neue Arten von Daten (XML, GIS, OO,...)□ Neue Arten von Anfragen (Search, UDFs,...)□ Neue Arten von Ergebnissen (Ranking, Visualisierung, ...)□ Neue Arten von Nutzern (Laien, Manager, Admins, ...)

■ Alon Halevy: „It‘s plain hard!“ [Halevy04]

Felix Naumann | Informationsintegration | Sommer 2012

39

Page 40: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Warum ist es so schwer? [Halevy04]

■ System-bedingte Gründe□ Verschiedene Plattformen□ Anfragebearbeitung über mehrere Systeme

■ Soziale Gründe□ Finden relevanter Daten in Unternehmen□ Beschaffen relevanter Daten in Unternehmen□ Menschen zur Zusammenarbeit überreden□ „Data fiefdoms“

■ Logik-bedingte Gründe□ Schema- und Datenheterogenität□ Dies ist unabhängig von der jeweiligen

Integrationsarchitektur.

Felix Naumann | Informationsintegration | Sommer 2012

40

Page 41: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Überblick

Felix Naumann | Informationsintegration | Sommer 2012

41

■ Vorstellung der Arbeitsgruppe■ Organisatorisches■ Informationssysteme■ Informationsintegration am Beispiel■ Ausblick auf das Semester

Page 42: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Informationsintegration

Felix Naumann | Informationsintegration | Sommer 2012

42

Fusion Optimierung VisualisierungIdentifizierungIntegration

Web Service

B

Web Service

A

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub>

<publication><title> Federated Database

Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title>

<auth> Scheth & Larson </auth><year> 1990 </year>

</publication>

Page 43: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Informationsintegration

Felix Naumann | Informationsintegration | Sommer 2012

43

<pub><Titel> </Titel><Autoren>

<Autor> </Autor><Autor> </Autor>

</Autoren><year> </year>

</pub>

Web Service

B

Web Service

A

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub>

<publication><title> Federated Database

Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title>

<auth> Scheth & Larson </auth><year> 1990 </year>

</publication>

Fusion Optimierung VisualisierungIdentifizierungIntegration

Schema Integration

Schema Mapping

Page 44: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Informationsintegration

Felix Naumann | Informationsintegration | Sommer 2012

44

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub><pub>

<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>

<Autoren><Autor> Scheth & Larson </Autor>

</Autoren><year> 1990 </year></pub>

Web Service

B

Web Service

A

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub>

<publication><title> Federated Database

Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title>

<auth> Scheth & Larson </auth><year> 1990 </year>

</publication>

Fusion Optimierung VisualisierungIdentifizierungIntegration

XQuery

XQuery

Schema IntegrationSchema Mapping

Page 45: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Informationsintegration

Felix Naumann | Informationsintegration | Sommer 2012

45

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub><pub>

<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>

<Autoren><Autor> Scheth & Larson </Autor>

</Autoren><year> 1990 </year></pub>

Web Service

B

Web Service

A

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub>

<publication><title> Federated Database

Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title>

<auth> Scheth & Larson </auth><year> 1990 </year>

</publication>

Fusion Optimierung VisualisierungIdentifizierungIntegration

Page 46: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Informationsintegration

Felix Naumann | Informationsintegration | Sommer 2012

46

Web Service

B

Web Service

A

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub>

<publication><title> Federated Database

Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title>

<auth> Scheth & Larson </auth><year> 1990 </year>

</publication>

Fusion Optimierung VisualisierungIdentifizierungIntegration

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub><pub>

<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>

<Autoren><Autor> Scheth & Larson </Autor>

</Autoren><year> 1990 </year></pub>

Page 47: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Informationsintegration

Felix Naumann | Informationsintegration | Sommer 2012

47

Web Service

B

Web Service

A

Fusion Optimierung VisualisierungIdentifizierungIntegration

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub><pub>

<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>

<Autoren><Autor> Scheth & Larson </Autor>

</Autoren><year> 1990 </year></pub>

<pub><Titel> Federated Database Systems for

Managing Distributed, Heterogeneous, andAutonomous Databases </Titel>

<Autoren><Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren><year> 1990 </year></pub>

Page 48: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Informationsintegration

Felix Naumann | Informationsintegration | Sommer 2012

48

Web Service

B

Web Service

A

Fusion Optimierung VisualisierungIdentifizierung

1sec.

5sec.

Integration

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub><pub>

<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>

<Autoren><Autor> Scheth & Larson </Autor>

</Autoren><year> 1990 </year></pub>

<pub><Titel> Federated Database Systems for

Managing Distributed, Heterogeneous, andAutonomous Databases </Titel>

<Autoren><Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren><year> 1990 </year></pub>

Page 49: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Informationsintegration

Felix Naumann | Informationsintegration | Sommer 2012

49

Web Service

B

Web Service

A

Fusion Optimierung VisualisierungIdentifizierung

1sec.

5sec.

Integration

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub><pub>

<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>

<Autoren><Autor> Scheth & Larson </Autor>

</Autoren><year> 1990 </year></pub>

<pub><Titel> Federated Database Systems for

Managing Distributed, Heterogeneous, andAutonomous Databases </Titel>

<Autoren><Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren><year> 1990 </year></pub> WS A

WS B

WS B

Page 50: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Überblick

Felix Naumann | Informationsintegration | Sommer 2012

50

■ Vorstellung der Arbeitsgruppe■ Organisatorisches■ Informationssysteme■ Informationsintegration am Beispiel■ Ausblick auf das Semester

Page 51: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Integrierte Informationssysteme

Felix Naumann | Informationsintegration | Sommer 2012

51

Integriertes Informations-system

Oracle,DB2…

Design time

Web Service

Anwen-dung

HTML Form

IntegriertesInfo.-system

Datei-system

Anfrage

Architekturen

Anfragesprachen

Schemamanagement

Wrapper

Run time

Anfrageausführung

Optimierung

Anfrageplanung

Datenfusion / ETL

Page 52: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Zeitplan

■ Introduction (1)■ Architectures (2)■ Schema mapping (2)■ Global-as-view modeling and query processing (1)■ Lokal-as-view modeling and query processing (3)■ Duplicate detection (2)■ Data fusion (1)■ Data warehouses and ETL (1)

Felix Naumann | Informationsintegration | Sommer 2012

52

Page 53: Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... · Informationsintegration Einführung 10.4.2012 Felix Naumann. ... Logisches DB-Design abstrahiert

Was fehlt?

Felix Naumann | Informationsintegration | Sommer 2012

53

■ 4 SWS□ Distribution, autonomy,

and heterogeneity□ Materialized and virtual

integration□ SchemaSQL□ Data Lineage□ Information Quality

■ 6 SWS□ Distributed query

processing andoptimization

□ Top-N queries□ Peer data management□ Hidden Web□ Semantic Web□ Data Streams□ Research projects