Informationsintegration Einführung › fileadmin › user_upload › fachgebiete › ... ·...

Preview:

Citation preview

InformationsintegrationEinführung

10.4.2012Felix Naumann

Integrierte Informationssysteme

Felix Naumann | Informationsintegration | Sommer 2012

2

Oracle,DB2…

Web Service

Anwen-dung

HTML Form

IntegriertesInfo.-system

Datei-system

Anfrage

Integriertes Informations-system

Überblick

Felix Naumann | Informationsintegration | Sommer 2012

3

■ Vorstellung der Arbeitsgruppe■ Organisatorisches■ Informationssysteme■ Informationsintegration am Beispiel■ Ausblick auf das Semester

Katrin Heinrich

Alexander Albrecht

Data Fusion

Matching

Service-Oriented Systems

Prof. Felix Naumann

Information Integration

Information Quality

Information Systems Team

Felix Naumann | Informationsintegration | Sommer 2012

Christoph Böhm

Schufa

IBM

HPI Research School

Data Profiling

Tobias Vogel

Johannes Lorey

Entity Search

Duplicate Detection Dustin Lange

Arvid Heise

RDF Data Mining

ETL Management

project M.ETL

project DuDe

project Stratosphere

Data as a Service

Ziawasch Abedjan

Opinion Mining

Dr. Saeedeh Momtazi

bbf

Uwe Draisbach

Data Scrubbingproject GovWILD

Dependency Detection

Linked Open Data

Data Cleansing

DFG

Dr. Gjergji Kasneci Toni Grütze

Web Data

4

Other courses in this semester

Felix Naumann | Informationsintegration | Sommer 2012

5

Lectures■ DBS I■ Natural Language Processing■ Data Mining and

Probabilistic Reasoning■ Information Integration

Seminars■ Bachelor: Beauty is our Business■ Master: Algorithms for Pattern Mining

Bachelorprojects■ A Cloud Platform for On-Demand

Access to Open Data■ CelebDB: Harvesting Celebrity Data

Proseminar

Beauty is our Business

„Wenn wir uns klarmachen, daß der Kampf gegen Chaos, Durcheinander und unbeherrschte Kompliziertheit eine der größten Herausforderungen der Informatik ist, müssen wir zugestehen: Beauty is our Business.“ Edsger W. Dijkstra, 1978

Felix Naumann | Informationsintegration | Sommer 2012

6

SE Algorithms for Pattern Mining

■ 2 SWS, implementation, presentation, evaluation report■ Elaborate algorithms for large scale data analysis■ Discover co-occurring items and relationships in large

transactional data sets

Felix Naumann | Informationsintegration | Sommer 2012

7

TID transaction… …1003 beer, diaper, bread1004 tea, coffee, bread… …..

VL Data Mining and Probabilistic Reasoning

“…every two days we create as much information as we did from the dawn of civilization up until 2003! … 5 Exabytes of data”Eric Schmidt

Data Mining Analyzing data, finding

patterns, detecting outliers Learning predictive models Discovering knowledge

Probabilistic Reasoning Representing and quantifying

uncertainty in data Predicting likely outcomes of

random variables, occurrence of events

Choosing the right model Application areas

Web mining (e.g. find documents for a given topic) Bioinformatics (e.g. analyze protein-protein interactions) Stock market analysis (e.g. predict value of a given stock asset) Physics (e.g. modeling Brownian motion of particles) …

Felix Naumann | Informationsintegration | Sommer 2012

8

Natural Language Processing

■ What are the main techniques and applications for processing human languages by computers?□ How search engines can find the most relevant pages for input

queries?□ How a machine translator can translate a text from one

language to another?□ How online shopping sites can summarize opinions about the

products?□ How Watson can answer the Jeopardy questions?

In this lecture, we will learn how to make a machine able to understand the human language.

Felix Naumann | Informationsintegration | Sommer 2012

9

Überblick

Felix Naumann | Informationsintegration | Sommer 2012

10

■ Vorstellung der Arbeitsgruppe■ Organisatorisches■ Informationssysteme■ Informationsintegration am Beispiel■ Ausblick auf das Semester

Termine und Leistungserfassung

Felix Naumann | Informationsintegration | Sommer 2012

11

■ Vorlesung□ Dienstags 9:15 – 10:45

■ Praktikum□ begleitend

■ Erste Vorlesung□ 10.4.2012

■ Letzte Vorlesung□ 10.7.2012

■ Feiertag(e)□ 1.5. Maifeiertag

■ Prüfung□ Mündlich, 30 Minuten□ Erste Woche nach

Vorlesungszeitraum■ Voraussetzungen

□ Zur Teilnahme◊ Datenbankkenntnisse

(z.B. DBS I)□ Zur Prüfung

◊ Besuch der Vorlesung◊ Aktive Teilnahme an

den Praktikumsterminen

◊ „Bestehen“ des Praktikums

Feedback

■ Evaluation am Ende des Semesters■ Fragen bitte jederzeit!

□ In der VL□ Sprechstunde: Dienstags 15-16□ Email: naumann@hpi.uni-potsdam.de

■ Anregungen zur Verbesserung: □ Z.B. zu

◊ Gebrauch der Folien◊ Infos im WWW

□ Jeweils nach der VL oder in der Sprechstunde□ Oder per Email: naumann@hpi.uni-potsdam.de

Felix Naumann | Informationsintegration | Sommer 2012

12

Lehrbuch

■ Informationsintegration■ Ulf Leser und Felix

Naumann□ dpunkt Verlag, 2006

■ 42 Euro■ n-mal in Bibliothek

Felix Naumann | Informationsintegration | Sommer 2012

13

Weitere Literatur

■ Themen u.a. aus□ Föderierte Datenbanksysteme. Konzepte der Datenintegration, Stefan

Conrad, 1997, ISBN: 3540631763 □ Principles of Distributed Database Systems

M. Tamer Özsu, Patrick ValduriezISBN: 0136597076

■ Jeweils Literaturhinweise in den Vorlesungen■ Alle genannten Artikel können von mir per Email angefragt werden. Oder:

□ Google Scholar: http://scholar.google.com/

□ DBLP: http://www.informatik.uni-trier.de/~ley/db/index.html□ CiteSeer: http://citeseer.ist.psu.edu/□ ACM Digital Library: www.acm.org/dl/□ Homepages der Autoren

Felix Naumann | Informationsintegration | Sommer 2012

14

Übung: Integrationsprojekt

Felix Naumann | Informationsintegration | Sommer 2012

15

Vorstellung – Hörer

■ Welches Semester?■ HPI oder IfI?■ Erasmus o.ä.?

□ English?■ Datenbankkenntnisse?

□ Andere relevante Lehrveranstaltungen?■ Ihre Motivation?

□ Schon mal integriert?□ DWH?

Felix Naumann | Informationsintegration | Sommer 2012

16

Überblick

Felix Naumann | Informationsintegration | Sommer 2012

17

■ Vorstellung der Arbeitsgruppe■ Organisatorisches■ Informationssysteme■ Informationsintegration am Beispiel■ Ausblick auf das Semester

Integrierte Informationssysteme

Felix Naumann | Informationsintegration | Sommer 2012

18

Integriertes Informations-system

Oracle,DB2…

Web Service

Anwen-dung

HTML Form

IntegriertesInfo.-system

Datei-system

Anfrage

Felix Naumann | Informationsintegration | Sommer 2012

19

Felix Naumann | Informationsintegration | Sommer 2012

20

Felix Naumann | Informationsintegration | Sommer 2012

21

Felix Naumann | Informationsintegration | Sommer 2012

22

Felix Naumann | Informationsintegration | Sommer 2012

23

Felix Naumann | Informationsintegration | Sommer 2012

24

Was ist Informationsintegration?

Informationsintegration ist die Zusammenführung von Daten und Inhalt verschiedener Quellen zu einer einheitlichen Informationsmenge.

Informationsintegration ist die korrekte, vollständige und effizienteZusammenführung von Daten und Inhalt verschiedener, heterogenerQuellen zu einer einheitlichen und strukturierten Informationsmenge zur effektiven Interpretation durch Nutzer und Anwendungen.

Felix Naumann | Informationsintegration | Sommer 2012

25

Wo herrscht Informationsintegration?

■ Im weiteren Sinne□ Business-Integration□ Application-Integration□ Prozess-Integration (Workflow-Integration)

■ Im engeren Sinne□ Datenbanken und Informationssysteme

◊ Verteilt◊ Autonom◊ Heterogen

Felix Naumann | Informationsintegration | Sommer 2012

26

Felix Naumann | Informationsintegration | Sommer 2012

27

Amazon Suchformular

Felix Naumann | Informationsintegration | Sommer 2012

28

XMethods

Felix Naumann | Informationsintegration | Sommer 2012

29

StrikeIron

Felix Naumann | Informationsintegration | Sommer 2012

30

Programmable Web

Felix Naumann | Informationsintegration | Sommer 2012

31

Google FusionTables

Felix Naumann | Informationsintegration | Sommer 2012

32

Integrierte Informationssysteme

Felix Naumann | Informationsintegration | Sommer 2012

33

Integriertes Informations-system

Oracle,DB2…

Web Service

Anwen-dung

HTML Form

IntegriertesInfo.-system

Datei-system

Anfrage

Integrierte Suchmaschinen

Felix Naumann | Informationsintegration | Sommer 2012

34

Meta-Suchmaschine

IntranetIndex

Thesaurus

Anfrage

Integration = Abstraktion

1. Logisches DB-Design abstrahiert von physischem DB-Design□ Datenunabhängigkeit□ Anfragen: Prozedural vs. deklarativ

2. Informationsintegration abstrahiert von logischen DB Design□ Quellenunabhängigkeit (Speicherort)□ Datenmodell- und Syntaxunabhängigkeit□ Unabhängigkeit von semantischen Unterschieden

(hoffentlich!)

Felix Naumann | Informationsintegration | Sommer 2012

35

Anwendungsgebiet 1: Business[Halevy04]

Felix Naumann | Informationsintegration | Sommer 2012

36

Anwendungsgebiet 2: Wissenschaft [Halevy04]

Felix Naumann | Informationsintegration | Sommer 2012

37

Anwendungsgebiet 3: Das Web[Halevy04]

Felix Naumann | Informationsintegration | Sommer 2012

38

Informationsintegration: Ein altes Problem

■ Seit 50 Jahren auf der Forschungsagenda■ Frühe Systeme in den 70ern■ Integration per Hand natürlich noch früher■ Neue Probleme

□ Viele, viele Quellen□ Heterogenität□ Neue Arten von Daten (XML, GIS, OO,...)□ Neue Arten von Anfragen (Search, UDFs,...)□ Neue Arten von Ergebnissen (Ranking, Visualisierung, ...)□ Neue Arten von Nutzern (Laien, Manager, Admins, ...)

■ Alon Halevy: „It‘s plain hard!“ [Halevy04]

Felix Naumann | Informationsintegration | Sommer 2012

39

Warum ist es so schwer? [Halevy04]

■ System-bedingte Gründe□ Verschiedene Plattformen□ Anfragebearbeitung über mehrere Systeme

■ Soziale Gründe□ Finden relevanter Daten in Unternehmen□ Beschaffen relevanter Daten in Unternehmen□ Menschen zur Zusammenarbeit überreden□ „Data fiefdoms“

■ Logik-bedingte Gründe□ Schema- und Datenheterogenität□ Dies ist unabhängig von der jeweiligen

Integrationsarchitektur.

Felix Naumann | Informationsintegration | Sommer 2012

40

Überblick

Felix Naumann | Informationsintegration | Sommer 2012

41

■ Vorstellung der Arbeitsgruppe■ Organisatorisches■ Informationssysteme■ Informationsintegration am Beispiel■ Ausblick auf das Semester

Informationsintegration

Felix Naumann | Informationsintegration | Sommer 2012

42

Fusion Optimierung VisualisierungIdentifizierungIntegration

Web Service

B

Web Service

A

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub>

<publication><title> Federated Database

Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title>

<auth> Scheth & Larson </auth><year> 1990 </year>

</publication>

Informationsintegration

Felix Naumann | Informationsintegration | Sommer 2012

43

<pub><Titel> </Titel><Autoren>

<Autor> </Autor><Autor> </Autor>

</Autoren><year> </year>

</pub>

Web Service

B

Web Service

A

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub>

<publication><title> Federated Database

Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title>

<auth> Scheth & Larson </auth><year> 1990 </year>

</publication>

Fusion Optimierung VisualisierungIdentifizierungIntegration

Schema Integration

Schema Mapping

Informationsintegration

Felix Naumann | Informationsintegration | Sommer 2012

44

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub><pub>

<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>

<Autoren><Autor> Scheth & Larson </Autor>

</Autoren><year> 1990 </year></pub>

Web Service

B

Web Service

A

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub>

<publication><title> Federated Database

Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title>

<auth> Scheth & Larson </auth><year> 1990 </year>

</publication>

Fusion Optimierung VisualisierungIdentifizierungIntegration

XQuery

XQuery

Schema IntegrationSchema Mapping

Informationsintegration

Felix Naumann | Informationsintegration | Sommer 2012

45

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub><pub>

<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>

<Autoren><Autor> Scheth & Larson </Autor>

</Autoren><year> 1990 </year></pub>

Web Service

B

Web Service

A

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub>

<publication><title> Federated Database

Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title>

<auth> Scheth & Larson </auth><year> 1990 </year>

</publication>

Fusion Optimierung VisualisierungIdentifizierungIntegration

Informationsintegration

Felix Naumann | Informationsintegration | Sommer 2012

46

Web Service

B

Web Service

A

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub>

<publication><title> Federated Database

Systems for Managing Distributed, Heterogeneous, and Autonomous Databases </title>

<auth> Scheth & Larson </auth><year> 1990 </year>

</publication>

Fusion Optimierung VisualisierungIdentifizierungIntegration

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub><pub>

<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>

<Autoren><Autor> Scheth & Larson </Autor>

</Autoren><year> 1990 </year></pub>

Informationsintegration

Felix Naumann | Informationsintegration | Sommer 2012

47

Web Service

B

Web Service

A

Fusion Optimierung VisualisierungIdentifizierungIntegration

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub><pub>

<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>

<Autoren><Autor> Scheth & Larson </Autor>

</Autoren><year> 1990 </year></pub>

<pub><Titel> Federated Database Systems for

Managing Distributed, Heterogeneous, andAutonomous Databases </Titel>

<Autoren><Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren><year> 1990 </year></pub>

Informationsintegration

Felix Naumann | Informationsintegration | Sommer 2012

48

Web Service

B

Web Service

A

Fusion Optimierung VisualisierungIdentifizierung

1sec.

5sec.

Integration

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub><pub>

<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>

<Autoren><Autor> Scheth & Larson </Autor>

</Autoren><year> 1990 </year></pub>

<pub><Titel> Federated Database Systems for

Managing Distributed, Heterogeneous, andAutonomous Databases </Titel>

<Autoren><Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren><year> 1990 </year></pub>

Informationsintegration

Felix Naumann | Informationsintegration | Sommer 2012

49

Web Service

B

Web Service

A

Fusion Optimierung VisualisierungIdentifizierung

1sec.

5sec.

Integration

<pub><Titel> Federated Database

Systems </Titel><Autoren>

<Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren></pub><pub>

<Titel> Federated Database Systems forManaging Distributed, Heterogeneous, and Autonomous Databases </Titel>

<Autoren><Autor> Scheth & Larson </Autor>

</Autoren><year> 1990 </year></pub>

<pub><Titel> Federated Database Systems for

Managing Distributed, Heterogeneous, andAutonomous Databases </Titel>

<Autoren><Autor> Amit Sheth </Autor><Autor> James Larson </Autor>

</Autoren><year> 1990 </year></pub> WS A

WS B

WS B

Überblick

Felix Naumann | Informationsintegration | Sommer 2012

50

■ Vorstellung der Arbeitsgruppe■ Organisatorisches■ Informationssysteme■ Informationsintegration am Beispiel■ Ausblick auf das Semester

Integrierte Informationssysteme

Felix Naumann | Informationsintegration | Sommer 2012

51

Integriertes Informations-system

Oracle,DB2…

Design time

Web Service

Anwen-dung

HTML Form

IntegriertesInfo.-system

Datei-system

Anfrage

Architekturen

Anfragesprachen

Schemamanagement

Wrapper

Run time

Anfrageausführung

Optimierung

Anfrageplanung

Datenfusion / ETL

Zeitplan

■ Introduction (1)■ Architectures (2)■ Schema mapping (2)■ Global-as-view modeling and query processing (1)■ Lokal-as-view modeling and query processing (3)■ Duplicate detection (2)■ Data fusion (1)■ Data warehouses and ETL (1)

Felix Naumann | Informationsintegration | Sommer 2012

52

Was fehlt?

Felix Naumann | Informationsintegration | Sommer 2012

53

■ 4 SWS□ Distribution, autonomy,

and heterogeneity□ Materialized and virtual

integration□ SchemaSQL□ Data Lineage□ Information Quality

■ 6 SWS□ Distributed query

processing andoptimization

□ Top-N queries□ Peer data management□ Hidden Web□ Semantic Web□ Data Streams□ Research projects

Recommended