58
Vorlesung Einführung in die Bioinformatik - Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte Interessierende Objekte in der Bioinformatik: in der Bioinformatik: Molekularbiologische Molekularbiologische Grundlagen Grundlagen

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Embed Size (px)

Citation preview

Page 1: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1

Interessierende Objekte Interessierende Objekte

in der Bioinformatik:in der Bioinformatik:

Molekularbiologische Molekularbiologische

GrundlagenGrundlagen

Page 2: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-2

Ein kleiner Exkurs in die Ein kleiner Exkurs in die Molekularbiologie:Molekularbiologie:Vom Gen zum PhänVom Gen zum Phän

DNA

Transkription: Ergebnis ist Boten-RNA

Translation: Ergebnis ist Aminosäuresequenz Protein in Primärstruktur

Pflanze(Organismus)

Faltung Sekundär-und Tertiär-Struktur

Page 3: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-3

Ein kleiner Exkurs in die Ein kleiner Exkurs in die Molekularbiologie:Molekularbiologie:Vom Gen zum PhänVom Gen zum Phän

ATGACGTGCCGTACGGTTGCAGTACGTATCA

CGTACATGACATCCGGAATCTTACAAGTACATAAACAGTCTACAAGCTCC

GGATCAA

Pflanze(Organismus)

ADQLTEEQIAEFLFDKD

KEAFSLFDLFDKDKDGDGTILFDKDTTLFDDTVMRSLGLFDKDQNPTLFDKDEAELQDNLFDLFDKDKDEL

KDDLFDKDL

DNA:

Protein:

Page 4: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-4

Ein kleiner Exkurs in die Ein kleiner Exkurs in die Molekularbiologie:Molekularbiologie:

Der Genetische CodeDer Genetische CodeJeweils 3 zusammenhängende Nukleotide codieren eine Aminosäure!

4³ = 64

aber nur 20 Aminosäuren in Organismus!

Page 5: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-5

Ein kleiner Exkurs in die Ein kleiner Exkurs in die Molekularbiologie:Molekularbiologie:

TranslationTranslation

Met Leu

CGG

Ala

Ala - tRNA

AUUGACAUGCUAGCCAUAGCGmRNA

1

Ribosom

3. Anfügender drittenAminosäure

2

3

drittes Codon

wachsende Polypeptidkette

Met

GAU

Leu

Leu - tRNA

AUUGACAUGCUAGCCAUAGCG

mRNA

1

Bewegungsrichtungdes Ribosoms

Ribosom

2. Anfügender zweitenAminosäure

2

UAC

Met

Met - tRNA

AUUGACAUGCUAGCCAUAGCG

mRNA

1

StartcodonzweitesCodon

Anticodon

Ribosom

1. Anfang einerPolypeptidkette

Page 6: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-6

Ein kleiner Exkurs in die Ein kleiner Exkurs in die Molekularbiologie:Molekularbiologie:

Von der DNA bis zum Stoffwechselweg

Substanz A Substanz B Produkt

DNA

mRNA

Enzyme

Translation

Transkription

Katalyse

Stoff-wechsel-

weg

Gen 1 Gen 2

...

Page 7: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-7

Page 8: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-8

GGTCCTCCTCTCGGCCTGCTTTATCCTGCCTCCCCCTTCTCCTCTCCACCTGCTAGATCTAGAGTAGCTCCTAAGCCCACGAAAACCCCGCCGCGAGATCTGCGCATCTCGCAACACCACCACCATGGCGGCGCCGCGCGTCCTCCTCCTCCTCGCCGCCGCGGCCCTCCTCTCCGTCTCCTCCCTCGGAGACGCTTCGGGCGATGGCCCCCGCGGGCGCAAGCTGCTGGTGCTCGTCGACGATCTGGCCGTCCGCTCCTCCCACTCGGCCTTCTTCGGCTCGCTCCAGGCCCGCGGGCTAGATCTGGAGTTCCGCCTCGCGGACGACCCCAAGCTCTCGCTCCACCGCTACGGTCAGTACCTCTACGACGGCCTCGTCCTCTTCGCCCCGTCGACCCCGCGCTTTGGCGGATCGGTGGACCAGAACGCTGTTCTGGAGTTCATCGATGCTGGGCACGACATGATTCTGGCAGCAGATCATTCGGCTTCTGATCTGATCCGCGGCATCGCAACCGAGTGTGGGGTTGATTTTGATGAGGACCCGGAAGCGATGGGTTATTGACCACATTAATTATGCCTCCAACTGGAGTCTGAAGGGGGGATCACAACCTTTTACTGCGGAAAGNACAAGGATGAGCTCATCAAGAACGCTGCCTACATTGNCACCCCTGGAAAGGGTATTCTTGCTGCTGACGAGTCCGCTACTGTCACTGACAGCCTCAGGTCACTCGAAGCAAGGTTAGCTAGCTAGCACGCAGTGAGCGATGGCGGNCGCGGCGACCATGGCGCTCTCCTCCCCGGCGATGGCCGGCACCCCGGTGAAGGCCTCCAGGGCGGCGCCCTTCGGCGAGGGCCGCATCACCATGCGCAAGACGGCGGGCAAGCCCAAGGTGGCGGCGTCCAGCANCCCGTGGTACGGCTCCGACCGCGTGCTCTACCTCGGCCCGCTCTNCGGCGACCCCCCGAGCTACCTCACCGGCGAGTTCCCCGGCGACTACGGCTGGGACACCGCGGGGCTGTCCGCCGACCCCGAGACCTTCNCCAAGAACCGTGAGCTGGAGGTCATCCACTGCCGCTGGGCCATGCTCGGCGCGCTCGGCTGCGTCTTCCCCGAGCTGCTCGCCCGCAACGGCGTCAAGTTCGGCGAGGCCGTGTGGTTCAAGGCCGGCTCCCAGATCTTCAGCGAGGGCGGCCTCGACTACCTCGGCAACCCCAGCCTCGTCCACGCCCAGAGCATCCTCGCCATCTGGGCCTGCCAGGTGGTGCTCATGGGCGCCGTCCGAGGGCTACCGCGTCGCCGGCGGCCCGCTCGGCGAAGATCGTCGACCCGGCTCTACCCCGGCGGCAAGCTTCGACCCCCTGGGCCTCGCCCGAGGGACCCCGAGGCCTTCGGGGGTGACCATCCTGGCGCCCGTCAAGTCGCCCAACACGGACGGCATCAGTCGTCTCCGGCGACGACTGCGTGGCCATCAAGAGCGGCTGGGACGAGTACGGNATCNCCGTCGGCATGCCCAGCGAGCACATCTCGGTGCGCCGCCTCACCTGCGTGTCCCCGACCAGCGCGGTGATCGCGCTCGGCAGCAGAGATGTCGGGCGGCATACGGGACGTGCGCGCCGAGGACATCACCGGGCTGACTGGACGCCCCTTCAGGGTGTTCAGCCTCGACACGGGGCGGCTGAACCCAGAGACATACCAACTCTTCGACAAGGTGGAGAAGCACTACGGTATCCACATCGAGTACATGTTCCCGGACCAAGGGCCTCTTCTCTTTCTACGAGGACGGACACCAGGAGTGCTGCAGGGTGAGGAAGGTTCGGCCATTGAGGAGGGCCCTCAAGGGCCTCAAGGCCTGGATCACCGGGCAGCGGAAGGACCAGTCCCCTGGCACCAGGGCGAGCATCCCTGTTGTTCAGGTTGATCCGTCATTTGAAGGGCTGGATGGTGGAGCTGGTAGCTTGATCAAGTGGAACCCTGTGGCTAATGTGGATGGCAAGGATATCTGGACCTTCCTCAGGACCATGGATGTCCCTGTGAACACCCTGCATGCTCAAGGCTACGTCTCCATTGGGTGCGAGCCGTGCACCAGGCCCGTGTTGCCGGGGCAGCACGAGAGGGAAGGGAGGTGGTGGTGGGAGGACGCCACGGCCAAGGAGTGCGGTCTCCACAAGGGTAACATCGACAAGGAAGGTCAAGACACCCAAGGTCNGGCGTCAACGNCAACGGCTCGGCTGAGGCCAGTGCCCCAGACATCTTCCAGAGCCAGGCAATCGTCAATCTCACCCGTCCCGGGATCGAGAACGGTGATTTGAGAATTCCAGCATCTTTCTGTGGTGTACTTGGTTTCCGGTCTTCTCATGGGGTTGTGTCTACTCTTGGGACCTTACCGAACTCACATAGCCTAGATACCATTGGATGGCTTGCACGAGATCCTCATATACTTAGTCGTGTTGGAGATGCTCTGTTACCCGTTGCTGCATGTGGACTTAAGGGGAAACTGAGGCCAGTGCCACGTTATGGCAGTA

~2000 Nukleotide

Page 9: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-9

GenomgrößenGenomgrößen

Virus-Genom 5 * 2.000 = 10.000

Bakterien-Genom 150 * 2.000 = 3.000.000

Kleinstes Pflanzengenom(Arabidopsis Thaliana)

60.000 * 2.000 = 120.000.000

menschliches Genom 1.500.000 * 2.000 = 3.000.000.000

Gersten-Genom 2.500.000 * 2.000 = 5.000.000.000

größtes Pflanzengenom60.000.000 * 2.000

=120.000.000.00

0

Page 10: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-10

Grundlagen aus dem Grundlagen aus dem

Bereich InformatikBereich Informatik

Page 11: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-11

Computer und BetriebsystemeComputer und Betriebsysteme

wichtigstes Werkzeug der Bioinformatik: Computer verschiedene „Kategorien“:

- Personalcomputer- Großrechner- …

Betriebssysteme:- Windows- MacOS- Unix (Solaris, Linux)

Frage: Was ist relevant für Bioinformatik? Plattformübergreifende Lösungen bzw. Programmiersprachen:

- Java- Perl- Python- …

Page 12: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-12

Internet und WWWInternet und WWW

Internet basiert auf militärischer Entwicklung in USA ARPANET: Ausfall eines Teils des Netzwerkes führt nicht zum

Totalausfall -> Vorgänger des Internets Kommunikationsprotokolle TCP/IP Namenspaten für Internet Internet = über TCP/IP verbundene Netzwerke Entwicklung des WWW 1990/91 durch Tim Berners-Lee (CERN) WWW ist nur ein Angebot (Service) im Internet!!! Moderne Browser (IE, Netscape, Firefox) sind Programme zur

Nutzung des Service WWW Primärziel bei Konzeption und Entwicklung: wissenschaftlicher

Datenaustausch wichtige Rolle auch in der Bioinformatik! Parallelität zwischen modernen Methoden im Labor (z.B. DNA-

Sequenzierung) und Verbreitung der Angebote im WWW zur Bereitstellung von Informationen!!!

Page 13: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-13

Internet - StrukturInternet - Struktur

Verbindung vieler Netze

gemeinsames Protokoll

keine gemeinsame Steuerung

jeder trägt bei stabil durch

Redundanz unpolitisch

Page 14: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-14

Vergleich: Was ist ein LAN?Vergleich: Was ist ein LAN?

Page 15: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-15

Physikalische Anbindung an das Physikalische Anbindung an das Internet Internet

privater Bereich:- analoges Modem - ISDN =Integrated Services Digital Network- (asynchrones) DSL = Digital Subscriber Line

- „Steckdose“ oder Kabelanschluss- Satellit- WLAN- …

Unternehmen bzw. Forschungseinrichtungen:- Standleitungen zu DFN oder anderen Anbietern

An

stie

g d

er

Üb

ert

rag

un

gs-

kap

azi

tät

Page 16: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-16

Logische Anbindung an das Internet Logische Anbindung an das Internet

Serviceanbieter: - Vermittlung zwischen Kunden und Internet- Standleitung ans Internet

2 Gruppen mit fließendem Übergang - Internet Service Provider- Content Provider

Beipiele:- AOL- T-Online- Freenet- Arcor- 1&1- Alice- …

Page 17: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-17

Internet ServicesInternet Services

Email:! ?

News- schwarzes Brett

FTP- textbasiert, runterladen der Dateien

SSH und SCP- Verschlüsselung

World Wide Web - kein runterladen notwendig- Navigation durch Hyperlinks- URL = Uniform Ressource Locator

Beispiel: http://pgrc.ipk-gatersleben.de/fhanhalt/index.php

Page 18: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-18

Die Benutzung von Unix Die Benutzung von Unix

Aussage: Linux-Kenntnisse sind elementar, um moderne Bioinformatik Werkzeuge (wie z. B. BLAST) im Hochdurchsatz effizient anwenden zu können!!!

Empfehlung:Teilnahme an einem Linux-Kurs oder Installation einer entsprechenden Distribution auf eigenem PC!

-> Erhöhung der Chancen im Beruf!!!!

Page 19: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-19

Daten und InformationenDaten und Informationen

Daten:Daten sind Gebilde aus Zeichen oder kontinuierliche Funktionen, die aufgrund bekannter oder unterstellter Abmachungen Information(en) darstellen, vorrangig zum Zweck der Verarbeitung oder als deren Ergebnis. ... In der Informatik versteht man beispielsweise unter Daten alles, was sich in einer für einen Computer erkennbaren Weise codieren lässt.

[M. G. Zilahi-Szabó, Herausgeber. Kleines Lexikon der Informatik.München, Oldenbourg, 1995.]

Informationen:Informationen sind aus Daten geschlussfolgerte Fakten bzw. deren Interpretationen.

Page 20: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-20

Datenbanken etc.Datenbanken etc.[G. Saake, I. Schmitt und C. Türker.

Objektdatenbanken — Konzepte, Sprachen, Architekturen. International Thomson Publishing, Bonn, 1997.]

Datenbank:Eine Datenbank ist eine strukturierte Sammlung von Daten, welche Fakten über spezielle Anwendungen eines modellierten Ausschnittes der Realwelt repräsentiert, die dauerhaft (persistent) und weitgehend redundanzfrei gespeichert wird.

Datenbank-Management-System:Die Software, die eine Sammlung von Programmen bereitstellt, welche das anwendungsabhängige Erzeugen, Ändern und Löschen einer Datenbank ermöglicht, wird als Datenbank-Management-System (DBMS) bezeichnet.

Datenbanksystem: Unter einem Datenbanksystem (DBS) wird stets die Kombination eines Datenbank-Management-Systems mit einer oder mehreren, unterscheidbaren Datenbanken verstanden.

Page 21: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-21

DatenbankenDatenbanken

Datenbank

DBMS

Anwendung 1 Anwendung n...

Aufgaben:1. Integration2. Operationen3. Katalog4. Nutzersichten5. Konsistenzüberwachung6. Datenschutz7. Transaktionen8. Synchronisation9. Backup und Recovery

[E. F. Codd. Relational Database: A Practical Foundation for Productivity. Communications of the ACM, 25(2):109–117, Februar 1982.]

DBS

...

Page 22: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-22

InformationssystemInformationssystem

persistente Speicherung der Informationen Wiedergewinnung der Informationen basierend auf

verschiedenen Abfragekriterien anwendungsspezifische Auswertung und Aufbereitung der

gespeicherten Informationen integritätserhaltende Änderungsoperationen Integration von zusätzlichen Informationsquellen:

- externe Datenquellen- Informationszugriff über das WWW- kooperierender Zugriff - …

Modellierung von Nutzerschnittstellen und Nutzerführung VerteilungsaspekteBestandteil jedes Informationssystems ist ein DBS!!!

Page 23: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-23

Datenquelle und Flat-FileDatenquelle und Flat-File

Datenquelle:

Eine Datenquelle besteht aus mindestens einem Computer (rechentechnische Einheit), auf dem Daten gespeichert sind und auf die über bestimmte Schnittstellen zugegriffen werden kann.

Flat-File:

Ein Flat-File ist eine Datei, die eine bestimmte, implizite Struktur besitzt. Ist ein Flat-File auf einem Rechner verfügbar, so wird diese Kombination auch als Datenquelle verstanden.

Beispiel: ENTRY EC 2.1.3.3NAME Ornithine carbamoyltransferase

Citrulline phospharylaseOrnithine transcarbamylase

CLASS TransferasesTransferring one-carbon groupsCarboxyl- and carbamoyltransferases

SYSNAME Carbamoyl-phosphate:L-ornithine carbamoyltransferase...

Page 24: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-24

Datenintegration und Datenintegration und InformationsfusionInformationsfusion

Datenintegration:

Die Datenintegration hat das Ziel, die Redundanz zu vermeiden und sie erfordert die einheitliche Verwaltung aller von Anwendungen bzw. von Anwendern benötigten Daten.

Informationsfusion:

Sie charakterisiert einen Prozess, dessen Aufgabe es ist, Daten oder Informationen aus verschiedenen, zum Teil heterogenen Datenquellen zu kombinieren, zu verdichten, zu interpretieren und daraus Informationen einer neuen Qualität abzuleiten.[G. Saake und A. Heuer. Datenbanken — Implementierungstechniken. MITP-Verlag, Bonn, 1999.]

Page 25: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-25

Datenintegration und Datenintegration und Informationsfusion:Informationsfusion:

BeispielBeispielDatenquelle BDatenquelle A

Möglichkeit 1

Möglichkeit 2

Page 26: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-26

Ansätze zur Datenintegration: Ansätze zur Datenintegration: KlassifikationKlassifikation

© K

ai-

Uw

e S

att

ler,

Magdeburg

20

03

Systeme zurDatenintegration

Kopieren der Daten Verteilte Anfragebearbeitung

(Meta-)Suchmaschinen

DataWarehouses

MaterialisierteIntegration

VirtuelleIntegration

Föderierte DBS Mediatoren

UnstrukturierteAnfragen

(Semi-)strukturierte

Daten

StrukturierteAnfragen

Updates,Transaktionen

Lese-Operationen

Page 27: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-27

Ausgewählte MöglichkeitenAusgewählte Möglichkeitenzur Datenintegrationzur Datenintegration

1. Hypertextnavigation[P. D. Karp. A Strategy for Database Interoperation. Journal of ComputationalBiology, 2(4):573–586, 1995.]

2. Föderiertes Datenbanksystem[A. P. Sheth und J. A. Larson. Federated Database Systems for ManagingDistributed, Heterogeneous, and Autonomous Databases. ACM ComputingSurveys, 22(3):183–236, September 1990.]

[S. Conrad. Föderierte Datenbanksysteme: Konzepte der Datenintegration.Springer-Verlag, Berlin/Heidelberg, 1997.]

3. Mediator[G. Wiederhold. Mediators in the Architecture of Future Information Systems.IEEE Computer, 25(3):38–49, März 1992.]

4. Multidatenbanken[P. D. Karp. A Strategy for Database Interoperation. Journal of ComputationalBiology, 2(4):573–586, 1995.]

5. Data Warehouse [W. H. Inmon. Building the Data Warehouse. John Wiley & Sons, Inc., 2. Auflage, 1996.]

Page 28: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-28

HypertextnavigationHypertextnavigation

Daten-quelle 1

WWW-Server

Daten-quelle 2

Daten-quelle n

WWW-Server

WWW-Server

© Jaco

b K

öhle

r, B

iele

feld

20

03

Keine echte Datenintegration!

Page 29: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-29

Föderiertes Datenbanksystem (FDBS)Föderiertes Datenbanksystem (FDBS)

© H

öd

ing

, Tü

rker,

Jan

ssen

, S

att

ler,

Con

rad

, S

aake

, S

chm

itt,

Mag

db

urg

19

95

Page 30: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-30

Föderiertes Datenbanksystem (FDBS)Föderiertes Datenbanksystem (FDBS)

Zusammenfassung von mehreren DBS Bezeichnung als Komponenten-DBS (KDBS) Aufrechterhaltung der Autonomie aller KDBS zuerst KDBS immer echtes Datenbanksystem später auch Anbindung von Dateien als

Datenquellen wesentlicher Bestandteil ist Föderierungsdienst Aufgabe: Zugriffssteuerung für globale

Anwendungen aber: einige Probleme!!!

Page 31: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-31

MediatorMediator

Datenquelle 1 Datenquelle 2 Datenquelle 3

Anwendung I Anwendung II Anwendung III

Mediator A Mediator B Mediator C

Mediator D

© W

iederh

old

1

99

2

Page 32: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-32

Mediator Mediator

Einführung als Alternative zu FDBS Grund: schwieriger Entwurf von großen föderierten

Schemata Einsatz von kleinen Vermittlern Mediator: abgeschlossene Softwaremodule mit

definierten Schnittstellen keine generelle Verwaltungssoftware

(wie Föderierungsdienst) -> viele einzelne Module

Besonderheit: kaskadierende Mediatoren Entwicklung von integrierten Schemata in jedem

Mediator-> mehre kleinere Schemata-> Einbindung neuer Datenquellen einfacher

Page 33: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-33

Multidatenbanken Multidatenbanken

Daten-quelle 1

Daten-quelle 2

Daten-quelle n

Anfrageverarbeitung undErgebniskomposition

Treiber 1 Treiber 2 Treiber n

Anwendungen

Anfrage wird inAnwendungen spezifiziert

Ergebnis wird zu denAnwendungen zurückgeliefert

...

...

Page 34: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-34

Multidatenbanken Multidatenbanken

in DB-Literatur taxonomisch über FDBS, aber in Bioinformatik gleichberechtigter Ansatz!

Einsatz einer geeigneter Anfragesprache:Multidatenbankanfragesprache

dadurch Definition des verteilten Zugriffs auf Datenquellen

Formulierung komplexer Anfragen zur Spezifikation der Informationen und der Datenquelle

Realisierung des Zugriffs durch datenquellen-spezifische Treiber

Fortsetzung ...

Page 35: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-35

Data Warehouse Data Warehouse

Daten-quelle 1

Daten-quelle 2

Daten-quelle n

Data Warehouse

Treiber 1 Treiber 2 Treiber n

Anwendungen

Data WarehouseDatenbank

...

...

Page 36: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-36

Data WarehouseData Warehouse

Transformation des Inhalts heterogener Datenquellen:- Überführung der Datenquellenschemata in

gemeinsames Datenmodell- Modellierung eines integrierten Schema

(Probleme ähnlich wie bei FDBS)- Einbindung neuer Datenquellen immer neue

Modellierung notwendig Import dieses Resultats in die Data Warehouse

Datenbank Realisierung des physischen Zugriffs über Treiber

(spezifische Softwaremodule) durch Import Verlust der Autonomie des Datenquellen

(KDBS) eine monolithische Datenbank

Fortsetzung ...

Page 37: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-37

Data WarehouseData Warehouse

Arbeit auf Kopie der Originaldaten Vorteil in Bezug auf Verfügbarkeit Nachteil bei Änderung der Originaldaten

-> neuer Import laut Definition:

- Nicht-FlüchtigkeitAbschwächung -> Ändern oder Löschen zulassen

- historische DatensammlungAbschwächung -> keine Zeitreihenanalysen

ein Zweck zum Aufbau eines Data Warehouses:Informationsfusion

Fortsetzung ...

Page 38: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-38

Data Warehouse: CharakteristikaData Warehouse: Charakteristika

Fachorientierung (subject oriented):Zweck des Systems ist nicht die Erfüllung eienr Aufgabe z.B. Personaldatenverwaltung), sondern Modellierung eines spezifischen Anwendungsziels

Integrierte Datenbasis (integrated):Verarbeitung von Daten aus mehren verschiedenen Datenquellen (intern oder extern)

Nichtflüchtige Datenbasis (non-volatile): Abschwächung!

stabil, persistent!Daten im DW werden nicht mehr entfernt oder geändert!

Historische Daten (time variant): Abschwächung!

Vergleich der Daten über Zeit möglich (Zeitreihenanalysen)Speicherung über längeren Zeitraum

© E

ike S

challe

hn,

Magdeburg

20

03

Page 39: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-39

Data Warehouse: Beispiel-Szenario (I)Data Warehouse: Beispiel-Szenario (I)

© E

ike S

challe

hn,

Magdeburg

20

03

Page 40: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-40

Data Warehouse: Beispiel-Szenario (II)Data Warehouse: Beispiel-Szenario (II)

© E

ike S

challe

hn,

Magdeburg

20

03

Anfragen:- Wie viele Flaschen Bier wurden letzten Monat verkauft?- Wie hat sich der Verkauf von Rotwein im letzten Jahr

entwickelt?- Wer sind unsere Top-Kunden?- Von welchen Lieferanten beziehen wir die meisten

Kisten? Probleme:

- Nutzung externer Quellen (Kundendatenbank, Lieferantendatenbank, ...)

- Daten mit historischen Bezug

Page 41: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-41

Data Warehouse: ErgebnisData Warehouse: Ergebnis(-Würfel)(-Würfel)

© E

ike S

challe

hn,

Magdeburg

20

03

Welche Umsätze sind in den Jahren 1998 und 1999 in den Abteilungen Kosmetik, Elektro und Haushaltwaren in den Bundesländern Sachsen-Anhalt und Thüringen angefallen?

Page 42: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-42

Data Warehouse: ErgebnisData Warehouse: Ergebnis(-Bericht)(-Bericht)

© E

ike S

challe

hn,

Magdeburg

20

03

Page 43: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-43

Plant Data Warehouse am IPK (I)Plant Data Warehouse am IPK (I)

IPKGenbank-Accessions kartierte

Marker

Page 44: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-44

Plant Data Warehouse am IPK (II)Plant Data Warehouse am IPK (II)

Anfragen:- Wie viele Genbank-Samenproben wurden im letzten Monat

verschickt?- Welche Genbank-Accessions wurden im letzten Jahr

erfolgreich innerhalb von IPK-Projekten eingesetzt?- Wer sind unsere „Top-Kunden“ unter den

Züchtungsunternehmen?- Mit welchen Substanzen (z.B. Enzymen) von welchen

Lieferanten wurden die meisten Marker experimentell nachgewiesen und erfolgreich kartiert?

Probleme:- Nutzung verschiedener Quellen (GBIS, CR-EST, MOMA,

FLAREX, ...)- Daten mit historischen Bezug

Page 45: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-45

Bioinformatik in der modernen Bioinformatik in der modernen BiotechnologieBiotechnologie

External Analysis Tools

External Databases

Internet

Research Groupwith SpecialQueries

ResearchGroupAnalysisTools

rlkfelfdglgalsöglölgfllhfdlöshlkhshsäkhssäääfdfdfölklfd

Research Group InternalData Sources

>HY01A03TATGCTCATGCCATGGCGTACAATGCAGTTGCAAGTCGTACGTACTGCACG

Page 46: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-46

Relationenmodell & Relationenmodell & Entity-Relationship-Entity-Relationship-

ModellierungModellierung

QUELLE:

Thoralf Töpel: Web-basierte Informationssysteme in der molekularen Bioinformatik, Vorlesung, SoSe 05

Page 47: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-47

Page 48: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-48

Page 49: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-49

Page 50: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-50

Page 51: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-51

Page 52: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-52

Page 53: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-53

Page 54: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-54

Page 55: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-55

Page 56: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-56

Page 57: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-57

Page 58: Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1 Interessierende Objekte in der Bioinformatik: Molekularbiologische

Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-58