Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-1
Interessierende Objekte Interessierende Objekte
in der Bioinformatik:in der Bioinformatik:
Molekularbiologische Molekularbiologische
GrundlagenGrundlagen
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-2
Ein kleiner Exkurs in die Ein kleiner Exkurs in die Molekularbiologie:Molekularbiologie:Vom Gen zum PhänVom Gen zum Phän
DNA
Transkription: Ergebnis ist Boten-RNA
Translation: Ergebnis ist Aminosäuresequenz Protein in Primärstruktur
Pflanze(Organismus)
Faltung Sekundär-und Tertiär-Struktur
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-3
Ein kleiner Exkurs in die Ein kleiner Exkurs in die Molekularbiologie:Molekularbiologie:Vom Gen zum PhänVom Gen zum Phän
ATGACGTGCCGTACGGTTGCAGTACGTATCA
CGTACATGACATCCGGAATCTTACAAGTACATAAACAGTCTACAAGCTCC
GGATCAA
Pflanze(Organismus)
ADQLTEEQIAEFLFDKD
KEAFSLFDLFDKDKDGDGTILFDKDTTLFDDTVMRSLGLFDKDQNPTLFDKDEAELQDNLFDLFDKDKDEL
KDDLFDKDL
DNA:
Protein:
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-4
Ein kleiner Exkurs in die Ein kleiner Exkurs in die Molekularbiologie:Molekularbiologie:
Der Genetische CodeDer Genetische CodeJeweils 3 zusammenhängende Nukleotide codieren eine Aminosäure!
4³ = 64
aber nur 20 Aminosäuren in Organismus!
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-5
Ein kleiner Exkurs in die Ein kleiner Exkurs in die Molekularbiologie:Molekularbiologie:
TranslationTranslation
Met Leu
CGG
Ala
Ala - tRNA
AUUGACAUGCUAGCCAUAGCGmRNA
1
Ribosom
3. Anfügender drittenAminosäure
2
3
drittes Codon
wachsende Polypeptidkette
Met
GAU
Leu
Leu - tRNA
AUUGACAUGCUAGCCAUAGCG
mRNA
1
Bewegungsrichtungdes Ribosoms
Ribosom
2. Anfügender zweitenAminosäure
2
UAC
Met
Met - tRNA
AUUGACAUGCUAGCCAUAGCG
mRNA
1
StartcodonzweitesCodon
Anticodon
Ribosom
1. Anfang einerPolypeptidkette
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-6
Ein kleiner Exkurs in die Ein kleiner Exkurs in die Molekularbiologie:Molekularbiologie:
Von der DNA bis zum Stoffwechselweg
Substanz A Substanz B Produkt
DNA
mRNA
Enzyme
Translation
Transkription
Katalyse
Stoff-wechsel-
weg
Gen 1 Gen 2
...
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-7
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-8
GGTCCTCCTCTCGGCCTGCTTTATCCTGCCTCCCCCTTCTCCTCTCCACCTGCTAGATCTAGAGTAGCTCCTAAGCCCACGAAAACCCCGCCGCGAGATCTGCGCATCTCGCAACACCACCACCATGGCGGCGCCGCGCGTCCTCCTCCTCCTCGCCGCCGCGGCCCTCCTCTCCGTCTCCTCCCTCGGAGACGCTTCGGGCGATGGCCCCCGCGGGCGCAAGCTGCTGGTGCTCGTCGACGATCTGGCCGTCCGCTCCTCCCACTCGGCCTTCTTCGGCTCGCTCCAGGCCCGCGGGCTAGATCTGGAGTTCCGCCTCGCGGACGACCCCAAGCTCTCGCTCCACCGCTACGGTCAGTACCTCTACGACGGCCTCGTCCTCTTCGCCCCGTCGACCCCGCGCTTTGGCGGATCGGTGGACCAGAACGCTGTTCTGGAGTTCATCGATGCTGGGCACGACATGATTCTGGCAGCAGATCATTCGGCTTCTGATCTGATCCGCGGCATCGCAACCGAGTGTGGGGTTGATTTTGATGAGGACCCGGAAGCGATGGGTTATTGACCACATTAATTATGCCTCCAACTGGAGTCTGAAGGGGGGATCACAACCTTTTACTGCGGAAAGNACAAGGATGAGCTCATCAAGAACGCTGCCTACATTGNCACCCCTGGAAAGGGTATTCTTGCTGCTGACGAGTCCGCTACTGTCACTGACAGCCTCAGGTCACTCGAAGCAAGGTTAGCTAGCTAGCACGCAGTGAGCGATGGCGGNCGCGGCGACCATGGCGCTCTCCTCCCCGGCGATGGCCGGCACCCCGGTGAAGGCCTCCAGGGCGGCGCCCTTCGGCGAGGGCCGCATCACCATGCGCAAGACGGCGGGCAAGCCCAAGGTGGCGGCGTCCAGCANCCCGTGGTACGGCTCCGACCGCGTGCTCTACCTCGGCCCGCTCTNCGGCGACCCCCCGAGCTACCTCACCGGCGAGTTCCCCGGCGACTACGGCTGGGACACCGCGGGGCTGTCCGCCGACCCCGAGACCTTCNCCAAGAACCGTGAGCTGGAGGTCATCCACTGCCGCTGGGCCATGCTCGGCGCGCTCGGCTGCGTCTTCCCCGAGCTGCTCGCCCGCAACGGCGTCAAGTTCGGCGAGGCCGTGTGGTTCAAGGCCGGCTCCCAGATCTTCAGCGAGGGCGGCCTCGACTACCTCGGCAACCCCAGCCTCGTCCACGCCCAGAGCATCCTCGCCATCTGGGCCTGCCAGGTGGTGCTCATGGGCGCCGTCCGAGGGCTACCGCGTCGCCGGCGGCCCGCTCGGCGAAGATCGTCGACCCGGCTCTACCCCGGCGGCAAGCTTCGACCCCCTGGGCCTCGCCCGAGGGACCCCGAGGCCTTCGGGGGTGACCATCCTGGCGCCCGTCAAGTCGCCCAACACGGACGGCATCAGTCGTCTCCGGCGACGACTGCGTGGCCATCAAGAGCGGCTGGGACGAGTACGGNATCNCCGTCGGCATGCCCAGCGAGCACATCTCGGTGCGCCGCCTCACCTGCGTGTCCCCGACCAGCGCGGTGATCGCGCTCGGCAGCAGAGATGTCGGGCGGCATACGGGACGTGCGCGCCGAGGACATCACCGGGCTGACTGGACGCCCCTTCAGGGTGTTCAGCCTCGACACGGGGCGGCTGAACCCAGAGACATACCAACTCTTCGACAAGGTGGAGAAGCACTACGGTATCCACATCGAGTACATGTTCCCGGACCAAGGGCCTCTTCTCTTTCTACGAGGACGGACACCAGGAGTGCTGCAGGGTGAGGAAGGTTCGGCCATTGAGGAGGGCCCTCAAGGGCCTCAAGGCCTGGATCACCGGGCAGCGGAAGGACCAGTCCCCTGGCACCAGGGCGAGCATCCCTGTTGTTCAGGTTGATCCGTCATTTGAAGGGCTGGATGGTGGAGCTGGTAGCTTGATCAAGTGGAACCCTGTGGCTAATGTGGATGGCAAGGATATCTGGACCTTCCTCAGGACCATGGATGTCCCTGTGAACACCCTGCATGCTCAAGGCTACGTCTCCATTGGGTGCGAGCCGTGCACCAGGCCCGTGTTGCCGGGGCAGCACGAGAGGGAAGGGAGGTGGTGGTGGGAGGACGCCACGGCCAAGGAGTGCGGTCTCCACAAGGGTAACATCGACAAGGAAGGTCAAGACACCCAAGGTCNGGCGTCAACGNCAACGGCTCGGCTGAGGCCAGTGCCCCAGACATCTTCCAGAGCCAGGCAATCGTCAATCTCACCCGTCCCGGGATCGAGAACGGTGATTTGAGAATTCCAGCATCTTTCTGTGGTGTACTTGGTTTCCGGTCTTCTCATGGGGTTGTGTCTACTCTTGGGACCTTACCGAACTCACATAGCCTAGATACCATTGGATGGCTTGCACGAGATCCTCATATACTTAGTCGTGTTGGAGATGCTCTGTTACCCGTTGCTGCATGTGGACTTAAGGGGAAACTGAGGCCAGTGCCACGTTATGGCAGTA
~2000 Nukleotide
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-9
GenomgrößenGenomgrößen
Virus-Genom 5 * 2.000 = 10.000
Bakterien-Genom 150 * 2.000 = 3.000.000
Kleinstes Pflanzengenom(Arabidopsis Thaliana)
60.000 * 2.000 = 120.000.000
menschliches Genom 1.500.000 * 2.000 = 3.000.000.000
Gersten-Genom 2.500.000 * 2.000 = 5.000.000.000
größtes Pflanzengenom60.000.000 * 2.000
=120.000.000.00
0
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-10
Grundlagen aus dem Grundlagen aus dem
Bereich InformatikBereich Informatik
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-11
Computer und BetriebsystemeComputer und Betriebsysteme
wichtigstes Werkzeug der Bioinformatik: Computer verschiedene „Kategorien“:
- Personalcomputer- Großrechner- …
Betriebssysteme:- Windows- MacOS- Unix (Solaris, Linux)
Frage: Was ist relevant für Bioinformatik? Plattformübergreifende Lösungen bzw. Programmiersprachen:
- Java- Perl- Python- …
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-12
Internet und WWWInternet und WWW
Internet basiert auf militärischer Entwicklung in USA ARPANET: Ausfall eines Teils des Netzwerkes führt nicht zum
Totalausfall -> Vorgänger des Internets Kommunikationsprotokolle TCP/IP Namenspaten für Internet Internet = über TCP/IP verbundene Netzwerke Entwicklung des WWW 1990/91 durch Tim Berners-Lee (CERN) WWW ist nur ein Angebot (Service) im Internet!!! Moderne Browser (IE, Netscape, Firefox) sind Programme zur
Nutzung des Service WWW Primärziel bei Konzeption und Entwicklung: wissenschaftlicher
Datenaustausch wichtige Rolle auch in der Bioinformatik! Parallelität zwischen modernen Methoden im Labor (z.B. DNA-
Sequenzierung) und Verbreitung der Angebote im WWW zur Bereitstellung von Informationen!!!
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-13
Internet - StrukturInternet - Struktur
Verbindung vieler Netze
gemeinsames Protokoll
keine gemeinsame Steuerung
jeder trägt bei stabil durch
Redundanz unpolitisch
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-14
Vergleich: Was ist ein LAN?Vergleich: Was ist ein LAN?
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-15
Physikalische Anbindung an das Physikalische Anbindung an das Internet Internet
privater Bereich:- analoges Modem - ISDN =Integrated Services Digital Network- (asynchrones) DSL = Digital Subscriber Line
- „Steckdose“ oder Kabelanschluss- Satellit- WLAN- …
Unternehmen bzw. Forschungseinrichtungen:- Standleitungen zu DFN oder anderen Anbietern
An
stie
g d
er
Üb
ert
rag
un
gs-
kap
azi
tät
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-16
Logische Anbindung an das Internet Logische Anbindung an das Internet
Serviceanbieter: - Vermittlung zwischen Kunden und Internet- Standleitung ans Internet
2 Gruppen mit fließendem Übergang - Internet Service Provider- Content Provider
Beipiele:- AOL- T-Online- Freenet- Arcor- 1&1- Alice- …
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-17
Internet ServicesInternet Services
Email:! ?
News- schwarzes Brett
FTP- textbasiert, runterladen der Dateien
SSH und SCP- Verschlüsselung
World Wide Web - kein runterladen notwendig- Navigation durch Hyperlinks- URL = Uniform Ressource Locator
Beispiel: http://pgrc.ipk-gatersleben.de/fhanhalt/index.php
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-18
Die Benutzung von Unix Die Benutzung von Unix
Aussage: Linux-Kenntnisse sind elementar, um moderne Bioinformatik Werkzeuge (wie z. B. BLAST) im Hochdurchsatz effizient anwenden zu können!!!
Empfehlung:Teilnahme an einem Linux-Kurs oder Installation einer entsprechenden Distribution auf eigenem PC!
-> Erhöhung der Chancen im Beruf!!!!
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-19
Daten und InformationenDaten und Informationen
Daten:Daten sind Gebilde aus Zeichen oder kontinuierliche Funktionen, die aufgrund bekannter oder unterstellter Abmachungen Information(en) darstellen, vorrangig zum Zweck der Verarbeitung oder als deren Ergebnis. ... In der Informatik versteht man beispielsweise unter Daten alles, was sich in einer für einen Computer erkennbaren Weise codieren lässt.
[M. G. Zilahi-Szabó, Herausgeber. Kleines Lexikon der Informatik.München, Oldenbourg, 1995.]
Informationen:Informationen sind aus Daten geschlussfolgerte Fakten bzw. deren Interpretationen.
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-20
Datenbanken etc.Datenbanken etc.[G. Saake, I. Schmitt und C. Türker.
Objektdatenbanken — Konzepte, Sprachen, Architekturen. International Thomson Publishing, Bonn, 1997.]
Datenbank:Eine Datenbank ist eine strukturierte Sammlung von Daten, welche Fakten über spezielle Anwendungen eines modellierten Ausschnittes der Realwelt repräsentiert, die dauerhaft (persistent) und weitgehend redundanzfrei gespeichert wird.
Datenbank-Management-System:Die Software, die eine Sammlung von Programmen bereitstellt, welche das anwendungsabhängige Erzeugen, Ändern und Löschen einer Datenbank ermöglicht, wird als Datenbank-Management-System (DBMS) bezeichnet.
Datenbanksystem: Unter einem Datenbanksystem (DBS) wird stets die Kombination eines Datenbank-Management-Systems mit einer oder mehreren, unterscheidbaren Datenbanken verstanden.
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-21
DatenbankenDatenbanken
Datenbank
DBMS
Anwendung 1 Anwendung n...
Aufgaben:1. Integration2. Operationen3. Katalog4. Nutzersichten5. Konsistenzüberwachung6. Datenschutz7. Transaktionen8. Synchronisation9. Backup und Recovery
[E. F. Codd. Relational Database: A Practical Foundation for Productivity. Communications of the ACM, 25(2):109–117, Februar 1982.]
DBS
...
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-22
InformationssystemInformationssystem
persistente Speicherung der Informationen Wiedergewinnung der Informationen basierend auf
verschiedenen Abfragekriterien anwendungsspezifische Auswertung und Aufbereitung der
gespeicherten Informationen integritätserhaltende Änderungsoperationen Integration von zusätzlichen Informationsquellen:
- externe Datenquellen- Informationszugriff über das WWW- kooperierender Zugriff - …
Modellierung von Nutzerschnittstellen und Nutzerführung VerteilungsaspekteBestandteil jedes Informationssystems ist ein DBS!!!
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-23
Datenquelle und Flat-FileDatenquelle und Flat-File
Datenquelle:
Eine Datenquelle besteht aus mindestens einem Computer (rechentechnische Einheit), auf dem Daten gespeichert sind und auf die über bestimmte Schnittstellen zugegriffen werden kann.
Flat-File:
Ein Flat-File ist eine Datei, die eine bestimmte, implizite Struktur besitzt. Ist ein Flat-File auf einem Rechner verfügbar, so wird diese Kombination auch als Datenquelle verstanden.
Beispiel: ENTRY EC 2.1.3.3NAME Ornithine carbamoyltransferase
Citrulline phospharylaseOrnithine transcarbamylase
CLASS TransferasesTransferring one-carbon groupsCarboxyl- and carbamoyltransferases
SYSNAME Carbamoyl-phosphate:L-ornithine carbamoyltransferase...
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-24
Datenintegration und Datenintegration und InformationsfusionInformationsfusion
Datenintegration:
Die Datenintegration hat das Ziel, die Redundanz zu vermeiden und sie erfordert die einheitliche Verwaltung aller von Anwendungen bzw. von Anwendern benötigten Daten.
Informationsfusion:
Sie charakterisiert einen Prozess, dessen Aufgabe es ist, Daten oder Informationen aus verschiedenen, zum Teil heterogenen Datenquellen zu kombinieren, zu verdichten, zu interpretieren und daraus Informationen einer neuen Qualität abzuleiten.[G. Saake und A. Heuer. Datenbanken — Implementierungstechniken. MITP-Verlag, Bonn, 1999.]
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-25
Datenintegration und Datenintegration und Informationsfusion:Informationsfusion:
BeispielBeispielDatenquelle BDatenquelle A
Möglichkeit 1
Möglichkeit 2
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-26
Ansätze zur Datenintegration: Ansätze zur Datenintegration: KlassifikationKlassifikation
© K
ai-
Uw
e S
att
ler,
Magdeburg
20
03
Systeme zurDatenintegration
Kopieren der Daten Verteilte Anfragebearbeitung
(Meta-)Suchmaschinen
DataWarehouses
MaterialisierteIntegration
VirtuelleIntegration
Föderierte DBS Mediatoren
UnstrukturierteAnfragen
(Semi-)strukturierte
Daten
StrukturierteAnfragen
Updates,Transaktionen
Lese-Operationen
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-27
Ausgewählte MöglichkeitenAusgewählte Möglichkeitenzur Datenintegrationzur Datenintegration
1. Hypertextnavigation[P. D. Karp. A Strategy for Database Interoperation. Journal of ComputationalBiology, 2(4):573–586, 1995.]
2. Föderiertes Datenbanksystem[A. P. Sheth und J. A. Larson. Federated Database Systems for ManagingDistributed, Heterogeneous, and Autonomous Databases. ACM ComputingSurveys, 22(3):183–236, September 1990.]
[S. Conrad. Föderierte Datenbanksysteme: Konzepte der Datenintegration.Springer-Verlag, Berlin/Heidelberg, 1997.]
3. Mediator[G. Wiederhold. Mediators in the Architecture of Future Information Systems.IEEE Computer, 25(3):38–49, März 1992.]
4. Multidatenbanken[P. D. Karp. A Strategy for Database Interoperation. Journal of ComputationalBiology, 2(4):573–586, 1995.]
5. Data Warehouse [W. H. Inmon. Building the Data Warehouse. John Wiley & Sons, Inc., 2. Auflage, 1996.]
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-28
HypertextnavigationHypertextnavigation
Daten-quelle 1
WWW-Server
Daten-quelle 2
Daten-quelle n
WWW-Server
WWW-Server
© Jaco
b K
öhle
r, B
iele
feld
20
03
Keine echte Datenintegration!
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-29
Föderiertes Datenbanksystem (FDBS)Föderiertes Datenbanksystem (FDBS)
© H
öd
ing
, Tü
rker,
Jan
ssen
, S
att
ler,
Con
rad
, S
aake
, S
chm
itt,
Mag
db
urg
19
95
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-30
Föderiertes Datenbanksystem (FDBS)Föderiertes Datenbanksystem (FDBS)
Zusammenfassung von mehreren DBS Bezeichnung als Komponenten-DBS (KDBS) Aufrechterhaltung der Autonomie aller KDBS zuerst KDBS immer echtes Datenbanksystem später auch Anbindung von Dateien als
Datenquellen wesentlicher Bestandteil ist Föderierungsdienst Aufgabe: Zugriffssteuerung für globale
Anwendungen aber: einige Probleme!!!
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-31
MediatorMediator
Datenquelle 1 Datenquelle 2 Datenquelle 3
Anwendung I Anwendung II Anwendung III
Mediator A Mediator B Mediator C
Mediator D
© W
iederh
old
1
99
2
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-32
Mediator Mediator
Einführung als Alternative zu FDBS Grund: schwieriger Entwurf von großen föderierten
Schemata Einsatz von kleinen Vermittlern Mediator: abgeschlossene Softwaremodule mit
definierten Schnittstellen keine generelle Verwaltungssoftware
(wie Föderierungsdienst) -> viele einzelne Module
Besonderheit: kaskadierende Mediatoren Entwicklung von integrierten Schemata in jedem
Mediator-> mehre kleinere Schemata-> Einbindung neuer Datenquellen einfacher
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-33
Multidatenbanken Multidatenbanken
Daten-quelle 1
Daten-quelle 2
Daten-quelle n
Anfrageverarbeitung undErgebniskomposition
Treiber 1 Treiber 2 Treiber n
Anwendungen
Anfrage wird inAnwendungen spezifiziert
Ergebnis wird zu denAnwendungen zurückgeliefert
...
...
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-34
Multidatenbanken Multidatenbanken
in DB-Literatur taxonomisch über FDBS, aber in Bioinformatik gleichberechtigter Ansatz!
Einsatz einer geeigneter Anfragesprache:Multidatenbankanfragesprache
dadurch Definition des verteilten Zugriffs auf Datenquellen
Formulierung komplexer Anfragen zur Spezifikation der Informationen und der Datenquelle
Realisierung des Zugriffs durch datenquellen-spezifische Treiber
Fortsetzung ...
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-35
Data Warehouse Data Warehouse
Daten-quelle 1
Daten-quelle 2
Daten-quelle n
Data Warehouse
Treiber 1 Treiber 2 Treiber n
Anwendungen
Data WarehouseDatenbank
...
...
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-36
Data WarehouseData Warehouse
Transformation des Inhalts heterogener Datenquellen:- Überführung der Datenquellenschemata in
gemeinsames Datenmodell- Modellierung eines integrierten Schema
(Probleme ähnlich wie bei FDBS)- Einbindung neuer Datenquellen immer neue
Modellierung notwendig Import dieses Resultats in die Data Warehouse
Datenbank Realisierung des physischen Zugriffs über Treiber
(spezifische Softwaremodule) durch Import Verlust der Autonomie des Datenquellen
(KDBS) eine monolithische Datenbank
Fortsetzung ...
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-37
Data WarehouseData Warehouse
Arbeit auf Kopie der Originaldaten Vorteil in Bezug auf Verfügbarkeit Nachteil bei Änderung der Originaldaten
-> neuer Import laut Definition:
- Nicht-FlüchtigkeitAbschwächung -> Ändern oder Löschen zulassen
- historische DatensammlungAbschwächung -> keine Zeitreihenanalysen
ein Zweck zum Aufbau eines Data Warehouses:Informationsfusion
Fortsetzung ...
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-38
Data Warehouse: CharakteristikaData Warehouse: Charakteristika
Fachorientierung (subject oriented):Zweck des Systems ist nicht die Erfüllung eienr Aufgabe z.B. Personaldatenverwaltung), sondern Modellierung eines spezifischen Anwendungsziels
Integrierte Datenbasis (integrated):Verarbeitung von Daten aus mehren verschiedenen Datenquellen (intern oder extern)
Nichtflüchtige Datenbasis (non-volatile): Abschwächung!
stabil, persistent!Daten im DW werden nicht mehr entfernt oder geändert!
Historische Daten (time variant): Abschwächung!
Vergleich der Daten über Zeit möglich (Zeitreihenanalysen)Speicherung über längeren Zeitraum
© E
ike S
challe
hn,
Magdeburg
20
03
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-39
Data Warehouse: Beispiel-Szenario (I)Data Warehouse: Beispiel-Szenario (I)
© E
ike S
challe
hn,
Magdeburg
20
03
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-40
Data Warehouse: Beispiel-Szenario (II)Data Warehouse: Beispiel-Szenario (II)
© E
ike S
challe
hn,
Magdeburg
20
03
Anfragen:- Wie viele Flaschen Bier wurden letzten Monat verkauft?- Wie hat sich der Verkauf von Rotwein im letzten Jahr
entwickelt?- Wer sind unsere Top-Kunden?- Von welchen Lieferanten beziehen wir die meisten
Kisten? Probleme:
- Nutzung externer Quellen (Kundendatenbank, Lieferantendatenbank, ...)
- Daten mit historischen Bezug
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-41
Data Warehouse: ErgebnisData Warehouse: Ergebnis(-Würfel)(-Würfel)
© E
ike S
challe
hn,
Magdeburg
20
03
Welche Umsätze sind in den Jahren 1998 und 1999 in den Abteilungen Kosmetik, Elektro und Haushaltwaren in den Bundesländern Sachsen-Anhalt und Thüringen angefallen?
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-42
Data Warehouse: ErgebnisData Warehouse: Ergebnis(-Bericht)(-Bericht)
© E
ike S
challe
hn,
Magdeburg
20
03
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-43
Plant Data Warehouse am IPK (I)Plant Data Warehouse am IPK (I)
IPKGenbank-Accessions kartierte
Marker
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-44
Plant Data Warehouse am IPK (II)Plant Data Warehouse am IPK (II)
Anfragen:- Wie viele Genbank-Samenproben wurden im letzten Monat
verschickt?- Welche Genbank-Accessions wurden im letzten Jahr
erfolgreich innerhalb von IPK-Projekten eingesetzt?- Wer sind unsere „Top-Kunden“ unter den
Züchtungsunternehmen?- Mit welchen Substanzen (z.B. Enzymen) von welchen
Lieferanten wurden die meisten Marker experimentell nachgewiesen und erfolgreich kartiert?
Probleme:- Nutzung verschiedener Quellen (GBIS, CR-EST, MOMA,
FLAREX, ...)- Daten mit historischen Bezug
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-45
Bioinformatik in der modernen Bioinformatik in der modernen BiotechnologieBiotechnologie
External Analysis Tools
External Databases
Internet
Research Groupwith SpecialQueries
ResearchGroupAnalysisTools
rlkfelfdglgalsöglölgfllhfdlöshlkhshsäkhssäääfdfdfölklfd
Research Group InternalData Sources
>HY01A03TATGCTCATGCCATGGCGTACAATGCAGTTGCAAGTCGTACGTACTGCACG
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-46
Relationenmodell & Relationenmodell & Entity-Relationship-Entity-Relationship-
ModellierungModellierung
QUELLE:
Thoralf Töpel: Web-basierte Informationssysteme in der molekularen Bioinformatik, Vorlesung, SoSe 05
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-47
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-48
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-49
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-50
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-51
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-52
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-53
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-54
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-55
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-56
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-57
Vorlesung Einführung in die Bioinformatik -Grundlagen U. Scholz & M. Lange Folie #1-58