45
1. Vorlesung WS 2005/06 Software-Werkzeuge der Bioinformatik 1 Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge für I Sequenzanalyse II Analyse von Proteinstruktur und Ligandenbindung III Zell- bzw. Netzwerksimulationen www.cellzome.com www.accelrys.com

Softwarewerkzeuge der Bioinformatik

  • Upload
    aradia

  • View
    65

  • Download
    0

Embed Size (px)

DESCRIPTION

Softwarewerkzeuge der Bioinformatik. Inhalt dieser Veranstaltung : Softwarewerkzeuge für ISequenzanalyse IIAnalyse von Proteinstruktur und Ligandenbindung IIIZell- bzw. Netzwerksimulationen. www.cellzome.com. www.accelrys.com. „Lernziele“. - PowerPoint PPT Presentation

Citation preview

Page 1: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

1

Softwarewerkzeuge der Bioinformatik

Inhalt dieser Veranstaltung: Softwarewerkzeuge für

I Sequenzanalyse

II Analyse von Proteinstruktur und Ligandenbindung

III Zell- bzw. Netzwerksimulationen

www.cellzome.com

www.accelrys.com

Page 2: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

2

„Lernziele“

Lerne aktuelle und bewährte Programme und Datenbanken der Bioinformatik

kennen und erfolgreich einzusetzen um

- Tools kennenzulernen, mit denen man bioinformatische Fragen

bearbeiten kann

- zu wissen, was auf dem Markt ist („das Rad nicht zweimal erfinden“)

- ein Gefühl dafür zu bekommen, wie erfolgreiche Softwareprodukte

aussehen (sollen)

- 3 Mini-Forschungsprojekte zu bearbeiten

Wir werden in der Vorlesung anhand von „Case-studies“ typische Fragestellungen

in Pharma- oder Biotech-Unternehmen behandeln.

Q: Wie stellen Sie sich den Arbeitsalltag als

Bioinformatiker in einer Pharma-Firma vor?

Page 3: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

3

Organisatorisches

Jede Woche zweistündige Vorlesung Freitag 9-11, Hörsaal 1, Geb. 45

Dozent: Prof. Helms

Übungen „hands-on“ im CIP-Pool Bioinformatik Raum R 104 im Geb. 45

Freitag 11-13 Uhr.

Betreuer der Übungen

Sequenz-Analyse Sam Ansari

Proteinstruktur Dr. Michael Hutter

Zellsimulationen Dr. Tihamer Geyer

Page 4: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

4

Historische Entwicklung der Bioinformatik

1960‘er Jahre: Entwicklung phylogenetischer Methoden

1960‘er Jahre: Methoden zum Vergleich von DNA- und Proteinsequenzen

1976: erste MD-Simulation eines Proteins

1981: Smith-Waterman Algorithmus

1992: Sekundärstrukturvorhersage mit Neuronalen Netzwerken, PHD

1996: Vergleich von Proteinstrukturen mit DALI

2000: Durchbruch bei Sequenz-Assemblierung aus Shotgun-Daten (E. Myers)

Page 5: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

5

Welche Bioinformatik-Software gibt es?

Page 6: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

6

Page 7: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

7

Page 8: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

8

Page 9: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

9

Page 10: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

10

Page 11: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

11

Page 12: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

12

http://www.lionbioscience.com/solutions

Kommerzielle Software-Pakete sind bereits sehr mächtig

Kommerzielle Software ist sehr mächtig, da

integriert, aber sehr teuer.

Es ist fraglich, ob man in einer universitären

Umgebung (mit kostenloser Software)

bei Anwendungen im Bereich Drug

Development mit Firmen konkurrieren

kann, die solch mächtige Tools einsetzen.

Page 13: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

13

http://www.curagen.com/pipeline/approach.asp

Einsatz von Bioinformatik in der Produkt-Pipeline

Page 14: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

14

Organisatorisches

Jeder Teilnehmer an den Übungen benötigt einen Rechneraccount für den CIP-

Pool. Diese Accounts werden von der Rechnerbetriebsgruppe des FB Informatik

eingerichtet.

- Haben Sie bereits einen Account auf Uni-Rechnern? Dann muss dieser lediglich

für den CIP-Pool freigeschaltet werden.

Zugang zum CIP-Pool: Für Bioinformatik-Studenten 24/7,

für alle anderen während der Übungsstunden.

Bitte melden Sie sich nach dieser Stunde im Sekretariat

des Zentrums für Bioinformatik bei Frau Alexandra Klasen an.

Der Beginn der Übungen ist diese Woche.

Page 15: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

15

Organisatorisches: Scheinvergabe- Bewertung: Vorlesung zählt 2V + 2P = 9 Leistungspunkte- Curriculum: Pflichtvorlesung für die Vertiefung „Bioinformatics“ (neue PO)- kann für CMB-Bachelor eingebracht werden- Wahlfach Pharmazie/Diplom, M.Sc. Biotechnologie

- Benotung der Scheine:

50% der Benotung ergibt sich aus der mittleren Benotung von drei praktischen Aufgaben, die während des

Semesters von jedem Studenten einzeln zu bearbeiten sind.

Die Aufgaben werden etwa alle 4 Wochen ausgegeben und sind innerhalb von 2 Wochen zu bearbeiten

und durch ein mindestens 5-seitiges Protokoll zu dokumentieren. Jeder Student muss mindestens zwei

der drei praktischen Aufgaben mit einer Note von 4 und besser bestehen.

Am Ende des Semesters wird eine 2-stündige Klausur über die Inhalte der Vorlesung und der Übungen

geschrieben. Die Klausurnote geht ebenfalls mit 50% in die Scheinnote mit ein. Die Klausur muss mit

einer Note von 4 und besser bestanden werden.

Page 16: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

16

Übersicht über Vorlesungsinhalt

I Sequenz

1 Einführung

2 Paarweises Sequenzalignment

3 Multiples Sequenzalignment

4 Phylogenie

5 Techniken der SequenzanalyseGenvorhersage, Transkriptionsfaktorbindungsstellen,

Identifizierung von Repeats, CpG-Inseln, Assemblierung

und Alignment von Genomen

II Proteinstruktur

6 Proteinstruktur

7 Proteinstrukturvorhersage

8 Proteinstruktur II

9 Protein-Liganden-Wechselwirkung

10 Protein-Protein-Docking

III Zellsimulationen/Netzwerke

11 E-Cell

12 Virtual Cell

13 Proteinnetzwerke

14 metabolische Netzwerke

Page 17: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

17

Was fange ich mit diesen Daten an?Sequenz des menschlichen Genoms wurde 2001 entschlüsselt.

Page 18: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

18

1 2 Analyse einer unbekannten Sequenz

Suche in Sequenzdatenbankennach identischer Sequenz bzw. ähnlichen Sequenzen

Gibt es ähnliche Sequenz mit bekannter 3D-Struktur?

Vorhersage der Sekundärstruktur

Kann man Funktionzuordnen?

Modellierung der Proteinstruktur durch Homologiemodellierung

Ab inito Vorhersage der Tertiärstruktur

Zuordnung eines Protein-Folds

Multiples Sequenzalignment

Input: neue Proteinsequenz

Alignment der Sekundärstrukturen.

Erkenne Domänen

Analyse dieses Folds, Nachbarn?

ExperimentelleDaten vorhanden?

3D-Proteinstruktur

Alignment der Sequenzmit einer Target-Struktur

Fold erkannt?

Nein

Ja

Nein

Ja

Nach Rob Russell,http://speedy.embl-heidelberg.de/gtsp/flowchart2.html

Page 19: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

19

Sequenzanalyse

Page 20: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

20

Ziele

(0) Identifiziere alle menschlichen Proteine (ORFs) und ihre Funktion

Sind dies alle Proteine?

Nein: post-translationelle Modifikationen möglich wie Methylierung,

Phosphorylierung, Glykosilierung …

(1) Identifiziere Gen-Netzwerke. Welche Proteine wechselwirken miteinander?

(2) Identifiziere Module: abgeschlossene Einheiten

(3) Identifiziere Sequenz-Abschnitte, in denen Mutationen für Krankheiten codieren

Page 21: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

21

Sequenzen sind verwandt• Evolution findet auf vielen verschiedenen Ebenen statt :

Mutationen einzelner Aminosäuren, Domänen-Shuffling, Genduplikation,

Genom-Rearrangement

• verwandte Moleküle besitzen in verschiedenen Organismen ähnliche Funktionen

(“Homologe”)

Phylogenetischer Baum für

ribosomale RNA:

Drei Bereiche des Lebens

Page 22: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

J.LeunissenSoftware-Werkzeuge der Bioinformatik

J.Leunissen22

SequenzalignmentDer Zweck eines Sequenzalignments ist, all die Residuen einer beliebigen

Anzahl von Sequenzen untereinander anzuordnen, die von der gleichen

Residuenposition in einem Gen- oder Protein-Vorfahren abstammen.

gap = Insertion oder Deletion

Wie soll dies ein Computerprogramm entscheiden?

Page 23: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

23

Für Sequenzvergleiche werden

Bewertungsmatrizen für den

Austausch von Aminosäuren

verwendet.

Sequenzvergleiche: PAM250 Matrix

Q: Warum sind manche Werte positiv, manche negativ?

Q: Macht es Sinn, separate Austauschmatrizen für Membranproteine zu

konstruieren?

Page 24: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

24

Was hat nun Sequenz-Konservierung mit Proteinstrukturen zu tun?

sehr viel!

Die Twilight zone kennzeichnet das Mass an Sequenzidentität, bis zu der zwei

Proteinstrukturen mit hoher Wkt. die gleiche Struktur besitzen.

Richtlinien von Doolittle:

• Sequenzen mit > 150 Residuen und 25% Sequenzidentität sind wahrscheinlich verwandt

• mit 15-20% Sequenzidentität können sie verwandt sein

• bei <15% Sequenzidentität ist es schwierig zu sagen ob sie verwandt sind oder nicht ohne weitere strukturelle oder funktionelle Hinweise

Proteinstruktur Sequenz

TWILIGHT ZONE

Page 25: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

25

Die Anordnung (packing) von Sekundärstrukturelemente zu stabilen Einheiten

wie -barrels, Einheiten, Greek keys, usw.

Definition: Super-Sekundärstruktur

Page 26: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

26

• Die gesamte Faltung einer Kette, die sich aus der Packung der

Sekundärstrukturelemente ergibt.

Definition: Tertiärstruktur

Grün Fluoreszierendes

Protein. Seine

zylindrische Architektur

wird durch 11 -Stränge

gebildet. (1emb.pdb Brejc

et al. 1997)

Page 27: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

27

cAMP-abhängige Proteinkinase Ca2+ Pumpe

(katalytische Untereinheit) (TM Protein)

Einleitung: Proteinstruktur

Page 28: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

28

Die Anordnung mehrerer Ketten eines Proteins, das mehrere Untereinheiten

besitzt. Beispiel Hämoglobin

Definition: Quartäre Struktur

Page 29: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

29

- Konservierung von Residuen sind Indizien für den Verwandtschaftsgrad von

Proteinen, für die Evolution und für die Verwandtschaft von Organismen

Q: aus welchen Gründen können bestimmte Bereiche der Proteinsequenz

konserviert sein?

- Konservierung von Residuen im aktiven Zentrum

- Konservierung von Residuen, die die Architektur der Proteinstruktur stabilisieren

- Konservierung von Residuen, die während Faltung des Proteins wichtig sind

- Konservierung von Residuen an Bindungsschnittstellen für Liganden und

andere Proteine

Proteinstruktur Sequenz

Page 30: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

30

• >900,000 Sequenzen in öffentlichen Datenbanken zugänglich

– Millionen mehr in proprietären dbs

– Anstieg wird mit Sequenzierung von weiteren Genomen weitergehen

– Was kann man diesen Informationen anfangen?

• In den Sequenzen steckt eine grosse Menge an strukturellen,

funktionellen und evolutionären Informationen

– Sie sind eine sehr wichtige Datenquelle

• Im Gegensatz dazu gibt es nur etwa 2000 unabhängige Proteinstrukturen

Bedeutung von Sequenzanalyse

Page 31: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

31

Anzahl an nicht-redundanten Sequenzen 1988-2002 ( ) Entsprechende Zunahme der Zahl an Proteinstrukturen ( ).

800

700

600

500

400

300

200

100

1988 2002

Sequenz-Struktur Missverhältnis

Page 32: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

32

Der “holy grail” der strukturellen Bioinformatik

Q: Wo stehen wir im Bereich der Strukturvorhersage?- Homologiemodellierung- Threading- Ab initio Strukturvorhersage

Page 33: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

33

Eigenschaften der Aminosäuren

Aminosäuren unterscheiden sich in ihren physikochemischen Eigenschaften.

Q: müssen Bioinformatiker die Eigenschaften von Aminosäuren kennen?

Page 34: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

34

Transmembrandomänen: Hydrophobizitätsskalen

http://blanco.biomol.uci.edu/mpex/Stephen White group, UC Irvine

TM Helices sind 20 Residuen lange

Abschnitte aus vorwiegend hydrophoben

Resiuden.

Page 35: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

35

Faltung von TM Proteinen wird durch Translokon unterstützt

White, FEBS Lett. 555, 116 (2003)

Modell:

Die neu synthesierte Polypeptidkette

eines Membranproteins gelangt vom

Ribosom durch den Translokon-

komplex in die Membran

(EM Abbildung).

Erster Eindruck:

Die Faltung eines Membranproteins ist ein

hochkomplizierter Prozess.

Page 36: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

36

Detektion der Membraninsertion via Glykosylierung

Hessa et al., Nature 433, 377 (2005)

Integration of H-segments into the microsomal membrane

a, Wild-type Lep has two N-terminal TM segments (TM1 and TM2) and a large luminal domain

(P2). H-segments were inserted between residues 226 and 253 in the P2-domain.

Glycosylation acceptor sites (G1 and G2) were placed in positions 96–98 and 258–260,

flanking the H-segment. For H-segments that integrate into the membrane, only the G1 site is

glycosylated (left), whereas both the G1 and G2 sites are glycosylated for H-segments that do

not integrate in the membrane (right).

b, Membrane integration of H-segments with the Leu/Ala composition 2L/17A, 3L/16A and

4L/15A. Bands of unglycosylated protein are indicated by a white dot; singly and doubly

glycosylated proteins are indicated by one and two black dots, respectively.

Page 37: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

37

Translocon-assisted folding of TM proteins?

Hessa et al., Nature 433, 377 (2005)

c, Gapp values for H-segments with 2–4 Leu residues.

Fragmente mit mehr als 4 Leucinen werden in Membran eingefügt.

d, Mean probability of insertion (p) for H-segments with n = 0–7 Leu residues.

For n = 0, 1, 5–7, only single H-segments with the following compositions were used

(flanked by GGPG…GPGG in all cases): (A)19, (A)9L(A)9, (A)4LALAALAALAL(A)4,

(A)4(LA)5L(A)4, ALAALALAALAALALAALA.

Page 38: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

38

Vergleich von biologischen und Peptid G-Skalen

Hessa et al., Nature 433, 377 (2005)

a, Gapp aa scale derived from H-segments with the indicated amino acid placed in

the middle of the 19-residue hydrophobic stretch.

c, Correlation between the Gapp aa scale and the Wimley–White water/octanol

free energy scale.

Fazit: Insertion in Membran hängt nur von Hydrophobizität derAminosäuresequenz ab!

Bioinformatiker sollten die Eigenschaften der Aminosäuren kennen

Page 39: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

39

Helikale Räder

http://cti.itc.Virginia.EDU/~cmg/Demo/wheel/wheelApp.html.

Helikale Räder dienen

zur Darstellung von

Helices.

Man kann so leicht

erkennen, welche Seite

der Helix dem Solvens

zugewandt ist und

welche ins Proteininnere

zeigt.

Page 40: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

40

Analyse einer unbekannten Sequenz

Suche in Sequenzdatenbankennach identischer Sequenz bzw. ähnlichen Sequenzen

Gibt es ähnliche Sequenz mit bekannter 3D-Struktur?

Vorhersage der Sekundärstruktur

Kann man Funktiontransferieren?

Modellierung der Proteinstruktur durch Homologiemodellierung

Vorhersage der Tertiärstruktur

Zuordnung eines Protein-Folds

Multiples Sequenzalignment

Input: neue Proteinsequenz

Alignment der Sekundärstrukturen.

Erkenne Domänen

Analyse dieses Folds, Nachbarn?

ExperimentelleDaten vorhanden?

3D-Proteinstruktur

Alignment der Sequenzmit einer Struktur.

Fold erkannt?

Nein

Ja

Nein

Ja

Nach Rob Russell,http://speedy.embl-heidelberg.de/gtsp/flowchart2.html

Page 41: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

41

Netzwerke

Page 42: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

42

Virtual Cell

http://www.nrcam.uchc.edu/

Page 43: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

43

Virtual Cell

Left: overall mechanism of Ran-mediated nucleocytoplasmic transport. The image Right: membrane transport components within the Virtual Cell software.GTP-bound Ran shuttles between the nuclear and cytoplasmic compartments and is predominately nuclear at steady-state. The RanGTP nuclear membrane gradient is essential and required for RanGTP-dependent assembly and dissociation of transport complexes within the nucleus.

http://www.nrcam.uchc.edu/

Page 44: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

44

metabolische NetzwerkeFormulierung von Biochemie mit Linearer Algebra

Page 45: Softwarewerkzeuge der Bioinformatik

1. Vorlesung WS 2005/06

Software-Werkzeuge der Bioinformatik

45

Software

In den Tutorials vorgestellte Software:

0 Datenbankennavigation SRS

I Sequenzanalyse: BLAST, PSI-BLAST, CLUSTALW

II Proteinstruktur: VMD, Swissmodel

III Zellsimulationen: Virtual Cell, FluxAnalyzer, Cytoscape

Datenbanken:SequenzdatenbankenProteinstrukturbankenMetabolische Datenbanken