Paarweises Sequenz Alignment Seminar Bioinformatik Christian Dewes 16.November 2001

Paarweises Sequenz Alignment

Seminar

Bioinformatik

Christian Dewes16.November 2001

Überblick

• Motivation

• Problemdefinition

• Beschreibung zweier Lösungen

• Vergleich mit anderen Ansätze

• Beschreibung einer Approximationslösung

• Zusammenfassung

Motivation

• Sequenzierung (Assemblieren)

• Herleitung gemeinsamer Abstammungen– DNA – Mutationen während Evolution– durch Vergleich von Sequenzen

• Design von Proteinen/Genen

• Vergleich neu entdeckter Sequenzen mit bekannten Sequenzen

Erweitere zu ‘ = {-}

Paarweises Sequenz-Alignment

Gegeben ein Alphabet (s.B. = {ACGT})Gegeben zwei Sequenzen (z.B. ATGCC und AGGAC)

Paarweise Sequenz-Alignment: zwei Sequenzen über ‘: (1) mit gleicher Länge (2) ohne Lückensymbole erhält man gegebene Sequenzen

ATGCCAGGAC

A T G – C C

A G G A – C

A – T G C C

A G – G A C

Definition: Indel-OperationenA – T G C C

A G – G A C

A T G C C

A G G A C

Leerzeichensymbol in der ersten Zeile: Deletion.

Deletion

Leerzeichensymbol in der zweiten Zeile: Insertion.

Insertion

Substitution

Spalte mit demselben Buchstabe in beiden Reihen: match

Spalte mit unterschiedlichen Buchstaben in beiden Reihen: mismatchDazugehörige Operation: Substitution

Indels:

Score of aligning

• Ähnlichkeits Scores (x,y) (x,y -}– (t+1)x(t+1) Matrix (t = ||)

• Beispiel: = {A,C,G,T}

A C G T -

A 1 -0,7 -0,7 -0,7 -0,4

C -0,7 1 -0,7 -0,7 -0,4

G -0,7 -0,7 1 -0,7 -0,4

T -0,7 -0,7 -0,7 1 -0,4

- -0,4 -0,4 -0,4 -0,4 1

A C G T -

A 0 1 1 1 1

C 1 0 1 1 1

G 1 1 0 1 1

T 1 1 1 0 1

- 1 1 1 1 0

Score of aligning

• Sequence Alignment Problem (SeqAlPro):– Suche alignment zweier Sequenzen mit

maximaler Score

• Was ist Score eines Alignment– Bisher nur die Score (x,y) zweier Symbolen x

und y aus ‘ definiert

• Score eines Alignment rekursiv definieren

Global Alignment

• Initialisierung: s0,0 = 0

• Sei si,j der Score für den Präfix Vi = v1 ... vi von V und den Präfix Wj = w1 ... wj von W

• Dann berechnet sich si,j rekursiv:

si,j = max si-1,j + (vi,-) (insert)

si,j-1 + (-,wj) (delete)

si-1,j-1 + (vi,wj) (substitute, match)

Alignment Score• = {A,C,G,T}

• insert, delete: – (v,-) = (-,v) = -0,4

• substitute:– (v,w) = -0,7 v = w

• match: (v,v) = 1 v

A C G T -

A 1 -0,7 -0,7 -0,7 -0,4

C -0,7 1 -0,7 -0,7 -0,4

G -0,7 -0,7 1 -0,7 -0,4

T -0,7 -0,7 -0,7 1 -0,4

- -0,4 -0,4 -0,4 -0,4 1

• insert, delete: – (v,-) = (-,v) = -0,4

A C G T -

A 1 -0,7 -0,7 -0,7 -0,4

C -0,7 1 -0,7 -0,7 -0,4

G -0,7 -0,7 1 -0,7 -0,4

T -0,7 -0,7 -0,7 1 -0,4

- -0,4 -0,4 -0,4 -0,4 1

si,j = max si-1,j - 0,4 (insert)

si,j-1 - 0,4 (delete)

• insert, delete: – (v,-) = (-,v) = -0,4

A C G T -

A 1 -0,7 -0,7 -0,7 -0,4

C -0,7 1 -0,7 -0,7 -0,4

G -0,7 -0,7 1 -0,7 -0,4

T -0,7 -0,7 -0,7 1 -0,4

- -0,4 -0,4 -0,4 -0,4 1

si-1,j-1 + 1 vi = wj (match)si-1,j-1 - 0,7 vi = wj (substitute)

si,j ist der Wert des opt. Alignment von Vi und Wj

Datenstruktur

• Edit graph: – Knoten: score des alignment von Vi und Wj – Kanten beschreiben Operation

• alignment entspricht Weg im edit graph

• SeqAlPro entspricht longest path Problem

delete

match substitude

insert

v1 v2 v3 v4 v5 ...

s0,0 s1,0 s2,0 s3,0 s4,0 s5,0 ...

Datenstruktur

s0,1 s1,1 s2,1 s3,1 s4,1 s5,1 ...

s0,2 s1,2 s2,2 s3,2 s4,2 s5,2 ...

s0,3 s1,3 s2,3 s3,3 s4,3 s5,3 ...

s0,4 s1,4 s2,4 s3,4 s4,4 s5,4 ...

Alignment Beispiel

• V = CTGCCT • W = TAGAT• Gesucht: optimales

globales Alignment von V und W

A C G T -

A 1 -0,7 -0,7 -0,7 -0,4

C -0,7 1 -0,7 -0,7 -0,4

G -0,7 -0,7 1 -0,7 -0,4

T -0,7 -0,7 -0,7 1 -0,4

- -0,4 -0,4 -0,4 -0,4 1

si-1,j-1 + 1 vi = wj (match)si-1,j-1 - 0,7 vi = wj (substitude)

C T G C C T0

Global Alignment - Beispiel

s0,0 = 0

1. Initialisierung

C T G C C T0