19
Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for Bioinformatics, Peking University

Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

Markov Model

北京大学生物信息学中心 高歌Ge Gao, Ph.D.

Center for Bioinformatics, Peking University

Page 2: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

Unit 2: Hidden Markov Model

北京大学生物信息学中心 高歌Ge Gao, Ph.D.

Center for Bioinformatics, Peking University

Page 3: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

Hidden Markov ModelThe observable symbols (“tokens”, y(t)) are generated according to their corresponding states (x(t)).

1X1 X2X2 Xn-1Xn-1 XnXn……

Y1 YY2 YYn-1 YYn……

StatePath

TokenPath

Copyright © Peking University

Page 4: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

Hidden Markov Model (HMM)• In addition to State Transition Probability, each state of HMM 

has a probability distribution over the possible output tokens (Emission Probability). 

• Thus, a HMM is consist of two strings of information.– The state path– The token path (emitted sequence). 

1X1 X2X2 Xn-1Xn-1 XnXn……

Y1 YY2 YYn-1 YYn……

StatePath

TokenPath

Copyright © Peking University

Page 5: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

1X1 X2X2 Xn-1Xn-1 XnXn……

Y1 YY2 YYn-1 YYn……

StatePath

TokenPath

• But the state path is not directly visible

• Instead, we have to infer the underling state path, based on the observable token path.

Copyright © Peking University

Page 6: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

(Figure source: http://www.cse.unsw.edu.au/~waleed/phd/html/node34.html)

Transition Probability

Emission Probability

Page 7: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

Given a HMM, a sequence of tokens could be generated as following:

– When we “visit” a state, we emit a token from the state's emission probability distribution. 

– Then, we choose which state to visit next, according to the state's transition probability distribution.

)|( 1 ktltkl SxSxPa Transition Probability

Emission Probability )|()( kiik SxbyPbe

)*)((),(1 1

L

ixxix iii

ayeYXP

Copyright © Peking University

Page 8: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

M

X

Y

1‐

1‐

1‐2

M Match (not necessarily identical)

X Insert at sequence X(delete at sequence Y)

Y Insert at sequence Y(delete at sequence X)

Gap open

Gap Extension

M X

X

M

Y

Y

1‐2

1‐ 0

1‐ 0 0

Transition Probability

Copyright © Peking University

Page 9: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

SS SC ST SP … WWMatch abp

C S … WX insertion

ST

S-

C S … WY insertion

aq

-T aq

Copyright © Peking University

Page 10: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

Sequence alignment with HMM• Each “token” of the HMM is an aligned pair of two residues 

(M state), or of a residue and a gap (X or Y state).– Transition and emission probabilities define the probability of 

each aligned pair of sequences. 

• Based on the HMM, each alignment of two sequences can be assigned with a probability– Given two input sequences, we look for an alignment with the 

maximum probability.

)),2,1((maxarg aliSSPali

Copyright © Peking University

Page 11: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

)1,1()1()1,1()1()1,1()21(

max),(jiPjiPjiP

pjiP

Y

X

M

yxM ji

),1(),1(

max),(jiPjiP

qjiPX

MxX i

)1,()1,(

max),(jiPjiP

qjiPY

MyY j

)),(),,(),,(max(),,( mnPmnPmnPaliYXP YXM

• PM (i,j) is the probability of the best alignment between x1…i and y1…j, given xi aligned to yj

• PX (i,j) is the probability of the best alignment between x1…i and y1…j, given xi aligned to a gap

• PY (i,j) is the probability of the best alignment between x1…i and y1…j, given yj aligned to a gap

Copyright © Peking University

Page 12: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

M X

X

M

Y

Y

1‐2

1‐ 0

1‐ 0 0

Transition Probability

SS SC ST SP … WWMatch

C S … W

X insertion

C S … W

Y insertion

Emission Probability

Copyright © Peking University

Page 13: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

Probabilistic interpretationSS SC ST SP … WW

Match

(Dayhoff 1978)Copyright © Peking University

Page 14: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

Probabilistic inferenceFor example, to calculate the probability that a given pair of sequences are related by any(unspecified) alignment

– Or, what’s the best likelihood we can expect for given two sequences?

Copyright © Peking University

Page 15: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

Given the nature of HMM, many different state paths can give rise to the same token sequence

So we can simply sum up them together to get the full probability of a given token sequence

(Figure source: http://www.cse.unsw.edu.au/~waleed/phd/html/node34.html)

ali

aliYXPYXP ),,(),(

Copyright © Peking University

Page 16: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

)1,1()1()1,1()1()1,1()21(

max),(jiPjiPjiP

pjiP

Y

X

M

yxM ji

),1(),1(

max),(jiPjiP

qjiPX

MxX i

)1,()1,(

max),(jiPjiP

qjiPY

MyY j

)),(),,(),,(max(),,( mnPmnPmnPaliYXP YXM

)]1,1()1()1,1()1(

)1,1()21[(),(

jiPjiP

jiPpjiP

Y

X

MyxM ji

)],1(

),1([),(

jiP

jiPqjiP

X

MxX i

)]1,(

)1,([),(

jiP

jiPqjiP

Y

MyY j

),(),(),(),( mnPmnPmnPYXP YXM Copyright © Peking University

Page 17: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

1X1 X2X2 Xn-1Xn-1 XnXn……

Y1 YY2 YYn-1 YYn……

StatePath

TokenPath

Hidden Markov Model: as a predictor

Copyright © Peking University

Page 18: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

Summary Questions• Could you name a few Markov Chain and Hidden Markov Model?

• Did we construct the global alignment or local alignment in this Unit? Explain.

Copyright © Peking University

Page 19: Markov Modelfac.ksu.edu.sa/sites/default/files/pkubioinfo-lecture_slides-3-1-2.pdf · Unit 2: Hidden Markov Model 北京大学生物信息学中心 高歌 Ge Gao, Ph.D. Center for

生物信息学:导论与方法Bioinformatics: Introduction and Methods

https://www.coursera.org/course/pkubioinfo