Transcript
Page 1: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

4. 분자 상호 작용의 네트워크 분석4.1 네트워크 표현과 계산

2006.05.15.Yong Jung

Page 2: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 2

목차• 4.1 네트워크 표현과 계산

– 추상화 수준– 분자 네트워크– 그래프– 공통 부분그래프 (common subgraph)– 네트워크 비교의 경험적 방법– 경로 계산– 이항 관계 (binary relation) 와 연역법 (deduction)– 구현 (implementation)

Page 3: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 3

추상화 수준 (1/2)

• 서열 수준에서 유전자 정보 발현 흐름 (Central dogma)

DNA RNA 단백질

• 열역학 법칙과 구조 기능 관계는 단일 단백질 분자에 대한 유전자 정보 발현의 부가적인 흐름을 입증

서열 구조 기능

• 분자들의 네트워크 수준의 추상화된 상위 수준에서의 생물학적 기능 분석

상호작용 네트워크 기능

Page 4: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 4

추상화 수준 (2/2)

• 유전체 이후 분석– 전사체 (transcriptome) – mRNA 수준의 유전자 발현 프로필

– 단백체 (proteome) – 단백질 수준의 유전자 발현 프로필

• 전사체와 단백체는 유전자 조절 네트워크와 단백질 상호작용 네트워크에 대한 많은 정보를 가질 가능성이 높음

Page 5: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 5

분자 네트워크 (1/3)

• 생물학적 기능– 분자 수준 – 염기 또는 아미노산 단위의 배열인 서열 정보로 기록 – 네트워크 수준 – 상호작용하는 네트워크 정보로 기록

• 네트워크 – 원소와 이항관계로 구성– 원소 – 분자 또는 유전자– 이항 관계 – 분자들간 또는 유전자들 간의 상호 작용 , 두 원소간의 임의의 관계

• 구성 요소 , 연결 , 상호작용 등이 모두 생물학적 시스템을 만드는데 필요

• 고차원 (3,4 항 ) 의 형태로 관계를 표시하면 현실 세계 데이터가 더 잘 표현되지만 논리적 단순화와 계산상의 효율 때문에 생물학적 시스템의 구성을 원소와 이항관계로 표현

Page 6: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 6

분자유전자

1) 원소 2) 이항 관계

분자 상호 작용유전자 상호 작용다른 형태의 관계

3) 네트워크

경로 집합체 이웃 집단

유전체 계층 트리

< 그림 4-1> 네트워크 표현 . 네트워크 ( 그래프 ) 는 원소 (vertex) 들의 집합과 이항관계 (edge) 들의 집합으로 이루어져 있다 . 생물학적 지식과 전산적인 결과는 여러 다른 형태의 네트워크 데이터로 표현된다 .

Page 7: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 7

분자 네트워크 (2/3)• 생물학적 지식을 표현한 네트워크

– 경로 (Pathway) 는 분자 상호 작용의 네트워크• 세포 작용의 여러 가지 측면이 집적된 지식의 표현• 물질 대사 경로 , 신호 변환 경로 , 세포 순환 경로 , 발육 경로와

그 밖에 다른 많은 조절 경로

– 집합체 (assembly) 는 분자 상호 작용의 또 다른 네트워크• 네트워크 안의 분자들은 분자 기계장치나 부분 세포 유기체

안에서와 같은 안정된 복합체를 이룸

– 경로와 집합체를 구분하기엔 모호함

– 유전체는 유전자 들의 네트워크로서 선형 또는 원형 염색체내의 유전자들의 물리적인 순서를 표현

경로

집합체

유전체

Page 8: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 8

분자 네트워크 (3/3)• 이항 관계들로 유도된 네트워크

– 이웃 (neighbor) 은 주어진 분자나 유전자에 대한 유사성 관계의 표현

• 서열 유사성 검색의 결과는 이웃 네트워크의 전형적인 예

– 클러스터 (cluster) 는 전체 분자나 유전자들의 집합에 대한 유사성 관계의 표현

• 클러스터 분석은 모든 쌍별 유사성 점수를 이용하여 유사성 그룹을 정의함

– 단일 연결 클러스터링 - 그룹내의 멤버는 같은 그룹내의 다른 멤버와 적어도 하나 이상의 유사성 관계로 연결

– 완비 연결 클러스터링 – 그룹은 어떤 멤버가 그룹내의 모든 멤버와 유사성 관계로 연결된 멤버로 구성

– 계층 트리는 계층적인 클러스터의 연산 결과를 표현• 서열 유사성의 임계치 점수는 상위 단계의 그룹을 정의하기

위해 점진적으로 수정됨• 유전자 기능의 계층도와 같은 생물학적 지식 표현

이웃

집단

계층 트리

Page 9: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 9

그래프 (1/2)

• 네트워크 수학적인 관점에서 점들과 이들을 이은 선들로 이루어져 있는 그래프임

G = (V, E)

• 분자 네트워크 문제에서 V 는 유한 집합이고 G 는 각 점에 이름이 부여된 그래프가 (labeled graph) 됨

• 분자 네트워크의 다양한 생물학적 제약 포함을 위한 그래프– 연결 그래프 – 완비 그래프 – 방향 그래프 ( 분자의 비 가역적인 작용 경로의 표현에 사용 )– 가중치 그래프 ( 신호 변환 경로에서 활성과 억제를 구별함수 있음 ,

유사한 정도를 점수화 하거나 클러스터링 절차에서 점간의 유사성이 점수나 거리를 정의 )

Page 10: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 10

Figure 1Figure 1Graphs that are a) connected b) disconnected c) complete

Page 11: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 11

그래프 (2/2)(a) 점과 선의 표현 , 직관적이고 그래프의 위상적인 특성을 나타내는

표현(b) 각각의 점들에 대한 연결 정보를 연결 리스트로 표현(c) 같은 점들을 첨자로 갖는 연결 행렬로 표현

• 이항 관계와 그래프의 개념이 자연스럽게 연관되어 있음G1 = (V1, E1), G2 = (V2, E2)

• 두 그래프가 동형 (isomorphic) 이라는 수학적으로 같은 구조를 갖고 있음을 뜻함– 같은 수의 점을 가지고 있으며 한 그래프의 점 집합과 다른 그래프의 점

집합 사이에 선들의 관계를 유지하는 일대일 대응관계 ( 치환 ) 가 있을 때

A

B

C D

E

F

(a)

ABCDEF

BA C DB EB EC D FE

(b)

A B C D E F

ABCDEF

10 10 1 0 0 0 1 10 0 0 0 1

(c)

Page 12: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 12

공통 부분그래프 (Common subgraph)(1/3)

• 그림 4-3 은 분자 네트워크의 다음 두 그래프 간의 비교를 통해 생물학적 예를 보여줌– 경로 - 경로 , 경로 - 유전체 , 유전체 - 유전체 ,

클러스터 - 경로

– 이런 그래프에서 선은 방향이나 가중치를 갖기도 함

– 유전체내의 유전자 명과 생화학 경로내의 유전자 생성물질에 따라 그래프상의 점들이 바뀔 때 , 생물학적 비교문제는 두 그래프간의 비교문제는 두 그래프간의 공통 부분 그래프를 찾는 문제 또는 부분그래프의 동형인 쌍을 찾는 문제로 바뀜

– 서열 분석에서 두 서열의 유사한 부분서열을 찾는 문제 (local similarity) 와 유사

경로 대 경로

경로 대 유전체

유전체 대 유전체

클러스터 대 경로

< 그림 4-3> 네트워크 비교의 생물학적 예

Page 13: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 13

공통 부분그래프 (Common subgraph)(2/3)

두 그래프 G1 과 G2 와 edge 의 부분집합E1’ ⊆ E1, E2’ ⊆ E2

부분 그래프G1’ = (V1, E1’), G2’ = (V2,E2’)

• 최대 공통 부분그래프 - 크기 (cardinality) 가 가장 큰 부분그래프의 쌍(G1’,G2’) 를 의미– 서열 정렬 용어로 말하자면 삽입과 삭제가 없는 해당 부분이 완전히 일치하는

쌍을 의미

• 최대 공통 유도 (induced) 부분그래프 - V1’ 에서 유도된 G1 의 부분그래프와 V2’ 에서 유도된 G2 의 부분그래프의 동형인 쌍 중에서 크기가 가장 큰 것을 의미– 최대 공통 유도 부분그래프의 개념은 < 그림 4-4> 의 생물학적으로 관련

있는 예에 적용됨

Page 14: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 14

공통 부분그래프 (Common subgraph)(3/3)

• < 그림 4-4> 는 서로 다른 두 종에서 나온 두 생화학적 경로의 유사성 정도를 계산– 분자들 간의 서로 연결된 구조의 유사성을 알고자 함

– < 그림 4-4>(a) 경로 1 은 다섯 개의 분자 , 경로 2 는 여섯 개의 분자 • 화살표 : 활성화 단계 , 억제 단계 , 가는 점선 : 서열 유사성 , 공백 : 진한 점선

– < 그림 4-4>(b) 점을 원소로 하는 두 집합내의 모든 리레이블 (relabelling) 을 5x6 개의 점들에서 유도된 그래프로 표현

• 원래 그래프에 대응되는 선이 존재할 경우 새롭게 리레이블링한 그래프에도 선을 표현• 두 개의 클리크를 가지고 있음• 그 중에 (B, b)(C, d),(D, f) 는 최적임

– 최대 클리크를 찾는 문제와 최대 공통 유도 부분그래프를 찾는 문제는 서로 변환

– 이 문제는 NP-complete (Nondeterministic polynomial time complete) 문제의 범주에 들어감

< 그림 4-4> 경로 정렬은 그래프 동형의 문제이다 . (a) 최대 공통 유도 부분그래프 (b) 최대 클리크

Page 15: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 15

네트워크 비교의 경험적 방법 (1/2)

• 경험적인 알고리즘 (heuristic algorithm) 을 이용해 해결– 두 그래프의 점 간에 대응이 주어져 있을 때 연관된 영역을 부분적으로 일치– 다른 유형의 비교에서 가능한 대응의 수는 작음– 두 그래프가 < 그림 4-4>(a) 에서처럼 대응에 의해 연결되면 그 대응의

클러스터를 찾아 해결할 수 있음

G1 = (V1, E1), G2 = (V2, E2)

– 모든 대응은 쌍별 ( 이항 ) 관계로 표현– 집합이 n 개의 대응을 포함한다면 n 개의 점을 정해진 거리 측정에 따라

클러스터 하는 문제가 됨– 각 점이 G1 의 노드와 G2 의 노드 간의 대응을 나타내므로 두 거리 i 와 j

간의 거리는 다음 두 개의 거리 측도로 정의 됨

d1(I,j) : 그래프 G1 의 두 노드 v1j 간의 가장 짧은 경로d2(I,j) : 그래프 G2 의 두 노드 v2j 간의 가장 짧은 경로

Page 16: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 16

네트워크 비교의 경험적 방법 (2/2)

• 각 대응은 개별적인 클러스터로 간주– N 개의 초기 클러스터

• 단일 연결 클러스터링은 두 클러스터 Ci 와 Cj 의 병합여부를 다음의 기준으로 수행

– Gap1 과 Gap2 는 공백에 대한 파라미터 ( 정수 )– 클러스터의 병합은 어느 정도의 공백과 불일치를 허용

• 이 알고리즘은 동형인 부분그래프를 알아내지 못하지만 두 그래프의 노드 간의 상호 연관된 클러스터를 발견

δ(I, j) =

1 if min{d1(r,s) | r ∈ Ci, s ∈ Cj}≤ 1 + Gap1 and

min{d2(r’,s’) | r’ ∈ Ci, s’ ∈ Cj}≤ 1 + Gap2

0 otherwise

r, s

r’, s’

< 그림 4-5> 생물학적 그래프 비교에 대한 경험적 알고리즘 . 대응되는 클러스터에 대해 (a) 와 같이 검색한다 . (a) 는 (b) 에서보는 것과 같이 서열 정렬과 유사하다 .

Page 17: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 17

Relation

R : a relation on a set A

R : reflexive ↔ (a, a) R, a A∈ ∀ ∈R : symmetric ↔ [(a, b) R ∈ → (b, a) R, a, b A]∈ ∀ ∈R : anti-symmetric ↔ [(a, b) R, ∈ (b, a) R ∈ → a=b]

R : transitive ↔ [(a, b) R, ∈ (b, a) R ∈ → (a, c) R, a, ∈ ∀b, c A]∈

Page 18: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 18

Warshall Algorithm

for (j = 1; j <= N; j++)

for (i = 1; i <= N; i++)

if (a[i][j])

for (k = 1; k <= N; k++)

if (a[j][k]) a[i][k] = 1;

하나의 선으로 직접 연결되어 있거나 , 여러 개의 선으로 간접적으로 연결되어 있는 것을 결정해주는 algorithm

O(N3)

Page 19: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 19

Shortest path

• Dijkstra Algorithm– 최단거리를 구하는 유명한 알고리즘– 한 점에서 출발해서 각 정점에 최단거리를 구함

for (j = 1; j <= N; j++)

for (i = 1; i <= N; i++)

if (a[i][j])

for (k = 1; k <= N; k++)

if (a[j][k] > 0)

if (!a[i][j] || (a[i][j] + a[j][k] < a[i][k]))

a[i][k] = a[i][j] + a[j][k];

Page 20: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 20

Minimum spanning tree

• Minimum spanning tree :– minimum weight subgraph of G which includes all vertices of G

and is a tree

– Kruskal’s algorithm, Prim’s algorithm, Sollin’s algorithm

• Cluster analysis (N points)– complete weighted graph with N nodes N(N-1)/2 edges

• Minimum spanning tree single linkage hierarchical cluster analysis

Page 21: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 21

이항관계와 연역법

• Transitive closure :– Edge (connection) – 이항관계 – Path – 연역적 단계– Graph – 가능한 연역적 단계의 전체 네트워크

• ∴ 다른 형태의 데이터와 지식 - 이항관계로 구성 자동으로 경로계산 , 추론

Page 22: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 22

이항관계 (binary relation)

• 사실관계 (factual relation)

• 유사관계 (similarity relation)

• 기능관계 (functional relation)

Page 23: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 23

유사관계 (similarity relation)DBGET/LinkDB- Pre-computed partial transitive closure

- Dynamic linking capacity

Page 24: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 24

Example• < 그림 4-6> 기질 - 생성물 (substrate-product) 상호작용의 이항관계 집합과

효소목록이 주어진 상태에서 , Pyruvate(C00022) 로부터 L-alanine(C00041) 로의 가능한 반응 경로의 계산 예 (Node – 화합물 Edge - 효소명 )

Page 25: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 25

• ‘ 효소 E 가 화합물 X 를 Y 로 변환하는 화학적 작용에 촉매역할을 한다 .’ :

• reaction (E, X, Y)

• path (X,Y,[E]) reaction (E,X,Y) OR

• path (X,Y,[E|EL]) reaction (E,Z,Y), path (X,Z,EL)

Example

Page 26: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 26

Example

• 질의 완화 (query relaxation) 이항관계 (edge) 들의 개수와 검색될 반응공간(graph) 의 확장

• reaction (E’, X, Y) reaction (E,X,Y), group (G,E,E’)

Page 27: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 27

Example

• “B F” 간의 가상경로 E 와 E’ 의 기능적 동질성으로부터 추론

• 기능적 동질성 :- 서열간 유사성 or 서열 모티프

Page 28: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 28

구현 (Implementation)• 기능관계 (functional relation) : 전통적인

데이터베이스에서는 계산 불능

• 다양한 영역으로부터의 기능적 데이터 여러 다른 형태의 이항관계를 계산적으로나

논리적으로 결합하기 위하여 이항관계의 형태로 표현

• KEGG– 추상화 수준 : 분자 네트워크 수준– 이항관계 : 분자간의 상호작용 , 유전자간 상호작용 , 분자 또는

유전자간의 다른 관계

Page 29: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 29

KEGG (Kyoto Encyclopedia of Genes and Genomes)

Page 30: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 30

Example - pathway

Page 31: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 31

유전체 - 경로 비교

• “ 유전체에서 동시에 조절되는 위치적으로 관련된 일군의 유전자들 ( 오페론 구조 ) 물질대사 경로에서 하나의 기능적 단위” 에 대응

Page 32: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 32

계층트리 네트워크

• 표현이 매우 제한적• 유전자 목록 : 생화학적 경로 및 집합의 분류에 의한

유전자의 기능적 계층도• 분자 목록 : 단백질 분자 , RNA 분자 , 화합물 등의

기능적이거나 구조적인 분류

• 계층 트리와 경로간의 비교 구조적으로 유사한 효소들에 의해 촉진된 일련의 반응 단계 존재

Page 33: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 33

Page 34: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 34

KEGG 의 방향

Page 35: 4.  분자 상호 작용의 네트워크 분석 4.1  네트워크 표현과 계산

04/19/23 35

KEGG 의 방향

• 완전한 유전체 서열로부터 생화학적 네트워크 전체를 예측

• 생화학적 네트워크에 대한 지식 기반 예측 (knowledge based prediction) 의 활용

• 참조 데이터베이스 (Reference database)


Recommended