전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014

전 게놈 관련 분석으로 배우는 !유전 통계학

양 우성!([email protected])!

StaGen Co., Ltd!유전통계분석사업부

mailto:[email protected]

My Medical Choice

http://www.nytimes.com/2013/05/14/opinion/my-medical-choice.html?_r=1&

“My doctors estimated that I had an 87 percent risk of breast cancer and a 50 percent risk of ovarian cancer, although the risk is different in the case of each woman.

Only a fraction of breast cancers result from an inherited gene mutation. Those with a defect in BRCA1 have a 65 percent risk of getting it, on average”.

- ANGELINA JOLIE

“Genetics is the science of heredity and variation in living organisms.”

Wikipedia (http://en.wikipedia.org/wiki/Genetics)

4

DOE Human Genome Project (http://genomics.energy.gov)

Genome = Gene + Ome

Genome = Whole DNA

Human Genome Project

2003년 99.99% 정확도의 인간유전체지도 완성 "

"

Variation

유전체의 0.1% 가개인의 차이를 결정

다형성의 종류Polymorphism

• SNP (Single-nucleotide polymorphism)"

• STRP (short tandem repeat polymorphism, Microsatellite)"

• VNTR(variable number of tandem repeat)"

• Insertion / Deletion"

• CNV (Copy number variation)

SNP

(유전자좌)(우성 대립형질)

(열성 대립형질)

(유전자형)

유전자형의 다름 때문에 발생하는 결과: !유전형질(trait)

질적형질（qualitative trait）

양적형질（quantitative trait）

병의 발병유무

발병 비발병

검사치

2.1 6.4 9.7

표현형 (phenotype)

분리의 법칙 우열의 법칙 독립의 법칙

연쇄(linkage)의 법칙

유전자형A/a Ａ a

B b

Ａ or a

B or bA or a

멘델의 법칙

Ａ a

B b

유전 계승의 법칙 = !멘델의 법칙 + 연쇄의 법칙

Genome-Wide Association Study전 게놈 관련성 분석

관측된 유전자 좌의 !유전자형과 형질과의 관련성을 !

전 게놈 영역에 걸쳐 !탐색적으로 조사하는 방법

가계의 상세한 정보를 알 수 있다면연쇄분석(linkage analysis)에 의해 정확한 분석이 가능

가계 정보가 없는 집단은 !코호트 연구나 !

비교 대조 연구를 이용

위험인자(+)

위험인자(-)

발병(+)

비발병(-)

발병집단

비발병집단

위험인자 (+) 집단 위험인자 (-) 집단

Case 집단

Control 집단

랜덤 추출 추적조사

Case-control!study

Cohort study

코호트 연구에서 관련성의 크기는!상대 위험도로 평가

Relative Risk, RR

20

비교 대조 연구에서 관련성의 크기는!오즈비로 평가

Odds Ratio, OR

게놈 관련성 연구에는 !원인 유전자 좌의 장소에 대한 가정과!

우열의 법칙 가정이 필요

원인 유전자 좌는 주목하고 있는 !SNP 좌와 매우 !

가까운 곳에 위치한다

SNP 좌원인 유전자 좌

표현형은 우열의 법칙에 의해 결정된다（1）우성 （2）열성

（3）유전자형 (4) Risk allele의 수

형질과 SNP 좌의 !관련성 유무에 대한 검정

Case 집단의 대립형질 X 보유율과 !Control 집단의 보유율에 차이가 있는가?

우성 양식 가정 XX+NX NN 계

Case 집단 48 52 100

Control 집단 32 68 100

계 80 120 200

P=0.15, OR=1.2

P=0.71, OR=1.1P=3e-‐4, OR=2.3

P=0.81, OR=1.2

P=0.36, OR=1.1P=0.01, OR=1.7

P=0.55, OR=1.2

P=0.91, OR=1.1P=2e-‐6, OR=2.3

P=0.15, OR=1.2

P=0.71, OR=1.1

P=3e-‐4, OR=2.3

P=0.15, OR=1.2

P=0.71, OR=1.1

P=0.19, OR=0.9

Genome-wide association study

50만 ~ 250만 SNP 좌를 이용한 검토

plink output

RMySQL

Shiny ggplot2 NCBI2R ...

SJS/TEN 환자와 건강인의유전적 요인 차를 비교 검토

GWAS연구 사례

Stevens-Johnson Syndrome (SJS) Toxic Epidermal Necrolysis (TEN)

약물 부작용으로 발생하는 질환으로 화상과 증상이 유사

119 명991 명

595 396 69 50

VS

A 복용 후 발병일반 건강인

illumina Human1M-Duo DNA Analysis Kit

1,163,218 SNPs

"• 미토콘드리아 : 138 SNPs

• 성염색체 : 42,822 SNPs (X : 40,949 Y : 1,294 XY : 579)

• 다형 데이터의 품질평가!

• 관련성 분석 대상 개체 및 SNP의 선택"

• 관련성 분석!

• 분석결과의 고찰

분석순서

개체 데이터 품질평가

X염색체의 이형접합체 빈도와 성별

A A

A T

G C

A/A

T

C

A/T

G/C

A

T/T

C/G

A/A

X X X

Y

여성 남성

오류

Control SJS/TENFemale FemaleMale Male

이형접합체

빈도성별 기록 평가

정상

XXY

남성

여성

Missing

성별 기록 평가

정상

각 개체에 대해 SNP들이 정상적으로 관측된 비율을 !개인의 Call Rate라 하며!

이 값이 99% 미만인 개체는 분석에서 제외한다

개체 CR = "정상관측 SNP 수 / 모든 SNP 수

SNP 데이터 품질평가

각 SNP에 대해 개체가 정상적으로 관측된 비율을 !SNP의 Call Rate라 하며!

이 값이 95% 미만인 SNP는 분석에서 제외한다

SNP CR = "정상관측 개체 수 / 모든 개체 수

SNP에 대한 Call Rate 분포

32.6K

SNP 제외

하나의 SNP에서 수가 작은 쪽의 대립형질의 ! 빈도를 Minor Allele Frequency라 하며 !

MAF 비율이 5% 미만의 SNP는 분석에서 제외한다

* Control 집단에 대해서만 평가

273.7K

SNPs 제외"

(CR≧0.95 SNP의 23.5%)

Mono-morphism SNP(MAF=0) : 225,169 SNPs

대를 거듭하더라도 집단에서 !대립 유전자의 빈도가 변하지 않고 !

평형상태를 유지할 때 !하디-바인베르그 평형상태에 있다고 하며!적합도 검정결과 유의확률이 0.001 미만인 !

SNP는 분석에서 제외한다

Hardy-Weinberg 평형법칙 Law of Hardy-Weinberg Equilibrium

세대 t+1

세대 t＝

＝

random mating

)1()()(

pafpAf−=

=

Hardy-Weinberg 평형법칙 Law of Hardy-Weinberg Equilibrium

Genotype 계AA Aa aa41 38 21 100

Allele계

A a120 80 200

Allele 계A a

0.6 0.4 1

Genotype 계AA Aa aa

0.41 0.38 0.21 1

2

2

)1()()1(2)(

)(

paafppAaf

pAAf

−=

−=

=

if then

적합도 검정 유의확률 = 0.037

Q-Q plot을 이용한 시각적 평가Control 집단만 평가

2.3K

SNP 제외

집단의 균질성 평가

혈연관계의 정도를 나타내는 "IBD(Identity by decent)의 추정값이 "0.8 이상인 개체는 분석에서 제외한다

1/2 1/21/2 3/41/3 3/4

1/2 1/3 1/2 1/4 2/3 2/3IBD = 0 IBD = 1 IBD = 2

정상

집단의 구조화 문제

AA Aa+aa 계

＋ 120 40 160

－ 30 10 40

계 150 50 200

AA Aa+aa 계＋ 10 30 40

－ 40 120 160

계 50 150 200

AA Aa+aa 계＋ 130 70 200

－ 70 130 200

계 200 200 400

+ =

p-‐value=1 p-‐value=1 p-‐value=3.6×10-‐9

주성분 분석을 이용한 집단 구조화 평가

1,110선택된 개체 수

854,556선택된 SNP 수

관련성 분석

Case-control 연구를 대상으로 한 전 게놈 관련성 분석

유전계승형식 검정법 추정

경향성 Wald 통계량 (로지스틱 회귀모형) 오즈비 및 95%신뢰구간

유전자형 카이제곱 검정, Fisher’s exact 검정 오즈비 및 95%신뢰구간

우성 카이제곱 검정, Fisher’s exact 검정 오즈비 및 95%신뢰구간

열성 카이제곱 검정, Fisher’s exact 검정 오즈비 및 95%신뢰구간

분석결과의 고찰

각 SNP에 대한 관련성 검정의 "유의 수준을 0.05로 설정 하면"

분석 전체에서 제 I 종 오류는 반드시 일어난다

1−(1−α)500K≈1

제 Ⅰ 종의 오류 다중성 검토

• Bonferroni의 수정"

• False Discovery Rate 법을 이용한 수정"

• Quantile-Quantile Plot을 이용한 시각적 판단

Q-Q Plot을 이용한 시각적 판단

OR 7~8 (95%CI 3~18) HLA region

Manhattan Plot

Shiny package를 이용한 "Web 어플리케이션 개발

감사합니다

Data & Analytics

전 게놈 관련 분석으로 배우는 유전 통계학 R users conference in Korea 2014