91
면지

Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

면지

Page 2: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나
Page 3: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

Ⅰ 발 간 문 Ⅰ

참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과학기술데이터나 정보를 국가사회의 모든 분야에 널리 지속적으로 사용될 수 있도록 엄격한 평가기준과 절차에 따라 정확도와 신뢰도가 공인된 과학기술데이터입니다. 국가 산업이 제품설계의 모방과 단순생산에서 벗어나 자립을 기반의 고부가가치의 선진국형 지식기반 산업사회로 발전하고 있습니다. 이러한 과정에서 산업경쟁력을 갖추기 위해서는 기술개발이 필요하고 기술개발의 핵심은 정확도와 신뢰도가 공인된 참조표준을 얼마나 잘 활용하느냐에 달려 있습니다. 참조표준을 제정하기 위해서는 해당분야의 데이터 특성을 면밀히 파악한 후 데이터 평가기준을 마련하는 것이 가장 핵심이라고 할 수 있습니다. 따라서 본 평가 가이드 북은 유전체 분야의 데이터를 평가하기 위해 일반적으로 고려해야 할 사항을 정리하였고, 이를 바탕으로 평가 대상 데이터의 정의에서 전문가 평가에 이르기까지 평가절차가 체계적으로 기술되어 있습니다. 또한 평가기준과 절차가 적절히 마련되었는지를 파악하기 위해 해당 분야 데이터를 실제 적용하여 평가해 봄으로써 유효성을 검증하였으며, 향후 지속적으로 수정․ 보완해 나갈 것입니다. 앞으로 유전체 분야의 평가 가이드 북은 해당분야의 세부 평가기준을 마련하는데 지침서이며, 다양한 참조표준 제정을 위해 아주 중요한 기본자료로 활용될 것으로 기대합니다.

2009. 6

국가참조표준센터장 방 건 웅

Page 4: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

Ⅰ 목 차 Ⅰ

데이터 평가 가이드 북 유전체 분야

제 1 장 데이터 평가의 개요 1 1. 데이터 평가의 의미 3 2. 데이터 평가 관련 전문용어 4 3. 데이터 평가 및 가이드 북 목적 7 4. 유전체 데이터 종류 8

제 2 장 데이터 평가 관련 규정 및 적용문서 11 1. 참조표준 제정 및 보급에 관한 운영요령 13 가. 참조표준과 참조데이터 13 나. 참조표준의 분류 13 다. 데이터의 기술평가기준 14 라. 참조표준의 등급부여 기준 14 2. 기타 적용문서 15 가. 측정과 관련된 용어 15 나. 불확도와 관련된 표현지침 15 다. 유전체와 관련된 표현지침 15

제 3 장 유전체 참조표준의 국내외 개발현황 17 1. 국외 17 2. 국내 24

제 4 장 유전체 데이터의 특징 27 1. 평가의 일반 고려사항 28 2. 유전체 데이터 측정의 분류 32

Page 5: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

제 5 장 유전체 데이터의 평가 35 1. 평가의 일반적 고려사항 35 가. 데이터 평가의 일반적 원칙 35 나. 생산방식에 따른 평가원칙 38 다. 법·제도적 고려사항 39 2. 데이터 평가 절차 40 가. 측정대상이 명확하게 명시되어 있는지 여부 41 나. 측정방법 및 절차에 대한 설명의 명시 여부 43 다. 측정방법의 적절성 여부 44 라. 측정결과에 영향을 주는 요인의 제어 여부 44 마. 불확도(uncertainty) 평가 및 평가의 적절성 여부 46 바. 실험적 경향과 일관성(consistency) 여부 50 사. 잘 알려진 이론식 또는 실험식을 통한 데이터 예측가능성

검증 여부 51 아. 2인이상 관련분야 제3자의 종합검토를 받았는지 여부 51 3. 데이터 평가 순서도 53

부록. 사례 : 단일 염기 다형성 데이터 평가 57

Page 6: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나
Page 7: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

1국가참조표준센터

제1장 데이터 평가의 개요

간지칼라

Page 8: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나
Page 9: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

3국가참조표준센터

제1장 데이터 평가의 개요

1. 데이터 평가의 의미 데이터와 정보의 의미는 유사하다고 하나 조금씩 그 의미가 다르다. 즉 데이터란 일련의 사실표현이며 정보는 이러한 데이터를 처리하여 가동한 것이라 할 수 있다. 현대 사회에서 과학기술이 발전함에 따라 전문직 종사자뿐만 아니라 어린아이부터 노인들에 이르기까지 자신 혹은 주변과 관련된 정보를 검색하고 해당 지식을 얻는 과정은 지금 사회에서는 보편화되어 있다. 이러한 사회전반에 걸쳐 무수한 데이터들이 인터넷을 기반으로 모든 사람들에게 제공되는 만큼 진실성 있는 데이터를 객관적으로 평가하여 올바른 데이터를 제공하는 것은 매우 중요한 일이라 할 수 있다. 또한 데이터의 생산방법에 대한 표준화 및 객관화는 가장 기본이 되는 일이라 할 수 있다. 생명과학 분야에서 제공되는 데이터는 유전체를 기반으로 한 실험분석, 전사체를 기반으로 한 실험분석, 그리고 단백질체를 기반으로 한 실험분석처럼 생물학적 기능의 단계에 따라 구분되어 제공된다. 각각의 실험분석 방법들은 기존에 알려진 과학적 사실을 바탕으로 이루어진다. 즉, 기존에 축적된 실험기법상의 다양한 조건(대상물질, 시약정보, 분석절차에 대한 정보, 등), 실험결과에 대한 상호비교를 통해 이루어지는 것이다. 또한 이렇게 생산된 데이터는 의료, 보건, 환경 분야에서 활용할 수 있는 기초 데이터로서 활용되므로 그 의미는 매우 크다고 할 수 있다. 이처럼 인간과 밀접한 관련성을 가진 생명공학 데이터의 특징을 볼 때 데이터의 신뢰성 및 객관적 평가의 의미는 매우 중요함을 알 수 있다. 데이터 평가의 의미는 전문 지식을 기반으로 객관적 절차에 따른 데이터의 생산을 위해 그 기준을 마련하는 것이라 말할 수 있다. 데이터생산에 있어 표준이 될 수 있는 절차를 정의하고 각각 단계의 신뢰성을 높이기 위해 통계적인 방법을 적용하여 데이터를 평가함으로써 관련분야에 대한 정보가 부족하더라도 이러한 표준을 따름으로써 올바른 데이터를 생산하고 다른 사람들에게 제공할 수 있다. 앞서 언급한 데이터 평가의 중요성에도 불구하고 현재 우리나라에는 생명과학 분야 데이터의 수집 및 평가에 대한 시스템적인 노력이 부족한 실정이다. 각각의 실험실, 기업, 기관에서는 자체적으로 그 기준을 가지고 있을 수도 있으나 생명과학 분야 전반을 아우를 수 있는 국가적인 정책지원 및 기관과의 협조가 부족하며 사회전반에 걸쳐 참조표준의 구축 및 데이터 평가에

Page 10: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

4

데이터 평가 가이드 북 : 유전체 분야

2. 데이터 평가 관련 전문용어

대한 인식 부족도 큰 이유라 할 수 있다. 최근 이러한 요구가 더욱 절실히 요구되는 큰 이유 중 하나는 생명과학 분야 분석기술이 발전됨에 따라 대량으로 데이터를 생산하고 빠른 시간에 처리된다는 점에서 그 의미가 크다고 할 수 있다. 데이터의 양이 증대함에 따라 해당 분석에 맞는 데이터 평가 기준이 새롭게 정의되어야 할 것이다. 따라서 전문적인 지식을 바탕으로 객관적이고 올바른 평가를 통해 지속적인 데이터의 수집, 관리, 평가를 하는 것이 매우 중요하며 국가참조표준센터의 역할이 매우 중요함을 알 수 있다. 본 가이드 북은 이러한 요구에 맞게 생명과학분야 중 하나인 유전체의 다양한 실험기법을 고려하여 작성되었으며 유전체 분석 관련 데이터 표준화 작업에 대해 주로 기술하였다. 이를 바탕으로 본 가이드 북이 유전체관련 데이터 평가를 객관적이고 신뢰성 있게 처리하는 데 도움이 될 수 있을 것이라 기대한다.

가. Single Nucleotide Polymorphism(SNP) SNP(Single Nucleotide Polymorphism, 단일염기변이)란 개인과 개인 간의 DNA에 존재하는 한 염기쌍의 차이(single base-pair variation)로 DNA sequence 다형성 중에서 가장 많이 존재하는 형태이다. 인간의 경우 대략 1000 base-pair (이하 bp)에 1개의 SNP가 존재한다고 알려져 있으며, 인종간의 차이를 고려한다면 이보다 더 높은 변이를 가질 것으로 추정하고 있다. 전체적으로 100~500 bp 에서 유전자 다형성(genetic polymorphism)이 발생할 수 있다. 인체의 유전자 변이 중 90 % 이상이 SNP에 의해 일어나게 된다. 가계나 체질이 비슷한 사람들은 SNP의 패턴이 일치하기 때문에 SNP 패턴과 질병기록을 비교하면 국민적인 의학통계가 수립될 수 있다. 질병과 연관된 SNP data base (DB)가 완성되면 태어나자마자 피를 채취해 진단용 칩에 떨어뜨려 몇 살 때 어떤 병에 걸리게 될 확률이 몇 %인지 진단과 예방이 가능하다. 치료도 체질에 따라 개인에게 잘 맞는 약을 골라 쓰는 미래형 맞춤의학의 시대가 현실화하는 것이다. 이론적인 모델에 따르면, ‘Linkage

Page 11: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

5국가참조표준센터

제1장 데이터 평가의 개요

Disequilibrium’ 현상에 기초하여 병에 걸린 집단과 걸리지 않은 대조군 집단 사이에 genotype을 비교할 경우 특정 유전자형이 병에 걸린 집단의 유전자형과 연관성이 있다는 것을 알 수 있다[참고]. 이러한 현상의 연구를 통하여 특정 질병과 연관된 유전자에 근접한 마커를 추적 할 수 있게 됨으로써 질병과 유전자를 발견하는 연구를 수행할 수 있게 된다. 암이나 심장병, 정신병, 자가 면역병과 같은 질병뿐만 아니라, 어떤 특정약물에 대한 반응성도 역시 수많은 유전자에 의해 조절되는 복잡한 형질이다. 즉, 각개인의 genotype에 따라서 특정 약물에 대한 반응성이 다르다는 것이다. 이는 실제 임상에서도 자주 관찰되는 현상으로 각 제약회사들은 궁극적으로 각 개인의 genotype에 따른 최적의 약물을 개발하고 투여하는 것을 목표로 하고 있다. 이러한 연구방법론은 약물유전체학이라는 새로운 분야의 발생 토대가 되었다.

[참고] Reporting, Appraising, and Integrating Data on Genotype Prevalence and Gene-Disease Associations. American Joumal of Epideniology 2002

나. SNP Chip과 SNP Genotyping 생명과학 분야 연구기기들의 발전과 더불어 SNP Chip이 개발됨에 따라 SNP를 대량으로 분석하는 것이 가능해 졌으며 이를 통해 인종 및 그의 유래, 특정 집단(가계도), 질병 및 표현형, 개인 인식, 유전, 약물반응 및 면역 등 광범위한 응용을 할 수 있게 되었다. 현재 개발되어 상업화가 잘 되어있는 Affymetrix와 Illumina는 분석기법 및 다양한 정보를 제공하고 있다. 그러나 국내 보급률이 높은 Affymetrix나 Illumina 플랫폼에서 사용하고 있는 SNP genotyping 데이터의 대조군 값은 모두 외국인(Caucasian, Yoruba, China and Japan)에 대한 정보를 나타내고 있으며 한국인과 population genetics 측면에서 가까운 일본과 중국의 SNP genotyping 데이터 set이라 해도, 한국인 데이터와의 차이를 가지고 있다. 그래서 대조군 데이터와 실험 데이터의 오차 값을 제거하기 위해서는 한국인에 대한 대조군 정보가 필요하다. SNP genotyping을 위해서 Affymetrix의 경우 calling algorithm인 birdseed 2를 이용하여 signal intensity를 clustering하여 분포를 기준으로 평가한다. 동일 대립유전자형(allele)을 검출하기 위한 probe의 시그널 강도의 대표값을 각 allele에 대해 얻어낸 다음, A, B allele 시그널의 contrast와

Page 12: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

6

데이터 평가 가이드 북 : 유전체 분야

strength를 X, Y 평면에 표현한 후 clustering하는 방법이다.

Contrast = (A-B)/(A+B)Strength = log10(A+B)

다. 유전적 거리 측정방법 ASD(allele sharing distance) 개인 간의 유전적 차이는 allele sharing distance(ASD) 방법을 통해 이루어진다. 이는 개인간의 대립유전자를 상호간에 비교하여 발생빈도를 기준으로 개체별 유전적 거리를 분석하는 방법이다. Allele shared distance를 구하기 위해 사용되는 SNP marker는 QC를 통과한 것들을 사용하며, 각 SNP의 minor allele frequency(MAF) 값은 0.05이상이여야 한다.

ASDi = 1 - PiPi = ΣuS / 2u

S = The number of shared alleles(전체 SNP위치에서 두 사람간의 공통되는 Allele의 수)u = The number of loci(비교대상이 되는 전체 SNP 위치의 수)

라. 측정결과의 재현성(frequency의 재현성) 제3자에 의해 유전적 거리가 재현 가능하도록 측정방법과 절차가 자세히 명기되었는지 확인하고, 동일 샘플군에 대하여 최소 24명 이상을 마커별로 실시하며 측정한다. 또한 SNP chip의 frequency 재현성을 나타내는 genotype call rate가 98 % 이상 되는지 확인한다. SNP chip의 genotype call rate의 경우 하나의 project(100개 이상 시료)를 기준으로 평균값을 call rate 99 % 이상, reproducibility 99.9 % 이상, mendelian inconsistence 0.1 % 이하로 guarantee하는 것을 기준으로 한다.

Page 13: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

7국가참조표준센터

제1장 데이터 평가의 개요

3. 데이터 평가 및 가이드 북 목적

동일 시료에 대한 반복 실험을 통한 genotype 재현 확인a = number of concordant callb = number of discordant callc = number of missing calls; one or both call is missingReproducibility = a / (a+b)

재현성 측정시 포함되지 않는 marker, 즉 Hardy-Weinberg disequilibrium, Low call rate, cluster QC fail, 여러 기관에서의 재현실험에 의해 지속적으로 불일치한 결과를 보고하여 분석에 사용하지 않도록 제거할 것이 권해지는 목록에 들어 있는 marker를 말하며 일반적으로 hidden SNP으로 불린다.

생명공학의 데이터들은 과거 소규모 실험실에서 생산되는 데이터뿐만 아니라 1980년대 후반에 시작된 인간게놈프로젝트의 결과물로 2001년을 기점으로 대량화 및 고속화의 특징을 보이고 있다. 또한 과학기술 발전과 더불어 첨단화된 서열분석기기를 통해 개인의 유전체를 해독할 수 있는 기술이 개발되었으며 SNP를 기반으로 개개인의 유전적 변이 정도를 나타낼 수 데이터도 생산됨으로써 한국인에 특화된 데이터 생산이 기대되고 있다. 생명공학 분야의 기술개발에 따라 데이터의 고속화와 대량화 특징이 나타나면서 이를 분석

Page 14: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

8

데이터 평가 가이드 북 : 유전체 분야

4. 유전체 데이터 종류

하기 위한 다양한 방법들이 발맞추어 제안되고 있다. 이는 단순히 실험방법에 대한 프로토콜뿐만 아니라 데이터의 객관적인 지표를 제시하기 위해 통계적인 분석까지 이루어지고 있다. 위와 같은 시대적인 흐름에 따라 데이터의 양은 급속도로 증가하고 다양한 분석방법들이 제시되고 다양한 분야가 결합된 형태로 데이터가 처리되는 만큼 생명공학 분야 종사자들이 기준으로 삼을 수 있는 참조표준 데이터의 생산의 필요성은 매우 중요하게 대두되고 있다. 유전체 분야에서의 데이터 평가의 목적은 대량화, 고속화, 다양화 등의 성격을 가진 데이터를 객관적이고 신뢰성 있는 지표를 마련하는 것이다. 이러한 데이터 평가의 지표를 제시함으로써 고비용이 소비되는 유전체 데이터 중복생산을 방지하고 최종적으로 한국인 유전체 참조표준을 제시할 수 있다. 유전체 참조표준을 만들기 위해서는 객관적으로 제시된 실험방법에 따라 데이터를 생산, 수집되어야 한다. 생산되는 데이터는 한국인의 특성을 반영하며 한국인의 맞춤의학시대의 기본 데이터로 활용이 가능해야 한다. 기존에는 외국인의 유전체 데이터를 기반으로 한국인의 유전체를 비교 분석을 했다는 점에서 한국인의 유전체 분석은 그 의미가 크다고 할 수 있으며 이는 한국인과 가깝다고 인식되어온 일본인이나 중국인의 경우에도 3 % 이상의 유전적 다양성이 존재하는 문제점을 해결할 수 있는 중요한 데이터로의 사용이 가능하다는 것을 의미한다. 한국인 유전체가 해독됨에 따라 한국인의 특성이 반영된 유전체를 기초로 하여 다양한 분석이 가능하다. 즉 개인유전체시대가 가능해짐에 따라 SNP 분석을 통한 개인 간의 차이에 따른 예방 및 맞춤의학시대가 가능해진 것이다.

유전체 분야의 경우 각 연구 분야에 따라 데이터를 구분할 경우 종류가 너무 많아 어려움이 있다. 따라서 여기서는 데이터 타입에 따라 유전체 데이터를 분류하였다. 데이터 타입은 최종 결과물이 나오기 위해 처리되는 연구접근법, 실험방법을 기초로 하여 분류할 수 있다.

Page 15: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

9국가참조표준센터

제1장 데이터 평가의 개요

가. 유전체 서열데이터 유전체를 이루고 있는 기본 코드 정보를 담고 있는 데이터로서 4개의 염기서열로 구성되어 있는 염기서열데이터가 일반적으로 다루어진다. 최근 이슈화되는 개인유전체 해독도 개인의 서열을 분석하고자 하는 연구로서 이 분야에 속한다. 서열분석기(sequencing machine)의 발달로 데이터는 대량화 및 고속화의 성격을 가진다. 인간뿐만 아니라 일반적인 생물학 실험에 사용되는 쥐, 개, 침팬지 등의 서열분석도 이루어지고 있으며 유전체분야의 가장 기본적인 정보를 제공하는 데이터로서 다른 분야에 다양하게 활용될 수 있다. 세계적으로 크게 NCBI(미국), EMBL(영국), DDBJ(일본)와 같은 기관에서 데이터베이스를 운영하여 데이터를 제공하고 있다.

나. 유전체 구조데이터 다양한 실험기법에 의해 생산된 데이터로서 유전체의 한 구성요소인 유전자의 구조를 분석하여 기능적 영향을 조사하여 생산된 데이터이다. 유전자의 구성요소인 promoter region, 5'-UTR, Exon, Intron, 3'-UTR 등에 대한 일반적인 정보뿐만 아니라 특정 기능적 부위(motif, transcription factor binding site, phosphorylation site, signal peptide and cleavage site 등)에 대한 정보도 제공하고 있다. 이와 같은 데이터는 해당 유전자의 기능적 의미의 해석 및 유추에 도움이 되며 종간 비교에도 많이 사용되고 있다.

다. 유전체 발현데이터 주로 microarray 실험을 통해 생산되는 데이터로서 대량으로 데이터를 생산할 수 있는 대표적인 방법이다. 특정 실험조건에 따라 정상군과 대조군 간의 유전자들의 발현 양을 비교함으로써 특정 질병이나 환경에 민감하게 반응하는 유전자 리스트를 제공할 수 있다. 이 외에도 EST(Expressed Sequence Tag) 기법을 이용한 EST서열을 이용하여 조직 특이적 혹은 발현 정도를 비교 분석할 수 있다.

Page 16: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

10

데이터 평가 가이드 북 : 유전체 분야

라. 유전체 문헌정보데이터 생물학관련 실험실, 기관 등에서 다양한 실험방법으로 밝혀진 사실들을 논문 화하여 제공하는 것으로서 유사한 연구 분야에 종사할 경우 이러한 문헌정보데이터를 이용하여 기존의 데이터를 제공받고 공유할 수 있다.

마. 단백질체 데이터 단백질체 데이터는 20종의 아미노산으로 구성된 서열데이터와 단백질 3차 구조 데이터로 크게 구분할 수 있다. 서열기반 데이터를 통해 단백질체에서 단백질 간의 상호작용 분석이 가능하며 구조데이터를 통해 ligand와 단백질간의 결합정보를 얻을 수 있다. 단백질의 특성상 단백질체 부분의 경우 실질적으로 생체 내에서 기능을 가지는 단백질에 대해 연구함으로써 의약품 개발과 같은 분야와 깊은 관계를 가지고 있다.

Page 17: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

11국가참조표준센터

제2장 데이터 평가 관련 규정 및 적용문서

간지칼라

Page 18: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나
Page 19: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

13국가참조표준센터

제2장 데이터 평가 관련 규정 및 적용문서

1. 참조표준 제정 및 보급에 관한 운영요령(산업자원부 고시 제2006-86호)

신뢰성 있는 국가참조표준 데이터를 평가하기 위하여 필요한 제반사항들은 국가표준기본법 제16조 및 동법 시행령 제14조의 규정에 따라 제정된 “참조표준 제정 및 보급에 관한 운영요령”에 명시되어 있다. 동 운용요령의 제정목적은 제1조에 명시된 바와 같이 참조표준의 제정과 보급을 위하여 위임된 사항과 그 시행에 필요한 세부사항을 규정하기 위한 것으로, 그 주요내용은 다음과 같다.

2006년 7월 31일 산업자원부에서 고사한 "참조표준 제정 및 보급에 관한 운영요령(산업 자원부 고시 제 2006-86호)"에서는 참조표준과 참조데이터의 정의와 분류 및 평가기준을 다음과 같이 명시하고 있고, 제9조에서는 제7조 제2항 제4호 규정에 의한 참조데이터의 기술평가기준을 세부항목으로 분류하여 명시하고 있다.

가. 참조표준과 참조데이터의 정의 요령 제 2조에 참조표준과 참조데이터를 다음 정의에 따라 구분하고 있다.

참조표준 : 측정데이터 및 정보의 정확도와 신뢰도를 과학적으로 분석 ․ 평가하여 공인함으로써 국가 사회의 모든 분야에서 널리 지속적으로 사용되거나 반복사용이 가능하도록 마련된 자료로서 유효참조표준, 검증참조표준, 인증참조표준으로 분류한다.

참조데이터 : 참조표준으로 등록되기 전의 수치 데이터 또는 과학기술적 통계를 말한다.

나. 참조표준의 분류 요령 제10조에서 참조표준의 등급을 유효참조표준, 검증참조표준 및 인증참조표준의 3가지로 구분하고 등급부여 기준을 다음과 같이 정하고 있다.

Page 20: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

14

데이터 평가 가이드 북 : 유전체 분야

2. 기타 적용문서

유효참조표준 : 데이터의 이력이 명확하고 불확도 평가 및 평가의 적절성 여부를 만족시키는 참조표준

검증참조표준 : 유효참조표준 중에서 실험적 경향과 일관성이 검증된 참조표준 인증참조표준 : 검증참조표준 중에서 관련 전문가의 최종종합평가를 거쳐 인증된

최상위 참조표준

다. 데이터의 기술평가기준 요령 제9조에서 제7조 제2항 제4호 규정에 의해 데이터를 평가하여 참조표준으로 등급부여하기 위한 기준을 다음과 같이 정하고 있다.

측정대상이 명확하게 명시되어 있는지 여부 측정방법 및 절차에 대한 설명의 명시 여부 측정방법의 적절성 여부 측정결과에 영향을 주는 요인의 제어 여부 불확도(uncertainty) 평가 및 평가의 적절성 여부 실험적 경향과 일관성(consistency) 여부 잘 알려진 이론식 또는 실험식을 통한 데이터 예측가능성 검증 여부 2인이상 관련분야 제3자의 종합검토를 받았는지 여부

라. 참조표준의 등급부여 기준 데이터의 기술평가기준 중 참조표준의 기본요건인 제1호부터 제5호까지를 만족하는 데이터는 “유효참조표준”으로 등급부여하며, 제6호에서 제7호까지의 일관성과 예측가능성 기준을 만족시키는 유효참조표준은 검증참조표준으로 등급부여 하며, 전문가의 종합검토를 받아서 모든 기술평가기준을 만족시키는 검증참조표준은 인증참조표준으로 등급부여 한다.

Page 21: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

15국가참조표준센터

제2장 데이터 평가 관련 규정 및 적용문서

참조표준 데이터의 평가를 위한 기본 사항들은 “참조표준 제정 및 보급에 관한 운영요령”을 기반으로 하며, 그 외에 기타 측정 및 불확도 평가 등에 관련한 사항들은 측정학(metrology) 관련 ISO/IEC guide 등 다음의 문서들을 참조할 수 있다.

가. 측정과 관련된 용어는 다음 문서를 따른다. “국제 측정학 용어집” KRISS/SP-2008-022, 한국어판(한국표준과학연구원,

2008) “Type A evaluation of measurement uncertainty”(VIM3) (2008) 나. 불확도와 관련된 표현지침 “측정불확도 표현 지침” KRISS-98-096-SP (한국표준과학연구원, 1998) “International Vocabulary of Basic and General Terms in Metrology” (VIM3)

(ISO/IEC Guide 99:2007)

다. 유전체와 관련된 용어유전체 학의 우리말 용어는 다음 유전체 관련 학회의 용어관련 출판물에 수록된

내용을 준용한다. 단, 동 학회의 일부 용어가 일반적으로 통용되는 용어와 다른 경우, 이를 따르지 않아도 된다. 의사소통의 용이성과 정확성에 초점을 맞춰, 독창적 번역보다는 일반적으로 통용되는 용어를 사용함을 원칙으로 한다. 필요한 경우 원어를 병기 한다.

유전체학용어집(한국생물과학협회, 2006) http://www.kaobs.or.kr/

라. 기관생명윤리심의위원회(IRB) 관련된 표현지침 임상시험의 윤리성을 보장하기 위한 것으로 관련표현을 따른다. 국가생명윤리심의위원회(http://bioethics.go.kr/)에서 제정한 생명윤리및안전에

관한 법률, 생명윤리및안전에관한법률시행규칙, 생명윤리 및 안전에 관한 법률 시행령, 생명윤리 관련 법령 및 규정 번역집의 표현을 따른다.

Page 22: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

16

데이터 평가 가이드 북 : 유전체 분야

간지칼라

Page 23: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

1. 국외

다양한 유전체 정보가 날로 증가하고 있고 그 대상도 다양해지고 있다. 이들을 효과적으로 활용하여 생물학적 지식에 근거한 가설을 세울 수 있고, 이에 부합되는 적절한 실험 방안을 구축하는 것이 요즘 생물학 연구의 패러다임이라고 할 수 있다. 유전체 정보의 특징 중에 하나는 계속 새로운 데이터가 축적되어 새로운 버전이 생긴다는 점이다. 이미 진행된 생물 종의 연구에 있어서는 필요에 따라 개별적인 정보의 표준화가 시도되어 오고 있다.

가. 미국 NCBI(Nation Center for Biotechnology Information) NCBI는 2002년경부터 NCBI Molecular Biology DataModel에 대한 XML 포맷을 개발하여 사용하여 오고 있다. 기존의 Abstract Syntax Notation 1(ASN.1) 자동화된 표준화 XML 툴킷을 통하여 DTD(document type definition)가 적용된 XML 문서로 변환되어 사용자에게 제공되고 있다. NCBI에서는 2가지 형태로 XML 을 제공한다(<그림 3.1>). 첫 번째로는 NCBI 안에서 제공되는 모든 데이터 필드를 XML 포맷으로 바꿔서 제공해 준다. 다른 형태로는 DTD가 적용된 XML 문서로 변환되어 사용자한테 제공해 주고 있다. 생물학 데이터 구조적 데이터로 표준화하여 다양한 종류의 컴퓨터와 소프트웨어에서 신뢰성 있게 호환이 가능하며 생물정보학 검색 시스템과 데이터베이스의 원천이 되었다. XML 포맷을 위한 DTD는 현재 데이터베이스 별로 약 124개가 제정되어 있다(http://www.ncbi.nlm.nih.gov/dtd/).

Page 24: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

18

데이터 평가 가이드 북 : 유전체 분야

<그림 3.1> NCBI의 Entrez 데이터베이스를 통하여 XML 형식으로 제공되는 한 유전자(RAS)의 데이터 레코드 예.

나. 유럽 EBI(European Bioinformatics Institute) 세계 주요 바이오정보 데이터베이스 중의 하나인 EBI의 EMBL(European Molecular Biology Laboratory Nucleotide Sequence Database) 는 XML이 개발자와 설계자 사이에서 데이터 교환의 표준으로 자리 잡게 되자 EMBL 데이터를 XML 형태의 문서로 배포하고 있다(http://www. ebi.ac.uk/embl/xml/) (<그림 3.2>). 현재 사용 중인 DTD는 EMBL/DDBJ/Genbank가 공동 개발한 INSDseq와 자체 개발한 EMBLxml을 사용하고 있다. INSDseq의 DTD(http://www.ebi.ac. uk/embl/Documentation/DTD/INSDSeq_v1.3.dtd.txt)는 EMBL/DDBJ/Genbank의 세

Page 25: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

19국가참조표준센터

제2장 데이터 평가 관련 규정 및 적용문서

데이터베이스 검색 엔진에 의해 모두 서비스되고 있다. 문서중심의 XML 기술은 대규모 유전체정보의 문서중심 통합을 가능하게 하는 기술로 평가되고 있다. 유전체정보 특히 의료정보의 많은 부분은 진료차트와 같은 의학적, 법률적 효력을 갖는 문서형식으로 생성되어서 기존의 RDB 기반의 자료관리 시스템으로 처리하기에는 근본적인 한계가 있다. 요즘 유전체정보(생명정보) 분야에서는 XML 전용 데이터베이스를 구축해서 문서전체가 한곳에 저장되어 여러 테이블에 저장되는 RDB에 비해서 검색속도가 향상되었다.

<그림 3.2> EBI의 xml 사이트. EMBLxml 표준을 이용하여 EMBL 데이터 엔트리를 제공한다.

다. 다국적 Hapmap 프로젝트 HapMap 프로젝트는 인간 유전체(human genome)의 일배체 지도(haplotype map; HapMap)를 구축하기 위해 형성된 컨소시엄이다. HapMap 연구 사업은 질병을 야기할 수 있는 유전자나 유전적 변이(genetic variation)를 탐색하는 것을 도울 수 있는 유전자 지도를 구축하는데 목적을 두고 있다. HapMap 프로젝트는 캐나다, 중국, 일본, 나이지리아, 영국, 그리고 미국의 과학자들과 투자회사들이 만든 프로젝트다. 인간은 23쌍의 염색체를 가진다. 염기서열 분석결과 30억 개의 염기로 구성되어 있음을 밝혀냈다. 인간의 게놈서열은 거의 동일하지만, 평균 1200개 염기 당 한 개의 비율로 염기차

Page 26: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

20

데이터 평가 가이드 북 : 유전체 분야

이가 존재한다. 다른 염기로의 치환, 결손, 삽입 등의 변이가 존재하며 이를 단일염기다형성(SNP)이라고 한다. 대략 천만 개 정도의 SNP가 존재할 것으로 예상한다. 보통의 연구에서는 유전체에서 개인 간 유전적 차이를 일으키는 SNP같은 변이를 찾을 때 HapMap에서 제공하는 표준 유전체를 사용하고 있다. HapMap Public Release #27버전이 2009년 2월 6일 날 나왔다. Phase II, III의 유전자형과 빈도 데이터는 NCBI (dbSNP build 126)와 연결되어 있다. 데이터는 (http://ftp.hapmap.org/genotypes/) 다운로드 받을 수 있다(<그림 3.3>).

(a)

(b)<그림 3.3> Hapmap web site (a)와 데이터를 받을 수 있는 ftp 사이트 (b). 사용자들은

Hapmap 데이터를 다운로드 받을 수 있다.

Page 27: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

21국가참조표준센터

제2장 데이터 평가 관련 규정 및 적용문서

라. HUPO(Human Proteome Organization) 인간 질병을 이해하기 위해 단백질체 연구의 전문가로 구성된 HUPO에서는 단백질체 표준화 기구로서 2002년에 Proteomics Standards Initiative(HUPO-PSI)를 조직하였다. 6개의 워크그룹을 선두로 하여 표준화 작업을 하고 있다(http://www.psidev.info)(<그림 3.4>).

① Gel Electrophoresis(GEL) ② Mass Spectrometry(MS) ③ Molecular Interactions(MI) ④ Protein Modifications(MOD) ⑤ Proteomics Informatics(PI) ⑥ Sample Processing(SP)

그 중에서 MI그룹은 빠른 진행 사항을 보여주고 있다. 개발 내역을 보면 Molecular Interaction experiment에 관한 최소한의 정보를 제공해 주는 MIMIx, MI의 사용자 지정 XML 포맷인 PSI- MI XML(2005년 12월에 발표한 2.5버전), PSI-MI XML 포맷을 가진 데이터를 손쉽게 사용하기 위해 용어집인 PSI-MI CVs등이 있다.

<그림 3.4> HOPO-PSI web site. 각 그룹의 진행사항에 대해서 web site를 통해 보고되고 있다.

Page 28: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

22

데이터 평가 가이드 북 : 유전체 분야

2. 국내가. 한국생명공학 연구원 국가생물정보관리센터 2008년 12월 4일 공동연구협력을 통해 한국인 유전체의 전체 염기서열 지도를 완성했다(http://koreagenome.org)(<그림 3.5>). 유전체 분석에는 이길여암당뇨연구원 김성진 원장의 유전체가 사용됐으며 이번 연구를 통하여 한국인 표준 유전체 구축을 위한 것으로 개인 유전체 분석에 질병 관련 유전인자 등을 검색할 때 기준이 되는 유전의학, 맞춤의학, 예방의학 실현을 위해서 꼭 필요하다. 국가생물자원정보관리센터에서는 한국인 표준화된 유전체 지도화와 변이에 대한 분석이 끝난 후 생명정보분석이 가능하다. 예를 들면, 단백질에 변이가 있는지, 질병과의 연관도를 다각도로 계산한다든지, 각종 약물에 이 유전체의 소유자가 어떤 체질적 특성을 가지는지, 면역학상 어떤 특이가 있는지를 다양하게 알아 볼 수 있다. 이러한 분석의 대용량 처리를 원한다면 국가생물자원정보관리센터에 요청을 하면, 적절한 절차를 거쳐 공동해석 서비스를 받을 수 있다.

Page 29: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

23국가참조표준센터

제2장 데이터 평가 관련 규정 및 적용문서

<그림 3.5> Korean genome web site. 연구자 및 일반인들은 개인 유전체 대한 정보를 공유 할 수 있으며 유전체 정보를 다운로드 받을 수 있다.

Page 30: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

24

데이터 평가 가이드 북 : 유전체 분야

나. KHUPO(Korean Human Proteome Organization) 인간게놈프로젝트와 같은 글로벌 프로테옴프로젝트 연구를 효율적으로 수행하기 위해 산학연공동협력체를 2001년 7월 24일에 결성됐다. 고급 프로테옴분석정보와 분석 도구의 공유를 통한 비용절감, 연구결과의 산업화 및 DB 표준화를 통한세계적인 인간프로테옴 Index화에 국내연구결과 공유를 목표로 한다. 공식 일정 및 진행사항은 홈페이지 http://www.khupo.org/를 통해서 알아 볼 수 있다(<그림 3.6>).

<그림 3.6> KHUPO(Korean Human Proteome Organization) web site

Page 31: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

25국가참조표준센터

제4장 유전체 데이터의 특징

간지칼라

Page 32: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나
Page 33: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

27국가참조표준센터

제4장 유전체 데이터의 특징

생물학에서는 다양한 유형의 데이터가 사용되고 있다. 기존의 RDBMS에서는 전통적으로 booleans, integers, floating point, strings, date-time과 같은 scalar data types을 지원한다. 또한 OODBMS에서는 RDBMS보다 더 다양한 data types을 지원한다. 하지만 기존의 제한된 종류의 표준 데이터 형은 다양한 생물학 데이터를 표현하기에 부족하다. data type은 크게 sequences, graphs, high-dimensional data, shapes temporal data, patterns, text 등으로 나눌 수 있으며 자세한 설명은 아래와 같다.

Sequences 시퀀스 데이터는 컴퓨터와 같은 도구를 이용해 자동적으로 서열을 찾는 도구가 개발되고

서열을 밝히기 위한 다양한 프로젝트가 시작된 이후로 급격하게 증가하고 있다. 대부분 텍스트 형태로 저장되며 이 경우 주석정보를 추가하기 어려우며 각 글자에 대한 주소를 달고 개별적으로 다루는 것이 어렵다.

Graphs 생물학에서 사용되는 그래프 데이터의 예로서 Metabolic pathways, signaling pathways,

genetic maps, chemical structure graphs 같은 것들이 있다. 생물학자들은 그래프 상에서 부분 그래프나 관련 경로를 찾는 연산들에 관심이 있다. 그래프가 기존의 DBMS에서 저장될 수는 있지만 이와 같은 질의들은 잘 처리하지 못한다.

High-dimensional data gene expression에 대한 microarray 실험과 같이 유전자나 샘플에 대한 데이터의

array, 각 데이터에 대한 intensity 등 다양한 요소들을 표현하는 정보이다. 이와 같은 데이터를 처리하기 위해서는 고차원 데이터에 특화된 자료구조와 클러스터링 질의를 효율적으로 수행하기 위한 클러스터링 알고리즘이 필요하다.

Shapes 생물학에서는 protein, ligand, complex와 같은 3차원 molecular 구조의 shape에 대

한 데이터가 많다. 이와 같은 데이터는 구조 정보나 백터 데이터, 화학적 특징들을 표현한다.

Temporal data 환경 변화에 대한 cellular response, pathway regulation, gene expression 수준에

Page 34: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

28

데이터 평가 가이드 북 : 유전체 분야

1. 유전체 데이터 측정학

서의 변화와 같은 생물학 체계에 대한 유동적인 특성과 관련된 것을 연구하는데 있어서 중요한 데이터 형태이다. 특히 temporal data는 biological process를 시간에 걸쳐 연구하는데 있어 중요하다.

Patterns DNA, RNA, 단백질 서열에 대한 패턴을 규명하고 기술하기 위한 많은 노력들이 과

거부터 진행되어 왔다. 특히 생물학자들은 이와 같은 패턴을 수집, 저장, 질의하는데 관심이 많다. 다양하게 인코딩 된 패턴들에 대해서 많은 질의들이 시험되어야 한다.

Text text 데이터는 주석 정보나 생물학 문헌정보를 표현하는데 있어서 중요하다

생명체의 기본이 되는 생체고분자물질의 구조 및 성질과 이들의 생체 내 작용 및 대사에 대한 전반적인 이해는 인류의 수명 등 질적 향상을 가져왔다. 생명현상에 대한 물리, 화학적 특성에 대한 측정을 통하여 눈부시게 발전되어 왔으며, 이 측정에 대한 정확도를 높이려는 노력을 통하여 관련된 과학 및 기술 또한 많은 발전을 해오고 있다. 보편적으로 유전체 분야에서는 파악하고자 하는 물질의 특성에 대한 데이터를 얻기 위해서는 그 물질이 외부의 작용이나 환경에 반응하는 정도를 통하여 데이터를 얻게 된다. 즉, 유전자-유전자, 유전자-단백질, 단백질-단백질 등 여러 종류의 상호작용을 통하여 얻어진 수치화된 데이터로부터 분석 및 추론의 과정을 거쳐 측정 대상의 기능을 알아내게 되며, 이를 통하여 생명 현상을 규명하는 것이 유전체 데이터의 특성이라 할 수 있다. 이 때 대부분의 유전체 데이터는 “측정 가능한 양” 이어야 하며 높은 재현성을 보여야 한다. 이들 데이터 중에서는 직접적인 실험이나 이론 연구를 통하여 생산되는 “직접생산데이터”와 이미 생산된 데이터를 수집하거나 보완하여 간접적으로 생산한 “간접생산데이터”가 있다. 실험적 측정이나 이론적 계산에 의하여 만들어진 유전체 데이터는 대부분 기존에 알려진 실험 및 이론법칙에 의하여 잘 이해되고 설명이 되어야 신뢰성이 있는 데이터로 평가될 수 있지

Page 35: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

29국가참조표준센터

제4장 유전체 데이터의 특징

만, 기존의 이론 및 실험법칙에 의하여 설명이 잘 되지 않은 경우는 데이터를 얻는 과정을 본인이나 제 3의 연구자가 반복하여 오류를 방지하는 것이 필요하다. 그러나 반복적인 과정을 통해서도 같은 데이터가 나올 경우는 현재까지 발견되지 않은 새로운 현상에 의한 결과일수도 있으므로 매우 신중한 데이터의 평가가 필요하다. 하지만 실험실마다의 다른 실험조건, 실험방법 및 노하우 등의 차이는 생명공학의 발달에 큰 걸림돌이 되고 있다. 실험결과에 대한 정밀측정이 국가의 각종 단위 표준유지와 향상에 중요한 역할을 하므로 국내외의 여러 표준연구기관에서도 이러한 실험결과에 대한 측정정확도 및 정확성을 향상시키기 위해서 많은 노력을 기울이고 있다. 다음은 단백질 상호작용을 알고자 할 때 행하는 몇 가지 실험 기법에 관한 소개이다.

가. Yeast hybrid 2개의 단백질간의 상호작용을 Reporter 유전자의 전사 활성을 이용하여 yeast내에서 검출하는 system으로 2개 유전자의 상호작용을 확인하고 기존의 유전자 산물과 상호작용하는 유전자의 영역 결정하여 발현 library에서 상호작용을 나타내는 신규 유전자를 스크리닝 할 수 있다. Yeast 생체 내(in vivo)에서 단백질간 상호작용을 검출할 수 있어 일시적인 상호작용도 고감도로 검출할 수 있으며 검출할 때 별도의 단백질 정제나 항체가 필요 없다. 특정 유전자(bait)를 DNA 결합 도메인(DNA-BD)과 융합한 것과 그 유전자와 상호작용 한다고 생각되는 유전자(prey)를 전사 활성화 도메인(DNA-AD)과 융합시켜 yeast내에서 발현시킨다. Reporter 유전자는 yeast의 염색체에 재조합하여 Yeast 세포내에서 bait와 prey가 상호작용 하였을 경우에만 reporter 유전자 상부의 전사가 활성화 되어 영양요구성유전자나 lacZ 유전자를 발현시킨다. 실제 실험에서는 배지 상에서 영양요구성의 회복이나, β-galactosidase 활성을 측정하여 상호작용을 검출한다. Yeast two-hybrid assay 방법은 매우 강력한 방법이긴 하나 상호작용하는 단백질이 제3의 단백질을 필요로 하는 경우, 예를 들어 heterodimer인 경우, 그것을 찾아내는 것이 불가능하다. 또한, 한 번에 하나씩 상호작용하는 단백질을 찾아내는 것이기 때문에 상호작용하는 단백질들을 대규모로 찾아내는 목적에는 적합하지 않은 점이 있다. 또한 Yeast two-hybrid system를 이용한 assay로 상호작용이 양성으로 관찰되었

Page 36: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

30

데이터 평가 가이드 북 : 유전체 분야

다고 하더라도 반드시 상호작용이 있다고 결정할 수 없다.(false positive의 문제, 예, DNA-BD에 융합시킨 유전자가 단독으로 reporter 유전자의 전사를 활성화 해 버리는 경우). false positive을 줄이기 위해서 3 종류의 reporter 유전자를 가지는 AH109 yeast주를 이용하기도 한다. 이 때문에, false positive의 문제가 크게 줄어들었으며 bait 단백질과 prey 단백질에 c-Myc, HA, 6XHN의 epitope tag가 있어, Immunoblotting, CO-IP 등으로 in vitro에서 확인할 수 있다.

<그림 4.1> Yeast hybrid technology

나. 단백질 칩 단백질은 생명체 기능 및 구조에 있어 기본 물질이며 인체를 구성하는 단백질은 약 100 만종이 넘을 것으로 추정된다. 이들은 질병과도 직접적인 관련이 있어 진단 및 치료제 개발의 중요한 연구 대상이 되고 있다. 그러나 수많은 단백질의 기능을 분석하는 것은 기술적으로 매우 어렵다. 단백질은 복잡한 자체 변화 과정과 단백질-단백질

Page 37: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

31국가참조표준센터

제4장 유전체 데이터의 특징

간의 상호작용을 통하여 생물학적 활성을 나타내기 때문이다. 따라서 기존 방식을 이용하여 단백질 각각의 기능을 규명하는 것은 많은 시간과 비용 등 어려움이 뒤따르기 때문에 이를 위한 새로운 기술과 개념들이 등장하게 되었다. 그 중 대표적인 것이 분자유전학, 전자공학 및 컴퓨터공학이 접목된 단백질칩 기술이다.

<표 4.1> 대표적인 바이오칩의 비교형 태 장 점 단 점 비 고

DNA칩

- 많은 유전자를 대규모로 동시에 해석할 수 있고, 검사 대상에서 추출한 샘플을 수 시간 내에 검사할 수 있음.

- 질병 진단용으로 사용하기 위해서는 검출정밀도, 재현성, 신뢰성이 문제임.

- 몇몇 회사에 의한 원천기술 독과점 현상이 있음.

- 바이오칩 중 기술개발 진척 상태가 가장 앞서 있음.

- 여러 제품들이 출시되고 있음.

단백질칩- 인체에서 실제 기능하

는 생체물질이 단백질이므로 생체 기능 해석에 유용함.

- 단백질의 고정화 기술이 어렵고, 단백질은 환경 변화에 민감함.

Lab-on-a chip- 시료 희석, 혼합, 반응,

분리 등 모든 공정을 하나의 칩 위에서 수행 가능함.

- 기술적으로 구현이 미진하여, 본격적 상용화는 아직 어려움.

단백질칩의 제작 기술은 수만 개의 단백질들을 고체기판(금속, 유리, 플라스틱 등) 표면에 단백질의 활성화가 유지되도록 집적시키는 것으로 분석방법에 따라 다르게 적용된다. 예를 들어 SPR(surface plasmon resonance)를 분석에 이용하는 경우 금 박막 제작기술과 단백질 고정화 기술이 동시에 요구되고, 형광법을 이용할 경우 형광물질 표지 기술이 단백질 칩 제작에 필요하다. 단백질 고정화 기술은 CM-dextran(carboxymethyl-dextran) 이용 기술, 동일 특성(친수성, 소수성, 이온 결합성 등)을 지닌 단백질군을 결합할 수 있는 표면 특수처리 기술, polylysine 및 calix crown과 같이 불특정 단백질을 결합시키는 기술 등이 있다. 단백질의 상호작용을 분석하는 기술은 DNA칩에도 널리 사용되고 있는 형광분석

Page 38: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

32

데이터 평가 가이드 북 : 유전체 분야

2. 유전체 데이터 측정의 분류

(fluorescence detection)법, 단백질의 구조변화로 인한 활성을 잃는 것을 막기 위한 비표지 분석법(label-free detection), ellipsometry 및 나노 이미징(nano-imaging) 분석법 등이다. 단백질칩은 단백질 순수분리, 단백질 상호 작용 분석, 단백질 특성 분석, 신약물질의 초고속 스크리닝, 질병 진단, 식품 및 환경 모니터링 등에 활용될 수 있다. 단백질 어레이는 단백질 그 자체의 크기(보통 항체의 크기는 분자량이 155,000 Da 정도임)와 단백질 자체의 수용액 상에서 발생되는 집합체(aggregate) 문제 때문에 수백 마이크로 단위 이상에서 컨트롤이 되고, 실질적으로 100 μm 이하의 단위에서 컨트롤이 어려운 단점을 가지고 있다. 그러나 DNA칩은 30 μm 이하의 단위로 spoting이 가능하다. 따라서 최근엔 칩의 집적도를 높여 반응성을 향상시키기 위해 DNA 칩의 장점을 단백질 칩에 이용하는 연구도 이루어지고 있다.

생물학, 의학, 산업 등에서 제기된 문제의 해결을 위하여 특정 생물체의 개별 유전자들의 총합인 유전체 및 관련 정보를 체계적으로 연구하는 학문으로 여러 분야와 서로 보완적인 관계가 있다. 유전체 데이터의 분류는 일반적으로 다음과 같이 다섯 가지 영역으로 구분할 수 있다.

유전체 데이터 : 한 개체의 유전자의 총 염기서열 데이터 전사체 데이터 : 주로 마이크로어레이를 이용하여 연구되고 있는 발현된 모든 RNA

의 총합 데이터 단백질체 데이터 : 2D젤 과 질량분석기를 혼용한 방법을 통해 얻은 세포내의 단백

질 데이터 상호작용체 데이터 : 세포내의 상호작용하는 모든 분자나 물질들에 대한 데이터 구조체 데이터 : x-ray, NMR 등에 의해서 구조가 밝혀진 단백질 데이터

Page 39: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

33국가참조표준센터

제5장 유전체 데이터의 평가

간지칼라

Page 40: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나
Page 41: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

35국가참조표준센터

제5장 유전체 데이터의 평가

1. 데이터 수집 및 평가 일반 고려사항가. 데이터 평가의 일반적 원칙 참조표준은 그 정의가 말하여 주듯이 측정데이터 및 정보의 정확도와 신뢰도를 과학적으로 분석․ 평가하여 공인함으로써 국가사회의 모든 분야에서 널리 지속적으로 사용되거나 반복사용이 가능하도록 마련된 자료이므로, 직접 또는 간접으로 생산된 데이터가 참조표준으로 인정받기 위한 평가에 있어 가장 중요한 요소는 그 데이터 또는 정보에 대한 정확도와 신뢰도라 할 수 있다. 이러한 측정데이터에 대한 정확도와 신뢰도를 평가하기 위한 일반원칙은 다음과 같이 데이터 표현의 적절성, 소급성 및 불확도, 재현성, 일관성 및 예측성으로 나눌 수 있다.

1) 데이터 표현의 적절성 참조표준데이터의 기본요건으로서 우선 수집된 데이터는 측정대상에 대한 정확한 명시, 생산조건, 생산방법, 측정 데이터 및 유효숫자의 처리, 적절한 단위의 사용 등 과학적으로 통용되는 측정데이터로서의 표현방법이 적절하여야 한다. 아무리 중요한 측정결과를 얻었다 할지라도 그 표현방법이 표준화되어 있지 않다면 사용자에게 혼란을 줄 수 있으며 오용의 소지가 있을 수 있다.

2) 소급성(traceability) 및 불확도(uncertainty) 측정결과에 대한 신뢰도를 정량적으로 나타내기 위하여 지금까지는 오차, 정확도, 정밀도, 불확도 등의 여러 가지 표현들이 사용되어 왔으나, 분야에 따라 표현방법이 달라 통일된 지침이 필요하게 되었다. 이에 따라 1993년에 국제표준화기구(ISO)에서 측정불확도 표현지침서(GUM)가 발행된 이 후, 현재는 이 지침에 따라 측정불확도를 구하고 표현하는 방법이 전 세계적으로 많은 분야에 확산되어 사용되고 있다. 이 지침에 따르면 측정결과는 측정 대푯값 ± 확장불확도의 형태로 표현하게 되며, 대푯값으로는 대부분 산술평균값이 사용되지만 경우에 따라 산술평균값 대신에 가중평균, 최빈값 또는 중앙값 등을 사용하기도 한다. 아울러 불확도의 표현에 있어 필수적으로 연관된 개

Page 42: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

36

데이터 평가 가이드 북 : 유전체 분야

념으로서 측정소급성이 명시되어야 한다. 데이터의 소급성은 측정의 불확도와 밀접한 관련이 있으며, 특히, 직접 생산에서 불확도 요인이 관리되는지 여부에 해당한다. 즉, 앞으로 동일한 자료를 측정하더라도 같은 값이 유지될 것인가에 대한 평가에 해당된다. 불확도의 정의, 불확도 요인 등에 대해서는 “측정 불확도 표현 지침서”에 자세히 설명될 것이다. 간접 생산 방식의 경우, 불확도 요인 관리에 대한 정보를 얻기 힘들기 때문에 이런 평가를 포함하기에 실제적으로 어려운 측면이 있다. 따라서 소급성과 관련된 평가는 직접 생산 방식에 한정해서 적용해야 할 것이다. 직접 생산 방식의 경우, 다음과 같은 소급성 평가를 수행할 수 있다.

계측기기의 교정 여부 자료 생산의 소급성 유지를 위하여 직접 생산의 경우에는 생산기관의 주기적인 계측기기 교정이 이루어져야 하며, 품질 보증 절차를 갖추어야 한다. 산자부 고시 1999-109호에 따라 계측기기의 교정은 산업자원부에서 인정하는 국가 교정기관에서 실시하여야 한다. 계측 기기의 종류에 따라 국가 교정기관이 존재하지 않는 경우에는 해외 공인 기관 또는 제3자에 의하여 교정을 실시할 수 있을 것이다. 교정의 주기는 국가교정기관 지정제도 운영요령 41조에 표시된 관련 주기를 참조하여 정할 수 있을 것이다. 계측기기의 교정 정보는 품질관리 문서로 보관되어야 할 것이다.

측정 절차의 소급성 복잡한 생산 절차를 거쳐서 데이터가 생산되는 경우에 전반적인 측정절차의 소급성 테스트가 필요하다. 소급성 테스트는 참조표준이 존재할 경우, 참조표준 자료를 활용할 수 있지만 등록된 참조표준이 존재하지 않을 때에는 이미 잘 알려진 자료를 기준으로 측정절차의 소급성을 확보할 수 있을 것이다. 측정절차의 소급성 정보는 계측기기의 교정 정보와 아울러 품절 문서로 보관되어야 할 것이다.

3) 재현성(reproducibility) 데이터의 신뢰도를 판단할 수 있는 또 다른 하나의 지표로 데이터의 재현성이 있다. 데이터의 재현성은 측정대상과 측정방법이 서로 독립된 실험이나 생산에서 얼마나 똑같이 재현될 수 있는가와 관련된 문제로서 측정방법이나 측정대상이 다르면 데이터도

Page 43: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

37국가참조표준센터

제5장 유전체 데이터의 평가

달라 질 수 있으므로 데이터의 신뢰성에 중요한 요인이 된다. 재현성은 측정대상을 여러 방법을 사용하여 측정하므로 데이터 평가자는 각 방법이 가진 한계를 잘 알아야 한다. 이러한 성질을 알고 나면 측정 절차의 세부적 깊이가 결과해석과 측정방법의 일반적 적용과 관련하여 이로부터 얻어지는 결론에 어떻게 영향을 미칠 수 있는지 명확해지며 해당 데이터를 평가할 때에는 이러한 모든 문제를 주요사안으로 검토해야 한다. 재현성 확보를 위해서는 다음 사항들이 기술하여야 한다.

측정의 대상과 목적을 충분하고 명확히 제시하여 다른 측정자가 동일한 측정대상을 측정할 수 있도록 명시한다.

각각의 측정방법을 설명하며 해당 측정방법의 적절성 및 한계를 명시한다. 제3자의 측정자가 측정방법을 재현할 수 있도록 충분한 정보를 명시한다. 각 측정 방법에 따른 불확도 및 신뢰범위들을 명시한다.

4) 일관성(consistency) 및 예측성(predictability) 일관성이란 한 측정데이터가 다른 방법으로 확인한 결과와 부합하는 정도로서, 동일한 측정량에 대한 다른 측정결과와의 부합 정도, 서로 상관관계가 있는 다른 특성으로 별도로 측정한 결과와의 부합 정도, 동일한 측정에 대하여 지금까지 보고된 데이터와의 상충정도 등을 말한다. 예측성이란 측정 변수들 간의 상관관계나 함수모델링을 통하여 한 변수로부터 다른 변수를 추정할 수 있는 정도를 말하며, 예측성의 신뢰도는 모델의 신뢰도와 직결되어 있으므로 모델의 신뢰도 검증이 예측성 평가의 요점이라 할 수 있다. 따라서 새로이 생산된 데이터가 참조표준으로 인정받기 위하여 데이터에 대한 정확도와 신뢰도를 평가하기 위한 판단기준으로서 “참조표준 제정 및 보급에 관한 운영요령” 제9조에서는 상기의 일반원칙을 기반으로 하여 총 11 항목의 세부 기술평가 기준을 정하여 놓았으므로 모든 데이터들은 이 평가기준에 따라 평가되어 기준에 부합되는 데이터만이 참조표준으로 인정받을 수 있게 된다.

유전체 분야는 매우 다양한 종류의 유전체 데이터들이 존재하며 저널, 서적, 연구소

Page 44: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

38

데이터 평가 가이드 북 : 유전체 분야

등을 통하여 방대한 양의 자료들이 공개되어 활용되고 있다. 이러한 다양한 유전체 데이터를 활용할 때 고려 사항은 유전체데이터가 유전체 실험방법 중 어떠한 과정을 통해서 생성되었으며, 유전체데이터 생산과정을 신뢰할 수 있는지가 가장 중요한 문제이다. 전 세계적으로 과학기술이 발전함에 따라 서로 다른 국가에서 생산되는 유전체 데이터를 공유하기 위한 노력들이 이루어지고 있다. 유전체를 연구하는 연구자들이 유전체데이터를 서로 신뢰하며 사용하기 위해서는 보다 객관적인 생산절차에서 생산되어야 하며, 또한 이러한 유전체데이터들의 평가를 통해 신뢰성이 높은 데이터를 생산하여야 한다. 본 지침서에서는 데이터 평가와 관련된 주요한 원칙과 개략적인 절차들을 제시하고자 한다.

나. 데이터 생산 방식 참조표준을 생산하는 방식에는 데이터의 생산 방법에 따라서 다음과 같은 두 가지 방식이 있으며, 생산방식의 차이에 따라 평가 절차도 약간 차이가 있을 수 있으나, 두 가지 생산 방법 모두에서, 앞 절의 네 가지 평가원칙은 준수되어야 하며 평가절차는 원칙적으로 다음 장에서 기술하는 같은 방법이 적용된다.

1) 직접생산 방식 직접생산방식은 데이터 생산자가 직접 실험 또는 이론적 계산을 수행하여 데이터를 생산하는 방식이다. 이 방법으로 생산된 데이터를 참조표준으로 지키기 위해 적용하는 평가 기본 원칙은 다음 절에서 소개하게 될 간접생산방식과 같다. 그러나 데이터 생산자가 신뢰할 만한 생산 능력을 갖추었는지의 여부를 판단하여야 하며, 또 그 데이터와 비교할 다른 데이터가 존재하지 않는 경우의 평가에 관하여 규정할 필요가 있다. 비교할 데이터가 있을 경우에는 이를 포함하여 대푯값을 결정하고 이에 따른 불확도 평가를 수행하여야 한다. 국가참조표준센터 기술위원회에서 직접생산 데이터의 등급을 심사하는 경우, 기술위원회는 데이터 생산자 개인/그룹의 능력을 종합적으로 판단하여 데이터 생산자의 능력의 적합성을 판별하여야 한다.

Page 45: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

39국가참조표준센터

제5장 유전체 데이터의 평가

2) 간접생산 방식 간접생산 방식은 기존 문헌에서 정보를 수집, 평가하거나 직접실험을 수행하지는 않고 생산하는 방식이다. 간접생산 방식의 데이터 평가는 평가하고자 하는 자료 자체 뿐 만이 아니라 문헌에 포함된 측정절차, 측정절차의 접합성 검증, 불확도 표현, 재현성 표현 등도 함께 표현되어야 한다. 문서의 검토를 시작할 때 평가자는 먼저 평가 원칙을 정립하여야 한다. 평가 원칙에는 관련된 모든 변수가 무엇이며, 이 변수들이 어떻게 통제 되는지 등이 포함되어야 한다. 이러한 측면에서 비전문가들은 기본적인 절차를 정립하기 어려우며, 따라서 전문가들의 견해가 필요하다.

다. 법 ․ 제도적 고려사항 본 지침서 2장에 참조표준의 정의와 분류 및 평가기준이 명시되어 있으므로 여기서는 등록절차에 대해서 다루고자 한다.

1) 참조표준 등급부여절차 ① 기술위원회는 제7조 제2항 및 제10조의 규정에 따라 데이터센터에서 요청한

참조데이터에 대하여 등급을 부여하고 그 결과를 데이터센터에 통보한다. ② 데이터센터는 기술위원회의 등급부여 내용에 대해 이의가 있을 경우 결과통

보 후 15일 이내 별지 제8호 서식의 이의 신청서를 작성하여 센터장에게 제출한다.

③ 센터장은 데이터센터로부터 이의제기를 받았을 경우에는 기술위원회를 소집하여 이의내용을 심의하고 15일 이내에 그 심의결과를 서면으로 데이터센터에 통보하여야 한다.

2) 참조표준 등록 요청 ① 데이터센터는 제22조의 참조표준 등급부여절차에 따라 등급부여가 확정한

경우 센터장에게 등록을 요청하여야 한다. ② 제1항의 규정에 의하여 참조표준 등록을 요청하고자 하는 데이터센터는 별

지 제9호 서식의 참조표준 등록요청서를 다음의 서류를 첨부하여 센터장에

Page 46: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

40

데이터 평가 가이드 북 : 유전체 분야

2. 데이터 평가 절차

게 제출하여야 한다.

3) 참조표준안 예고 ① 제23조 규정에 의거 데이터센터로부터 참조표준 등록요청을 받은 센터장은

다음 내용에 대하여 참조표준센터 홈페이지에 게재하고 30일간 관련기관의 의견을 수렴하여야 한다.

② 센터장은 제1항의 규정에 의한 기간 내에 이해관계인으로부터 참조표준안에 대한 의견이 접수되었을 경우 그 내용을 종합하여 기술위원회에 재심사를 요청할 수 있다.

③ 센터장은 재심사 결과 변경사항이 있는 경우에는 그 내용을 다시 홈페이지에 15일간 게재하여 의견을 들어야 한다. 다만 변경내용이 경미한 경우 이를 생략할 수 있다.

4) 참조표준의 심사와 등록 ① 센터장은 입안예고를 마친 참조표준안에 대하여 운영위원회에 심의를 요청한

다. ② 운영위원회는 데이터센터에서 제출한 참조표준안을 제11조의 적정성 평가기

준에 따라 심의한다. ③ 센터장은 운영위원회의 심의결과를 반영하여 참조표준을 참조표준센터에 등

록한다. ④ 센터장은 참조표준의 등록을 위한 전용 사이트를 구축, 운영, 유지 및 관

리하여야 한다. ⑤ 센터장은 별도로 정한 기준에 따라 참조표준에 등록번호를 부여한다.

이 절에서는 우리나라 참조표준제정 및 보급에 관한 운영요령에 명시된 데이터 평가의 주요 항목을 조목별로 상술하고, 다음 3 절에서는 데이터 평가시 따라야할 구체적 평가절차를 보여주는 순서도(flow chart)를 제시하였다.

Page 47: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

41국가참조표준센터

제5장 유전체 데이터의 평가

요령 제9조에서 참조데이터를 평가하여 참조표준으로 등급을 부여하기 위한 기준을 다음과 같이 정하고 있다.

측정대상이 명확하게 명시되어 있는지 여부 측정방법 및 절차에 대한 설명의 명시 여부 측정방법의 적절성 여부 측정결과에 영향을 주는 요인의 제어 여부 불확도(uncertainty) 평가 및 평가의 적절성 여부 실험적 경향과 일관성(consistency) 여부 잘 알려진 이론식 또는 실험식을 통한 데이터 예측가능성 검증 여부 2인이상 관련분야 제3자의 종합검토를 받았는지 여부

가. 측정대상이 명확하게 명시되어 있는지 여부 직접생산방식에서 생산하려는 데이터, 간접생산방식에서 수집하려는 데이터, 평가대상 데이터는 명확히 정의되어야 하고, 생산목적에 부합하여야 한다. 측정하고자하는 대상이 정확히 명기되어 있지 않다면 그 측정은 의미가 없다. 일반적으로 유전체, 단백질체, 생명자원 분야에서 실험하는 대상은 매우 방대하나 각 분야별로 측정대상이 명확하게 명시하도록 한다. 특히 생명체에 대한 측정 및 실험은 그 대상을 정의하지 않았을 경우 기대와는 전혀 다른 측정결과를 생산할 수 있으므로 측정 대상이 정의되지 않는 데이터는 데이터 평가에서 제외하도록 한다. 측정대상이 유전체인 경우 DNA를 중심으로 대상을 정의하며, 단백질체에서는 protein, 생명자원에서는 종을 중심으로 정의하도록 하며, 각 분야 성격에 맡게 측정 대상을 명시할 수 있다. 측정대상의 정의와 함께 측정하고자 하는 샘플(실험시료) 또한 명시되어야 한다. 샘플은 명확한 이름과 출처가 이루어 져야 하며, 샘플에 대한 부가적인 처리 여부 또한 자료의 평가항목이 되기 때문에 표시되어야 한다. 가장 기본적인 정보인 샘플의 출처와 처리방법이 표기되지 않은 경우에는 데이터 평가에서 제외하도록 한다. 생명자원일 경우에는 샘플링의 장소, 일시, 수집방법 및 수집자 등이 표시될 수 있다. 측정대상을 정의함에 있어 측정의 조건이 명확히 정의되어 있지 않는 경우에는 반드시

Page 48: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

42

데이터 평가 가이드 북 : 유전체 분야

이를 표기해야 하며, 측정의 조건에는 종, 실험조건 등의 정보가 포함되어야 할 경우 추가적으로 명기하도록 한다. 생명공학 실험에서는 표본 집단을 선별하여 측정하므로 표본 집단이 통계적으로 의미 있는 집단이어야 한다. 통계적 분석이 가능한 데이터를 얻기 위해서는 다음의 몇 가지 원리에 합당하게 측정대상을 선정해야 한다.

랜덤화 : 측정에 사용되는 인자 외에 기타 요인들의 영향으로 인해 실험결과에 편의가 발생되지 않도록 하는 방안이다. 실험에서 고려하는 모든 조건에 실험자의 자의적 판단이 포함되어서는 안 된다.

반복 : 동일 요인 수준에서 두 번 이상 실험할 때, 반복 실험이라 부른다. 반복을 함으로써 오차항의 자유도를 크게 해줄 수 있으며, 오차분산을 정확하게 추정하여 실험 결과의 신뢰성을 높일 수 있다. 그러나 지나친 횟수의 반복은 바람 직 하지 않다.

블록화 : 실험의 환경을 될 수 있는 한 작은 부분으로 쪼개어 여러 블록으로 만든 후에 블록 내에서 각 인자의 영향을 조사하는 방법이다. 측정전체를 시간적 혹은 공간적으로 분할하여 블록을 만들어 주면 각 블록 내에서는 실험 환경이 균일하게 되어 변동을 줄일 수 있으므로 보다 정확(precision)한 결과를 얻을 수 있다.

교략 : 교호작용을 블록과 교락시키는 방법이다. 검출할 필요가 없는 용인 블록의 효과와 혼재하게 됨으로써 적은 실험 회수로 원하는 검정을 할 수 있다. 즉 이 원리를 이용하면 실험의 효율을 높일 수 있다.

직교화 : 요인 간에 직교성을 갖도록 실험을 계획하여 자료를 구하면 같은 실험 회수라도 검출력이 더 좋은 검정을 할 수 있고, 정도가 더 높은 추정을 할 수 있다.

따라서, 표본 집단의 정의를 위해 데이터에 대한 설명과 목적을 명시하여 측정 대상에 대한 이해를 높여야 한다. 상위 직접생산방식과 달리 간접 생산의 경우 참고문헌, 출처 및 저작권의 표시여부 등을 명시하여 데이터 표현의 적정성을 판단할 수 있도록 해야 한다.

Page 49: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

43국가참조표준센터

제5장 유전체 데이터의 평가

<표 5.1> 단백질 상호작용 간접생산 측정대상의 정의항목 내용

단백질 단백질 이름과 심벌종 단백질이 발현되는 종

상호작용 형태 상호작용 형태를 표시참고문헌 참고문헌 표시

출처 생산자 또는 출처 표시

나. 측정방법 및 절차에 대한 설명의 명시 여부 측정이 얼마나 정확하고 믿을만한가 하는 문제를 해결하기 위해 측정방법을 명시하고 이에 대한 정확성과 재현성이 확보되어야 한다. 우리가 이용하는 측정을 가장 정확하게 하기 위하여 필수적인 부분이며 운영요령 제9조의 기술평가기준에서는 측정방법과 관련하여 측정방법 및 이론 계산에 대한 설명내용 명시여부와 측정방법의 적절성 및 한계여부를 평가하도록 되어 있다. 생명공학 분야에서 사용되는 측정 방법이나 계산 방법은 이미 검증된 절차를 따를 경우가 많다. 하지만 어떤 경우 측정자에 의해 수정되거나 새로운 방법을 제시하는 경우도 있으므로 기존의 방법을 수정하거나 새로운 방법을 제시하는 경우에는 상세한 설명이 명시되어야 한다. 측정방법의 기술에는 다음과 같은 내용들이 포함되어야 한다.

측정 실험을 통한 데이터는 실험 방법 및 실험 장치에 대한 설명 이론 계산을 통한 데이터는 적용한 이론에 대한 설명 시험법, 적용 방법의 적절성 및 한계에 대한 설명 시험 방법에서 결과에 영향을 줄 수 있는 변수에 대한 설명 측정기기의 명칭, 제조사 측정 절차 데이터의 처리 방법

Page 50: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

44

데이터 평가 가이드 북 : 유전체 분야

생산 기본요건과 관련된 기타 필수 정보

다. 측정방법의 적절성 여부 측정방법이 적절하다면 기존의 다른 방식으로 얻어진 데이터들과 비교할 수 있는 재현성 있는 데이터를 생산할 수 있을 것이다. 데이터의 재현성은 측정대상과 측정방법이 서로 독립된 실험이나 생산에서 얼마나 똑같이 재현될 수 있는가와 관련된 문제로서 측정방법이 적절하지 않거나 측정대상이 다르면 데이터도 달라질 수밖에 없기 때문에 측정방법의 적절성을 데이터 평가의 주요 요건으로 취급하는 것이다. 그러나 적절성여부를 판단할 충분한 데이터가 존재하지 않거나, 문서만으로 측정방법의 적절성을 판단하기 어려운 경우에는 기술위원회에서 전문가들이 검토한 의견을 참고하여 측정방법의 적절성 여부를 판단하는 것이 바람직하다.

라. 측정결과에 영향을 주는 요인의 제어 여부 측정결과에 영향을 주는 요인으로는 측정인력, 측정환경, 측정방법, 소급성 등이 있으며, 이들을 적절히 제어한 상태에서 측정이 이루어 졌는지는 측정 재현성을 담보하기 위한 주요 요건이다. 이것을 도표로 나타내면 그림5.1과 같다.

<그림 5.1> 측정결과에 영향을 주는 요인들의 분석 사례

Page 51: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

45국가참조표준센터

제5장 유전체 데이터의 평가

소급성은 비교적 새로운 개념이며, 미국의 우주개발에서 부품의 신뢰성 확보를 위하여 측정된 결과를 근원적인 기준으로 거슬러 올라가는 과정을 명확하게 파악하여 데이터의 신뢰성을 객관적으로 나타낼 필요성에서 생겨났다고 한다. 즉, 현장의 측정결과를 단계적으로 소급시켜 최종적으로는 국가표준과 비교함으로써 정량적인 평가 및 표현이 가능하도록 하는 것이다. 모든 측정의 표준이 되는 근거는 구체적으로 국제단위계(SI)에 있는 기본단위나 유도단위의 구현이 정점이 된다. 따라서 측정표준의 보급체계는 상위의 표준에서 하위의 기기 등에 차례로 표준흐름이 계승되어 가는 과정을 의미하는 한편, 반대로 하위의 현장기기 등이 상위의 표준으로 거슬러 올라가면서 그 신뢰성을 확인하는 체계를 측정소급성(metrological traceability)이라 부른다. 측정소급성의 확인목적은 측정결과가 신뢰할 수 있는 측정표준과 연결 지어져 관리되고 있다는 것과 그리고 측정결과가 국제적으로 동등하다고 인정되는 측정표준에 연결되어 있다면 그 결과의 국제적 동등성이 쉽게 확인될 수 있다는 것을 확실하게 함으로써 측정결과의 신뢰성을 보증하는 것이다. ILAC(국제시험소인정협의체)이나 APLAC(아시아태평양지역 시험소인정협의체)에서 규정하고 있는 소급성에 관한 방침에는 소급성을 특징짓는 요소로서 다음 6가지 사항이 필요하다고 설명한다.

통상적으로 국가 또는 국제표준으로서 그 단체에 용인된 표준으로 거슬러 올라가는 ‘비교의 단절이 없는 사슬’.

측정불확도 : 소급성 사슬의 각 단계별로 측정불확도는 합의된 방법에 따라 계산되며, 전체 사슬에 대해서 포괄적인 불확도가 계산될 수 있도록 표기되어야 한다.

문서화 : 사슬의 각 단계는 문서화되어 일반적으로 인지되고 있는 절차에 따라 실시되어야 하며, 결과도 마찬가지로 문서화되어야 한다.

능력 : 사슬에 있어서 하나 이상의 단계를 실시하는 교정기관은, 예를 들어 인정받았다는 것을 증명하는 그 기술능력에 관한 증거를 제시해야 한다.

국제단위계(SI)로의 소급 : 비교 사슬은 SI를 구현하는 일차표준으로 끝나야 한다.

교정 : 교정은 적절한 주기로 교정되어야 하며 이러한 주기는 변수의 수, 예를

Page 52: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

46

데이터 평가 가이드 북 : 유전체 분야

들어 필요한 불확도, 사용 빈도, 사용 방법, 장치의 안정성에 의존한다.

이상의 여러 요건들이 만족될 때 데이터 신뢰성의 기본 전제라 할 수 있는 재현 가능성 혹은 재현성이 우수하다고 말할 수 있다. 재현성은 측정대상과 측정방법의 확인(identification), 설명(description) 및 비교가능성(comparability)과 관련된 것으로 이미 본 평가절차의 앞 절들에서 설명한 바 있다. 동일한 특성을 여러 방법을 사용하여 측정할 때 데이터 평가자는 각 방법이 가진 한계를 잘 알아야 한다. 이러한 성질을 알고 나면 측정절차의 세부적 깊이가 결과해석과 측정방법의 일반적 적용과 관련하여 이로부터 얻어지는 결론에 어떻게 영향을 미칠 수 있는지 명확해지며, 해당 데이터를 평가할 때에는 이러한 모든 문제를 주요사안으로 검토해야 한다. 재현성 확보를 위해서는 다음 사항들을 기술해야 한다.

측정의 대상과 목적을 충분하고도 명확히 제시하여, 다른 측정자가 동일한 측정대상을 측정할 수 있도록 하여야 함

다른 측정자가 측정방법을 재현할 수 있도록 충분한 정보 제공. 대상이 되는 데이터에서 제시한 실험 방법과 절차에 따라 제3자에 의한 실험 방법의 재현 가능성

측정방법의 적절성(불확도, 범위) 및 한계 명기 데이터 생산 방법과 시기, 소급성 유지 등에 관한 내용 기술

마. 불확도(uncertainty) 평가 및 평가의 적절성 여부 데이터가 나타내는 수치가 정확하지 않다면 데이터의 재현성이 아무리 좋아도 그 데이터는 신뢰할 수 없게 된다. 그 데이터 값의 신뢰성을 합리적이고 정량적으로 나타내기 위해서는 불확도 표현 방법을 활용하는 것이 편리하다. 불확도란 참값에 가까운 정도를 나타내며 정확도(accruracy) 및 정밀도(precision)를 포함하는 개념으로 “측정결과에 대하여 사용된 정보를 근거로, 측정량의 속성으로 여겨지는 양 값의 분산 특성을 나타내는 파라미터”이다(국제측정학용어집 KRISS-SP-2003-069). 한국표준과학연

Page 53: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

47국가참조표준센터

제5장 유전체 데이터의 평가

구원에서 편찬한 “측정 불확도 표현 지침서”에 따르면 측정의 불확도를 평가하는 방법은 다음과 같이 분류될 수 있다.

1) 불확도의 A형 평가(type A evaluation of uncertainty) 일련의 관측값을 통계적으로 분석하여 불확도를 구하는 방법이다. 반복 측정값의 빈도 분표에 근거한 확률 밀도 함수로서 구한다.

2) 불확도의 B형 평가(type B evaluation of uncertainty) 일련의 관측값의 통계적 분석이 아닌 다른 방법으로 불확도를 구하는 방법이다. 기존의 정보 또는 문헌을 통해 측정값이 가질 수 있는 확률 밀도함수를 가정하여 구한다. 모든 근거는 과학적 판단에 의하여 평가되며 이에 포함되는 정보는 다음과 같다.

과거의 측정 데이터 관련재료와 기기의 거동 및 특성에 대한 일반지식 제작자의 규격 교정 및 기타 인증서에 주어진 데이터 핸드북에서 인용한 참고자료의 불확도

3) 합성표준불확도(combined standard uncertainty) 측정 결과가 여러 개의 다른 입력량으로 부터 구해질 때 이 측정결과의 표준불확도를 합성표준불확도라 한다. 합성표준불확도는 각 입력량의 변화가 측정결과에 미치는 영향에 따라 가중된 분산과 공분산의 합의 양의 제곱근으로서 “불확도 전파법칙”에 의하여 구해진다. 불확도 전파법칙은 “측정 불확도 표현 지침서”에 상세히 기술되어 있다.

4) 확장불확도(expanded uncertainty) 합성표준불확도에 측정량의 합리적인 추정값이 이루는 분포의 대부분을 포함할 것으로 기대되는 측정결과의 어떤 구간을 정의하는 양인 포함인자 k 를 곱하여 얻는다. 포함인자 k 의 값은 그 구간에 대하여 요구되는 포함확률 또는 신뢰 수준에 따라 정의

Page 54: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

48

데이터 평가 가이드 북 : 유전체 분야

되는데, 보통 2와 3의 값을 갖는다. 포함인자를 구하는 방법은 “측정 불확도 표현 지침서”에 상세히 기술되어 있다. 불확도 평가 방법은 여러 번의 관측 값을 통계적으로 평가하는 방법(A형 평가)과 그 이외의 수단을 이용하는 방법(B형 평가)으로 구분하여 여러 입력량의 표준불확도를 구하고, 불확도 전파 법칙에 따라 모든 표준불확도를 합하여 합성표준불확도를 구한다. 그 다음 포함인자를 적용하여 총체적인 확장 불확도를 구한다. 이 확장불확도를 이용하여 여러 분야에서 실제적으로 사용할 수 있는 측정량이 포함될 수 있는 구간을 나타낸다.

5) 불확도의 보고가) 직접생산의 경우

측정결과와 그 불확도를 보고할 때 계산방법 및 신뢰구간 등 해당 측정결과의 불확도를 이해하기 위한 상세한 정보를 명시한다. 예를 들면 다음과 같은 정보는 꼭 포함되어야 한다.

실험관측과 입력데이터로부터 얻은 측정결과와 그 불확도를 계산하기 위하여 사용된 방법을 명확히 기술한다.

모든 불확도 성분들을 열거하고 이들의 평가 방법을 철저하게 기술한다. 필요한 경우 각각의 중요한 단계를 쉽게 따라할 수 있고, 보고된 결과를 독립적

으로 반복하여 계산 할 수 있도록 데이터 분석방법을 제시한다. 분석에 사용된 보정값 및 상수들과 그들의 출처를 명시한다.

불확도를 보고할 때 다음의 지침을 따른다.

측정량이 어떻게 정의되어있는지 완전한 내용을 포함한다. 측정량의 추정값과 그 합성표준불확도 또는 확정표준불확도 값과 단위를 표시한

다. 확장표준 불확도인 경우, 포함인자 k 의 값을 표시한다. 필요한 경우, 상대확장 불확도를 표시한다.

Page 55: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

49국가참조표준센터

제5장 유전체 데이터의 평가

적합한 신뢰구간 및 그 값의 결정 방법을 표시한다. 기타 필요한 정보를 표시한다.

나) 간접생산의 경우 간접생산 방식인 경우, 불확도와 관련된 자료는 제한적인 경우가 많으며, 대부분 다음의 3가지 정보를 일반적으로 포함하도록 한다.

측정 장비의 사양 : 측정값들이 측정 장비로부터 직접 측정되는 경우, 측정 장비의 제작사 및 서비스 업체에서 제공하는 기기의 불확도를 표시하는 경우가 많다. 이 경우에는 B형 불확도 평가에 해당된다.

반복된 측정결과의 표시 : 동일한 값을 여러 번 측정하여 관측값을 통계적으로 분석하여 불확도를 표시한다. 이 경우에는 A형 불확도 평가에 해당된다.

합성표준불확도 : 측정된 값이 복합적인 요소로 구성되어 있을 때(수식을 통하여 계산된 경우) 불확도 전파법칙에 근거하여 계산된 합성표준불확도를 보고한다.

또한, 불확도를 이용하여 정확도를 구한 다음 민감도(sensitivity)와 특이도(specificity)로 검증한다. 민감도란 알고자 하는 현상의 진가(true value)를 이 측정으로 얼마나 반영할 수 있느냐의 정도를 말하며 바꾸어 말하면 이 측정도구(measuring tool or test)가 종합 진단에 의해 확진된 질병을 그 질병이라고 판단해 주는 능력을 의미한다. 한편, 특이도는 이 측정도구가 그 질병이 아닌 것을 아니라고 판단해 주는 능력이며, 예측도는 그 측정도구가 그 질병이라고 판단된 사람들 중에 실제 그 질병을 가진 사람들의 비율로써 측정 자체의 예측능력을 의미한다. 이러한 측정 정확도의 검증은 주로 어떤 질병의 진단목적으로 이용되는 검사, 특히 많은 수의 사람을 짧은 시일 내에 적은 비용으로 쉽게 조사하여 환자 후보자를 걸러내는(screening)집단검진에 이용되는 검사방법에 대하여 반드시 필요한 것이다. 뿐만 아니라 새로 개발된 검사방법에 대해서도 정확도가 확정되어야만 그 가치를 인정받게 된다. 그러므로 검사시약의 설명서 대부분은 그 검사의 민감도와 특이도를 표시하고 있다. 정확한 측정방법이란 민감도가 높아야 하지만 동시에 특이도도 높아야 한다. 만약 잘 알려진 측정 장비 또는 측정방법으로부터 민감도와 특이도 또는 이에 상응

Page 56: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

50

데이터 평가 가이드 북 : 유전체 분야

하는 정확도 값이 주어질 경우 이를 사용하고 측정 장비 또는 측정방법으로부터 민감도와 특이도를 얻을 수 없을 경우 측정결과를 이용하여 민감도와 특이도를 명시하도록 한다.

바. 실험적 경향과 일관성(consistency) 여부 일관성은 다른 방법으로 얻은 결과와 부합하는지 여부, 잘 알려진 법칙과 일치하는지 여부와 관련된 문제로서 전문 분야에 따라 차이가 있을 수 있지만 다음 항목을 만족시키면 대체적으로 일관성이 있다고 볼 수 있다.

1) 측정값이 다른 특성 값으로부터 추정한 값과 일관성이 있는가? 한 가지 측정량에 관한 실험/이론, 실험/실험, 그리고 이론/이론 데이터 간의 일관성을 평가한다. 허용 불확도 내에서 다른 특성 값을 사용하여 상호 연관성 확인이 가능하다.

2) 데이터의 값이 다른 특성값 또는 경향(trend)과 상치되는 점은 없는가?

실험대상이 되는 데이터는 이미 알려진 법칙과 이론에 위배되지 않아야 한다. 특성값을 직접적으로 확인할 수 없는 경우, 현재의 결과가 같은 타입의 측정대상 또는 현상에 대한 일반적 지식 기반과 상충되지 않는다는 것을 검증하는 것이 바람직하다. 그 특성에 대한 독립된 다른 측정 결과 중에 현재 데이터와 상당히 상층 되는 결과가 있을 가능성도 살펴야 한다. 학습이나 경험적 지식도 평가를 하는 데 적용할 수 있다.이상과 같이 일관성의 문제는 현재의 데이터 값을 다른 데이터 값 또는 경향이나 상관관계 또는 잘 알려진 특성관계 등을 통해 검토하는 것이다. 그러나 어떤 데이터가 앞 세 개의 일관성 기준에 부합하지 않더라도 기존에 알려진 결과 또는 법칙을 개선할 수 있는 데이터는 일관성이 확보되지 않더라도 전문가 평가를 통하여 등급부여가 가능하도록 한다. 다른 실험 및 이론 데이터의 부재로 인하여 데이터의 일관성을 확보하지 못할 경우 기 사용된 다른 대상 데이터로부터 실험 및 이론 방법의 일관성 만족 여부를 판별한다.

Page 57: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

51국가참조표준센터

제5장 유전체 데이터의 평가

사. 잘 알려진 이론식 또는 실험식을 통한 데이터 예측가능성 검증 여부 측정 데이터들 간의 이러한 상관관계를 수학적 모델로 표시할 수 있으면 데이터의 경향을 예측할 수 있고 서로 독립적으로 실험하여 얻은 데이터들의 이상치 검색이 가능하며 모델링을 통하여 결과를 예측하고 내삽 기능을 제공하며 제한적 조건하에서 외삽 기능도 제공 가능할 수 있다. 수치로 표현된 데이터만으로는 생명현상의 개념적 이해를 얻을 수는 없다. 관측된 거동의 개념적 이해를 표현한 것을 보통 모델이라고 한다. 수학적으로 표현할 수 있는 모델은 측정된 여러 데이터의 일관성 확인, 일반적 경향을 따라가는지 여부 및 예외적 거동의 식별을 위한 기초가 되기 때문에 데이터 평가에 특히 중요하다. 서로 다른 특성들 사이의 관계를 독립적으로 수행된 측정에서 얻은 데이터에 성공적으로 적용할 수 있는 경우, 이 결과로 두 결과를 상호 검증할 수 있게 된다. 더욱이 이러한 관계가 타당하고 신뢰할 수 있는 것으로 판명되면 직접적 측정결과를 얻을 수 없을 때 이러한 관계를 사용하여 특성 값을 추정하는 것이 가능해 진다. 일반적으로 상관관계는 다양한 목적으로 사용되는데 가장 강력하게 사용할 수 있는 기능은 특성 값을 추정할 때 신뢰할 수 있는 내삽 기능을 제공하는 것이다. 또한 제한된 조건에서는 실험적으로 관측된 범위 밖에서 특성을 추정하기 위해 외삽하는 수단으로도 사용될 수 있다. 상관관계 규명이나 분석의 목적으로 반경험적(semiemprical) 모델을 사용하는 경우, 그 모델의 매개변수*(parameter)는 특정한 물리적 특성과 연관을 갖거나 매개변수 자체가 물리적으로 의미 있는 해석을 가질 수 있다. 두 경우 모두 모델을 관측된 데이터에 피팅(fitting)시켜 유용한 정량적 추정을 이끌어 낼 수 있다.

아. 2인이상 관련분야 제3자의 종합검토를 받았는지 여부 학회지 및 기타 발행 기관은 논문이 해당 분야의 지식을 가지고 있는 것으로 판단되는 한 사람 이상의 사람이 논문을 독립적으로 검토하도록 엄격히 요구한다. 이러한 경우, 보고된 값은 검토자의 학식과 경력 내에서 타당한 것으로 받아들여진다. 검토자가 어떤 논리적 근거로 논문 내용을 평가하는지는 알지 못하여도 논문내용이 게재를 거부할 만큼 부실하지 않으며 더 중요한 것으로 최소한 논문내용에 발간을 뒷받침할 수 있

Page 58: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

52

데이터 평가 가이드 북 : 유전체 분야

는 특출난 점이 있다는 것으로 볼 수 있다. 이와 마찬가지로 데이터 평가에서도 관련분야의 제3의 전문가가 각자 나름대로 논리적 근거를 가지고 평가절차에 따라 데이터를 평가하였다면 데이터가 참조표준으로서의 가치를 가지고 있다는 증명이 될 수 있다. 추가사항: 전문가 평가에서는 유전체 참조표준을 위한 임상자료를 사용할 경우 반드시 임상자료 획득과정에 있어서 윤리심의위원회(IRB)의 검토를 거쳤는지 확인하여야 한다.

Page 59: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

53국가참조표준센터

제5장 유전체 데이터의 평가

3. 데이터 평가 순서도 이 절에서는 참조표준제정 및 보급에 관한 운영요령에 명시된 데이터 평가의 주요 항목에 따라 상술하며, 데이터 평가시 따라야 할 구체적 평가절차는 아래 그림과 같다.

Page 60: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

54

데이터 평가 가이드 북 : 유전체 분야

<그림 5.2> 데이터 평가순서도

Page 61: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

간지칼라

Page 62: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

56

데이터 평가 가이드 북 : 유전체 분야

부록 : 사례 : 단일 염기 다형성 데이터 평가

Page 63: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

57국가참조표준센터

제5장 유전체 데이터의 평가

단일 염기 다형성 데이터 평가 절차서

최근 질병 연관성 연구(disease association study)가 활발히 진행되면서 사람들의

단일 염기 다형성(Single Nucleotide Polymorphism :SNP)에 대한 관심이 높아지고

있고, 맞춤 의학(personalized medicine)이 관심대상이 되면서 한국에서도 많은 연구

가 진행되고 있다. 이러한 연구를 통해서 생산되고 있는 단일 염기 다형성 데이터에

대해 재현가능하며 정량화 할 수 있는 참조표준 데이터를 생산, 수집, 평가하기 위함이

다.

1. 측정대상이 명확하게 명시되어 있는지 여부

단일 염기 다형성(Single Nucleotide Polymorphism: SNP)의 정의는 사람의 DNA

염기서열에서 하나의 염기서열 차이를 보이는 유전적 변화 또는 변이(mutation)이다.

좀 더 구체적으로 정의해 보면 인간집단(human population)에서 1 % 이상의 빈도로

존재하는 2개의 대립 염기서열(bi-allelic)이 발생하는 위치를 뜻한다. 전체 인간 유전

변이형의 약 90 % 이상을 차지하며, 가계나 체질이 비슷한 사람들은 SNP의 패턴이 일치하기 때문에 SNP 패턴과 질병기록을 비교하면 국민적인 의학통계가 수립될 수 있다. 유전변이형이 발굴된 이후에는 다양한 종류의 집단이나 시료에서 집단 또는 시료군 특이적으로 존재하는 유전 변이형의 대량분석이 요구된다. 이러한 유저변이형 정보는 유전형과 표현형 간의 연관성 연구에 반드시 필요한 과정을 SNP genotyping 방법이라 일컫는다.

1-1. 시료의 준비

SNP를 이용하여 가계의 촌수를 계산하기위해 전문가 집단의 의견을 수렴하여 아래

의 조건을 만족하는 샘플을 선정하였다.

- 12개의 주요 질병을 정하고, 이들이 발병되지 않은 집단

- 금연 및 신체 조건에 대한 정보를 바탕으로 골고루 분포된 집단

- 성별 및 나이에 대한 정보를 바탕으로 골고루 포함하는 집단

Page 64: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

58

데이터 평가 가이드 북 : 유전체 분야

무엇보다 인간검체를 이용하기 때문에 기관생명윤리심의위원회 IRB(Institutional

Review Board)를 통과해야하며 샘플 제공자의 기초임상정보가 포함되어야 한다.

1) 기관생명윤리심의위원회 IRB(Institutional Review Board)

임상시험을 하는 병원에서 연구계획서 또는 변경계획서, 피보험자로부터 서면동의

를 얻기 해 사용하는 방법이나 제공되는 정보를 검토하고 지속적으로 이를 확인함으로

써 임상시험에 참여하는 피험자의 권리, 안전, 복지를 보호하기 위해 시험기관 내에 독

립적으로 설치하는 상설위원회를 기관생명윤리심의 위원회라 한다. 임상시험의 윤리

성을 보장하기 위한 가장 기본적이고 필수적인 기구이며, 병원의 의사나 교수 이외에

도 기관에 소속되지 않은 제3자인 종교인, 철학자, 변호사 등도 참여하여 임상시험 계

획서의 윤리적 타당성을 심의한다.

기관생명윤리위원회는 윤리적, 사회적으로 심각한 영향을 미칠 수 있는 생명과학기

술의 연구, 개발 또는 이용하는 기관으로서 보건복지부령이 정하는 기관(생명윤리법

제9조 각호)에 설치하도록 하여 총괄적인 형태로 설치기관을 규정함으로서 일반법으

로서의 기능을 유지할 수 있도록 하였다.

기관생명윤리위원회는 배아연구기관, 유전자은행, 유전자 치료기관 및 보건복지부령

에 정하는 기관의 경우에 설치되며(생명윤리법 제9조 제1항 각호), 생명과학연구계획

서의 윤리적, 과학적 타당성, 동의의 적법성, 개인 정보의 보호 대책 및 각호의 기관에

서 행하는 생명과학기술의 연구, 개발 또는 이용에 관한 사항(생명윤리법 제9조 제2항

각호)을 심의한다. 각호의 기관의 장은 당해 기관에서 행하여지는 생명과학기술의 연

구, 개발 또는 이용으로 인하여 생명윤리 또는 안전에 중대한 위해가 발생하거나 발생

할 우려가 있는 경우에는 지체 없이 기관위원회를 소집하여 이를 심의하도록 하고, 그

결과를 보건복지부장관에게 보고하여야 한다(생명윤리법 제9조 제3항).

2) 환자의 기초임상정보

환자의 기초 임상정보는 비공개와 공개로 나누어지며, 비공개 정보는 이름과 나이, 공

개 정보는 성별과 가계도 정보이다. 이는 질환과 연관되지 않는 유전적 거리를 측정하

기 위한 최소 정보를 포함하고 있다.

Page 65: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

59국가참조표준센터

제5장 유전체 데이터의 평가

<표 A1.1 환자 기초임상정보>

순번 항목 설명 공개여부

1 ID (identification) 피 측정자의 고유번호 공개

2 Name 이름 비공개

3 Sex 성별 (1:남자, 2:여자) 공개

4 Age 나이 비공개

5 Family 가계도 정보 공개

<그림 A1.1 최씨 가계 15명>

<그림 A1.2 강씨 가계 17명>

Page 66: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

60

데이터 평가 가이드 북 : 유전체 분야

DNA Extraction Protocol for Blood (Buffy Coat)

RBC Remove

1. 약 800 uL Blood into 2 mL Tube

2. 0.2 M NH4Cl (RBC lysis buffer) 동량이상분주

3. vortexing and Centrifuge for 1~2 min at 13000 rpm

4. 상층액 제거 (Buffy coat pellet 약 0.5 cm 이하 크기 유지)

5. 1-4과정 약 3반복 (RBC 제거가 완료되면 다음과정)

6. 상층액이 제거된상태에서 vortexing pellet

2. 측정방법 및 절차에 대한 설명의 명시 여부

2-1. 측정 방법 및 측정환경

피실험자 혈액으로부터 DNA를 추출하여 현재 개발되어 상업화가 잘 되어있는

Affymetrix와 Illumina 플랫폼을 통해 개인 간의 유전적 차이를 ASD, family inheritance 방법을 사용하였다. - Affymetrix GenomeWideSNP_6 934,969 Marker set

- Illumina Human 1M-Duo 1,199,187 Marker set

1) 혈액 채취 방법

피험자 혈액을 채취 및 이동에 사용된 튜브를 명시하도록 한다. 현재 시판되는 튜브

는 다양한 종류의 튜브가 시판되고 있으므로, 튜브의 타입, 사이즈, 방법 등을 명시하

여야 한다.

예) BD Vacutainer / 13 mm * 75 mm / EDTA 튜브 사용

2) DNA 추출 방법

혈액으로부터 DNA를 추출하는 Protocol을 각 단계별로 사용되는 시약과 시간, 방

법 등을 구체적으로 명시하도록 한다.

예) 일반적인 DNA 추출 방법

Page 67: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

61국가참조표준센터

제5장 유전체 데이터의 평가

WBC Lysis

7. STE 530~600 uL (cell 크기에따라), 10 % SDS 70 uL,

Protease 30~50 uL분주

8. Pellet양에 따라 buffer량 조절

9. Inverting

10. Incubate 55 ℃, 3 hr 이상

Protein Precipitation

11. 3 M NaOAc 0.05 vol 분주. PCI 동량이상분주. Carefully

Inverting

12. Centrifuge 13200 rpm, 15 min

13. 상층액을 새 tube에 옮김. CI 동량이상 분주

14. Carefully Inverting

15. Centrifuge 13200 rpm, 10 min

16. 상층액을 새 tube에 옮김

DNA Precipitation

17. Isopropanol (or 100 % Ethanol) 동량분주. Inverting

18. Centrifuge 13200 rpm, 2 min

19. 상층액제거. 70 % Ethanol 1 mL분주

20. Centrifuge 13200 rpm, 2 min

21. 상층액제거. Air Dry

22. Pellet의 크기에 따라 DW or TE 양 조절후 분주

Solutions

PCI (Sigma-P2069) - Phenol:Chloroform: Isoamyl alcohol-25:24:1

CI (Sigma-C0549) - Chloroform: Isoamyl alcohol-24:1

STE - 0.1 M NaCl, 10 mM Tris(pH 8.0), 1 mM EDTA(pH 8.0)

Protease (Qiagen19157) - 7.5 au분말에 7.5 mL 분주, 약 20 mg/mL

예) 기계를 이용한 DNA 추출방법

FUJIFILM의 QuickGene-Mini80을 이용한 DNA 추출 방법

- 1.5 ml micro tube에 Whole blood 400 μl + EDB solution 60 μl + LDB 500 μl를

넣는다.

- 15초정도 Vortexing 후 56°C에서 5분 Incubation시킨다.

- 99 % Ethanol 500 μl 넣은후 15초정도 Vortexing한다.

Page 68: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

62

데이터 평가 가이드 북 : 유전체 분야

- Spin down후 QuickGene-810 cartidge에 옮긴다.

- WDB 750 μl씩 3회 Wash한다.

- CDB 50 μl Elution한다.

- Affymetrix Array 6.0 분석을 위해서는 50 ng/ul 이상의 DNA가 10 μl 필요

3) SNP chip 의 명시

SNP를 대량으로 분석함으로써 인종 및 그의 유래, 특정 집단 (가계도), 질병 및 표현

형, 개인 인식, 유전, 약물반응 및 면역 등 광범위한 응용을 할 수 가 있다. 현재 SNP

칩은 Affymetrix와 Illumina를 중심으로 상업화가 되어 있고, 광범위한 분야에서 이를

응용하여 각종 연구 및 조사에 활용되고 있다.

예) Human 1M-Duo Chip의 SNP contents 및 기초 정보

항목 값 Number of Markers per Sample 1,070,000 Number of Samples per BeadChip 2 DNA Input Requirement (per sample) 400 ng Minor Allele Frequency 0.2 Spacing (kb, mean/median) 2.3/1.5 Marker Categories Markers Within 10 kb of a RefSeq Gene 688,349 Non-Synonymous SNPs* 23,000 MHC†/ADME‡/Indel SNPs 11,089/21,093/501 Sex Chromosome (X/Y/PAR Loci) 47,053/4,747/1,001 Mitochondrial SNPs 138 CNV Coverage Number of DGV§ Regions Represented 4,253 Number of Markers in DGV Regions 349,649 Average Markers per Region 71.7 Targets Novel CNV Regions (~9K) Yes Number of Intensity-Only Probes 22,000 Markers in unSNPable Genome 39,900

*based on RefSeq and Ensembl databases

†as defined by de Bakker, 2006

‡within 10 kB of 333 known ADME-related gene

Page 69: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

63국가참조표준센터

제5장 유전체 데이터의 평가

§Toronto Database of Genomic Variants as of Feb 2008

예) Affymetrix Chip SNP contents 및 기초정보

○ Affymetrix Genome-wide Human SNP Array 6.0에는 SNP 분석을 위한

906,600 probe 이외에도 CNV 분석을 위한 946,000개 이상의 probe가 추가적으로

구성되어 있다.

다음 그림은 Array 6.0이 염색체 전체에 분포되어 있는 SNP과 CNV 마커의 마커간

거리를 나타낸 그림이다.

<그림 A1.3 SNP and CNV markers across multiple chromosomes>

○ 하나의 SNP을 분석하기 위한 probe의 수를 Array 5.0의 8개이던 것을 6개로 감소

시킴으로써 더 많은 SNP과 CNV 분석이 가능해졌고 지속적인 probe design 및

calling 알고리즘의 개선으로 정확도를 향상시켰으며 지속적으로 개선되고 있다.

Page 70: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

64

데이터 평가 가이드 북 : 유전체 분야

<그림 A1.4 SNP 당 probe 개수에 따른 cell rate>

○ Affymetrix Array 6.0은 기존 Array 5.0의 482,000개의 SNP probe에 424,000

개의 SNP probe를 추가적으로 포함시켰으며 특히 X, Y염색체 부위, 미토콘드리아 

SNP, recombination hot spot 지역의 SNP 및 새롭게 규명된 SNP 정보를 포함

하고 있어 아시안에서 전체 genome의 약 84 % cover하는 높은 정보력을 나타냄

으로 새로운 질병관련 SNP 발굴의 기회가 증가할 것으로 기대되고 있다.

SNP chip CEU CHB+JPT YRI

SNP Array 5.0 64 66 41

SNP Array 6.0 83 84 62

HumanHap 550 87 83 50

HumanHap 650Y 87 84 60

○ 다음 그림은 Affymetrix Array 6.0에 포함되어 있는 SNP을 염색체에 따라 나타낸

그림으로 마커 간 평균 거리는 3.19 kb 이며 Array 5.0의 5.8 kb 에 비해 고밀도로

SNP이 포함되어 있다.

Page 71: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

65국가참조표준센터

제5장 유전체 데이터의 평가

<그림 A1.5 염색체 별 SNP 분포현황>

<그림 A1.6 염색체 별 마커 간 평균거리>

4) SNP Chip 의 read 장비의 명시

예) Illumina BeadArray Reader

Scan Field : 2 mm x 2 mm

Resolution : < 1 micron

Scan Time : < 90 minutes for 96-bundle matrix

Laser - Excitation : 532 nm (Green) and 635 nm (Red) dual laser excitation

Emission Spectrum : 550-600 nm and 650-700 nm

Page 72: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

66

데이터 평가 가이드 북 : 유전체 분야

Limit of Detection : 2 fluor/μm2 or better

<그림 A1.7 SNP chip의 read 장비>

예) Affymetrix GeneChip® Scanner 3000 7G

Page 73: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

67국가참조표준센터

제5장 유전체 데이터의 평가

5) SNP cell 이미지예) Illumina cell 파일File Format : TIFF output with automatic image quality analysisDynamic Range : 16 bit; 4 orders

예) Affymetrix cell 파일

control probe를 이용하여 grid를 맞춘 DAT image 모호한 바깥 signal을 잘라내어

cel file을 만든다.

Page 74: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

68

데이터 평가 가이드 북 : 유전체 분야

6) SNP genotyping 데이터

(1) DNA report

- 시료별 genotype call rate

(2) Heritability (mendelian error) report

- 가족시료의 경우 mendelian error rate를 보고함

(3) Genotype report

- 시료/SNP별 genotype을 여러 가지 형식 (standard, matrix etc.) 으로 보고함.

(4) Chromosome aberration report

- 염색체 구조 이상 (trisomy, LOH etc.) 유무를 분석하여 보고함

genotypes : SNP ID, Sample ID, genotype call

signalintensity : SNPID_allele, SampleID, signalintensity

annotationfile : SNPID, chromosome, physicalposition, alleles, strand,

flankingsequence

예) Affymetrix에서 Genotype을 detecting하는 방법

Affymetrix power tool의 calling algoritm인 birdseed 2를 이용하여 signal

intensity를 clustering하여 분포를 기준으로 평가한다. 동일 allele을 detection하기

위한 probe의 intensity의 대표값을 각 allele에 대해 얻어낸 다음, A, B allele의

signal의 contrast와 strength를 X,Y 평면에 표현한 후 clustering하는 방법이다.

contrast=(A-B)/(A+B)

strength=log10(A+B)

Page 75: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

69국가참조표준센터

제5장 유전체 데이터의 평가

성별의 추정 :

chromosome X의 overall heterozygosity를 이용한 평가 : 남성 약 0 %, 여성 약

17~22 %

chromosome Y의 overall call rate을 이용한 평가 : 남성 약 : 95 % 이상, 여성 약

0 %

CNV probe의 chromosome Y의 overall signal / chromosome X의 overall signal을

이용한 평가 : 남성 약 1~1.2, 여성 약 0~0.4

예) illumina genotype을 detecting하는 방법

- Norm Theta 구하는 방법

- Norm R 구하는 방법

- GenCall Score 적용하는 방법

Gene call score는 아래 첨부한 그림을 통해 쉽게 이해하실 수 있는데, default 값으로

0.25를 사용한다. 아래 그림에서 진한 색 영역이 0.25를 적용하였을 때의 범위이다.

0.25보다 작게 (예를 들면 0.1) 적용하면 영역이 더 커지고 0.25에서 missing처리된

시료가 0.1에서 call이 된다. 같은 이유로 GenCall Score를 낮게 설정하면 전체 call

rate는 높아보이게 된다. Illumina에서는 0.1까지 조절해도 무방하다고 하지만 저희는

Page 76: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

70

데이터 평가 가이드 북 : 유전체 분야

0.25로 분석해서 보고한다.

예) GenCall Score cutoff of 0.25 for GoldenGate products.

3. 측정방법의 적절성 여부

1) ASD

유전적 거리 측정방법인 ASD(allele sharing distance)는 개인 간의 대립유전자를 상호간에 비교하여 발생빈도를 기준으로 개체별 유전적 거리를 분석하는 방법이다. Allele shared distance를 구하기 위해 사용되는 SNP marker는 QC를 통과한 것들을 사용하며, 각 SNP의 minor allele frequency 값은 0.05 이상이여야 한다.

ASDi = 1 - PiPi = ΣuS / 2u

S = The number of shared alleles(전체 SNP위치에서 두 사람간의 공통되는 allele의 수)u = The number of loci(비교대상이 되는 전체 SNP 위치의 수)

Page 77: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

71국가참조표준센터

제5장 유전체 데이터의 평가

이 방법을 통해 각 가계 별 개인의 genetyping 결과를 이용하여 ASD를 통한 촌수간의 유전적 거리를 측정할 수 있다.

<그림 A1.8 친족 간 거리측정을 위한 ASD 개념도>

2) Family Inheritance (FIC) 유전자 거리를 구하는 또 다른 방법으로써 두 염색체를 각각의 부모 둘로부터 하나씩 정확하게 물려받은 현상과 대용량 SNP 칩 데이터를 기반으로 산출된 수많은 유전자 마커 정보를 활용하여 조부모로부터 부모를 거쳐 최종적으로 손자 또는 손녀까지의 유전자 정보가 흘러가는 것을 추적하여 정확한 가계도를 구현할 수 있다.

같은 조상으로부터 물려받은 완전한 DNA fragments를 SNP genotype를 비교함으로써 찾는다. - Neither copy matches - One copy matches - Both copies matches

Page 78: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

72

데이터 평가 가이드 북 : 유전체 분야

Estimates : 사람1 : 사람2 >>> 평가(A, C) : (G, T) 0(A, C) : (A, G) 1(A, C) : (G, C) 1(A, C) : (A, C) 2

Proportion of Neither Copy Matches

P(NCM)=∑

[2.779×10 9

L]+1-n N

i=1C i(

n 0, i

n SNP, i

≥A)

[2.779×10 9

L]+1-n N

Proportion of Both Copies Matches

P(BCM)=∑

[2.779×10 9

L]+1-n N

i=1C i(

n 0, i

n SNP, i

≺A andn 2, i

n SNP, i

≥B)

[2.779×10 9

L]+1-n N

Proportion of only One of the two Copies Matches

P(OCM)=

[2.779×10 9

L]+1-n N- ∑

[2.779×10 9

L]+1-n N

i=1C i(

n 0, i

n SNP, i

≥A)+ ∑[2.779×10 9

L]+1-n N

i=1C i(

n 0, i

n SNP, i

≺A andn 2, i

n SNP, i

≥B )

[2.779×10 9

L]+1-n N

크로네커델타 함수 단, C i(A) = 1 (if A is satisfied) = 0 (otherwise)

Affy Illumina Affy+Illumina

A 0.009 0.004 0.01

B 0.93 0.98 0.93

Assumption :

Page 79: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

73국가참조표준센터

제5장 유전체 데이터의 평가

1. 휴먼의 상염색체(2.779*109 bp)를 공통 선조로부터 유전되는 유전체 단위 조각인 Lbp로 쪼갠 유전체 조각들 각각에서 SNP의 개수(nSNP)를 카운트 한다.

2. nSNP <100인 유전체 조각의 경우 N으로 제거 한다. (각 SNP칩의 error의 영향을 최소화하기 위함. )

nSNP ≥100인 유전체 조각들의 경우 2.779*109 bp/Lbp -nN으로 관찰 대상의 전체 데이터로 가정한다.

nSNP,i : i 번째 유전체 조각 안에서 관찰되는 총 SNP의 개수 nj,i : i 번째 유전체 조각 안에서 j=0,1,2 각각으로 평가되는 SNP 개수

<그림 A1.9 유전자 정보의 흐름을 알 수 있는 FIC의 개념도>

4. 측정결과에 영향을 주는 요인의 제어 여부

가. 표본 수 검증

통계적으로 소수형질 빈도 (Minor allele frequency)가 0.05 이상인 단일 염기 다

형성이 발견될 가능성이 95 % 가 되는 인원은 24명이다. 일반적으로 나타나는 단일

염기 다형성을 소수형질 빈도 0.05라고 정의 했을 때, 단일 염기 다형성의 유전자

Page 80: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

74

데이터 평가 가이드 북 : 유전체 분야

결정방법에 필요한 인원수는 24명이 넘어야한다. (KruglyakL and Nickerson DA.

(2001) Nature Genetics 27:234-236)

나. 하디-와인버그 평형 검사(Hardy-Weingerg Equilibrium test)

하디-와인버그(Hardy-Weinberg) 식 ( p2 + 2pq +q2 = 1 )을 이용하여 유전자형

(genotype) 데이터가 하디-와인버그 평형과 일치하는지를 조사해야 한다. 실제 분

석된 유전자형 관측치 빈도와 기대치 빈도를 사용하여 카이스퀘어 검사(X2-test)를

수행하여 매우 강한 통계적 유의성이 발생하면 유전자형 데이터가 유전자 결정방법

의 에러에 의해 발생하였을 가능성이 매우 높기 때문에 추가적인 확인 작업이 필요

하게 된다.

다. 유전자형 품질검사(Quality Control test)

각 샘플별로 유전자 결정이 4 가지 뉴클레오티드(A, T, G, C) 중 하나로 결정된

단일 염기 다형성의 수 가 95 % 이상인지 확인한다. 국제 일배체형 지도작성 사업

(international HapMap project)의 경우 유전자 결정의 비율이 99 % 에 달하고 있

으며, 한국인 일배체형 지도작성 사업(Korean HapMap project)에서도 최소 95 %

이상의 비율을 기준으로 하고 있다.

라. 유전자형 품질 정확도 검사(Quality Accuracy test) (선택항목)

동일 표본의 동일 단일 염기 변이 다형성을 유전자 결정방법을 통해 실험한 다른 데이

터가 있을 경우(다른 기관 또는 다른 유전자 결정방법 실험을 사용한 데이터도 상관없

음), 이 두 자료를 비교해서 두 데이터의 유전자 결정이 동일한지의 여부를 판단하여 품

질 정확도(quality accuracy)를 평가할 수 있다. 이 방법은 한국인의 일배체형 지도

(Haplotype Map: HapMap)를 만들기 위한 한국인 일배체형 지도작성 사업에서 사용되

었던 방법으로 실험한 결과의 정확도를 평가하기 위해 사용되었다. 100개의 단일 염기

다형성을 선택하여 모든 참여 기관에서 유전자 결정방법 실험을 수행하고 결과를 비교

Page 81: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

75국가참조표준센터

제5장 유전체 데이터의 평가

조 건 내 용

표 본 수 24명 이상의 sample을 사용해야 한다.

유전자

결정방법 품질

Hardy-Weinberg Equilibrium test를 통과하여야 한다.

각각 샘플별로 염기서열이 A, T, G, C중 하나로 정확하게

결정된 뉴클레오티드의 비율이 95 % 이상이어야 한다.

유전자

결정방법 정확도

전체 데이터에서 10 % 이상은 두 번 이상 유전자결정방법을

이용한 실험을 통해서 재현성을 검증한다. 재현성은 95 %

이상이어야 한다.(선택항목)

하였다. 결과가 다른 경우 70% 이상의 자료가 지지하는 유전자형을 바른 유전자 결정

결과라고 가정한다. 비교한 전체 단일 염기 다형성 중 95% 이상의 정확도를 보이는 것

을 기준으로 한다.

5. 불확도(uncertainty) 평가 및 평가의 적절성 여부

불확도 성분의 평가는 구하는 방법에 따라 두 가지로 분류하며, “A형 불확도 평가”와 “B형 불확도 평가”로 나뉜다. 여기서 ‘평가’는 ‘값을 구한다’는 의미 이다. A형 불확도 평가에서 분산의 추정값은 반복 측정된 값으로 부터 계산되며, “A형 표준불확도” 라고 부른다. B형에 의해 산출되는 분산의 추정값은 이미 알려진 정보를 이용하여 구하며, 이때 추정표준편차를 “B형 표준불확도”라고 부른다. 즉, A형 표준불확도는 반복 측정값의 빈도분포에 근거한 확률밀도함수에서 구하는 반면 B형 표준불확도는 기존의 정보 또는 문헌을 통해 측정값이 가질 수 있는 확률밀도함수를 가정하여 구한다. 이 두 가지 방법은 확률에 근거를 둔 것이다. 측정 불확도란, 학술적으로 (국제측정학 용어정의에 따르면) “측정결과와 관련하여 측정량을 합리적으로 추정한 값의 분산특성을 나타내는 파라미터”라고 정의하고 있다. 1) 측정 장비의 불확도

Page 82: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

76

데이터 평가 가이드 북 : 유전체 분야

칩 데이터의 생산은 외부 생산기관에서 생산되기 때문에, 소급성의 적용에 한계가 있다. 그러나 생산기관들이 각 칩제조회사의 공인 데이터 생산기관들이며, 전반적 측정절차에 대한 소급성 테스트들이 이루어지고 있다. 단일 염기 다형성의 측정에 사용된 두 회사의 칩들의 각각 데이터의 재현성은 아래 표와 같이 최소 99.7 (Affymetrix) 혹은 99.9% (Illumina)이다. 이는 계측장비라고 볼 수 있는 SNP칩과 레이저 스캐너의 정확도가 99.7% 이상임을 의미하여, 따라서 측정 장비의 불확도는 0에 수렴하는 것으로 가정한다.

- Affymetrix

- Illumina

2) 촌수 데이터의 불확도

Page 83: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

77국가참조표준센터

제5장 유전체 데이터의 평가

정보를 이용한 촌수간 유전적 거리의 계산은 단일 염기 다형성 정보로부터, 어떤 두 사람간의 유전적 거리 값을 모든 촌수에 대해여 계산한 것이다. 따라서 일련의 관측값(계산값)의 생물학적 반복을 통해 얻어진 데이터라 할 수 있다. 따라서 A형 불확도를 를 계산한 것이 타탕하다. 또한 1) 항목에서와 같이 측정 기기의 불확도는 0으로 계산한다. 또한 촌수 데이터는 계산값이기 때문에 계산값의 불확도도 0으로 정의한다. 따라서 촌수 데이터의 불확도는 곧 A형 불확도이자, 표준편차와 동일하다.

s=∑n

k= 1(x k- x) 2

n-1

n = 같은 촌수를 가지는 샘플의 총 수x = 같은 촌수 내에서 얻어지는 distance.

- 합성표준불확도(combined standard uncertainty) 위에서 얻어진 A형 불확도로부터 표준불확도를 계산하였다.

u c=sn

n = 같은 촌수내 샘플의 총 수

- 확장불확도(expanded uncertainty) 확장불확도 U 는 합성표준불확도 u c 에 포함인자 k를 곱하여 얻어지는 것이다. 포함인자 k 값은 그 구간에 대해 요구되는 포함확률 또는 신뢰수준에 따라 정해지는데, 보통 2와 3사이의 값을 갖는다. 여기에서는 k 는 2의 값을 갖는다.

U= ksn

k = 2

○ 유효참조표준 (Affymetrix or Illumina) 의 예

Page 84: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

78

데이터 평가 가이드 북 : 유전체 분야

촌수   CDS* UTR* Intron* Intergenic* CoRS* ADME*

1촌 평균 0.1079 0.1179 0.1237 0.1258 0.1352 0.1214

  확장불확도 0.0011 0.0013 0.0008 0.0010 0.0009 0.0018

  표준편차 0.0031 0.0035 0.0022 0.0029 0.0025 0.0049

2촌 평균 0.0977 0.1082 0.1118 0.1153 0.1231 0.1103

  확장불확도 0.0031 0.0034 0.0030 0.0031 0.0032 0.0055

  표준편차 0.0081 0.0089 0.0077 0.0080 0.0083 0.0143

3촌 평균 0.1416 0.1551 0.1606 0.1641 0.1763 0.1577

  확장불확도 0.0016 0.0018 0.0015 0.0014 0.0015 0.0024

  표준편차 0.0056 0.0060 0.0051 0.0050 0.0053 0.0083

4촌 평균 0.1585 0.1714 0.1791 0.1832 0.1965 0.1780

  확장불확도 0.0013 0.0015 0.0011 0.0010 0.0011 0.0023

  표준편차 0.0045 0.0053 0.0039 0.0034 0.0040 0.0083

비혈연관계 평균 0.1750 0.1895 0.1981 0.2007 0.2162 0.1971

  확장불확도 0.0004 0.0004 0.0003 0.0003 0.0002 0.0008

  표준편차 0.0032 0.0035 0.0020 0.0020 0.0017 0.0064

- ASD 방법

1촌의 CDS 영역에서는 위의 0.1079의 값은 측정된 ASD 값에 해당되며, 아래에 위

치한 0.0011의 값은 확장불확도이다. 각 촌수별로 CDS, UTR, intron, intergenic

region 영역에 대해 계산하였다.

예) Affymetrix chip을 이용한 1-4촌간 유전자 영역에 따른 allele shared distance

* CDS: Conding sequence, 유전자중 메신저 RNA에 포함되어 단백질로 번역되는 영역에서 얻어진 두 사람간의 유전적 거리값* UTR: Untranslated region, 비전사영역. 유전자중 메신저 RNA에 포함은 되지만 단백질로 번역되지 않는 영역에서 얻어진 두 사람간의 유전적 거리값* Intron: 유전자중 메신저 RNA에 포함되지 않는 영역에서 얻어진 두 사람간의 유전적 거리값* Intergenic: 유전체에서 유전자와 유전자 사이의 영역에서 얻어진 두 사람간의 유전적 거리값* CoRS: Common rs: SNP 측정에 사용된 어피메트릭스사와 일루미나사의 SNP 지노타이핑 칩상의 프로브가 같은 것들만 이용하여 얻어진 두 사람간의 유전적 거리값

Page 85: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

79국가참조표준센터

제5장 유전체 데이터의 평가

* ADME: Absorption/Distribution/Metabolism/Excretion, 약물의 흡수, 전달, 대사, 및 배출과 관련된 유전자들상에서 검출된 SNP들로부터 얻어진 두 사람간의 유전적 거리값.

- Family inheritance 방법

예) Affymetrix chip을 1-4촌간 family inheritance법에 의한 유전적 거리

촌수  Neither Copy

Matches*

One Copy

Matches*

Two Copies

Matches*

1촌 평균 0.0035 0.9806 0.0158

  확장불확도 0.0009 0.0009 0.0012

  표준편차 0.0024 0.0025 0.0033

2촌 평균 0.2080 0.5441 0.2479

  확장불확도 0.0157 0.0164 0.0151

  표준편차 0.0409 0.0427 0.0392

3촌 평균 0.4262 0.5653 0.0085

  확장불확도 0.0125 0.0122 0.0009

  표준편차 0.0428 0.0419 0.0030

4촌 평균 0.6337 0.3602 0.0061

  확장불확도 0.0111 0.0108 0.0006

  표준편차 0.0397 0.0387 0.0022

비혈연관계 평균 0.8389 0.1591 0.0020

  확장불확도 0.0010 0.0010 0.0001

  표준편차 0.0079 0.0077 0.0010

* Neither Copy Matches: 두 사람사이에서, 상염색체상의 SNP쌍이 모두 같지 않은 것의 FIC 값.* One Copy Matches: 두 사람사이에서, 상염색체상의 SNP쌍 중 한 개가 서로 같은 것의 FIC 값.* Both Copy Matches: 두 사람사이에서, 상염색체상의 SNP쌍 중 두 개가 모두 같은 것의 FIC 값.

6. 실험적 경향과 일관성(consistency) 여부

Page 86: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

80

데이터 평가 가이드 북 : 유전체 분야

재현성이란 동일한 측정 대상(시료)을 동일한 조건과 방법으로 측정할 때 누가 측정하더라도 그 측정결과가 불확도 범위 내에서 일치되는 정도를 말한다. 즉 동일한 대상 시료에 대하여 측정방법이 다르다 하더라도 그 측정결과가 불확도 범위 내에서 서로 일치하면 재현성이 있다고 볼 수 있다.

예) SNP chip의 Call rate, Error call rate, HWE test Illumina에서 125개 시료를 genotyping하여 외부에 공개하는 자료를 기준은 하나의 project (100개 이상 시료)를 기준으로 평균값을 call rate 99 % 이상, reproducibility 99.9 % 이상, Mendelian inconsistence 0.1 % 이하로 quarantee 하고 있다. 시료 1개를 기준으로 만들어진 QC 기준은 없지만 Illumina에서는 시료별 최소 call rate 98 %를 내부 기준으로 삼고 있다.

동일 시료에 대한 반복 실험을 통한 genotype 재현 확인 a = number of concordant call b = number of discordant call c = number of missing calls; one or both call is missing. reproducibility = a / (a+b)

재현성 측정시 포함되지 않는 marker : Hardy-Weinberg disequilibrium, low call

Page 87: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

81국가참조표준센터

제5장 유전체 데이터의 평가

rate, cluster QC fail, 여러 기관에서의 재현실험에 의해 지속적으로 불일치하는 결과를 보고하여 분석에 사용하지 않도록 제거할 것이 권해지는 목록에 들어 있는 marker(=hidden SNP으로 불림)

예) SNP 플랫폼에 따른 유전적 거리 계산 동일 시료에 대하여 사용한 SNP 플랫폼이 다르더라도 아래 표와 같이 평가 되었으므로 일관성이 있다고 판단할 수 있다.

- ASD 방법

Page 88: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

82

데이터 평가 가이드 북 : 유전체 분야

- Family Inheritance 방법

예) Affymetrix

Page 89: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

83국가참조표준센터

제5장 유전체 데이터의 평가

Page 90: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

84

데이터 평가 가이드 북 : 유전체 분야

7. 잘 알려진 이론식 또는 실험식을 통한 데이터 예측가능성 검증 여부

유전자 거리 측정하는 계산식 ASD는 유전자 통계 논문에 수록되어 있으며, family

inheritance는 "가계 내 유전자 정보 및 질병 보인자 흐름 추적 시스템" 이란 제목의

국내특허에 수록되어 있다.

[참고문헌]

가계 내 유전자 정보 및 질병 보인자 흐름 추적 시스템. 국내출원, 10-2008-0126076

8. 2인 이상 관련분야 제3자의 종합검토를 받았는지 여부

본 측정데이터가 인증참조표준으로 인정받기 위해서는 참조표준 제정 및 보급에 관한 운영요령 제2조 5항에 따라 측정결과에 대한 전문가 평가가 요구된다. 기술위원회

는 2명의 단일 염기 다형성 실험 또는 분석 전문가로 구성되며, 평가 기준에 탈락한

단일 염기 다형성 데이터를 재평가하여 진행 및 기각을 결정한다.

이들은 평가 흐름도에서 조건을 만족시키지 못하는 데이터들을 개별적으로 확인하

여 데이터의 문제점을 재차 확인하고, 평가 프로세스의 문제점을 점검하고, 생물학 데

이터의 특성상 완전히 획일화하여 평가할 수 없는 예외적 부분을 개별적으로 평가하여

반영 하였다.

Page 91: Ⅰ 발 간 문 Ⅰ - srd.re.kr:446 · Ⅰ 발 간 문 Ⅰ 참조표준(Standard Reference Data)은 연구개발 활동으로 생산된 수없이 많은 과 학기술데이터나

85국가참조표준센터

제5장 유전체 데이터의 평가

본 평가 가이드 북은 국가 연구개발 사업으로 국가참조표준센터에서 제정한 것으로 무단 배포나 복제를 금지합니다.

주 의

위 원 장 : 박종화위 원 : 권제근, 김대수, 김상수, 김철홍, 류제운, 박성진,

정연준, 한경숙 (가나다 순)

데이터 평가 가이드 북 편집위원회