12
의료영상 분석을 위한 기계학습 163 이 논문은 2011년도 정부(교육과학기술부)의 재원으로 한국연구재단의 기초 연구사업(2011-0029429, 2011-0014828) 지원을 받아 수행된 것임 이 논문은 정보과학회지 제29권 제2(20112월호)의료영상 처리에서의 기계학습 응용사례의 제목으로 게재된 원고를 확장한 것임 ††††† 학생회원 논문접수 심사완료 : : : 전남대학교 전자컴퓨터공학부 [email protected] 20111129201213†† ††† †††† 정 회 원 정 회 원 종신회원 정 회 원 : : : : 삼성메디슨() 연구소책임연구원 [email protected] 서울대학교 의학연구원 선임연구원 [email protected] 전남대학교 전자컴퓨터공학부 교수 [email protected] 전남대학교 전자컴퓨터공학부 연구원 [email protected] (Corresponding author) Copyright2012 한국정보과학회ː개인 목적이나 교육 목적인 경우, 이 저작 물의 전체 또는 일부에 대한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때, 사본은 상업적 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처 를 반드시 명시해야 합니다. 이 외의 목적으로 복제, 배포, 출판, 전송 등 모든 유형의 사용행위를 하는 경우에 대하여는 사전에 허가를 얻고 비용을 지불해야 합니다. 정보과학회논문지: 소프트웨어 및 응용 제39권 제3(2012.3) 의료영상 분석을 위한 기계학습 (Machine Learning for Medical Image Analysis) 박상철 이명은 †† 김수형 ††† 나인섭 †††† 진연연 ††††† (Sang Cheol Park) (Myung Eun Lee) (Soo Hyung Kim) (In Seop Na) (Yanjuan Chen) 현대의학에서 효과적인 질병의 진단 및 환자의 치료를 위해 의료영상은 매우 중요한 도구이다. 또한 영상기술 발달은 더욱 정교한 의료영상 데이터를 획득 가능하게 하고 있다. 그러나 이러한 정교함의 대가로 데이터의 양은 점차 방대해지고 있어 의료영상 데이터를 인간의 시각에 의존하여 분석하는 데 어 려움이 많다. 따라서 최근 십여 년 동안 기계학습은 의료영상 자동 분석에서 필수적인 역할을 수행하여 왔다. 이 논문에서는 먼저 현대의학의 눈과 같은 다양한 의료영상의 역사, 원리 그리고 응용 분야를 살펴 본다. 또한, 기계학습이 다양한 의료영상에 적용되는 최근의 기법을 소개한다. 예를 들어 의료영상 분할 (segmentation), 영상 정합(registration), 컴퓨터 보조 진단 시스템(CADx, CADe), 내용기반 검색(content based image retrieval)에서 적용된 기계학습 기법인 신경망(artificial neural network), 최근거리 이웃법 (k-nearest neighbors), 유전자 알고리즘(genetic algorithm), 가우시안 혼합 모델(gaussian mixture model), 개미군집 최적화(ant colony optimization), 조건부 엔트로피(conditional entropy), 두 학습 기법의 결합 방 법 등이 있다. 키워드 : 의료영상, 영상처리, 기계학습, 컴퓨터 보조 진단 시스템 Abstract Medical images are exceedingly important means of diagnosing a variety of diseases and treating patients in current medicine. Advance of the new imaging technologies enables them to acquisite more detailed images. However, the amount of the image data is getting too bigger to analyze the images by only human visual inspection. Thus, over the past few decades, machine learning has been performing an essential role in the automated medical image analysis. In the paper, we first overview the history, principle, and applications of various medical images thought of as eyes of current medicine. In addition, we introduce the latest techniques of machine learning applied to medical images. For examples, artificial neural network, k-nearest neighbors, genetic algorithm, gaussian mixture model, ant colony optimization, conditional entropy, and fusion of two machine learning algorithms in segmentation, registration, and content-based medical image retrieval. Key words : Medical image, Image processing, Machine learning, CAD(computer aided detection or diagnosis)

(Machine Learning for Medical Image Analysis)kiise.or.kr/e_journal/2012/3/SA/pdf/01.pdf연구사업(2011-0029429, 2011-0014828) 지원을 받아 수행된 것임 ․이 논문은 정보과학회지

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: (Machine Learning for Medical Image Analysis)kiise.or.kr/e_journal/2012/3/SA/pdf/01.pdf연구사업(2011-0029429, 2011-0014828) 지원을 받아 수행된 것임 ․이 논문은 정보과학회지

의료 상 분석을 한 기계학습 163

․이 논문은 2011년도 정부(교육과학기술부)의 재원으로 한국연구재단의 기

연구사업(2011-0029429, 2011-0014828) 지원을 받아 수행된 것임

․이 논문은 정보과학회지 제29권 제2호(2011년 2월호)에 ‘의료 상 처리에서의

기계학습 응용사례’의 제목으로 게재된 원고를 확장한 것임

††††† 학생회원

논문 수

심사완료

:

:

:

남 학교 자컴퓨터공학부

[email protected]

2011년 11월 29일

2012년 1월 3일

††

†††

††††

정 회 원

정 회 원

종신회원

정 회 원

:

:

:

:

삼성메디슨(주) 연구소책임연구원

[email protected]

서울 학교 의학연구원 선임연구원

[email protected]

남 학교 자컴퓨터공학부 교수

[email protected]

남 학교 자컴퓨터공학부 연구원

[email protected]

(Corresponding author임)

CopyrightⒸ2012 한국정보과학회ː개인 목 이나 교육 목 인 경우, 이 작

물의 체 는 일부에 한 복사본 혹은 디지털 사본의 제작을 허가합니다.

이 때, 사본은 상업 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처

를 반드시 명시해야 합니다. 이 외의 목 으로 복제, 배포, 출 , 송 등 모든

유형의 사용행 를 하는 경우에 하여는 사 에 허가를 얻고 비용을 지불해야

합니다.

정보과학회논문지: 소 트웨어 응용 제39권 제3호(2012.3)

의료 상 분석을 한 기계학습(Machine Learning for Medical Image Analysis)

박 상 철 † 이 명 은 †† 김 수 형 ††† 나 인 섭 †††† 진 연 연 †††††

(Sang Cheol Park) (Myung Eun Lee) (Soo Hyung Kim) (In Seop Na) (Yanjuan Chen)

요 약 의학에서 효과 인 질병의 진단 환자의 치료를 해 의료 상은 매우 요한 도구이다.

한 상기술 발달은 더욱 정교한 의료 상 데이터를 획득 가능하게 하고 있다. 그러나 이러한 정교함의

가로 데이터의 양은 차 방 해지고 있어 의료 상 데이터를 인간의 시각에 의존하여 분석하는 데 어

려움이 많다. 따라서 최근 십여 년 동안 기계학습은 의료 상 자동 분석에서 필수 인 역할을 수행하여

왔다. 이 논문에서는 먼 의학의 과 같은 다양한 의료 상의 역사, 원리 그리고 응용 분야를 살펴

본다. 한, 기계학습이 다양한 의료 상에 용되는 최근의 기법을 소개한다. 를 들어 의료 상 분할

(segmentation), 상 정합(registration), 컴퓨터 보조 진단 시스템(CADx, CADe), 내용기반 검색(content

based image retrieval)에서 용된 기계학습 기법인 신경망(artificial neural network), 최근거리 이웃법

(k-nearest neighbors), 유 자 알고리즘(genetic algorithm), 가우시안 혼합 모델(gaussian mixture model),

개미군집 최 화(ant colony optimization), 조건부 엔트로피(conditional entropy), 두 학습 기법의 결합 방

법 등이 있다.

키워드 : 의료 상, 상처리, 기계학습, 컴퓨터 보조 진단 시스템

Abstract Medical images are exceedingly important means of diagnosing a variety of diseases

and treating patients in current medicine. Advance of the new imaging technologies enables them to

acquisite more detailed images. However, the amount of the image data is getting too bigger to analyze

the images by only human visual inspection. Thus, over the past few decades, machine learning has

been performing an essential role in the automated medical image analysis. In the paper, we first

overview the history, principle, and applications of various medical images thought of as eyes of

current medicine. In addition, we introduce the latest techniques of machine learning applied to medical

images. For examples, artificial neural network, k-nearest neighbors, genetic algorithm, gaussian

mixture model, ant colony optimization, conditional entropy, and fusion of two machine learning

algorithms in segmentation, registration, and content-based medical image retrieval.

Key words : Medical image, Image processing, Machine learning, CAD(computer aided detection

or diagnosis)

Page 2: (Machine Learning for Medical Image Analysis)kiise.or.kr/e_journal/2012/3/SA/pdf/01.pdf연구사업(2011-0029429, 2011-0014828) 지원을 받아 수행된 것임 ․이 논문은 정보과학회지

164 정보과학회논문지 : 소 트웨어 응용 제 39 권 제 3 호(2012.3)

(a) (b) (c)

(d) (e)

그림 1 다양한 의료 상; (a) 유방촬 상, (b) 컴퓨터단층촬 상, (c) 음 상, (d) 자기공명 상,

(e) 양 자방출단층촬 상

1. 서 론

기계학습은 표본 데이터와 같은 과거의 경험을 바탕

으로 컴퓨터가 최 의 성능을 갖도록 계획(programm-

ing)하는 일로 정의된다. 를 들어, 라미터로 구성된

모델이 있다면, 훈련데이터 는 과거경험을 바탕으로

컴퓨터 로그램이 모델의 라미터를 최 화하는 행

를 학습 는 훈련이라 한다. 이후 학습된 모델은 학습

과정에서 만나보지 못한 새로운 데이터로부터 결과를

측할 수 있다[1].

의료 상은 의학에서 환자의 진단 치료를

한 요한 도구 의 하나이다. 그러나 많은 양의 데이

터와 복잡성 때문에 의료 상에서 인체 구조와 병증과

같은 상을 해석하기 힘들다. 그러므로 표본 데이터로

부터 학습할 수 있는 기계학습은 상 분할, 상 정합,

상 검색, 상기반 수술 등의 의료 상 분석 분야에서

필수 인 역할을 수행한다. 특히 CADe(Computer-aided

Detection, 컴퓨터 보조 검출)와 CADx(Computer-aided

Diagnosis, 컴퓨터 보조 진단)을 통칭하는 CAD는 자동

으로 의료 상을 읽고 해석함으로써 의사를 돕고 보조

하는 믿을 만한 도구로써 빠르게 개발되어 왔다[2].

이 논문에서는 의료 상에서 기계학습이 어떻게 응용

되는지 그 사례를 살펴보기 해 2장에서 다양한 의료

상의 역사와 원리를 살펴본다. 3장에서는 의료 상 분

할(segmentation), 상 정합(registration), 컴퓨터 보조

진단 시스템(CADx, CADe), 내용기반검색(content based

image retrieval)에서 용된 기계학습 기법인 신경망

(artificial neural network), 최근거리 이웃법(k-nearest

neighbors), 유 자 알고리즘(genetic algorithm), 가우

시안 혼합 모델(Gausian Mixture Method), 엔트로피

(entropy), 두 학습 기법의 결합을 소개한다. 마지막으

로 4장에서 결론을 맺는다.

2. 의료 상의 역사와 특징

진료 목 으로 상용화된 다양한 의료 상(그림 1)은

각 상을 획득하기 한 방법과 역사 인 발 과정이

서로 다르다. 따라서 각 상이 갖는 특징 때문에 어떤

상의 획득 방법은 다른 상과 상이하며, 특정한 진료

과목에 효과 일 수 있다. 이러한 의료 상으로는 평

방사선술(plain radiography), 컴퓨터단층촬 (Computed

Tomography, CT), 음 상(Ultrasound image),

자기공명 상(Magnetic Resonance Imaging, MRI), 양

자방출단층촬 (Positron Emission Tomography, PET)

등이 있다(표 1).

엑스선(X-ray)은 자외선보다 짧은 장의 역에 있

는 자기 의 형태를 말한다. 엑스선은 1895년 독일의

물리학자 뢴트겐(Wilhelm Conrad Röntgen)이 진공

에 류를 흐르게 하는 실험을 하다가 우연찮게 처음

발견하 다. 그는 알려지지 않은 새로운 유형의 방사선

이라는 뜻으로 X-ray라 이름 지었다. 한 그의 이름을

Page 3: (Machine Learning for Medical Image Analysis)kiise.or.kr/e_journal/2012/3/SA/pdf/01.pdf연구사업(2011-0029429, 2011-0014828) 지원을 받아 수행된 것임 ․이 논문은 정보과학회지

의료 상 분석을 한 기계학습 165

따라 뢴트겐선으로도 명명 된다[3].

의료 상에서 엑스선을 사용하는 평 방사선술은 가

장 오래되었으면서도 기본 이며 가장 리 사용되는

의료 상 획득 방법이다. 이 방법을 이용하여 신체 내부

의 상을 획득하기 해 진료 심 역 뒤편에 기록

을 고 신체 심 역에 은 양의 이온화 방사선

(ionizing radiation)을 노출하면 기록 에 상이 기록

된다. 평 방사선술의 표 인 응용으로는 흉부 엑스

선(chest radiography, chest X-ray)을 들 수 있는데,

심장, 폐, 기 지, 그리고 척추 등의 를 촬 하는

데 이용된다. 한 평 방사선술의 다른 응용으로 유방

촬 술(mammography)을 꼽을 수 있다. 유방암(breast

cancer)은 40 이상의 년 여성에게서 자주 발견되는

병으로서 이른 시기의 진단과 치료는 치사율을 크게

일 수 있다. 유방촬 술은 유방 종괴(breast mass)와

미세석회화 군집(micro-calcification cluster)을 포함하

는 기 유방암을 진단할 수 있는 가격 비 가장 효율

인 방법으로 알려져 있다[4].

물체에 빛을 발사하여 투과되는 에 지로부터 얻어지

는 정보를 투 (projection)이라 하는데, 단층촬 법

(tomography)은 다양한 방향에서 얻어진 투 을 이용

하여 물체의 단층을 상화하는 기법을 의미한다[5]. 투

에서 어떤 함수를 재구성하는 문제를 래던(Radon)이

1917년에 해결하 고, 1972년에 국의 기 공학자인

가드 리 하운스필드(Godfrey Hounsfield)에 의해 재

의 CT 진단기법이 개발되었다[5].

환자가 CT 상을 촬 하기 해 단층촬 장비의 테

이블에 우면, 환자는 테이블과 함께 동그란 통 안으로

미끄러져 들어간다. 통 안에 있는 인체에 다양한 각도에

서 엑스선을 투과시키고, 인체를 통과하면서 감소되는

엑스선의 양을 기 신호의 형태로 측정한다. 컴퓨터

를 이용하여 측정된 신호를 분석하고 인체의 내부 단면

을 재구성한다.

일반 엑스선 상은 2차원 투 평 에 나타내므로

표 에 한계가 있다. 반면 CT는 선택한 단면의 모든 모

습을 보여주기 때문에 일반 엑스선 상으로는 알아내

기 힘든 여러 가지 사실들을 정확하게 진단할 수 있다.

이 때문에 CT는 다양한 의료 상을 획득하는데 이용되

고 있다.

음 는 가청 주 수보다 더 높은 진동(frequency)

을 갖는다. 음향학(acoustics)에서 미래의 실질 연구

의 바탕이 되는 음 의 수학 식을 로드 일리(Lord

Rayleigh)가 처음 발표하 다. 그 후, 1794년 스팔란자

니(Spallanzani)는 박쥐들이 어두운 곳에서 인간이 들을

수 없는 소리의 반사음을 통해 어두운 곳을 이동할 수

있다는 이론을 발표하 다. 1930년에 이르러 음 는

치료의 목 으로 국과 독일에서 사용되기 시작하 다[6].

음 상을 획득하는 과정은 먼 상화하고 싶

은 환자의 부 에 탐 자(producer probe)를 올려놓는

다. 탐 자와 진단 부 에는 젤을 발라 더욱 선명한

상을 얻도록 한다. 컴퓨터는 되돌려 받은 음 를 상

으로 변환한다. 이를 이용한 음 검사는 실시간 진단

이 가능해서 태아의 발육상태나 신체 내부 장기의 상처

나 암들의 발견을 해 유용하다. 한 유방암 기 검

출에 있어 음 상은 은 여자들에게서 자주 나타

나는 치 유방(dense breast)에서 작은 종괴(mass)를

검출하는데 유방촬 술 보다 더욱 유용하다[7].

MRI의 처음 명칭은 NMRI(Nuclear Magnetic Reso-

nance Imaging)이었으나 의료 진단장치로 상용화되면

서 핵(Nuclear)이란 단어의 부정 인 의미 때문에 ‘N’을

빼고 MRI가 되었다. MRI의 기본원리는 1946년에 블록

과 퍼셀(Bloch & Purcell)에 의해 발견되었으며, 의료

목 으로는 1969년 다마디안(Damadian)에 의해 특히

암을 검출하기 해 제안되었다[8]. MRI는 외부에서 엑

스선이나 음 를 쏘여서 상을 얻는 것과는 달리 강

력한 자장 역 내에 인체를 넣고 고주 를 발생시킨

다음 그 형의 분포를 분류하여 상화한다. 다른 엑스

선 기반 상과 달리 엑스선을 사용하지 않는 이 과

높은 해상도 때문에 다양한 의료 상 획득과 진단에 활

용되고 있다.

핵의학 상은 신체내부로부터 방출되는 자기신호

를 이용하며, 외부에서 신호를 보내지 않고 신체 내부를

상화할 수 있는 유일한 방법으로 알려져 있다. 핵의학

부분에서 발 한 방사성 동 원소를 이용한 PET는 여

러 기본 사물질에 양 자를 방출하는 방사성 의약품

을 에 주사한 후 양 자와 물질간의 상호작용으로

발생하는 소멸방사선(annihilation radiation)을 체외에

서 검출하여 질병을 진단하는 상검사법 하나이다.

부분의 질병은 해부학 인 형태변화가 생기기 에

기능 인 변화와 생화학 인 변화가 일어나고 PET은

생화학 인 변화의 이상을 찾아낼 수 있어 각종 질병의

조기진단에 유용하다. 임상에서 가장 많이 이용되고 있

는 PET 분야는 암 질환의 조기진단, 치료효과 정

재발의 발견 등이다. 암 질환, 뇌종양 이외에 알츠하이

머병, 킨슨씨병, 간질과 같은 뇌 질환과 일부 심

질환의 진단에도 사용된다.

고든 라우넬(Gordon Brownell) 등은 1950년 에

최 로 의료 상에서 소멸방사선의 소개로 PET 기술개

발에 지 한 향을 미쳤다. PET 상을 더 넓은 분야에

용할 수 있도록 한 주요 요인은 방사성 의약품(radio

pharmaceuticals)의 개발을 들 수 있는데, 1976년에 처

음으로 사람에게 용되었다[9]. 재는 PET기술을 CT

Page 4: (Machine Learning for Medical Image Analysis)kiise.or.kr/e_journal/2012/3/SA/pdf/01.pdf연구사업(2011-0029429, 2011-0014828) 지원을 받아 수행된 것임 ․이 논문은 정보과학회지

166 정보과학회논문지 : 소 트웨어 응용 제 39 권 제 3 호(2012.3)

표 1 의료 의 특징 응용분야

발견자 발견연도 특징 응용분야

X-ray 뢴트겐 1895

․자외선보다 짧은 장의 역에 있는 자기 의

형태

․2차원 투 평 에 나타내므로 표 에 한계

․흉부 엑스선, 심장, 폐, 기 지,

그리고 척추 등의 를 촬 ,

유방촬 술

CT 가드 리 1972․엑스선의 양을 기 신호의 형태로 측정

․선택한 단면의 모습을 보여

․종양, 암들의 진단, 간이나 신장과

같은 인체의 내부 장기 검사

음 상 스팔란자니 1794

․가청 주 수보다 더 높은 진동

․되돌려 받은 음 를 상으로 변환

․근육, 힘 , 그리고 많은 내부 장기들,

이들의 크기, 구조와 병리학 손상을

실시간으로 단층 상으로 가시화

MRI 다마디안 1969

․강력한 자장 역 내에 인체를 넣고 고주 를

발생시킨 다음 그 형의 분포를 분류하여

상화

․엑스선을 사용하지 않는 이 과 높은 해상도

․암 질환의 조기진단, 치료효과 정

재발의 발견

PET 고든 등 1950년

․양 자를 방출하는 방사성 의약품을 에

주사한 후 양 자와 물질간의 상호작용으로

발생하는 소멸방사선을 체외에서 검출

․외부에서 신호를 보내지 않고 신체 내부를

상화할 수 있는 유일한 방법

․병변의 형태학 변화와 생화학 변화를 3차원

상에서 더욱 정확하게 확인

․암 질환, 뇌종양 이외에 알츠하이머병,

킨슨씨병, 간질과 같은 뇌 질환과

일부 심 질환의 진단

그림 2 신경망을 이용한 간질성 폐질환 검출 시스템[11]

와 MRI에 결합한 PET/CT 는 PET/MRI등으로 발

되어 병변의 형태학 변화와 생화학 변화를 3차원

상에서 더욱 정확하게 확인할 수 있게 되었다[10].

3. 의료 상에서 기계학습 응용

3.1 인공 신경망

간질성폐질환(Interstitial Lung Diseases, ILD)은 폐

와 련된 120여 가지의 상이한 병을 하나로 묶어 부르

는 이름이다. ILD는 차 으로 폐의 크기를 감소시키

며, 무시할 수 없는 치사율을 보인다. 기 ILD치료는

병의 진행을 막는데 요한 단계이다. Park[11] 등은

CT 상에서 ILD를 기에 검출하여 당한 치료가 이

루어지도록 진료를 돕는 시스템을 개발하 다(그림 2).

이 시스템의 기본 인 역할은 자동으로 폐를 분할한

후, 폐에 속한 모든 화소를 검사하여 ILD와 연 되었는

지를 검사한다. 하지만 모든 폐를 검사하는 방식은 방

한 계산이 필요하므로, 분할된 폐 상에 일정한 크기의

격자를 가상으로 덮어서 각 결이 만나는 화소를 검사하

여 ILD에 해당되면 주변의 화소를 검사하는 방식

(region growing)으로 처리 속도를 향상시켰다. 화소를

검사할 때는 화소를 심으로 미리 지정된 ROI(region

of interest)를 추출하여 해당 ROI에서 최소 텍스쳐

(texture) 특징 22개와 히스토그램의 일차 통계 (Gray

level first order statistics) 특징 4개를 추출하여 훈련

된 인공 신경망에 의해 ILD 련 화소인 지를 단한다.

마지막으로 검출된 ILD화소의 부피와 분할된 폐의 부피

를 계산하고 그들의 비(rate)를 ILD 검출 수(score)로

이용한다. 만약 검출 수가 지정된 임계값(threshold)

보다 크면, CT 상에 ILD가 존재한다고 단하고 그

지 않은 경우 정상이라 단한다.

인공 신경망은 입력과 결과로 이루어지는 의 데이

터를 이용하여 학습함으로써 역최 함수에 근 하는

학습방법이다[12]. 역 (back propagation)알고리즘은

신경망의 훈련에 가장 많이 이용된다. 훈련 과정은 먼

Page 5: (Machine Learning for Medical Image Analysis)kiise.or.kr/e_journal/2012/3/SA/pdf/01.pdf연구사업(2011-0029429, 2011-0014828) 지원을 받아 수행된 것임 ․이 논문은 정보과학회지

의료 상 분석을 한 기계학습 167

입력 패턴에 따른 출력을 계산한 후, 원하는 출력과 입

력에 따른 출력 사이의 오차를 계산한다. 그리고 오차를

감소시키기 해 출력층과 은닉층의 가 치를 신경망의

처리 방향과 반 로 갱신한다[13]. 상 으로 노이즈가

있는 일부 훈련데이터를 이용해서 입력 특징과 요구하

는 출력 부류사이의 계를 최 화시키는 특징 때문에

인공신경망은 다양한 의료 상에서 CAD 시스템의 기계

학습 도구로 리 사용된다.

[11]에서 사용된 신경망의 구조는 입력층, 은닉층, 출

력층의 3층으로 구성되었다. 입력층은 ROI에서 추출된

26개 특징 우수한 11개의 특징과 1개의 편향값(bias)

를 나타내는 12개의 뉴런(neuron)으로 이루어졌으며, 은

닉층은 실험에 의해 10개의 뉴런으로 결정되었다. 일반

으로 두 부류 문제를 해결하기 한 신경망의 출력층

은 1개의 뉴런으로 이루어진다. 그러나 두 분류를 단

하기 한 결정값(cut-off value)을 선택하기 해

다른 훈련 과정이 요구된다. 이러한 문제를 해결하기

해 두 개의 뉴런을 사용하여, 결정값의 선택 문제를 데

이터와 신경망의 훈련에 맡겼다. 학습 과정에서 사용된

학습율과 편향값은 경험에 의해 0.05와 0.95로 선택되었

으며, 각 뉴런을 한 활성 함수(activation function)는

시그모이드 함수(sigmoid function)가 사용되었다. 훈련

과정에서 역 알고리즘에 의해 뉴런 사이의 가 치

값들이 체 제곱 에러에 변화가 없을 때까지 는 미

리 지정된 최 반복 횟수에 도달할 때까지 반복 학습

된다. 제한된 데이터를 이용한 훈련은 과다 훈련(over

training)되어 신경망의 일반화(generalization)에 향

을 주므로 최 훈련회수를 500으로 한정하 다.

제안 시스템의 평가를 해 방사선과 의사들의 의해

가벼운 ILD 증상이라 단되는 19개의 CT 상이 선

택되었다. 이 연구의 목 은 기 ILD 환자를 검출하는

것이 목 이므로 심각한 ILD 증상이 포함된 CT 상은

실험에서 제외되었다. 다음으로 폐암 검사를 해 촬

된 CT 상 데이터베이스로부터 ILD에 향이 없

는 19개 CT 상을 무작 선택하 다. 따라서 실험에

사용된 데이터베이스는 38개의 CT 상으로 구성되었다.

데이터베이스는 훈련과 테스트를 해 정상과 ILD 환자

의 CT 상은 반씩 나뉘어 사용되었다.

실험결과 테스트에 참여한 CT 상 에서 슬라이스

두께(slice thickness)가 2.5mm인 경우 분할된 폐 역

은 4,317,211개의 화소로 구성되었다. 그러나 region

growing기법을 용한 후, 시스템은 280,292개 화소만

을 방문하여 검사 상화소를 약 93.5%만큼 감소시켰으

며, 처리 시간은 약 15.6배 향상 되었다. 한 신경망에

훈련된 시스템을 모든 테스트 CT 상에 용한 후

IDL 검출 능력을 평가한 결과 AUC(Area Under ROC

curve)=0.884±0.064의 성능을 보 다. 결국 시스템은

80.0%의 민감도와 85.7%의 특이도를 보 다. 한 정상

CT 상에서는 ILD 검출 수가 0.91부터 4.60까지 좁

은 역에서 일정하게 나타난 반면, ILD를 포함한 CT

상에 해서 검출 시스템은 1.07부터 15.40까지 다양

하면서도 상 으로 큰 수를 보 다. 따라서 제안 시

스템은 정상과 ILD를 포함한 CT 상을 효과 으로 구

별해 낼 수 있음을 보 다.

3.2 k-최근 이웃 알고리즘

의료 상 분석 역에서 임상 계성(clinical rele-

vance)과 시각 유사성(visual similarity)에 의한 상

검색을 해 내용기반 검색(content-based image retrieval)

시스템 개발[14,15]은 그동안 많은 심받아 왔다[16,17].

Park[18] 등은 내용기반 검색 결과에 의존하여 유방촬

상(mammogram)의 부분 상이 유방 종괴(breast

mass)를 포함하고 있는지를 분류하는 시스템을 개발하

다. 특별히, 유사한 상의 검색을 한 도구로 k-최

근 이웃 알고리즘(k-nearest neighborhood algorithm,

k-NN)을 용하 다. 이를 해 유방촬 상에서 유

방 종괴에 해당하는 심 역(ROI, region of interest)

을 기존에 개발된 툴(CADe)[19]을 이용하여 3000개를

추출하여 참조 데이터베이스에 장하 다. 추출된 심

역에서 1500개는 실제 유방 종괴, 즉 정 진실(true-

positive)을 포함하며, 그 나머지 1500개는 사용 툴에

의해 추출된 정 오류(false-positive)로써 정상 조직을

포함하고 있다.

추출된 심 역들로부터 형태학 특징과 화소 밝

기 기반 특징을 포함한 14개의 특징이 추출된다. 자세히

설명하면, 유방 종괴는 가슴 체 역이 갖는 특징들에

의해 규정될 수 있으므로 3개의 역 기반 특징이 사용

된다. 그 로, 분할된 체 가슴 역에서의 평균 화소

밝기, 화소 밝기의 평균변동(fluctuation)과 표 편차이

다. 다음으로 추출된 종괴 역과 종괴 역 배경으로부

터 11개의 지역 특징이 계산된다. 를 들면, 역의

가시성(conspicuity), 종괴 심에서 테두리까지 반경

거리(radial length)의 평균, 반경 거리의 표 편차, 반

경 거리의 왜곡(skew), 테두리의 원형도, 종괴 역 내

부의 화소 밝기의 표 편차, 테두리 화소의 기울기

(gradient)의 표 편차, 종괴 배경 화소 밝기의 표 편

차, 종괴 배경 화소 밝기의 평균 변동, 종괴의 심이다.

각 유방 종괴를 표 하는 14개의 특징들은 추출된 유방

종괴 ROI와 함께 참조 데이터베이스에 장되어 검색

단계에서 이용된다. 한 시각 유사성을 잘 나타낼 수

있는 랙탈 특징(Fractal feature)이 1개 더 추출되었다.

k-NN은 단지 몇 개의 훈련 샘 에 의존하여 목

함수에 가까운 지역 근사치를 형성하는 지역 데이터

Page 6: (Machine Learning for Medical Image Analysis)kiise.or.kr/e_journal/2012/3/SA/pdf/01.pdf연구사업(2011-0029429, 2011-0014828) 지원을 받아 수행된 것임 ․이 논문은 정보과학회지

168 정보과학회논문지 : 소 트웨어 응용 제 39 권 제 3 호(2012.3)

기반 분류기 의 하나이다. 테스트 상( )이 주어지면

k-NN은 참조 데이터베이스에서 테스트 상과 가장 유

사한 k개의 참조 상을 검색한다. 여기서 검색된 종괴

참조 상( )은 다차원 공간( )의 특징( )으로 표

된다. 테스트 상과 참조 상 사이의 거리는 그들 특

징 사이의 유클리디언 거리(Euclidean distance)로 계산

된다(식 (1)).

(1)

k-NN에 의해 k개의 유사한 참조 상이 검색되면

시스템은 검사 상이 종괴로 분류되는 지를 단하기

한 검출 수를 계산 한다(식 (2)).

(2)

여기서 는 유클리디언 거리의 역수

로써 와

는 각각 정 진실(i)과 정 오류(j)에

한 거리 역수를 나타낸다. 그리고 N는 정 진실의

개수이며, M은 시스템에 의해 잘못 검색된 정 오류의

개수이다.

k-NN을 이용한 내용기반 검색 시스템을 용 후, 검

색된 참조 종괴 상이 질의 종괴 상과 같은 클래스

(종괴 혹은 비 종괴)이면 서로 임상 으로 같다고 단

한다. k-NN을 이용한 검색 시스템은 지역 인스턴스

(local instances)에 기반하여 해를 구하는 기계 학습

방법이므로, 사 훈련 과정이 필요 없다. 따라서 leave-

one-case-out 평가 방법을 이용하여 시스템의 성능을

평가하 다. 를 들어, 3000개의 ROI 상이 질의 상

으로 한 번씩 사용되며, 나머지 2999개 상은 참조 상

으로 고려된다. 시스템 성능 평가를 한 반복 수행에서

하나의 ROI가 테스트 상(질의 상)으로 선택 되면

시스템은 나머지 참조 데이터베이스에서 k개의 유사한

상을 검색한다. 종괴와 비종괴 ROI에 한 시스템의

검색 수에 따라서, AUC와 95%의 신뢰 구간을 포한

한 ROC가 계산된다. 여기서 AUC는 시스템의 성능을

평가하는 척도로 사용되었다. 실험 결과, 15개의 모든

특징과 26개의 이웃(k=26)으로 하는 k-NN을 이용한

검색 시스템은 95% 신뢰구간에서 AUC=0.866인 성능을

보 다.

3.3 유 자 알고리즘

폐색 증(Pulmonary Embolism: PE)은 심부정맥

(deep vein thrombi)이라고도 불리며, 신체의 다리 깊은

곳에 치한 정맥에서 생성된 이 정맥 벽에서 떨어

져, 을 타고 우심방, 우심실을 경유하여 폐의 으

로 이동하여 폐의 을 막아버림으로써 발병된다. 폐

색 증은 한 시기에만 발견되면 비교 쉽게 치료할

수 있는 질병이지만, 호흡곤란, 실신, 기침 객 등으

로 나타나는 모호하고 특징 이지 않은 기 증상들로

인해 그 진단이 매우 어려우며, 미국에서는 세 번째로 큰

사망의 원인으로 꼽히고 있다. 이를 진단하기 해 컴퓨

터 단층 촬 상이 이용되는데, 상에서 의심되는

역들의 선택, 명암도 벨 등의 조정 작업과 작은 폐동맥

의 시각 해석에 의사들은 많은 시간을 할애한다.

이러한 이유로 지난 몇 년 동안, 방사선과 의사들을

도와 효과 인 컴퓨터 단층촬 상의 해석을 보조할

수 있는 CAD 시스템의 개발 연구는 많은 심을

받아 왔다. 궁극 으로 컴퓨터 보조 검출 시스템은 단독

인 진단도구로 활용할 수 있도록 연구되었다. 하지만,

아직까지는 컴퓨터 단층촬 상으로부터 폐 색 증의

검출 시 많은 수의 정 오류들을 검출함으로써, 방사선

과 의사의 해석을 보조하는 차선 해석기와 같은 역할조

차 제 로 수행하지 못하고 있다.

Park 등[20]은 폐색 증 검출 시스템에서 정 오류

를 제거하고자 여러 근 방법을 제시하 다. 처리 과

정에서 제안 시스템은 폐색 증 후보자를 탐색하고 후

보자로 부터 27개 특징(명암 기반 특징 12개, 모양 기반

11개, 후보자 테두리 기반 4개)을 추출하 다. 그리고

폐색 증 후보자 역을 분류하는 단계에서 k-NN이

용되었다. k-NN의 참조 데이터베이스는 미리 정 진

실과 정 오류가 서로 같도록 구성된다. 특별히 정

오류를 감소시키고 민감도를 높여 분류 능력을 향상시

키고 27개 특징 에서 k-NN에 의한 분류에 요한

특징이면서 최 인 특징(an optimal features)을 선택하

기 해 유 자 알고리즘을 용하 다. 한 유 자 알

고리즘은 참조 데이터베이스에서 테스트 상과 가장

유사한 상의 개수(k)를 선택한다.

구체 으로 설명하면, 최 화를 한 유 자 알고리즘

을 용하기 에, 유 자 알고리즘의 염색체(chromo-

somes)를 생성하기 해 이진화코딩(binary coding)방법

이 사용된다. 선택된 각각의 특징은 염색체 하나의 유

자에 응된다. 따라서 27개의 특징을 해 유 자 알고

리즘은 27개 유 자를 갖는다. 이때 1의 값을 갖는 유

자는 해당 특징이 선택되었음을 의미하며, 0의 값은 최

의 특징 집합에 참여하지 않게 된다. 한 최 의 이

웃 k를 선택하는 문제에 있어, 이 연구에서는 5개에서

최 31개 까지 탐색한다. 따라서 최 이웃의 선택을

해 추가 으로 5개 유 자가 염색체에 포함된다. 를

들어, 만약 k=7라면 최 이웃을 한 5개 유 자 값은

00111을 갖는다. 결과 으로 염색체는 총 32개의 유

자를 갖는다. 최 의 유 자를 찾기 해, 유 자 알고

Page 7: (Machine Learning for Medical Image Analysis)kiise.or.kr/e_journal/2012/3/SA/pdf/01.pdf연구사업(2011-0029429, 2011-0014828) 지원을 받아 수행된 것임 ․이 논문은 정보과학회지

의료 상 분석을 한 기계학습 169

리즘의 매 단계마다 선택된 유 자의 조합에 응하는

특징과 k를 갖는 시스템의 성능이 비교되며, 높은 성능

을 보이는 시스템의 특징과 k는 보존된다. 이 실험에서

는 최 의 유 자 조합을 찾기 해 100개의 유 자 염

색체가 평가되었다. 이는 유 자 알고리즘이 교배(cross-

over)와 돌연변이(mutation) 연산(operation)으로 100번

의 새로운 유 자 조합을 정의했다라고 할 수 있다.

k-NN 분류기를 한 입력 특징의 최 의 집합을 찾

아내기 해 GA를 용한 후, 시스템은 주어진 27개의

특징에서 15개의 특징(6개의 화소 밝기 기반의 특징, 7

개의 모양 기반 특징, 2개의 테두리 기반 특징)을 선택

하 다. 한 k-NN의 최 의 이웃을 찾기 해 최

31개를 탐색하여 결국은 7개를 결정하 다. 이를 바탕으

로 시스템은 AUC=0.918±0.048 (p=0.003)의 성능을 보

다.

3.4 가우시안 혼합 모델

가우시안 혼합 모델은 주어진 표본 데이터 집합의 분

포 도를 단 하나의 확률 도함수로 모델링하는 방법

을 개선한 도 추정 방법으로 복수 개의 가우시안 확

률 도함수로 데이터의 분포를 모델링하는 방법이다.

물론, 확률 도함수는 가우시안 분포 뿐 만 아니라 다른

분포가 될 수도 있다. 가우시안 혼합 모델(Gaussian

Mixture Model, GMM)은 단지 확률 도함수를 가우시

안 분포로 가정하는 경우이다. 따라서, GMM으로 데이

터의 분포를 모델링할 경우에 혼합 성분의 개수가 충분

히 주어지고, 한 라미터 값들만 주어진다면, 이론

으로는 어떠한 연속 인 분포도 거의 완벽하게 추정

하여 모델링 할 수 있다.

특히, 의료 상 분할 기법 통계학 모델을 기반으

로 한 방법은 GMM에 용하여 분할을 수행하며, 혼합

모델의 라미터 추정은 반복 인 최 우도의 추정법

에 의해서 수행 할 수 있다. 측된 데이터로부터 모델

의 라미터를 추정하는 문제는 불완 한 데이터를 사

용하는 추정의 문제이며, 그 추정은 반복 인 최 우도

추정 알고리즘, 즉 EM(Expectation Maximization) 알

고리즘이 표 인 추정 방법으로 알려져 있다. GMM

을 이용한 상 분할은 추정된 통계 인 분포 특성에

따라서 각 화소의 사후 확률을 계산하여 동질의 역을

나타내는 샘 들의 집합으로 객체를 분할한다[21].

일반 으로 측 가능한 특징벡터로 구성되는 벡터

를 불완 한 데이터라 하고, 벡터 는 군집을 지시하는

측되지 않은 지시 벡터 값이라 하면 이때 완 한 데

이터는 로 정의되고, log는 완 한 데

이터에 기 하여 형성된 로그 우도 함수가 된다[22].

한 를 가 주어졌을 때 특징벡터 의 조건부

확률 도 함수라 하고, 는 라미터 벡터 를

갖는 지시벡터 의 사 확률 도 함수를 나타낸다고

하면 완 한 데이터 의 로그 우도 함수 log는

다음과 같이 주어진다(식 (3)).

log log log (3)

여기서 와 는 각각 조건부 분포의 라미터 벡터

와 사 분포의 라미터 벡터를 나타낸다.

이때 측벡터 가 주어졌을 때 라미터 벡터 의

최 우도 추정량(maximum likelihood estimator)을

계산하는 방법으로 다음과 같은 EM 알고리즘을 이용할

수 있다. EM 알고리즘은 최 우도 추정량의 기값으

로 임의의 값 을 취하고, 다음의 두 단계를 반복

으로 용하여 연속되는 추정량 ,⋯을 계산하

는 방법이다.

E-step: 사후 확률 분포 를 계산

하고, 이것을 이용하여 다음의 기 값을 구한다(식 (4)).

(4)

M-Step: 다음의 함수를 최 로 하는 라미터 벡터

의 추정량 을 계산한다(식 (5)).

argmax (5)

따라서 반복 단계가 종료된 후 추정된 값을 얻게 된다.

GMM을 이용하여 폐(lung) CT 상에서 폐를 자동

분할하는 실험을 실시하 다. 여기서 폐 CT는 크게 폐,

공기, 배경의 3가지 역으로 구분된다. 따라서 GMM에

의한 정확한 폐 분리를 해 혼합모형의 성분수를 3으

로 결정하 다. 선택된 최 의 혼합모형을 사용하여 각

화소에 한 사후확률을 계산하고 이들의 최 값을 이

용하여 폐 역의 분할을 실시하 다. 실험 결과로부터

에지기반의 방법들보다 GMM을 이용한 폐 역 분할방

법이 정확률(precision)에서 약 12% 높은 것을 알 수

있었으며, 재 률(recall)을 비교하 을 때 약 5% 낮게

나오는 것을 확인 할 수 있었다.

3.5 개미군집 최 화

개미 군집 최 화 알고리즘은 조합 최 화 문제를 해

결하기 해 갬바델라(Gambardella)와 도리고(Dorigo)

등에 의해 소개되었다[23]. 기본 원리는 에이 트라 불

리는 개미들이 목 지를 향해 나아가는 동안 각 경로에

페로몬(pheromone)을 분비하고, 이후에 지나가는 개미

들은 그 경로에 쌓여있는 페로몬 정보를 이용해 다음

경로를 선택하는 원리를 휴리스틱 탐색에 용시킨 것

이다(그림 3). 다시 말해, 확률 조합 최 화에 합한

알고리즘으로 실제 개미들이 집에서 먹이를 찾아가는

동안의 방법을 학습하는 습성을 용한 것이다.

[24]에서는 뇌 MR 상에 학습을 이용한 역화 알

고리즘으로 개미군집 최 화 알고리즘을 용했다. 의료

Page 8: (Machine Learning for Medical Image Analysis)kiise.or.kr/e_journal/2012/3/SA/pdf/01.pdf연구사업(2011-0029429, 2011-0014828) 지원을 받아 수행된 것임 ․이 논문은 정보과학회지

170 정보과학회논문지 : 소 트웨어 응용 제 39 권 제 3 호(2012.3)

그림 3 개미 군집 최 화 방법의 기본원리

상 분할방법은 개미가 먹이를 찾아가는 동안의 방법

을 기억하는 습성처럼 상에서 분할하고자하는 화소를

사 에 학습한 후에 유사한 화소들을 찾아갈 수 있다는

것이다. 유사한 화소들을 찾은 개미들은 페로몬을 화소

에 축 하게 되는데 이 페로몬은 이후에 지나가는 개미

들이 다음 경로를 선택할 때 향을 다. 그리고 각각

의 반복단계에서 상태 이 규칙에 따라 상의 치를

바꿔가면서 최종 목 지에 도달하게 되며, 마지막으로

페로몬 분포의 분석을 통해 상에서 분할 된 결과를

얻는다.

먼 m개의 개미들이 기화 규칙에 따라 무작 로

n개의 노드를 선택한 다음, 각 개미들은 상태 이 규칙

(transition rule)에 따라 다음에 방문할 노드를 선택하

고 계속해서 탐색과정을 거친다. 상태 이 규칙은 다음

과 같다(식 (6)).

(6)

여기서 는 화소 r에서의 페로몬 농도, 는 정의된

먹이의 수, 는 각 반복 횟수에서 페로몬의 쇠퇴율이다.

이 정의와 함께 개미들의 행동은 먹이 소스를 찾아가는

능력이 향상되는 것처럼 군집 행동이 더 많이 일어나게

된다. 상태 이 규칙은 각 반복횟수에서 페로몬의 쇠퇴

율을 용하며 무조건 페로몬의 농도만으로 다음 노드

를 선택하지 않고 주어진 확률분포를 이용해서 다음 노

드를 선택하게 된다.

이러한 탐색과정을 거치는 동안 개미들은 갱신 규칙

에 따라 방문한 각 간선에 페로몬 양을 변경하게 된다.

그리고 일단 모든 개미들이 탐색과정을 마치게 되면 갱

신 규칙에 따라 최종 페로몬 양을 변경하게 된다. 결국,

각 개미들은 짧은 간선을 선택하려는 휴리스틱 정보와

많은 양의 페로몬을 가진 간선을 선택하려는 페로몬 정

보에 따라 탐색경로를 완성하게 된다.

개미군집 알고리즘을 이용한 방법은 뇌 질환이 있었

을 경우 뇌 체 변화율을 분석하는 컴퓨터 보조 진단

시스템에 용하기 하여 뇌 MRI에서 백질(white

matter) 회백질(gray matter)을 자동으로 정확히 분

할하는데 이용되었다. MRI에서 그 이 스 일은 신호도

와 직 으로 계가 있으며, 신호도가 높은 구조는 밝

게 나타나고 간정도의 신호도나 낮은 신호도는 각각

회색, 검정색으로 어둡게 나타나게 된다. 따라서 뇌

MRI의 T1 강조 상에서 뇌 조직은 간 정도의 신호

도를 가지고 이때 뇌척수액은 검게 보이며, 지방이나 백

질 회백질과 같은 뇌 실질은 상 으로 희게 나타

난다. T2 강조 상은 체 으로 어둡게 표 되어 있

으나 뇌 체에 분포되어 있는 뇌척수가 상 으로 밝

게 표 되며, 백질 회백질과 같은 뇌 실질은 상

으로 상당히 검게 나타나게 된다.

분할에 이용된 데이터베이스는 정상 인 구조를 가지

고 있는 T1, T2 강조 상 각 10개씩 20개와 뇌 질환

이 있는 경우의 T1, T2 강조 상 각 10개씩 20개, 총

40개의 MR 상으로 구성되었다.

개미군집 알고리즘 용 후의 결과를 살펴보면, 먼

최 의 임계치를 얻는데 을 두고 반복실험에 의해

횟수를 설정하 다. T1, T2 강조 상 모두 반복 횟수가

무 게 설정이 되면 백질 회백질의 해부학 구

조가 정확하게 분할되지 않음을 확인 할 수 있었고 반

복횟수가 증가하면서 더 정확하게 백질이 분할됨을 확

인할 수 있다. 그러나 반복횟수가 무한히 증가하게 되면

과 훈련이 되어 과분할(over segmentation)의 결과가

나오므로 최 반복횟수는 200으로 한정하 다.

한, 개미군집 알고리즘 시스템에서는 분할하고자하

는 해부학 구조의 각 역에 한 밝기값을 개미들이

움직일 때 쌓 던 페로몬의 양과 반복횟수에 따라 찾아

감으로써 기존의 다양한 분할기법과 비교 실험을 수행

하 다.

비교 실험의 방법으로는 Otsu, 유 자 알고리즘, 퍼지

방법 등과 비교하 으며, 개미군집 알고리즘을 용한

결과가 백질의 구조 인 부분(그림 4 T1 강조 상 참

조)을 더 정확하게 분할함을 알 수 있었다. 회백질 분할

결과(그림 4 T2 강조 상 참조) 한 Otsu와 유 자

알고리즘을 용한 결과는 회백질의 내부가 거의 분할

되지 못한 반면, 퍼지 방법을 이용한 결과는 회백질의

내부가 많이 제거됨을 알 수 있었다(그림 4).

따라서, 비교실험의 결과에서 개미군집 알고리즘을

용한 방법이 기본의 방법들보다 더 정확한 분할결과를

얻을 수 있었으며, AUC=0.9378의 성능을 보 다.

3.6 조건부 엔트로피

상 정합(registration)은 공간좌표가 서로 다른 상

에서 연 계를 쉽게 악하기 하여 동일 좌표계로

정렬하는 것으로 서로 첩되는 기하학 변환의 최

Page 9: (Machine Learning for Medical Image Analysis)kiise.or.kr/e_journal/2012/3/SA/pdf/01.pdf연구사업(2011-0029429, 2011-0014828) 지원을 받아 수행된 것임 ․이 논문은 정보과학회지

의료 상 분석을 한 기계학습 171

그림 4 기존 분할 방법과의 비교

그림 5 상정합 과정

화 과정을 찾는 것이다(그림 5). 최 화 과정을 찾는데

다양한 유사척도(similarity measure) 기법이 사용되며

이 개선된 조건부 엔트로피는 상호정보(Mutual

Information, MI)[25]와 같이 엔트로피의 개념을 이용하

여 각 상의 조건부 엔트로피의 결합을 유사성 척도로

이용하여 최 가 되는 치에서 상의 정합을 실시하

게 된다.

의료 상에서 정합을 실시하는 목 은 해부학 정보

와 기능 정보의 결합을 통하여 처치 병소의 치

를 정확하게 진단하기 한 목 이나 병변의 진행과정

추 환자 집단 간 특성 분석 등을 하여 의료 상

정합이 활용되고 있다. 해부학 정보를 가지는 의료

상 CT 상은 와 같은 골 조직 부 를 잘 나타내

어 뇌, 폐, 신장 등 신의 질병을 진단하는데 효과가

있으며, MRI는 지방, 근육과 같은 연조직 부 를 잘 나

타내는 특징이 있다. 반면에, PET 상 등은 우리 몸의

해부학 정보를 제공하지 못하지만 몸의 어느 조직에

기능이나 사 이상 등의 기능 정보를 제공한다. 다시

말해, 해부학 상으로 진단하기 어려운 질병에 하

여 기능 상을 촬 해 으로써 진단이 용이하게 할 수

있고, 기능 상에서 치선정이 난해한 부 에 하여

해부학 상을 이용함으로써 문제를 손쉽게 해결할

수 있다. 이처럼 해부학 상과 기능 상은 서로 보완

인 역할을 한다.

따라서 서로 다른 상간의 정합을 하여 개선된 조

건부 엔트로피를 이용한 상 정합 기법이 제안되었다

[26-28]. 제안된 방법은 주어진 두 상에서 화소의 밝

기정보와 에지정보를 결합하여 조인트 히스토그램(joint

histogram)을 계산하여 조건부 엔트로피를 구하고, 이

것을 두 상의 정합척도로 사용한다.

입력된 두 상 하나는 기 상 와 상 상

이라하고, 이때 서로 첩되는 역의 집합을 라 하

자. 이때 …과 …은 집합 에 속하는

각 상의 화소 값 들에 하여 각각 와 에 속하

는 화소들의 명암도 값이다. 상 상 에서 화소 의

명암도 는 기 상 의 변환된 치 의 명암

도 와 응한다. 은 명암도 를 갖는 상

상 에서 화소 가 주어졌을 때, 명암도 를 갖는 기

상 의 조건부 확률을 나타내며 다음 식의 조건을

만족한다(식 (7)).

∣∣ …

≤∣≤ ≤≤

(7)

따라서 조건부 확률의 엔트로피를 다음과 같이 정의

한다(식 (8)).

∣∣

log ∣∣ (8)한, 이와 반 의 경우에 한 조건부 확률의 엔트로

피를 라 정의하고 동일한 방법으로 정의할 수

있다. 이 게 얻어진 두 상의 각각의 조건부 엔트로피

를 결합하여 다음 식과 같이 개선된 조건부 엔트로피로

정의하고, 정합의 최 화를 한 유사성 척도로 사용한

다(식 (9)).

∣ ∣

log ∣ 

log ∣ ∣

(9)

Page 10: (Machine Learning for Medical Image Analysis)kiise.or.kr/e_journal/2012/3/SA/pdf/01.pdf연구사업(2011-0029429, 2011-0014828) 지원을 받아 수행된 것임 ․이 논문은 정보과학회지

172 정보과학회논문지 : 소 트웨어 응용 제 39 권 제 3 호(2012.3)

이것은 기 상에 있는 화소의 밝기 값과 상 상

의 밝기 값의 불일치정도를 나타내는 척도가 된다. 이러

한 척도를 단일 멀티 모달리티에 한 상정합의

척도로 사용함으로써 최 화 하는데 소요되는 시간도

이면서 더 정확한 정합결과를 얻을 수 있다.

조건부 엔트로피 방법을 용한 실험을 해 사용된

상은 단일 모달리티(mono modality)의 경우 뇌 MR

상(256×256)의 원본 상을 기 상으로 사용하고, 정

확성을 평가하기 하여 가우시안 노이즈를 첨가하며

시계 반 방향으로 5도 회 된 상을 상 상으로 사

용했다. 한, 멀티 모달리티(multi-modality) 상간

정합을 해서 뇌 MR 상(256×256)을 기 상으로

뇌 CT 상(512×512)을 상 상으로 사용하 다.

그림 6은 단일 멀티 모달리티 상간의 정합 의

결과와 정합 후의 결과를 나타내고 있다. 그림에서 알 수

있듯이 정합 의 두개골 부분과 뇌의 백질, 회백질 뇌

척수 부분이 서로 일치하지 않는 모습을 확인할 수 있다.

반면에, 정합 후의 결과를 확인해 보면 두개골 부 와 뇌

의 다른 해부학 구조가 정확하게 일치함을 알 수 있다.

조건부 엔트로피 방법의 강인성과 정확성을 평가하기

해 기존에 가장 많이 사용되는 명암도 기반의 방법 명

암도 차이 측정, 정규화된 상 계수, 정규화 된 상호 정

보량 방법 등과 비교하 다. 실험결과 기존의 명암도기반

의 기법들 보다 에 지 값을 최소화함으로써 더 정확한

정합의 결과를 확인할 수 있었고 정합을 실시하는데 필

수 인 최 화 시간도 조건부 엔트로피 방법이 명암도

차이측정, 정규화 된 상 계수, 정규화 된 상호 정보량

방법 보다 각각 1.8%, 6.2%, 2.7% 단축함을 알 수 있었다.

(a)

(b)

그림 6 단일 모달리티 상간의 정합 결과: (a) 단일

모달리티, (b) 멀티 모달리티, 정합 (왼쪽), 정

합 후(오른쪽)[27]

3.7 두 기계학습법의 결합

역 데이터 기반과 지역 데이터 기반의 기계학습

방법들은 CAD를 최 화시키기 해 리 사용되어 왔

다. 역 데이터 기반 기계학습법의 목 은 모든 훈련

샘 에 해 역 최 함수를 생성하는 데에 있다.

를 들어서, 형 으로 인공 신경망은 역 데이터 기반

기계학습 기법 하나이다. 인공신경망의 장 은 잠정

인 노이즈와 완 하지 않은 데이터를 이용하여 일반화

된 목 함수를 근사할 수 있는 강력한 근 방법이다.

지역 데이터 기반 기계학습 기법은 훈련 샘 에 기 한

게으른(lazy) 학습 기법이다. 한 번에 체 샘 공간을

한 역 목 함수를 추정하는 신에, 지역 데이터

기반 학습 기법은 분류되어야 할 새로운 질의 데이터에

해 지역 이며 항시 다른 목 함수를 추정한다.

k-NN 기법은 가장 리 사용되는 지역 데이터 기반 기

계학습 기법 의 하나이다.

한 CAD 시스템의 성능을 향상하기 해 다른 두

기계학습 기법의 결과를 결합하는 방법은 CAD 시스템

개발 분야에서 많은 연구 심을 받아왔다. 그 에서도

인공 신경망과 k-NN 학습 기법의 결과의 상 계와

그들을 이용한 CAD 시스템의 성능 차이는 Park[2]에

의해 처음으로 비교 검사 되었다. 자세히 설명하면, 그

들은 유방종괴를 검출하는 CAD 시스템의 성능을 향상

시키기 해 두 분류기 사이의 상 계를 조사하고 그

들에 의한 결과를 결합하 다.

실험에 사용된 데이터는 400명의 유방암 검사를 거친

여환자로부터 획득되었다. 그 에서 200명은 유방암

(breast cancer)으로 진단되었으며, 나머지 200명은 정

상이었다. 제안된 CAD 시스템은 먼 의심되는 유방

종괴 역을 화소의 다층 명암정보를 이용하여 검출하고

분할하 다. 그런 다음 추출된 종괴를 진실 정과 정

오류로 분류하기 해 특징 기반 분류기를 용하 다.

분류의 성능을 향상시키기 해 역 데이터 기반 분

류기인 인공신경망과 지역 데이터 기반 분류기인 k-NN

이 함께 사용된다. 자세히 설명하면, 인공 신경망은 13

개의 특징을 입력받는 입력노드, 7개의 은닉노드, 그리

고 한 개의 출력 노드를 가지고 있다. 출력 노드는 0부

터 1까지의 값을 나타내며 1에 가까울수록 강한 진실

정을 나타낸다. 한 3.2에서 설명한 k-NN의 방법을

사용하여 유방 종괴를 따로 검출한다. 여기서 k-NN의

결과는 0부터 1까지의 값을 갖고 검사 상 상의 진

실 정에 한 근 정도를 나타낸다. 마지막으로 두

분류기의 검출 수를 산술 평균하여 최종 검출 수를

나타낸다.

실험결과에서 진실 정에 해 두 분류기에 의해 산

출된 검출 수의 상 계수는 0.436이었으며(그림 7),

Page 11: (Machine Learning for Medical Image Analysis)kiise.or.kr/e_journal/2012/3/SA/pdf/01.pdf연구사업(2011-0029429, 2011-0014828) 지원을 받아 수행된 것임 ․이 논문은 정보과학회지

의료 상 분석을 한 기계학습 173

그림 7 유방 종괴의 진실 정에 해 인공신경망과

k-NN을 이용한 CAD 시스템에 의한 검출

수의 분포[2]

정오류에 해서는 0.161으로 낮았다. 인공신경망과

k-NN을 이용한 CAD 시스템의 검출 성능은 AUC=0.891과

AUC=0.845로 인공신경망이 더 높았으나, 두 분류기를 결

합한 후 AUC=0.912로 향상되었다. 한 검출 민감도 향

상되어 두 분류기를 결합한 방법이 개별 분류기를 사용할

때 보다 더 우수한 검출 성능을 얻을 수 있음을 보 다.

4. 결 론

이 논문에서는 진료 활동에서 유용한 도구로 사용되

고 있는 다양한 의료 상의 역사, 원리 응용 분야를

간단히 살펴보았다. 한 기계학습 기법이 방 한 의료

상의 자동 분석에 있어 효과 으로 응용될 수 있음을

그 사례를 통해 확인하 다. 기계학습을 이용한 의료

상분석은 의료 활동에서 상을 읽고 해독하는 의사의

업무를 일 수 있으며, 병변 검출을 돕는 제2의 독자

로서 요한 역할을 하기 때문에 앞으로 꾸 히 발 할

수 있는 분야이다. 한 digital mammography, multi-

slice high resolution CT, digital tomosynthesis,

diffusion-weighted MRI, electrical impedance tomo-

graphy, diffused optical tomography 등 새로운 의료

상 획득 기기들이 빠르게 발 하고 있으므로 그에 맞

춰 새로운 기계학습 알고리즘과 응용이 요구된다.

참 고 문 헌

[ 1 ] E. Alpaydin, "Introduction to Machine Learning,"

MIT Press: Cambridge, MA, 2004.

[ 2 ] S.C. Park, J. Pu, B. Zheng, "Improving Perfor-

mance of Computer-Aided Detection Scheme by

Combining Results from Two Machine Learning

Classifiers," Academic Radiology, vol.16, no.3, pp.

266-274, Mar. 2009.

[ 3 ] R. Novelline, "Squire's Fundamentals of Radiology,"

Harvard University Press. 5th edition. 1997.

[ 4 ] S.C. Park, B. Zheng, X.H. Wang, D. Gur, "App-

lying a 2D based CAD scheme for detecting

micro-calcification clusters using digital breast

tomosynthesis images: an assessment," Proc. SPIE,

Medical Imaging 2008, vol.6915, p.38, San Diego,

USA, Feb. 2008.

[ 5 ] A.C. Kak and M. Slaney, "Principles of compu-

terized tomographic imaging," IEEE Press,

Piscataway, NJ, 1988.

[ 6 ] J. Woo, "A short history of the developments of

ultrasound in obstetrics and gynecology," http://

www.ob-ultrasound.net/hydrophone.html, retrieved

in Dec. 2010.

[ 7 ] Y. Ikedo, D. Fukuoka, T. Hara, H. Fujita, E.

Takada, T. Endo and T. Morita, "Development of

a fully automatic scheme for detection of masses

in whole breast ultrasound images," Medical

Physics, vol.34, no.11, pp.4378-4388, 2007.

[ 8 ] A. Filler, "The History, Development and Impact

of Computed Imaging in Neurological Diagnosis

and Neurosurgery: CT, MRI, and DT," Internet

Journal of Neurosurgery, vol.7, no.1, 2009.

[ 9 ] A. Alavi, "PET Imaging II," Radiologic Clinics of

North America," vol.43. pp.xiii-xv, 2005.

[10] H. Guan, T. Kubota, X. Huang, X. S. Zhou, and

M. Turk, "Automatic hot spot detection and

segmentation in whole body fdg-pet images," In

Proceedings of the IEEE International Conference

on Image Processing (ICIP), 2006.

[11] S. C. Park, Jun Tan, Xingwei Wang, Dror Leder-

man, Joseph K. Leader, Soo Hyung Kim and Bin

Zheng, "Computer-aided detection of early inter-

stitial lung diseases using low-dose CT images,"

Physics in Medicine and Biology, vol.56, no.4, pp.

1139-1153, 2011.

[12] G. J. Taylor, "Neural Networks and Their Appli-

cations," New York: Wiley, 1996.

[13] L. Fausett, "Fundamentals of Neural Networks,"

New Jersey: Prentice Hall, 1994.

[14] S.C. Park, R. Sukthankar, L. Mummert, M.

Satyanarayanan, and B. Zheng, "Optimization of

reference library used in content-based medical

image retrieval scheme," Medical Physics, vol.34,

no.11, pp.4331-4339, 2007.

[15] X.H. Wang, S.C. Park, and B. Zheng, "Improving

performance of content-based image retrieval schemes

in searching for similar breast mass regions: an

assessment," Physics in Medicine and Biology,

vol.54, no.4, pp.949-961, 2009.

[16] I. El-Naqa, Y. Yang, N.P. Galatsanos, R.M.

Nishikawa, M.N. Wernick, "A similarity learning

approach to content-based image retrieval: appli-

Page 12: (Machine Learning for Medical Image Analysis)kiise.or.kr/e_journal/2012/3/SA/pdf/01.pdf연구사업(2011-0029429, 2011-0014828) 지원을 받아 수행된 것임 ․이 논문은 정보과학회지

174 정보과학회논문지 : 소 트웨어 응용 제 39 권 제 3 호(2012.3)

cation to digital mammography," IEEE Trans.

Med. Imaging, vol.23, pp.1233-1244, 2004.

[17] H. Muller, "Benefits of content-based visual data

access in radiology," Radiographics, vol.25, pp.849-

858, 2005.

[18] S.C. Park, X.H. Wang, B. Zheng, "Assessment of

Performance Improvement in Content-based Medi-

cal Image Retrieval Schemes using Fractal

Dimension," Academic Radiology, vol.16, no.10, pp.

1171-1178, 2009.

[19] B. Zheng, Y.H. Chang and D. Gur, "Computerized

detection of masses in digitized mammograms

using single image segmentation and a multi-

layer topographic feature analysis," Acad. Radiol.,

vol.2, pp.959-966, 1995.

[20] S.C. Park, B.E. Chapman, and B. Zheng, "A

multi-stage Approach to Improve Performance of

Computer-aided Detection of Pulmonary Emboli-

sms Depicted on CT Images: Preliminary Investi-

gation," IEEE Transactions on Biomedical Engi-

neering, vol.58, no.6, pp.1519-1527, 2011.

[21] W.H. Cho, S.C. Park, M.E. Lee, and S.Y. Park,

"Segmentation for Medical Image Using a Statis-

tical Initial Process and a Level Set Method,"

MIAR2006, pp.380-388, Aug. 2006.

[22] A.P Dempster, N.M. Laird and D.B. Rubin,

"Maximum Likelihood from Incomplete Data via

the EM Algorithm," J. Royal Statistical Society

Ser. B, vol.39, pp.1-38, 1977.

[23] L.M. Gambardella and M. Dorigo, "Ant Colony

System: A Cooperative Learning approach to the

Traveling Salesman Problem," IEEE Transactions

on Evolutionary Computation, vol.1, no.1, pp.53-66,

1997.

[24] M. E. Lee, S. H. Kim, J. S. Lim, "Region Segmen-

tation from MR Brain Image Using an Ant Colony

Optimization Algorithm," KIPS, vol.16-B. no.3,

pp.195-202, 2009. (in Korean)

[25] F. Mases, A. Collignon, D. Vandermeulen, G.

Marchal, and P. Suetens, "Multimodality image

registration by maximization of mutual informa-

tion," IEEE Transaction on Medical Imaging, vol.

16, no.2, pp.197-198, 1997.

[26] W.H. Cho, S.W. Kim, M.E. Lee, S.H. Kim, S.Y.

Park, C.B. Jeong, "Multimodality Image Registra-

tion using Spatial Procrustes Analysis and Modi-

fied Conditional Entropy," Journal of Signal Pro-

cessing Systems, vol.52, pp.101-114, 2009.

[27] M. E. Lee, S. H. Kim, J. S. Lim, "Optimization

Methods for Medical Images Registration based

on Intensity," IEEK CI, vol.46. no.6, pp.1-6, 2009.

(in Korean)

[28] M. E. Lee, S. H. Kim, S. W. Kim, J. S. Lim,

"Medical Image Registration by Combining Gradi-

ent Vector Flow and Conditional Entropy Measure,"

KIPS, vol.17-B, no.4, pp.303-308, 2010. (in Korean)

박 상 철

1999년 조선 학교 자계산학과(학사)

2001년 조선 학교 자계산학과(석사)

2006년 남 학교 산학과(박사). 2006

년~2007년 미국 Pittsburgh 학 Medical

Imaging Center(박사후연구원). 2007년~

2010년 미국 Pittsburgh 학 Medical

Imaging Center( 임연구원). 2010년~2012년 남 학교(연

구교수). 2012년~ 재 삼성메디슨주 연구소책임연구원 심분

야는 패턴인식, 의료 상분석, 의료 상검색, 바이오 상분석

이 명 은

1998년 목포 학교 자공학과(학사). 2001

년 목포 학교 자공학과(석사). 2007년

목포 학교 자공학과(박사). 2006년~

2007년 목포 학교 정보공학부 빙교수.

2007년~2011년 남 학교 유비쿼터스

정보가 사업단(박사후연구원 연구교

수). 2011년~ 재 서울 학교 의학연구원(선임연구원). 심

분야는 의료 상처리, 3차원 시각화, 의료 상분석, 패턴인식

김 수 형

1986년 서울 학교 컴퓨터공학과(학사).

1988년 한국과학기술원 산학과(석사).

1993년 한국과학기술원 산학과(박사).

1990년~1996년 삼성 자 멀티미디어 연

구소(선임연구원). 2000년~2001년 캐나

다 Concordia 학 CENPARMI 연구소

(방문교수). 2008년 미국 NC A&T 주립 학(방문교수).

1997년~ 재 남 학교 자컴퓨터공학부 정보통신연

구소(교수). 심분야는 인공지능, 패턴인식, 문서 상검색,

유비쿼터스컴퓨

나 인 섭

1997년 남 학교 산학과(학사). 1999

년 남 학교 산통계학과(석사). 2008

년 남 학교 산학과(박사). 1999년~

재 (주)인포밸리 표이사. 2007년~

재 지식경제부 IT멘토 의회 호남권

원장. 2009년~ 재 주 남 여성과학

기술인 지원센터 자문 원. 2011년~ 재 한국산업기술평가

리원 지식경제 기술 신 평가단 원. 2000년~2005년

남도립 학 겸임교수. 2006년~2008년 호남 학교 겸임교

수. 심분야는 인공지능, 패턴인식, 웹기반컴퓨 , 바이오기

반컴퓨 , 농업기반컴퓨

진 연 연

2010년 국 양주 학교 컴퓨터공학(정

보보안학과)(학사). 2010년~ 재 남

학교 자컴퓨터공학과 석사과정. 심분

야는 패턴인식, 상처리, 인공지능 등