24
통계청「통계연구」제10권 제1호, 2005, pp. 38-61 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 이태용 * ・정현경 ** ・김광환 *** 1) < 요 약 > 2003년 1월 1일부터 12월 31일까지 1년간 일개 대학병원에서 등록된 암 환자자료 총 2,094건 중 512건을 대상으로 퇴원환자 요약정보를 토대로 암 환자 이탈환자특성과 요인을 파악한 후, 요인을 점수화 하여 암환자 이탈 환자방지 모형을 개발한 결과는 다음과 같다. 암환자 이탈방지 모형에 대한 오분류표와 학습결과의 정분류율을 보면 의 사결정나무 86.3%, 로지스틱 회귀분석 88.0%, 그리고 신경망 분석 80.4%로 나타나, 로지스틱회귀분석이 가장 우수한 모델로 선정되었다. 실제 이탈된 암환자의 14.8%중, 개발된 로지스틱 회귀분석 모형에서 상 위 90%의 이탈 암환자를 관리할 경우 전체 이탈환자 중 71.2%(4.8배)를 방 지할 수 있을 것으로 예측되었다. 이와 같은 암환자 이탈방지예측 모델을 적용하여 병원은 지속적인 환자 관리와 환 자와의 신뢰를 형성하고 꾸준한 병원 방문을 유도할 수 있을 것 으로 사료된다. 또한 연구에서 수행된 통계모형이 의료기관의 암환자 이탈 방지 개선 및 관리에 활용되어지길 기대한다. 핵심단어 : 이탈암환자, 의무기록, 데이터마이닝, 의료정보 * 충남대학교 의과대학 예방의학교실 ** 충남대학교병원 의무기록실 *** (교신저자) 단국대학교 병원 의무기록과, Email : [email protected]

데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

통계청「통계연구」제10권 제1호, 2005, pp. 38-61

데이터마이닝을 이용한 암환자 이탈방지 모형 개발

이태용*・정현경**・김광환***

1)< 요 약 >

2003년 1월 1일부터 12월 31일까지 1년간 일개 대학병원에서 등록된 암 환자자료 총 2,094건 중 512건을 대상으로 퇴원환자 요약정보를 토대로 암 환자 이탈환자특성과 요인을 파악한 후, 요인을 점수화 하여 암환자 이탈환자방지 모형을 개발한 결과는 다음과 같다. 암환자 이탈방지 모형에 대한 오분류표와 학습결과의 정분류율을 보면 의사결정나무 86.3%, 로지스틱 회귀분석 88.0%, 그리고 신경망 분석 80.4%로 나타나, 로지스틱회귀분석이 가장 우수한 모델로 선정되었다. 실제 이탈된 암환자의 14.8%중, 개발된 로지스틱 회귀분석 모형에서 상위 90%의 이탈 암환자를 관리할 경우 전체 이탈환자 중 71.2%(4.8배)를 방지할 수 있을 것으로 예측되었다. 이와 같은 암환자 이탈방지예측 모델을 적용하여 병원은 지속적인 환자관리와 환 자와의 신뢰를 형성하고 꾸준한 병원 방문을 유도할 수 있을 것으로 사료된다. 또한 연구에서 수행된 통계모형이 의료기관의 암환자 이탈방지 개선 및 관리에 활용되어지길 기대한다.

핵심단어 : 이탈암환자, 의무기록, 데이터마이닝, 의료정보

* 충남대학교 의과대학 예방의학교실 ** 충남대학교병원 의무기록실*** (교신저자) 단국대학교 병원 의무기록과, Email : [email protected]

Page 2: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

「통계연구」제10권 제1호, 2005

Ⅰ. 서 론 우리나라 암환자 사망률은 1990년 11.0%에서 2000년 12.4%로 10년 동안 약 1.4%로 꾸준히 증가하고 있으며(이태용 등, 2003), 2003년 현재 전체 사망자 중 13.3% 정도가 암으로 인한 사망으로 사망원인의 1위를 차지하고 있다. 병원의 환자 구성에서도 암환자가 차지하는 구성비가 높아지고 병원 수익에도 미치는 영향이 크기 때문에 암환자는 병원의 경쟁력 즉, 종합전문요양기관 중증도 평가에 중요한 지표로서 사용되고 있다(서순원 등, 2002). 암환자의 증가는 의료기관 입원환자 잠재력 증가 의미와 우수 의료기관 이미지 향상으로 외래환자 증가 그리고 진료수가 면에서도 고 부가 가치를 가져올 수 있기 때문이다(김광환, 2002). 병원의 경영현실에서 보면 병원은 그저 방문하는 암환자만을 고객으로 여기고 다른 병원의 방문환자나 잠재적 일반 고객에 대하여서는 관심을 보이지 않는 수동적인 자세를 보여왔다(홍준현 등 2002). 그러나 최근 우리나라는 계속되는 경제사정 악화로 의료분야에도 병원경영이 힘든 상황에 직면해 있다. 이러한 여건 속에서 의약분업의 실시, 포괄수가제 그리고 간호등급제 같은 새로운 수가체계가 도입되는 등 의료제도에 급격한 변화가 일어나고 있다(서순원 등, 2000). 이러한 급변하고 있는 의료환경에서 환자가 병원을 선택하는데는 환자의 질병의 정도, 병원의 인지도, 시설, 친절성 및 편리성 등 많은 요인들이 영향을 미치는 것으로 알려져 있다(서정돈 등, 1999). 환자의 행태는 의원보다는 규모가 큰 병원이나 종합병원에 있어서 환자 확보 및 관리를 위한 홍보전략 측면에서 특단의 마케팅 도구의 필요성이 요청되며(박연옥 등, 1998) 환자확보와 더불어 병원환자관리에서 가장 문제시되는 고객이탈의 방지가 의료서비스 및 병원 경영적 측면에서 중요한 관건이 되고 있다. 특히 암환자이탈을 예방하기 위해서는 환자 불만의 근본원인을 알아야 하며, 이를 해결하기 위해 고충과 불만족은 어떠한 요인으로 발생하는지를 구체적으로 파악하고 이에 대한 해결 방안을 제시하고

Page 3: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

데이터마이닝을 이용한 암환자 이탈방지 모형 개발

적용하여 환자만족을 최우선으로 하는 전략을 수립하는 것이 필요하다.(박우성 등, 2002). 이에 병원은 적극적인 자세로 보다 과학적인 접근방법을 통한 업무효율 및 고객 확보의 극대화에 대한 요구가 필요하며, 특히 암환자 이탈 현상을 이해하고 이를 막기 위한 적절한 활동을 전개함으로써 기존 암환자로부터 발생되는 수익을 극대화시키는 고객이탈 방지 시스템이 대두되고 있다. 그 대표적인 예가 바로 특정 고객에 대한 타겟 마케팅 전략과 모델 개발의 필요성이 대두되고 있는 것이다(한상태 등, 2004). 본 연구는 한 대학병원의 의무기록 정보를 토대로 내원한 환자와 타 의료기관으로 이탈된 암환자의 특성을 파악한 후, 데이터마이닝을 활용한 암환자 이탈방지 모형을 제시하고자 하였다.

Ⅱ. 조사대상 및 방법

1. 조사 상 기간

2003년 1월 1일부터 12월 31일까지 1년간 일개 대학병원에서 등록된 암환자 자료 총 2,094건 중 512건(24.5%)을 무작위 추출하여 조사대상으로 하였다. 그리고 일개대학병원에서 이탈된 암환자(암 환자로 진단 하였으나, 타 의료기관으로 전원하기 위해 퇴원한 환자; 이하 이탈된 암환자라 함)와 매핑이 되는 의무기록(퇴원요약 등록정보)의 변수를 수집하였다.

2. 조사방법

1) 자료수집 의무기록에서 수집한 자료의 구체적인 항목은 일반적 특성으로 성별, 연령, 직업, 결혼상태, 학력 및 종교의 6항목으로, 입원형태에 관련된 항목으로는 보험유형, 입원경로, 내원지역 및 내・외과계 4항목으로 구성하였다.

Page 4: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

「통계연구」제10권 제1호, 2005

진료상태에 관련된 항목으로는 수술유무, 상위 10위의 암 진단명 분류, 협의진료유무 및 최종진단 방법 4항목으로 구성하였다. 치료상태에 관련된 항목으로는 치료결과 및 재원일수 2항목으로 총 16항목으로 구성하였으며, 통계처리를 위해 그림 1과 같은 과정으로 SAS, Office tool을 이용하여 재편집하였다<그림 1>.

퇴원의무기록

데이터 정제

파생변수생성

1 차 통합분석 마트

Target 변수선정

최종 분석 마트2차 분석 마트 일개 대학병원 암 등록 자료

<그림 1. 자료수집 방법 >

2) 모형간 성능비교 분할된 자료를 활용하여 분석용(training)과 평가용(validation) 자료로 모형을 학습하고 이를 전체 모집단과 동일한 분포를 가진 검정용(test) 자료에 적용하여 각각의 성능을 비교하였다. 최종 선정 모델은 단일모형인 의사결정나무, 신경망, 로지스틱 회귀분석 중 설명력이 높은 하나의 모형을 선택하였다<그림 2>.

Page 5: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

데이터마이닝을 이용한 암환자 이탈방지 모형 개발

Data Partition

Source data

Tree

Regression

Neural

Network

Assessment ScoreData

Partition

Source data

Tree

Regression

Neural

Network

Assessment Score

<그림 2 . 모형간 성능비교 체계>

3) 자료처리 및 분석 본 연구의 모형개발을 위해 E-Miner에서 구성한 분석흐름도는 <그림 3>과 같다. E-Miner의 Data Partition Node를 이용하여 퇴원요약정보에 대해 모형개발을 분석용 데이터(training data)를 70%, 모형평가를 위한 평가용 데이터(test data)를 30%로 분할하였다(강현철 등, 1999; 최종후 등, 1998). 분석방법으로는 분할된 자료를 활용하여 의사결정나무, 로지스틱 회귀모형 및 신경망모형을 비교 평가하여 최적의 모형을 선택하였다. 의사결정나무(Tree)분석은 Tree 옵션에 제공되는 3가지 분석방법 중 Splitting criterion으로 Gini Reduction 분석을 하였다. 다층인식자 신경망(MLP Neural Network)분석은 E-Minor 에서 사용할 수 있는 신경망으로 RBF(Radial Basis Function 원형기준함수) 신경망과 이를 확장한 EBF(Elliptical Basis Function 타원형기준함수)를 사용할 수 있으나 본 이탈환자 예측 모형에서 MLP 신경망을 사용하였다. 로지스틱 회귀분석(Logistic Regression)은 목표변수가 이탈환자 여부(1,0)인 binary 형태를 취하고 있어 일반적으로 많이 사용되는 로지스틱 모형을 선택해서 단일 모형간에 성능을 비교하였다

Page 6: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

「통계연구」제10권 제1호, 2005

연구에 사용된 모든 자료처리와 분석은 통계소프트웨어 SAS(ver. 6.12)와 SAS의 데이터마이닝 툴인 Enterprise Miner(ver. 3.01)를 이용하였다.

70

30

70

30

<그림 4 . 모형개발 분석 흐름도>

Ⅲ. 결 과

1. 조사 상자의 일반 특성

조사 대상자 512명의 성별 분포는 남자 57.2%, 여자 42.8%로 남자가 여자보다 높은 분포를 보였으나, 이탈환자는 남자 55.3%, 여자 44.7%로 남자가 여자보다 높은 분포를 보였다. 연령은 60세 이상이 54.7%로 가장 많았고, 45세-59세 28.9%, 30세-44세

Page 7: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

데이터마이닝을 이용한 암환자 이탈방지 모형 개발

13.3% 순이었으며, 14세 이하가 1.2%로 가장 적게 나타났고, 이탈환자는 60세 이상에서 57.9%로 가장 높은 분포를 보였다. 결혼상태는 기혼이 86.3%이었고, 사별 9.0%이었으며, 이탈환자는 기혼이 84.2%로 사별과 미혼의 각각 14.5%, 12.5%보다 높은 이탈분포를 보였다. 교육정도는 초졸이 28.3%로 가장 많았고, 고졸 23.8%, 무학 18.9%순이었으며, 중졸이 13.7% 가장 적게 나타났고, 이탈환자는 초졸이 26.3%로 가장 높은 분포를 보였고, 무학 21.1%, 중졸과 대졸이 각각 18.4%로 순이었으며 고졸이 15.8%로 가장 낮은 이탈 분포를 보였다. 종교상태는 무교가 43.9%로 가장 많았고 불교 30.3%, 기독교 17.4%의 순이었으며, 기타가 1.2%로 가장 적게 나타났다. 이탈환자는 기독교 22.4%로 타종교 보다 높은 이탈을 보였다<표 1>.

Page 8: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

「통계연구」제10권 제1호, 2005

일반 특성 이탈환자 정상퇴원환자 합 계

성 별 남 자 42(55.3) 251(57.6) 219(42.8) 여 자 34(44.7) 185(42.4) 219(57.2)연 령 14세이하 1( 1.3) 5( 1.1) 6( 1.2) 15세-29세 1( 1.3) 9( 2.1) 10( 2.0) 30세-44세 9(11.8) 59(13.5) 68(13.3) 45세-59세 21(27.6) 127(29.1) 148(28.9) 60세 이상 44(57.9) 236(54.1) 280(54.7)결혼상태 미 혼 3( 3.9) 21( 4.8) 24( 4.7) 기 혼 64(84.2) 378(86.7) 442(86.3) 사 별 9(11.8) 37( 8.5) 46( 9.0)학 력 무 학 16(21.1) 81(18.6) 97(18.9) 초 졸 20(26.3) 125(28.7) 145(28.3) 중 졸 14(18.4) 56(12.8) 70(13.7) 고 졸 12(15.8) 110(25.2) 122(23.8) 대 졸 14(18.4) 64(14.7) 78(15.2)종교상태 기독교 17(22.4) 72(16.5) 89(17.4) 불 교 25(16.1) 130(83.9) 155(30.3) 천주교 4(10.8) 33(89.2) 37( 7.2) 기 타 - 6( 1.4) 6( 1.2) 무 교 30(13.3) 195(86.7) 225(43.9) 합 계 76(100.0) 436(100.0) 512(100.0)

<표 1. 조사 상자의 일반 특성 > 단위: 명( % )

Page 9: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

데이터마이닝을 이용한 암환자 이탈방지 모형 개발

2. 암환자의 입원형태에 한 특성

암환자의 보험유형을 보면 보험환자 93.0%, 보호환자 7.0%로 보험환자가 보호환자보다 월등히 높았으나 이탈환자는 보험환자 90.8%로 보호환자 9.2% 보다 보험환자가 높은 이탈분포를 보였다. 입원경로는 외래경유입원 71.9%, 응급실경유입원 28.1%로 응급실경유입원보다 외래경유 입원이 월등히 높았으나 이탈환자는 외래경유입원 47.4%, 응급실경유입원 52.6%로 응급실경유입원환자가 높은 이탈분포를 보였으며 통계적으로 유의한 차이를 보였다(p<0.001). 내원지역은 대전지역이 65.2%로 가장 높은 분포를 보였고 충남지역 18.6%, 충북지역 11.9%순이었으며, 기타 지역이 4.3%로 가장 낮은 분포를 보였으나 이탈환자는 대전지역이 56.6%로 가장 높은 분포를 보였고, 충남지역 22.4%, 충북지역 11.8% 순이었으며, 기타지역이 9.2%로 가장 낮은 분포를 보였으며 통계적으로 유의한 차이를 보였다(p<0.05)<표 2>.

입원특성 이탈환자 정상퇴원환자 합 계

보험유형 보험환자 69(90.8) 407(93.3) 476(93.0) 보호환자 7( 9.2) 29( 6.7) 36( 7.0) 입원경로***

외래경유입원 36(47.4) 332(76.1) 368(71.9) 응급실경유입원 40(52.6) 104(23.9) 144(28.1)내원지역*

대전지역 43(56.6) 291(66.7) 334(65.2) 충남지역 17(22.4) 78(17.9) 95(18.6) 충북지역 9(11.8) 52(11.9) 61(11.9) 기타지역 7( 9.2) 15( 3.4) 22( 4.3) 합 계 76(100.0) 436(100.0) 512(100.0)

<표 2> 암 환자의 입원형태에 한 특성 단위: 명(%)

* p<0.05, ***p<0.001

Page 10: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

「통계연구」제10권 제1호, 2005

3. 암환자의 내원 진료과

과별 분포를 보면 내과계는 소화기내과가 46.2%로 가장 높은 분포를 보

고, 액종양내과 25.6%, 호흡기내과 21.3% 순이었으며 내과계 기타가

6.9%로 가장 낮은 분포를 보 다. 이탈환자는 소화기 내과가 49.2%로 가장

높은 분포를 보 고, 액종양내과와 호흡기내과가 각각 23.7% 순이었으

며, 내과계 기타가 3.4%로 가장 낮은 이탈분포를 보 다.

외과계는 외과가 67.2%로 가장 높은 분포를 보 고, 산부인과와 외과계

기타가 각각 11.9% 순이었으며, 이비인후과가 8.9%로 가장 낮은 분포를 보

다. 이탈환자는 산부인과가 35.3%로 가장 높은 분포를 보 고, 외과

29.4% 그리고 이비인후과와 외과계 기타가 각각 17.6%로 가장 낮은 이탈

분포를보 다<표3>.

진료과 이탈환자 정상퇴원환자 합 계

내과계 혈 액 종 양 내 과 14(23.7) 57(26.1) 71(25.6) 호 흡 기 내 과 14(23.7) 45(20.6) 59(21.3) 소 화 기 내 과 29(49.2) 99(45.4) 128(46.2) 내 과 계 기 타 2( 3.4) 17( 7.8) 19( 6.9) 내 과 계 소 계 59(100.0) 218(100.0) 277(100.0)외과계 이 비 인 후 과 3(17.6) 18( 8.3) 21( 8.9) 외 과 5(29.4) 153(70.2) 158(67.2) 산 부 인 과 6(35.3) 22(10.1) 28(11.9) 외 과 계 기 타 3(17.6) 25(11.5) 28(11.9) 외 과 계 소 계 17(100.0) 218(100.0) 235(100.0) 합 계 76(100.0) 436(100.0) 512(100.0)

<표 3. 암환자의 내원 진료과> 단위: 명(%)

Page 11: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

데이터마이닝을 이용한 암환자 이탈방지 모형 개발

4. 암환자의 10 다빈도질환

암환자의 10 다빈도질환을 보면 512명 396명(77.3%)이 10 에 포함

되었으며 상 질환순서를 보면 1 의 악성 신생물, 2 기 지 폐

암의 악성 신생물, 3 간 간내 쓸개 의 악성 신생물 순으로 나타났다.

암환자 이탈을 보면 기 지 폐의 악성 신생물일 때 21.1%로 가장 많

은 이탈을 보 고, 의 악성신생물 13.2%, 간 간내담 의 악성신생물

11.8% 순이었고, 직장의 악성신생물은 한건도 없어 가장 은 이탈을 보

으며, 암환자 다빈도 질환별로 유의한 차이를 보 다(p<0.001)<표 4>.

암진단명*** 이탈환자 정상퇴원환자 합 계

1위 위의 악성 신생물(C16) 10(13.2) 98(22.5) 115(21.1) 2위 기관지 및 폐의 악성 신생물(C34) 16(21.1) 47(10.8) 63(12.3) 3위 간 및 간내담관의 악성 신생물(C22) 9(11.8) 37( 8.5) 46( 9.0) 4위 유방의 악성 신생물(C50) 2( 2.6) 43( 9.9) 45( 8.8) 5위 결장의 악성 신생물(C18) 9(11.8) 21( 4.8) 30( 5.9) 6위 갑상선의 악성 신생물(C73) 1( 1.3) 26( 6.0) 27( 5.3) 7위 조혈 및 세망내피조직 신생물(C42) 6( 7.9) 17( 3.9) 23( 4.5) 8위 직장의 악성 신생물(C20) - 22( 5.0) 22( 4.3) 9위 자궁경의 악성 신생물(C53) 4( 5.3) 16( 3.7) 20( 3.9)10위 췌장의 악성 신생물(C25) 2( 2.6) 10( 2.3) 12( 2.3) 전체 10대 암 59(77.6) 337(77.3) 396( 77.3)

<표 4> 암환자의 10 다빈도질환 분포 단위: 명(%)

*** p<0.001

Page 12: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

「통계연구」제10권 제1호, 2005

5. 암환자 퇴원시 치료결과

퇴원시 치료결과를 보면 경쾌가 83.0%로 가장 높은 분포를 보 고 불경

쾌 5.5%, 사망 4.1% 순이었으며 가망 없는 퇴원이 0.8%로 가장 낮은 분포

를 보 다.

이탈환자는 경쾌 일때가 52.6%로 가장 높은 분포를 보 고 불경쾌

19.7%, 진단뿐 15.8% 순이었으며, 가망없는퇴원 2.6%로 가장 낮은 분포를

보 고 통계 으로 유의한 차이를 보 다(p<0.001)<표 5>.

치료결과***

이탈환자 정상퇴원환자 합 계

경쾌 40(52.6) 385(88.3) 425(83.0) 불경쾌 15(19.7) 13( 3.0) 28( 5.5) 비치료 7( 9.2) 8( 1.8) 15( 2.9) 진단뿐 12(15.8) 7( 1.6) 19( 3.7) 가망없는퇴원 2( 2.6) 2( 0.5) 4( 0.8) 사망 - 21( 4.8) 21( 4.1)

합 계 76(14.8) 436(85.2) 512(100.0)

<표 5> 퇴원시 치료결과 단위: 명( % )

6. 암환자 이탈방지 모형 개발

1) 의사결정나무 분석 결과 의사결정나무 분석은 E-Miner의 Decision Tree Node를 이용하였고, 알고리즘은 CHAID(chi-square automatic interaction detector)를 이용하였다. 암환자 등록정보(이탈환자) 마트를 분석한 결과 중 의사결정나무 결과 일부는 <그림 4>와 같다. 또한 의사결정나무 오분류표 분석용 결과에서 학습정분류율이 86.3%, 평가용 결과 정분류율은 87.7%로 나타났다<표 6>.

Page 13: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

데이터마이닝을 이용한 암환자 이탈방지 모형 개발

측 분석용 결과 평가용 결과

실제 이탈환자 정상퇴원환자 합계 이탈환자 정상퇴원환자 합계

이 탈 환 자 26 26 52 10 14 24정상퇴원환자 23 283 306 5 125 130합 계 49 309 358 15 139 154

학습정분류율 : 86.3% 학습정분류율 : 87.7%

<표 6> 의사결정나무에 의한 암환자 이탈방지 오분류표

내외과계 : 내과계유 18( 14.5)무 106( 85.5)

합계 124(100.0)

치료결과 : 완쾌 및 경쾌유 27( 9.2)무 266( 90.8)

합계 293(100.0)

암 환자 이탈 유 52( 14.5)암 환자 이탈 무 306( 85.5)

합 계 358(100.0)

치료결과 : 진단뿐, 호전않됨유 25( 38.5)무 40( 61.5)

합계 65(100.0)

내외과계 : 외과계유 9( 5.3)무 160( 94.7)

합계 169(100.0)

치료결과 : 진단뿐유 25( 52.1)무 23( 47.9)

합계 48(100.0)

치료결과 : 호전않됨

유 -무 17(100.0)

합계 17(100.0)

입원경로 : 응급

유 5( 17.9)

무 23( 82.1)

합계 28(100.0)

입원경로 : 외래

유 4( 2.8)

무137( 97.2)

합계 141(100.0)

내외과계 : 내과계유 18( 14.5)무 106( 85.5)

합계 124(100.0)

치료결과 : 완쾌 및 경쾌유 27( 9.2)무 266( 90.8)

합계 293(100.0)

암 환자 이탈 유 52( 14.5)암 환자 이탈 무 306( 85.5)

합 계 358(100.0)

치료결과 : 진단뿐, 호전않됨유 25( 38.5)무 40( 61.5)

합계 65(100.0)

내외과계 : 외과계유 9( 5.3)무 160( 94.7)

합계 169(100.0)

치료결과 : 진단뿐유 25( 52.1)무 23( 47.9)

합계 48(100.0)

치료결과 : 호전않됨

유 -무 17(100.0)

합계 17(100.0)

입원경로 : 응급

유 5( 17.9)

무 23( 82.1)

합계 28(100.0)

입원경로 : 외래

유 4( 2.8)

무137( 97.2)

합계 141(100.0)

<그림 5> 의사결정나무 그림(일부)

2) 로지스틱 회귀분석 결과로지스틱 회귀분석에서 변수선택법은 Stepwise method(단계적 방법)을 선택하

였고, 이 때 제거되는 변수의 유의수준으로는 5%를 지정하였다. 암환자 등록정보(이탈환자) 마트를 분석한 결과 중 로지스틱 회귀분석 결과 일부는 <그림 5>와 같다.

로지스틱 회귀분석 오분류표 분석용 결과 학습정분류율이 88.0%, 평가용 결과 학습정분류율은 85.1%로 나타났다<표 7>.

Page 14: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

「통계연구」제10권 제1호, 2005

측 분석용 결과 평가용 결과

실제 이탈환자 정상퇴원환자 합계 이탈환자 정상퇴원환자 합계

이 탈 환 자 19 33 52 3 21 24정상퇴원환자 10 296 306 2 128 130합 계 29 329 358 5 149 154

학습정분류율 : 88.0% 학습정분류율 : 85.1%

<표 7> 로지스틱 회귀분석에 의한 암환자 이탈방지 오분류표

입원경로응급

내외과계외과계

지역대전지역

지역기타지역

연령60세이상

재원일수 전이유무무

입원경로응급

내외과계외과계

지역대전지역

지역기타지역

연령60세이상

재원일수 전이유무무

<그림 6> 로지스틱 회귀분석

Page 15: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

데이터마이닝을 이용한 암환자 이탈방지 모형 개발

3) 신경망 분석 결과신경망 분석에서는 Neural Network Node의 MLP(multilayer perceptron) 알고리즘

을 사용하였다. 암환자 등록정보(이탈환자) 마트를 분석한 결과 중 신경망 분석 결과 일부는 <그림 6과> 같다.

신경망 분석 오분류표 분석용 결과 학습정분류율은 80.4%, 평가용 결과 학습정분류율은 83.1%로 나타났다<표 8>.

측 분석용 결과 평가용 결과

실제 이탈환자 정상퇴원환자 합계 이탈환자 정상퇴원환자 합계

이 탈 환 자 26 26 52 10 14 24정상퇴원환자 44 262 306 12 118 130합 계 70 288 358 22 132 154

학습정분류율 : 80.4% 학습정분류율 : 83.1%

<표 8> 신경망 분석에 의한 암환자 이탈방지 오분류표

<그림 6> 신경망 분석 그림(일부)

Page 16: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

「통계연구」제10권 제1호, 2005

7. 모형평가 최종모형 선택

이상의 1) 소절에서 3)소절까지의 분석 결과를 종합해서 모형평가를 하고 이를 통해 최종모형을 선택한 결과는 다음과 같다. 암환자 이탈방지 모형에 대해 의사결정 나무분석, 로지스틱 회귀분석 그리고 신경망 분석을 실시한 정분류율 분석 결과는 <표 9와> 같다. 결과를 살펴보면 암환자 이탈방지 모형의 경우 로지스틱모형에서 정분류율이 가장 우수함을 볼 수 있으나, 평가용 자료는 의사결정나무 분석 결과가 약간 우수함을 볼 수 있다<그림 7>. 따라서 향후 시스템 적용과 활용의 편리성을 고려하여, 암환자 이탈방지 스코어링에 사용할 최종모형으로는 로지스틱 회귀분석 모형을 선택하였다.

기 법분석용자료(train data)

평가용자료(validation data)

의사결정나무 분석 86.3% 87.7%로지스틱 회귀분석 88.0% 85.1%신경망 분석 80.4% 83.1%

<표 9> 모형평가

<그림 7> ROC Chart

Page 17: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

데이터마이닝을 이용한 암환자 이탈방지 모형 개발

8. 환자 스코어링 이익분석

리프트 도표 및 ROC 도표는 데이터마이닝을 통해 얻을 수 있는 이익을 보여주고 있는데, 대각선은 모형을 개발하기 전 무작위로 암환자의 이탈 반응률을 나타내고 위쪽의 곡선은 모형을 이용한 반응률을 나타나낸다<그림 8, 9>. 본 조사에서 이탈된 암환자 14.8%중, 개발된 로지스틱 회귀분석 모형을 적용하였을때 상위 90%의 이탈 암환자를 관리할 경우 전체 이탈환자 중 71.2%(4.8배)를 방지할 수 있을 것으로 예측되었다<표 10>.

개 발 된 로 지 스 틱

회 귀 분 석 을 통 해

얻 을 수 있 는 이 익

개 발 된 로 지 스 틱

회 귀 분 석 을 통 해

얻 을 수 있 는 이 익

<그림 8> 이익 Lift Chart

암환자이탈방지

암환자 방문상태

로지스틱회귀분석모델개발효과

암환자이탈방지

암환자 방문상태

암환자이탈방지

암환자 방문상태

로지스틱회귀분석모델개발효과

<그림 9> 이익 ROC Chart

Threshold 검출력 이탈환자

검출률(%)실제이탈환자/ 체환자수

상위 90% 37/52 71.2상위 80% 32/52 61.5상위 70% 24/52 46.2상위 60% 21/52 40.4상위 50% 19/52 36.5

<표 10> 개발된 모형으로 이탈 암환자 이탈방지 확률

Page 18: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

「통계연구」제10권 제1호, 2005

Ⅳ. 고 찰 암환자 이탈 현상을 이해하고 이를 막기 위한 적절한 활동을 전개함으로써 기존 고객으로부터 발생되는 수익을 극대화시키는 것이 이탈방지 시스템의 주목적이다. 따라서 이탈 요인을 찾아 관리함으로써 병원의 이미지 및 신임도를 높일 수 있을 것이다. 본 연구에서는 암 환자의 이탈상태와 요인을 찾고자, 먼저 간단한 통계분석을 이용하여 일년간 암환자의 이탈 추이와 일반적 특성, 내원특성 등과 같은 변수별로 이탈 현황을 살펴 본 후 탐색단계를 통해 데이터마이닝으로 분석하였다. 조사대상 512명의 이탈율은 14.8%이었다. 기존연구에서 이탈환자의 이탈 요인에 대한 분석결과를 보면 윤상섭 등(1997)은 응급실에서 이탈환자가 3.6%, 홍준현 등(2000)은 재입원환자 중 이탈환자가 3.1%로 조사되어, 본 조사에서 보다 낮은 비율로 나타났고, 이한식 등(1998)은 응급환자 중 이탈환자가 6.6%라고 보고하였다. 신손문(1998)은 신생아 호흡곤란증후군에서는 이탈환자가 11.2%, 조사대상자, 시점 및 기간에 차이가 있어 이 연구와 직접 비교하는 데는 무리가 있으나 암환자의 이탈율이 상대적으로 높았다. 입원경로는 외래경유입원 71.9%, 응급실경유입원 28.1%로 외래경유를 통한 입원이 월등히 높았으나, 이탈환자는 외래경유입원 9.8%, 응급실경유입원 27.8%로 응급실경유입원환자가 높은 분포를 보였다. 박연옥 등(1998)은 환자만족도 조사를 통한 QI활동 평가에서 외래경유입원 57.1%로 본 조사보다 낮은 경향을 보였으며, 송정흡(1997)은 외래경유입원 47.2%, 응급실경유입원 52.8%로 본 조사와 반대로 나타났다. 내원지역별 이탈환자는 대전지역과 충남지역보다 기타지역이 높은 이탈율을 보여, 환자이탈은 지역연고와 관련이 있는 것으로 사료된다. 진료과별 이탈환자의 분포를 보면 호흡기내과가 23.7%로 가장 높은 분포를 보였고, 소화기내과 22.7%, 산부인과 21.4% 순이었으며, 외과가 3.2%로 가장 낮은 분포를 보였다. Park(2001)의 연구에서는 지정진료인 경우는 외과계나 내과계가 비슷한 경향을 보였으나 일반진료의 경우는 내과계 보다

Page 19: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

데이터마이닝을 이용한 암환자 이탈방지 모형 개발

는 외과계가 높다고 하였다. 이는 수술 및 처지의 경우 지정진료를 통해 진료하고자하는 국민들의 일반적인 의식상태에서 나타난 결과라고 생각되어진다. 이태용등(2003)은 암의 종류에서 폐암과 결장암 환자의 이탈이 상대적으로 높은 것은 폐암의 생존율이 다른 암에 비하여 낮아서 더 좋은 의료기관에서 치료를 받아보려는 의도로 보이며, 결장암 환자는 수술하는 의료진이 부족하여 수술까지 기다려야 하는 시간이 길기 때문에 타 병원으로 전원한 것으로 보인다고 하였다. 암환자 중에서 이탈을 하는 사람들은 암 치료에 대하여 효과가 없거나, 가망이 없는 사람들이 있는 사람에 비하여 이탈이 많았다. 암을 진단만 받고 이탈하는 하는 사람도 상대적으로 많았는데 이는 대부분 더 좋은 인력, 시설과 장비를 갖고 있는 서울로 가서 치료를 받고자 하는 경우로 판단이 된다. 암환자의 이탈방지를 막는 것은 병원수익의 증대를 기대할 수 있을 뿐만 아니라, 환자가 거주하는 지역의 의료기관에서 수술을 받을 수 있음에도 불구하고 타 지역에 가서 수술을 받게 됨으로써 발생되는 경제적, 시간적 손실을 줄일 수 있다. 그리고 지역에서 발생하는 암에 대하여 정확한 암 발생률 계산이 가능하고, 이를 토대로 암환자에 대한 생존율, 암의 위험요인 연구, 치료효과 분석 등도 더욱 활발하게 연구될 것으로 보인다. 치료결과는 불경쾌 53.6%와 진단뿐 63.2%일 때 이탈율이 높았다. 본 연구에서는 챠트 조사에서는 이탈이유를 알 수 없었으나, 박우성 등(2002)은 외래환자 이탈 이유로는 더 큰 병원으로 가기 위해 30.2%, 개인병원으로 가기 위해 21.0% 라고 보고하였으며, 특히 부재 및 결번에 해당되는 환자수가 많아 실제 변경의 경우와 개인사정의 원인은 주관적인 자료원으로 원인을 규명하기에는 미흡하다고 하였다. 이와 같이 의료기관에서 이탈동기 및 표준화되지 않은 대량의 자료에서 환자의 진료를 향상시키기 위한 정보를 찾아내는데 데이터마이닝 기법이 유용하다는 주장이 대두되었으며(최종후 등, 1999), Greg와 Ellen(1998)도 환자행동을 예측하고 진료 프로그램을 향상시킬 수 있는 데이터마이닝 기법을 제시한 바 있다. 데이터마이닝은 유용한

Page 20: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

「통계연구」제10권 제1호, 2005

정보의 추출을 위한 방법론이라고 할 수 있다. 그리고 데이터마이닝을 효율적으로 수행하기 위하여 시계열 분석 등 각종 통계기법과 데이터 베이스 기술뿐만 아니라 데이터마이닝을 통하여 모형을 만들고 이 모형을 이용하여 미래를 예측할 수 있다. 이상적인 모형을 얻기 위해서는 몇 개의 모형을 만들고 이 모형을 평가하여야 한다. 모형평가는 하나의 자료 세트로부터 여러 개의 모형을 선정하여 비교 분석하는 것이 바람직하다. 이에 이탈환자를 예측하는 모형을 만들고자 데이터마이닝의 모형화 단계를 통하여 의사결정나무, 신경망 그리고 회귀분석등 세 가지 모형을 만들고, 오분류표, threshold, 리프트 도표 및 ROC 곡선을 통하여 이들 모형을 비교 평가하였다. 리프트 도표 및 ROC(receive operating characteristic) 도표는 데이터마이닝을 통해 얻을 수 있는 이익을 보여주고 있는데, 대각선은 모형을 개발하기 전 무작위로 암환자의 이탈 반응율을 나타내고 위쪽의 곡선은 모형을 이용한 반응율을 나타나낸다. 본 연구에서는 구체적인 암환자 이탈방지 모형을 개발하고자 데이터마이닝을 이용하였다. 본 연구에서 의사결정나무 모형을 평가하기 위하여 의사결정정나무 분석은 E-Miner의 Decision Tree Node를 이용하였고, 알고리즘은 CHAID를 이용하였다. 분석된 오분류표에서 분석용 정분류율은 86.3%이고, 평가용 결과의 정분류율은 87.7% 이었다. 회귀분석 모형을 평가해 본 결과 이탈환자 모형의 오분류표에서 분석용 결과의 정분류율은 88.0%이고, 평가용 결과의 정분류율은 85.1%로 분류되었다. 신경망 분석은 다양한 모형을 포함하는 매우 유연한 모형으로 본 연구에서는 Neural Network Node의 MLP(multilayer perceptron) 알고리즘을 사용하였다. 본 연구에서 신경망 모형을 평가해 본 결과 이탈환자의 오분류표에서 분석용 결과의 정분류율은 80.4%이고, 평가용 결과의 정분류율은 83.1%로 분류되었다. 오분류표를 통하여 세 가지 단일모형을 이용한 모형평가 한 결과 의사결정나무 분석 86.3%, 로지스틱회귀분석 88.0% 및 신경망분석 80.4%로 로스

Page 21: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

데이터마이닝을 이용한 암환자 이탈방지 모형 개발

틱회귀분석 모형이 가장 높은 설명력을 가짐을 알 수 있다. 본 조사에서 무작위 암환자 이탈확률 14.8%중, 개발된 로지스틱 회귀분석 모형에서 상위 90%의 이탈 암환자를 관리할 경우 이탈환자 중 71.2%, 즉 현재 보다 4.8배의 암 환자 이탈을 방지할 수 있는 모델이 될 것으로 예측되었다. 따라서 예측모델을 통하여 본 이탈 가능성이 높은 환자특성으로는 입원경로 중 응급실, 내・외과계중 외과계, 내원지역 중 대전지역, 연령이 60세이상, 그리고 전이유무 중 전이가 안된 환자에 속하는 그룹을 관리해야 될 것으로 사료된다.

Page 22: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

「통계연구」제10권 제1호, 2005

참고문헌김광환(2002), 데이터마이닝을 이용한 이탈환자 방지 모형에 관한 연구.

8(1):221-223, 대한의료정보학회지. 박연옥, 김미숙, 고은정, 김연정, 홍창호(1998), 환자 만족도 조사를 통한

QI 활동의 효과 평가, 5(2);312-323, 한국의료QA학회지.박우성, 서순원, 김광환, 조영채(2002), 예약부도 환자의 특성에 관한 연구,

6:151-168, 보건정보관리학회지.서순원(1998), 우리 나라 질병유형 및 양상에 관한 연구(3차 의료기관 의

무기록 자료를 중심으로). 계명대학교 대학원 공중보건학과 박사논문.서순원, 김광환, 부유경, 서진숙, 서정돈, 윤석준, 이영성, 이무식, 정희웅

(2002) 3개 대학병원의 주진단코딩사례 평가. 9(1):52-64, 한국의료QA학회지.

서순원, 김광환, 부유경, 서진숙, 이경미, 강현옥, 최명애, 이영성, 윤석준, 신현화, 김석재(2000), 3차의료기관 퇴원요약분석항목의 UHDDS적용을 위한 수준 평가. 6(2):55-64, 대한의료정보학회지.

서정돈, 이영성, 윤석준, 김윤, 서진숙, 김광환(1999), 질적 수준 평가를 통한 국가단위 질병통계산출체계 확립을 위한 연구, 학술진흥재단.

송정흡(1997), 전화를 이용한 퇴원환자 만족도 조사. 4(1):104-114, 한국의료 QA학회지.

신손문(1999), 신생아학 전문의 입장에서 자의퇴원, 12-23, 제3회 신생아학 연속강좌 심포지엄

윤상섭, 최승혜, 박일영, 이성, 박승만, 임근우(1997) 2차 의료기관 응급실 내원환자에 대한 임상적 분석. 8(2):155-165, 대한응급의학회지.

이태용, 조혜경, 김광환(2003) 우리나라 암등록 사업자료의 충실성에 관한 연구. 28(2):67-75, 한국보건통계학회지.

이한식, 지훈상, 김병로, 이경식(1998), 최근 1년간 21,652명의 응급환자 분석. 35(4):371-379, 대한외과학회지.

Page 23: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

데이터마이닝을 이용한 암환자 이탈방지 모형 개발

최종후, 한상태, 강현철, 김은석(1998), Answer Tree를 이용한 데이터마이닝 의사결정나무분석, 17-23, SPSS 아카데미.

홍준현, 김광환, 이영성, 윤석준, 서정돈(2000), 국가단위 질병통계생성을 위한 의무기록분석 운영실태에 관한연구, 6(3):9-20, 대한의료정보학회지.

홍준현, 최귀숙, 이정화, 이은미(2000), 진료정보 DB를 이용한 한 대학병원 환자들의 병원이용패턴에 관한 연구(병원이용 패턴에 관한 연구). 6(4):23-33, 대한의료정보학회지.

Greg R, Ellen J(1998). Mining your data for health care quality improvement. SAS Institute. Inc,

Park WS, Seo SW, Kim KH, Cho YC(2001), For the Hospital the Intention of Medical Examination and Treatment Reservation System, 3:5-6, Bulletin of the International Statistical Institute,

Page 24: 데이터마이닝을 이용한 암환자 이탈방지 모형 개발 · 2010-09-10 · 「통계연구」제10권 제1호, 2005 진료상태에 관련된 항목으로는 수술유무,

「통계연구」제10권 제1호, 2005

Development of Model for Preventing Informally Discharged Cancer Patients

Lee Tae-Yong*・Jeong Hyun-Kyung**・Kim Kwang Hwan*** 2)

< ABSTRACT >

The number of registered cancer patients data is 512 of total patients (2094) those are an university hospital during the period from January 1, 2003 to December 31, 2003. After grasping the characteristics and factors of the informally discharged cancer patients based on information of discharge summary, the model of preventing informally discharged cancer patients was developed as scoring the factors. Using the expected modeling of the informally discharged cancer patients, the hospital will be able to make a trust with patients, and to induce patients to visit the hospital through the continuous patient management. Further, we expect that statistic model performing in this study will apply well to improvement and management of the medical organization.

Key words : Informally Discharged Cancer Patients, Medical Record, Data Mining, Medical Information

* Department of Preventive Medicine and Public Health, College of Medicine, Chungnam National University

** Department of Medical Record Chungnam National University Hospital*** (Corresponding Author) Department of Medical Record Dankook University Hospital