99
國立臺北護理健康大學資訊管理研究所碩士論文 National Taipei University of Nursing and Health Science Graduate Institute of Information Management 指導教授:謝楠楨 博士 Advisor: Nan-Chen Hsieh Ph.D. 以探索性資料分析方法發展心臟血管疾病 臨床輔助預知模型 Using Exploratory Data Analysis Approach to develop Cardiovascular Disease Prognosis Models for Clinical Decision Assistance 研究生:蔡詵怡 Name: Shih-Yi Tsai 中華民國一百年六月

Advisor: Nan-Chen Hsieh Ph.D. - irlib.ntunhs.edu.twirlib.ntunhs.edu.tw/retrieve/979/099NTCN0396016-001.pdf · iii 誌謝 在撰寫此論文之過程中,感謝我的啟蒙老師:謝楠楨教授,他以極大的善良、

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

  • 國立臺北護理健康大學資訊管理研究所碩士論文

    National Taipei University of Nursing and Health

    Science Graduate Institute of Information Management

    指導教授:謝楠楨 博士

    Advisor: Nan-Chen Hsieh Ph.D.

    以探索性資料分析方法發展心臟血管疾病

    臨床輔助預知模型

    Using Exploratory Data Analysis Approach to develop Cardiovascular

    Disease Prognosis Models for Clinical Decision Assistance

    研究生:蔡詵怡 撰

    Name: Shih-Yi Tsai

    中華民國一百年六月

  • 2

  • I

    以探索性資料分析方法發展心臟血管疾病臨床輔助預知模型

    研究所組別:資訊管理研究所 頁數:90

    審查時間:100年 6 月 學位別:碩士

    研究生:蔡詵怡 指導教授:謝楠楨 博士

    論文摘要

    本研究是以心臟血管疾病為範圍,針對資料探勘中的分類問題做為研究主軸

    ,希望以探索性資料分析技術,發展出一套合理與有效的臨床輔助預知模型

    (Prognosis model)。方法為:使用子集合屬性選擇(subset attribute selection)

    演算法做為特徵選取,以基本模型(base model)方法與集成方法(ensemble

    methods)的計算結果做比較。當中,基礎模型,選擇以人工智慧類神經網路

    (Artificial Neural Network)、支援向量機(Support Vector Machine)、決策

    樹(Decision Tree)等方法為主。接著以組合異質模型的方式,來建立心臟血管

    疾病術後的預測模型。研究結果為:發展出之模型在準確度,或者是 AUC(Area

    under the Receiver Operating Characteristic curve)上,有顯著之效能改善。

    結論為:本研究所建構出的預知模型,用於心臟血管疾病診斷來說,具有良好自

    動化之預期效能。其可應用於決策支援系統,用於提供外科醫師作為診斷預測術

    後的併發症(Como3)、術後病人在加護病房的時間(T_ICU)、術後住院時間(Length

    of hospital stay)、術後第 1次心臟超音波檢查的左心室功能(Echo 2 Lvef)、

    術後心臟的分類等級(Alive_Fc)的參考。

    關鍵字: 心臟血管疾病、探索性資料分析、類神經網路、決策樹、支援向量機

  • II

    Using Exploratory Data Analysis Approach

    to develop Cardiovascular Disease Prognosis Models

    for Clinical Decision Assistance

    Abstract

    This study focuses on using exploratory data analysis to develop cardiovsacular

    disease prognosis models for making clinical decisions. Method: used the subset

    attribute selection as the feature selection algorithm, and compared the prognosis

    models performance by using base model methods and ensemble methods. For the

    basic models, we choose Artificial Network Neural intelligence (ANN), Support

    Vector Machine (SVM), and Decision Tree (DT) as the main test models; followed by

    using ensemble method to build a prediction model for post-operative cardiovascular

    surgery. The results have shown significant improvements in the accuracy of the

    prediction model, and in the AUC (Area under the Receiver Operating Characteristic

    curve). Conclusion: the post-operative prediction model for cardiovascular disease

    diagnosis constructed by our study has shown satisfactory prediction ability. It can be

    used in decision analysis system to assist surgeons in predicting Como3, T_ICU,

    length of hospital stay, Echo 2 Lvef and Alive_Fc.

    Keyword: Cardiovascular Disease, Exploratory Data Analysis, Artificial Neural

    Network, Decision Tree, Support Vector Machine

  • III

    誌謝

    在撰寫此論文之過程中,感謝我的啟蒙老師:謝楠楨教授,他以極大的善良、

    智慧、耐心、細心的教導,除了書本內,也以身教的方式,使我觀察到許多做人

    做事的道理,真的很榮幸能成為他的研究生。再來,也很感謝口詴委員老師們的

    專業與耐心與在如此忙碌之餘的抽出時間來的指導,讓我才得以寫出此本論文,

    真的很感謝,辛苦您了。再來感謝千慧學姊、欣哲學長,幫我解困惑、也感謝助

    教的加油打氣。也感謝研究所,曾經教導我的老師,開啟了我對資管界的大門。

    還有感謝易謙同學,給予的軟、硬體協助。感謝實驗室的學妹們,在我發表論文

    的場合裡,協助幫忙準備會場。感謝淑文,提供我解決排版的困擾。感謝班上的

    同學們的互相幫忙。感謝 J-lab的學妹們,妳們還滿可愛的。感謝爸媽,多年來

    的養育與教導。感謝我的室友球球小姐,在我寫論文之餘,幫我解煩悶,與帶來

    快樂,還有陪我聊有的沒有的事情。最後感謝天,安排了在我生命歷程中的每個

    際遇,滋養了我的內在,豐富了我的生活。

    蔡詵怡 2011 年 7月 9日

    謹誌於 臺北護理健康大學

  • IV

    目錄

    圖目錄 ...................................................................................................................................... VI

    表目錄 ..................................................................................................................................... VII

    第一章 緒論 ........................................................................................................................... 1

    第一節 研究背景 ............................................................................................................... 1

    第二節 研究動機 ............................................................................................................... 1

    第三節 研究目的 ............................................................................................................... 2

    第四節 研究步驟流程 ....................................................................................................... 3

    第五節 論文架構 ............................................................................................................... 5

    第二章 文獻探討 ................................................................................................................... 6

    第一節 心臟血管相關知識 ............................................................................................... 6

    第二節 在醫療資訊領域資料分析方法 ......................................................................... 10

    第三節 機械學習變數選擇技術 ..................................................................................... 18

    第四節 機器學習預測模型選擇 ..................................................................................... 23

    第五節 集成方法 ............................................................................................................. 27

    第六節 分類器效能可靠評估方法 ................................................................................. 29

    第七節 資料離散化 ......................................................................................................... 34

    第三章 研究方法 ................................................................................................................. 35

    第一節 探索性資料分析方法論 ..................................................................................... 35

    第二節 探索性資料分析方法之步驟描述 ..................................................................... 37

    第三節 預測模型建立 ..................................................................................................... 39

    第四節 資料探勘工具 ..................................................................................................... 40

    第四章 實證評估 ................................................................................................................. 41

    第一節 探索性資料分析方法之步驟實做 ..................................................................... 41

    第五章 結論與討論 ............................................................................................................. 78

  • V

    第一節 結論 ..................................................................................................................... 78

    第二節 討論 ..................................................................................................................... 80

    參考文獻 ................................................................................................................................. 81

    附錄一 原始資料庫欄位 ..................................................................................................... 85

  • VI

    圖目錄

    圖 1. 本研究步驟流程圖 ....................................................................................... 4

    圖 2. 人體心臟循環系統 ....................................................................................... 7

    圖 3. 人體循環系統 ............................................................................................... 7

    圖 4. 探索性資料分析方法之步驟 ..................................................................... 36

    圖 5. 資料探勘工具-Weka 軟體 ......................................................................... 40

    file:///D:/Lab/My%20Dropbox/貼/+M/final/01.14(準備Final文章6).docx%23_Toc298005714file:///D:/Lab/My%20Dropbox/貼/+M/final/01.14(準備Final文章6).docx%23_Toc298005716file:///D:/Lab/My%20Dropbox/貼/+M/final/01.14(準備Final文章6).docx%23_Toc298005718

  • VII

    表目錄

    表 1. 三種資料分析步驟之比較 ......................................................................... 15

    表 2. 探索性資料分析方法和傳統資料分析方法的區別 ................................. 16

    表 3. 探索性資料分析與匯總分析之差異 ......................................................... 17

    表 4. 三者資料分析分別在臨床上的應用 ......................................................... 18

    表 5. 機器學習實驗之屬性選擇方法的使用 ..................................................... 21

    表 6. 類神經網路研究史上的大事 ..................................................................... 25

    表 7. 混淆矩陣用於評估模型 ............................................................................. 33

    表 8. 屬性第一次篩選 ......................................................................................... 42

    表 9. 給予屬性合併 ............................................................................................. 43

    表 10. 屬性第 2 次篩選 ....................................................................................... 44

    表 11. 屬性合併之標準值分類 ........................................................................... 49

    表 12. 目標值之中文名稱 ................................................................................... 51

    表 13. 目標值之標準值分類 ............................................................................... 52

    表 14. Como3(目標值)屬性選擇第一階段結果 ................................................. 53

    表 15. Como3(目標值)離散化計算結果 ............................................................. 54

    表 16. Como3(目標值)屬性選擇第二階段結果 ................................................. 56

    表 17. Como3(目標值)屬性評估結果 ................................................................. 57

    表 18. T_ICU(目標值)屬性選擇第一階段結果 ................................................. 58

    表 19. T_ICU(目標值)離散化計算結果 ............................................................. 59

    表 20. T_ICU(目標值)屬性選擇第二階段結果 ................................................. 61

    表 21. T_ICU(目標值)屬性評估結果 ................................................................. 62

    表 22. Length of hospital stay(目標值)屬性選擇第一階段結果 ............. 63

    表 23. Length of hospital stay(目標值)離散化計算結果 ......................... 64

    表 24. Length of hospital stay (目標值)屬性選擇第二階段結果 ........... 65

    表 25. Length of hospital stay (目標值)屬性評估結果 ........................... 67

    表 26. Echo 2 Lvef (目標值)屬性選擇第一階段結果 ................................... 68

    表 27. Echo 2 Lvef (目標值)離散化計算結果 ............................................... 69

    表 28. Echo 2 Lvef (目標值)屬性選擇第二階段結果 ................................... 71

    表 29. Echo 2 Lvef (目標值)屬性評估結果 ................................................... 72

    表 30. Alive_Fc (目標值)屬性選擇第一階段結果 ......................................... 73

    表 31. Alive_Fc (目標值)離散化計算結果 ..................................................... 74

    表 32. Alive_Fc (目標值)屬性選擇第二階段結果 ......................................... 75

    表 33. Alive_Fc (目標值)屬性評估結果 ......................................................... 77

  • 1

    第一章 緒論

    第一節 研究背景

    據世界衛生組織(World Health Organization ; WHO)的報告,心臟血管疾

    病(Cardiovascular disease ; CVD)是全球主要死因。每年比起其他任何疾病,

    更多的人死於心臟血管疾病。心臟血管疾病代表與心臟和血管不適有關。心臟血

    管疾病包括:冠狀動脈心臟病、腦血管疾病、週邊動脈阻塞疾病、風濕性心臟病、

    先天性心臟病。心臟病發作和中風通常是急性事件,主要血液流入心臟或腦部時,

    受到阻塞[2]。

    目前全球排名前 200大的處方藥中,約有四分之一是心臟血管疾病用藥。心

    臟血管疾病患者年齡似乎也有下降的趨勢[3]。

    第二節 研究動機

    心臟血管病變所導致的心臟衰竭是有其順序的,只要能留意身體警訊,在警

    訊發生時,採取適當的預防措施,是可以有效阻斷心臟衰竭[1]。許多心臟學流

    行病學家認為,多數心臟病多半是可以預防的[4]。因此,假使能使用一個科學

    的方法,提供決策支援預測模型,幫助醫師在病人治療前提供簡單且可信度高之

    風險評估。那麼,對於病人與醫師來講,又多增加醫療上之另一層面的把關了。

  • 2

    第三節 研究目的

    本研究是以心臟血管疾病為範圍,針對資料探勘中的分類問題做為研究主軸

    ,希望以探索性資料分析技術,發展出一套合理又有效的臨床輔助預知模型

    (Prediction model),故本研究的主要研究目的如下:

    1.整理傳統資料分析(傳統統計方法、貝氏資料分析)、探索性資料分析三

    者,分析步驟之比較、臨床上的應用方向。

    2.發展以人工智慧為基礎之探索性資料分析(Exploratory Data Analysis)

    參考架構。

    3.依據所發展出之探索性資料分析架構,實務應用於發展一個心臟血管疾

    病臨床輔助預測模型,對於外科醫師判斷預測術後的併發症、術後病人

    在加護病房的時間、術後住院時間、術後第 1 次心臟超音波檢查的左心

    室功能、術後心臟的分類等級的情形給予參考使用。

  • 3

    第四節 研究步驟流程

    本研究之流程如圖 1.所示,將各步驟流程扼要說明如下:

    一、確立研究的方向

    先確定本研究中欲探討的領域,在眾多資料的篩選並界定研究範圍與對象後

    ,即訂定以探索性資料分析技術建立心臟血管疾病術後併發症、術後病人在

    加護病房的時間、術後住院時間、術後第1次心臟超音波檢查的左心室功能、

    術後心臟的分類等級之預知模型。

    二、蒐集及整理相關的文獻,以了解相關的問題。

    蒐集有心臟血管疾病相關知識、在醫療資訊領域資料分析方法、機械學習變

    數選擇技術、機器學習預測性模型選擇、集成方法、分類器效能可靠評估方

    法、資料離散化、等之相關研究文獻資料,先予以整理,瞭解其探討問題,

    檢視其與本研究關係。

    三、根據上述的問題,確立研究主題

    將研究主題鎖定在以探索性資料分析(Exploratory Data Analysis)技術發

    展心臟血管疾病臨床輔助預知模型上。

    四、建構符合本研究的集成模型,來增加各分類器的準確性。

    五、使用混淆矩陣的準確度、與 AUC (Area under the Receiver Operating

    Characteristic curve)來驗證模型的有效性。

    六、說明本研究結果

    詴分析與解釋本研究模式分析及所得到的各項數據,予以解說是否合理且為

    可信,並闡釋其結果。總結其研究方法並與之提出往後有價值尚待探討的議

    題。

  • 4

    確立研究方向

    研究相關文獻蒐集與整理

    以探索性資料分析技術發展心臟血管疾病臨床輔助預知模型

    發展以機械學習為基礎之探索性資料分析參考架構

    實驗與模型驗證

    解析與結論

    圖 1. 本研究步驟流程圖 圖 1. 本研究步驟流程圖

  • 5

    第五節 論文架構

    本論文架構共分為 5 章,包含「緒論」、「文獻探討」、「研究方法」、「實證

    評估」與「結論與建議」,內容分別說明如下:

    第 1 章 「緒論」-說明研究背景、研究動機、研究目的、研究步驟流程、

    以及論文架構。

    第 2 章 「文獻探討」-整理過去心臟血管疾病相關知識、在醫療資訊領域

    資料分析方法、機械學習變數選擇技術、機器學習預測性模型選

    擇、集成方法、分類器效能可靠評估方法、資料離散化。

    第 3 章 「研究方法」-探索性資料分析方法論、探索性資料分析方法之步

    驟描述、預測模型建立、資料探勘工具。

    第 4 章 「實證評估」-探索性資料分析方法之步驟實做、預測模型建立。

    第 5 章 「結論與建議」-結論與建議。

  • 6

    第二章 文獻探討

    第一節 心臟血管相關知識

    一、 心臟的循環系統

    人體的血液循環系統是很重要的結構,透過循環系統可達到交換及運輸物質

    的功能。如圖 2.正常情況下,心臟每次跳動時,會迅速的將含有氧氣的血液自

    左心室打出,並透過主動脈將血液運送到全身之大小動脈,而後,把血液中的氧

    氣及養分,送給細胞,並把細胞中所排放之二氧化碳與廢物攜帶回右心房。接著,

    右心房的血液會流向右心室,從右心室經由肺動脈把血液輸送到肺部,而後在肺

    泡的微血管內進行氣體交換,將血液中的二氧化碳送到肺部,藉由呼吸排出,並

    將氧氣再帶入血液中,隨著肺靜脈輸送回左心房。當肺靜脈送回左心房的血液到

    達特定量時,會形成一股壓力,使得左心的房室瓣(又稱二尖瓣)會開啟,而後左

    心房的血液就會流向左心室,此過程為心臟的循環系統。

  • 7

    ◎心臟循環系統

    左心室 主動脈全身大小動脈

    氧氣、養分

    細胞

    二氧化碳、廢物

    微血管 右心房

    呼吸

    氧氣 二氧化碳

    肺肺靜脈左心房 肺動脈 右心房

    圖 2. 人體心臟循環系統[1]

    然而,人體的循環系統可分為體循環(又稱大循環)與肺循環(又稱小循環)。

    如圖 3.血液由左心室→大動脈→小動脈→微血管(除了肺部以外) →小靜脈→

    大靜脈→右心房的循環途徑到此,稱為「體循環」 。 血液由右心室→肺動脈→

    肺(微血管) →肺靜脈→左心房的循環途徑,稱為「肺循環」。

    圖 3. 人體循環系統[1]

  • 8

    二、開心手術可能的併發症

    接受開心手術相對而來,也伴隨著手術風險,如:猝死、腦中風、腎臟

    衰竭、心臟衰竭、呼吸衰竭、感染、腸胃道功能異常、術後出血、四肢阻塞疾病。

    在此依序列出[5]:

    一、猝死:

    病患於手術麻醉過程中,可能發生心臟發作而導致猝死。

    二、腦中風:

    冠狀動脈狹窄疾病是血管老化的表徵,血管老化是全身的;因此,包括腦血

    管、腎血管、或是四肢血管⋯等等,都會有不等程度的老化。手術過程中,可能

    發生血管阻塞之情況,亦即栓塞性腦中風。另外,手術中頇使用抗凝血藥物,亦

    可能導致出血性腦中風。

    三、腎臟衰竭

    冠狀動脈狹窄疾病是血管老化的表徵,血管老化是全身的;因此,包括腦血

    管、腎血管、或是四肢血管⋯等等,都會有不等程度的老化於手術過程中可能對

    腎臟功能有不等程度的影響,其原因包括藥物或是人工心肺機使用;而病患於術

    前之腎臟功能若已呈現功能不全,術後亦能發生急性腎臟衰竭之情況而頇洗腎。

    萬一術後需要洗腎,多數病患只要短期洗腎即可,惟無法排除長期洗腎之可能。

    四、心臟衰竭

    病患於術後可能面臨心臟衰竭之危險,尤其是術前之心臟功能不佳者較容易

    發生。而心臟衰竭除心臟本身收縮異常導致外,最常見之因素為心律不整所導致,

    而心律不整多可由藥物或心律調節器控制。心臟衰竭發生時若無法以藥物控制,

    醫師會置放氣球動脈幫浦來輔助心臟功能,如果此法亦無法解決心臟衰竭之進展

    ,則可能置放體外循環輔助器來維持病患之生命徵象。然而心臟輔助器維生過程

    若出現併發症或是心臟未能如期恢復,則有生命危險。

  • 9

    五、呼吸衰竭

    手術後,氣管插管將視病患的呼吸狀況及意識狀態予以拔除。若有任何因素

    (如肺炎、呼吸力氣不足、咳痰能力不足⋯等等)導致無法順利脫離呼吸器使用,

    則可能面臨氣管切開手術,以便改善肺部情況或防止永久性聲帶痲痹。惟氣管切

    開手術亦可能導致傷口感染或是日後氣管狹窄,然其機會甚低。

    六、感染

    包括傷口感染或是肺部感染,術中及術後均使用預防性抗生素避免感染發生

    。而病患於術後頇加緊練習呼吸訓練,否則很容易呼吸道感染,甚至導致敗血症。

    七、腸胃道功能異常

    部份病患於術後會有食慾不振之情況,多可以藥物輔助。病患亦可能於術後

    發生壓力性腸胃道潰瘍,甚至潰瘍出血;一般可以藥物或施行胃鏡治療,然若嚴

    重,可能頇以手術方式治療。術後會例行使用預防性抗潰瘍藥物,以避免潰瘍發

    生。

    八、術後出血

    一般與病患體質或術前服用抗血小板及抗凝血劑有關。術後若發生出血過多

    情況,可能需要再次手術,其目的為清除血塊,避免心臟壓迫而發生危險。

    九、四肢阻塞疾病

    病患本身四肢血管可能並存有狹窄疾病,術後亦可能發生阻塞情況;一般可

    先予以藥物治療,若無效,則可能需要手術處置,少數病患可能需要截肢。

  • 10

    第二節 在醫療資訊領域資料分析方法

    資料分析方法,常常應用在許多領域裡。本節在此描述醫療資訊領域裡之三

    種資料分析,分別為探索性資料分析(Exploratory Data Analysis, EDA)、傳統

    資料分析 (Classical Data Analysis)、貝氏之資料分析 (Bayesian Data

    Analysis),本研究主要是以探索性資料分析為其研究主軸:

    一、探索性資料分析

    資料探勘主要是初步的來了解資料的特性、特徵。選擇正確的工具可以有助

    於進行前置處理(Preprocessing)或分析。而且可以發揮人類對於識別特徵的強

    大能力。這與另一個領域相似,即是探索性資料分析(Exploratory Data Analysis,

    EDA)。

    在未進行推論統計之前,會先對資料加以整理,詴圖找出一些規則或是有問

    題的資料(如極端值),此稱為探索性資料分析。探索性資料分析主要是透過視

    覺化分析資料來偵測前提或假設的錯誤。探究性資料分析的技巧包括簡單的算術

    與可以快速彙總資料且容易繪製的圖形[6]。

    探索性資料分析是由 John Tukey[6]的貝爾實驗室中發展出來的。當 Tukey

    著手處理真實世界裡的資料時,它發展了一套注重彈性、多樣性、探索性的方式,

    這些方式和科學的目的以及科學的方法都有很深刻的關連。Tukey並沒有想要取

    代統計,相反的,他想要透過檢驗那些在工具和概念的廣泛使用時,所必頇包含

    的假設,來補足傳統統計學的不足。探索性資料分析,是希望能夠從關於世界的

    資料中學習,並且幫助統計的進行。許多機率的模型都必頇有一些假設,而這些

    假設反而必頇要用非統計的方式來驗證。但在探索性資料分析的觀念底下,資料

    分析者應該要進行的是「經驗導向」的資料處理過程。因此,極端值也同樣被視

  • 11

    為和那些在非經驗模型(機率模型)下會產生的那些值同等重要。探索性資料分析

    並不排斥機率的使用,事實上他仍然使用著它,但應該視這種方法為許多科學方

    法的其中之一,把它們放在更大的結構脈絡下來看待。因此,就不會把機率觀點

    當作唯一的觀點。這個觀念想表達的是,事情不會單獨存在,一定有他的脈絡和

    前提。因為代數會騙人,所以也需要圖形。但是,圖形有時也不可靠,所以也不

    能拋棄代數。在探索性資料分析裡面有個重要的觀點:它是一種「詳述模型』以

    及「透過聚焦於"模型的不適合度"還有"殘餘值"來進行檢驗』的過程。前者就是

    確定性的資料分析,後者就是探索性的精神。

    在探索性資料分析的觀點裡,所有的統計工作都可以被視為是在建立模型。

    所以,使用模型其實也是探索性資料分析的重點。但需注意的是:不同的模型會

    有不同的假設,並且在特定的條件之下將會很適當的描述資料,但相對的,在其

    他條件下就不好了!探索性資料分析的邏輯是一種溯因法,因為,在觀察了一些

    事實之後,運用它們來檢查「根據觀察值和殘差值」與被預測的值。透過觀察到

    了一些事實來檢查模型。雖然很可能會有很多模型被納入考慮,可是會在其中選

    擇「最好」的那一個。

    許多技術層面的議題為:如何在二維的空間進行超過兩個以上的變項的清楚

    顯示,透過先進的電腦運算,就可以輕易達到,而透過這樣的方式,能夠看到許

    多被我們所忽略的資訊(例如隱藏變項)。

    探索性的精神是,不要忽略了資料中任何的線索,而探索性資料分析在處理

    殘差值的態度為:並不是不分青紅皂白就把它們刪除,而是透過處理的方式。探

    索性資料分析是一種由認識理論的基礎延伸出來的許多觀念組還有許多技術。探

    索性資料分析的核心價值,包括了:變化性、彈性、懷疑主義、巧妙的獨創性等

  • 12

    等,都會被用來達成探索性資料分析的主要目標:探索模型、避免誤差、以及建

    立描述。

    二、傳統資料分析

    (一)傳統統計方法

    本節所討論到的技術為傳統統計方法。EDA與傳統統計並不相互排斥,而且

    還可以相互合併使用。例如,分析一開始可以使用一些圖形技術,像是 4-plot,

    其次是使用傳統統計方法確認。如果傳統方法與圖形分析,兩者產生的結論不同。

    通常這種跡象明顯,代表有一些傳統技術的假設受到違背[7]。定量技術可以分

    為區間估計與假設檢定兩大類,以下加以敘述:

    1.區間估計:

    統計上,常見到使用樣本資料去估計參數。該參數的值使用所有可能的資料,

    而不僅是使用樣本資料,被稱為母體參數或真實值的參數。由母體抽取一組樣本

    數為 n的隨機樣本,並從該樣本得到的樣本統計量作為母體的估計值,這就是所

    謂的點估計或樣本的估計。例如:最常用的衡量指標,是平均數。母體平均數的

    計算方法為所有給定的特定母體的值加總,除以特定的母體的個數,但是這是比

    較難以做到的。樣本平均數的計算方法為,所有的樣本值加總,除以樣本的個數。

    此樣本平均數可以做為點估計去估計母體平均數。

    區間估計擴大了點估計,包含點估計的不確定性。假使,從相同的母體裡

    拿出不同的樣本,將會導致樣本平均數的不同。一個區間估計量化的不確定性,

    在樣本估計來說,會計算出區間內,下限與上限之值。給定其信心水準(如,機

    率),與母體參數。

  • 13

    2.假設檢定:

    要拒絕一個假設是認為它是假的。但是,要接受一個假設並不意味著它是

    真實的,只是我們沒有證據認為並非如此。因此,假設檢定通常表示條件同時具

    備是懷疑的(虛無假設:null hypothesis),和條件是相信的(對立假設:

    alternative hypothesis)。假設檢定解決了樣本估計的不確定性。但它不是提

    供一個區間,假設檢定嘗詴去反駁,有關母體參數為基礎的樣本資料。例如:假

    設可能如下所示,

    母體平均數等於 10、母體標準差等於 5、兩母體的平均數是相等的、五個母體標

    準差是相等的。

    假設檢定的通用格式如下:

    H0:描述虛無假設。Ex:兩個母體平均數是相等的。

    Ha:描述對立假設。Ex:兩個母體平均數不是相等的。

    假設檢定的相關名詞如下:

    (1)檢定統計量(test statistic):

    用來決定一樣本平均值在樣本平均數機率分佈的相對位置。

    (2)顯著水準:

    顯著水準為 ,定義了此檢定的敏感度。 代表,正確的 H0被拒絕的

    機率,在 100次獨立檢定中,大約只會發生 5 次。這也被稱為型Ⅰ錯誤(Type-

    Ⅰerror)。 的值通常以 0.1、0.05、0.01 被於使用。統計分析的檢定力(power

    of the test)指的是「正確拒絕虛無假說」的機率(就是 )。當對立假設

    成立時,接受虛無假設的機率,事實上,這就是型Ⅱ錯誤(Type-Ⅱ error),

    被稱做 ,只能計算對立假說。

    (3)臨界值:

    在分佈的末端區域,若只有牽涉到分佈的一末端,適用於單尾檢定

    (one-tailed test);若牽渉到分佈的兩個末端適用於雙尾檢定(two-tailed

  • 14

    test)。當計算得之 Z 值落到臨界域時,則拒絕虛無假說,臨界域有時也被稱

    為拒絕域(rejection region)。

    (4)統計顯著:

    很重要的一點是要區分統計顯著和事實顯著。「統計顯著」:表示樣本資料與

    虛無假說不一致,故拒絕 H0。相反地,「未達顯著統計」:證明 H0為正確。無

    法拒絕 H0可能是因為樣本數太小,沒有足夠證據去拒絕 H0。「統計顯著意義」

    不一定表示臨床上具顯著意義。有時統計上得到的「顯著」,在實際上的影

    響並不顯著。

    (5)Boostrap 統計軟體,可以做到不確定估算:

    在某些情況下,是有可能利用數學公式,去推導適當的不確定的區間。對於

    基於常態分配的假設來說,更是如此。然而,有許多情況下,是不能用數學

    公式去推導不確定的區間。在這種情況下,可以使用 Bootstrap 統計軟體,

    它提供一個準確的法則以估測使用歷史資料及未來假設條件所計算出的值。

    Bootstrap 是一種以電腦為基礎的統計技術,它可以將計算的精確性轉變成

    統計推測量,也可以憑經驗確定一個適當的區間。

    (二)貝氏之資料分析

    機率分配為統計學裡基本概念。它們都被使用於理論與實務上。機率分配實

    際被使用於[7]:計算參數的信賴區間和計算假設檢定的臨界值。就單變量資料

    而言,對於決定資料合理分配的模型上來說,是有用的。統計信賴區間和假設檢

    定通常是基於特定分配的假設。在計算信賴區間和假設檢定之前,皆要基於分配

    假設。所以需要驗證這些假設,對於給定的資料集來說是合理的。在這種情況下,

    並不需要對於資料,做最佳配適分配,但是一個適合的模型,會使統計結果產生

    有效的結論。對於模擬研究而言,通常需要使用有效的機率分配去產生隨機變

    數。

  • 15

    三、三種資料分析方法比較

    探索性資料分析、傳統統計方法、貝氏之資料分析,三者雖都為資料分析方

    法,但是其在分析步驟、使用順序上,是有所的不同的。如表 1.所示,其描述

    傳統資料分析(傳統統計方法、貝氏資料分析)、探索性資料分析,三者分析步驟

    之比較。當中,在表 1.內提到了一些名詞,在此定義與解釋:

    1.問題:開始識別到問題的存在,因而提出問題。

    2.目標:了解所想達成的研究目標。

    3.收集資料:收集和檢核資料。

    4.分析:整理與分析所蒐集到的資料,將資料處理分析所得到的結果,客觀、

    嚴謹、忠實地呈現出來。

    5.建模:建構模型。

    6.結論:根據研究問題作價值判斷與推論。

    表 1. 三種資料分析步驟之比較[7]

    資料分析方法 分析步驟

    傳統資料分析:

    1.傳統統計方法

    問題 → 目標 → 收集資料 → 建模 → 分析 → 結論

    2.貝氏資料分析 問題 → 目標 →收集資料 → 建模 → 先驗分佈 →

    分析 → 結論

    探索性資料分析 問題 → 目標 → 收集資料 → 分析 → 建模 → 結論

    當中,探索性資料分析方法與傳統資料分析方法,分別在模型、聚焦、技術、

    態度、資料處理、假設等六大構面上,有很大的不同,如表 2.所示,其進一步

    的討論探索性資料分析方法和傳統資料分析方法的區別。

  • 16

    表 2. 探索性資料分析方法和傳統資料分析方法的區別[7]

    構面 探索性資料分析 傳統資料分析與機率

    1. 模型

    探索性資料分析方法沒有限定資

    料裡模型的確定性或概率。在 EDA

    方法允許資料以適合的數據去建

    議最適當的模型。

    傳統的方法設置資料的模式

    (包括確定性和概率)。確定

    性模型包括,例如,回歸模

    型和變異數分析(ANOVA)模

    型。最常見的概率模型假設

    是錯誤的,其為確定模型是

    屬於常態分配的 - 這種假

    設會影響 ANOVA 檢定 F值的

    有效性。

    2. 聚焦

    對於探索性資料分析,它的重點

    是在數據-它的結構、離群值、和

    資料所建議的模型。

    這兩種方法所關注的焦點差

    異極大。傳統分析,重點是

    在模型上 -估計模型的參數

    和生成模型的預測值。

    3. 技術

    EDA 技術一般是用圖形來表示。它

    們包括:

    (1)散佈圖(scatter plots)、

    (2)字符圖(character plots)、

    (3)方塊圖(box plots)、

    (4)直方圖(histograms)、

    (5)雙直方圖(bi-histograms)

    (6)機率圖(probability plots)、

    (7)殘差圖(residual plots)、

    (8)平均圖(mean plots)。

    傳統技術一般是定量性質。

    它們包括:

    (1) ANOVA分析、

    (2) t檢定、

    (3) 卡方檢定、

    (4) F檢定。

    4. 態度

    EDA 技術不同意使用嚴謹、規格的

    形式。EDA技術為了要彌補其不夠

    嚴謹,藉由啟發、指示,去了解

    最適當的模型應該為如何。EDA

    技術是主觀的,且取決於分析師

    的解釋,但可能分析師跟分析師

    解釋的結果會不同,但大體上,

    經驗豐富的分析師普遍可以得出

    相同的結論。

    傳統的技術以科學和工程的

    機率作為基礎,傳統技術最

    重要的特徵是,他們是嚴

    謹、正規、”客觀”。

  • 17

    構面 探索性資料分析 傳統資料分析與機率

    5. 資料處理

    EDA 的方法,另一方面,常常使用

    (並顯示)所有可用的數據。從

    這個意義上講,相對的來講,就

    沒有遺失的資訊。

    傳統估計技術,其特別的點

    在於採取所有資料和映射資

    料 到 幾個 數 字去 ( ” 估

    計”)。這既是一種優點也是

    一種缺點。優點指的是,這

    幾個數字是專注於人口的重

    要特徵(位置,變化等)。缺

    點指的是專注在這幾個特

    性,可能過濾掉其他特性(不

    對稱、長尾、自相關等)相

    同的人口。在此觀點上,在

    此”過濾”的過程裡,會有

    遺失的資訊。

    然而,探索性資料分析又與匯總分析,總體而言有些微的不同,如表 3.所示,

    描述探索性資料分析與匯總分析之差異。

    表 3. 探索性資料分析與匯總分析之差異[7]

    探索性資料分析 匯總分析

    差異

    EDA 技術已經成為最廣泛的目

    標,希望深入了解工程/科學過

    程背後的數據。鑑於彙總統計

    是被動的、歷史的,EDA 是積極

    和極其現代的。EDA是使用一種

    手法,把資料當作一個”窗

    口”,去窺探流程的核心,與

    其所生成的數據。

    匯總分析是一個以簡單的方式減

    少歷史資料集的資料數量。這是很

    被動。其重點是在過去。相當普

    遍,其目的是簡單地得出一些關鍵

    統計數據(例如,平均數和標準

    差),可以再次或者更換數據集或

    以匯總表的形式添加到資料集。

  • 18

    三者資料分析,分別在臨床上的應用,如表 4.所敘述之:

    表 4. 三者資料分析分別在臨床上的應用

    資料分析方法 臨床上的應用

    探索性資料分析 預測手術、用藥、診斷或是流程控制的效率、生物晶片

    分析、預防醫學分析、院內感染分析、臨床病徵分析、

    基因圖譜比對、基因定序、演化分析。

    傳統統計方法 存活分析、實驗設計的可行性、藥品臨床詴驗的有效性,

    臨床詴驗受詴者的估算、資料收集的方法、資料庫的建

    檔及品質管制。

    貝氏資料分析 醫療影像處理、臨床詴驗。

    第三節 機械學習變數選擇技術

    隨著資料擷取技術不斷的進步,所需處理的資料量也就愈來愈龐大了,資料

    重複性也相對的提高很多,對於機學習方法而言會造成困難,而變數選擇技術可

    以改善這個課題。

    機器學習可以做到自動地從資料中推論預測模型。傳統上,機器學習方法成

    功與否歸咎於能否識別高度預測屬性的能力[8]。最近,機器學習已經被應用到

    高屬性維度、相對較少訓練情況、缺乏專業知識的可用性等的領域[9]。

    屬性選擇是一個識別的流程,其盡可能的從資料集中,去移除不相關和冗餘

    的資訊。減少資料集的維度有若干個好處,像是可以是演算法運行的更快,更有

    效的運作、提高分類的精度、提高資料的可視化、增進對分類模型的了解[9]。

    自動化屬性選擇可以分為兩大類,分別為屬性排序方法(attribute ranking)

    與屬性子集(attribute subset)評估方法[8, 9]。前者方法評估的優點在於其可

    以算出個別改變的預測是否獨立於其它屬性。這些方法可以用在大型資料庫之初

    步篩選降低維度,或者是產生一個基準,也可以。後者方法是用來評估有用的屬

    性子集、計算它的冗餘、和多個屬性之間的相互作用[10]。

  • 19

    有幾個屬性排序的方法和屬性子集評估的方法已經被提出了。在最近的標竿

    研究(benchmark)裡,Hall and Holmes 兩位學者比較了很多這類的方法,且認

    為能給定預測問題和資料集一個範圍的方法,其表現最佳[8]。也有相關文獻做

    了整理,如下[11]:

    一、基於相關性的方法(簡稱 CFS)評價特徵子集的標準是:好的特徵子集包含的

    每個特徵與類別高度相關,同時這些特徵相互之間不相關或弱相關,設特徵子集

    S包含 K 個特徵,評價 S好壞的標準如下計算:

    其中 是 S 中每對特徵的相關程度的均值, 是 S 中每個特徵與類別的相

    關程度的均值。相關程度由”對稱不確定性 ”(Symmetrical Uncertainty)量度

    計算:

    其中 是 X的熵, 是 的熵, 是給定 對的 條件熵。對稱不確

    定性的分子稱為互信息量,具有對稱性:

    設 和 的取值範圍分別為 和 ,則有:

    對於連續的特徵變量需要先用 Fayyad 和 Irani 的方法做離散化處理,再用

    上面的公式計算。

  • 20

    二、基於一致性的方法

    基於一致性的方法(Consistency),認為好的特徵子集 S 具有的特點是:如

    果某些樣本對 S的取值相同,則這些樣本的類別也應該趨於一致。假設給定數據

    集合 中的樣本屬於兩個類別兩個類別 和 ,衡量特徵子集 S 的標準採用下

    式計算的一致性比率。

    其中 是 的樣本總數, 是 所有取值的數目(包括 中特徵的所有取值組合,

    對於連續的特徵變量需要用 Fayyad和 Irani 的方法做離散化處理。 具有 第 個

    取值的本有 個,它們的集合設為 ,其中有 個樣本屬於 類,

    個樣本屬於

    越大(最大為 ),則表示 中樣本的類別越趨於

    一致,故稱

    為 的一致數。所有 的一致性之和占所有

    樣本總數的比率就是特徵子集 的一致性比率。

    在兩特徵子集的一致性比率相同時,選擇較小的特徵子集。事實上,原特徵

    集合的一致性比率最大,如果進行搜索,可以找到一致性比率與原特徵集合相同

    的最小的特徵子集。運用這種方法一方面能保留具有判別能力的特徵,另一方面

    又可以有效地減少冗餘的特徵。

    三、包裹法

    包裹法(Wrapper),採用的衡量特徵子集的標準是分類模型的分類準確率。

    運用包裹法選擇出的特徵子集通常能提高用目標分類算法建立的分類模型的準

    確率。然而,這種方法在評估特徵子集的過程中要啟用目標分類算法建立模型並

    檢驗其結果,因此花費時間巨大,尤其是對某些大的數據集或某些費時的分類算

    法,包裹法可能由於耗時巨大而無法實際運用。

  • 21

    根據標竿研究而言,其中表現較好的方法為 Information Gain 方法、

    Recursive Elimination of Features;Relief 方法[12]、Correlation-based

    Feature Selection (CFS)方法[13]、Wrapper Subset Evaluation 方法[14]。

    前兩者為屬性排序方法,後兩者為屬性子集合評估方法。表 5.裡匯總其每一種

    方法的運行機制、優點、缺點。這些標竿研究的結果,提供了屬性選擇的指導方

    針,但是必頇強調的一點為,特定學習問題的方法選擇取決的因素為資料集的屬

    性、計算流程時間的限制、學習演算法[8]。然而,屬性選擇的方法,仍然需要

    依據預測的問題去評估,何者方法才是為最佳的選擇[10]。

    表 5. 機器學習實驗之屬性選擇方法的使用

    演算法 描述 優點 缺點

    Information

    gain[10]

    主要是利用資訊獲利

    來衡量某個屬性用來

    分類訓練資料的能力。

    簡單快速。有益

    於預測問題的

    高 維 度 限 制

    下,去應用於更

    複雜的方法。

    無法移除多餘 但卻

    高度相關的特徵。

    Relief[12]

    從資料中隨機抽取樣

    本實例,然後使用最鄰

    近區域演算法來計算

    類別間的相關性。屬性

    在經過鄰近區域演算

    法,算出的值會跟抽樣

    實例相比,且會被使用

    在更新每一個屬性的

    相關得分。

    跟 Information

    gain法之優點

    相同。

    跟 Information

    gain法之缺點相

    同。

  • 22

    演算法 描述 優點 缺點

    Principal

    components

    analysis(PCA)

    主成份分析

    主成份分析是一個統

    計的技術,它可以減少

    資料的維度,把資料轉

    換為最原始的屬性

    [8]。資料變項及篩

    選、探索性資料分析

    [15]。

    它是一種非監

    督的方法,它沒

    有使用類別屬

    性。且也不會有

    多元共線性的

    問題[16]。

    若變數的相關性不

    高,則主成份分析就

    不適用。只能用極

    少的變異來說明全

    部的變異[17]。

    Correlation-based

    feature selection

    (CFS) [13]

    關聯性特徵選擇

    給定屬性優異的計

    算,考慮到相關的屬性

    與目標類別,以及資料

    集裡屬性與其他屬性

    的關係。屬性和目標類

    別有較強的相關性,和

    其他屬性排序較高

    的,則具有較弱的相關

    性。

    快速和獨立的

    目標學習方法。

    不計算屬性間潛在

    的交互作用。

    Consistency-based

    [18]

    識別屬性子集的值,去

    做資料子集的劃分,包

    含大部份強大的單一

    分類。

    獨立的目標學

    習方法。計算冗

    餘和屬性間的

    相互關係。

    相關的特徵選擇較

    低。

  • 23

    演算法 描述 優點 缺點

    Wrappers [19]

    其特徵選取方法是藉

    由持續的加入或刪除

    特徵,並且利用學習演

    算法中的目標函數評

    估特徵集合的優劣,再

    利用搜尋策略以最佳

    化的特徵集合進行搜

    尋。

    計算冗餘和屬

    性間的相互關

    係。一般來講,

    其結果會比其

    它 技 術 來 的

    好,因為其第二

    解決方案評估

    是使用目標學

    習演算法。

    在一般的情況下,若

    分類問題具有 n 個

    特徵,將會產生 2n

    種 特 徵 集 合 的 組

    合,為獲得最佳的特

    徵集合,則必頇嘗詴

    全部的可能情形,此

    舉將會耗費大量的

    運算時間。

    運算時間過

    長,耗時。

    有過度配適之

    風險。

    第四節 機器學習預測模型選擇

    機器學習(machine learning)主要是想要研究如何讓電腦具有學習的能力,

    且可以從過往的經驗與資料中,學習到知識,以增加電腦本身的效能[19]。本研

    究使用到資料探勘分類(Classification)的方法,分類即為找出區分資料類別或

    概念的模式,並使用此模式將未知的資料對映至事先定義學習的目標。其導出之

    學習模式(learned mode)即可透資料探模型(如人工智慧神經網路、支援向量機、

    決策樹)或數學公式等多種方式去呈現。

  • 24

    4.1 節 資料探勘基礎模型

    一、 人工智慧神經網路 (Artificial Neural Network)

    類神經網路的基本概念為透過不同的學習演算法去模擬大腦的特性,且可

    從其經驗中學習事物。其由許多的神經元互相連結所組成,所有的神經元通常以

    平行的方式給予進行運算,且能夠在同時處理大量資料。連結介於神經元傳送訊

    號,且每個連結上帶有數值型之權重值,權重值的大小表示神經元間彼此連結的

    強弱程度。當神經元接受其他神經元傳送到的訊號時,會將此訊號轉換函數處理,

    並乘上一個連結權重值後,再傳給其他神經元當作輸入。而學習演算法即正從學

    習資料集中反覆學習網路中的權重,一般可分成兩大類說明:[20]

    (一)監督式學習(Supervised Learning)

    在學習的過程中,給予類神經網路包含輸入值和輸出值的訓練資料,而後不

    斷地修正網路傳遞的權重值,且降低網路輸出值和目標值輸出值之間的差距,當

    差距小於設定門檻值時便停止。

    (二)非監督式學習(Unsupervised Learning)

    在其學習之過程中,只給予類神經網路輸入值,網路依照輸入資料的特性,

    它會自已學習與調整,在訓練時藉由學習法則去找出群聚的規則。當新資料輸入

    時,即可判斷該筆輸入的學習資料所屬的群聚。通常在無法提供真實資料分類特

    性的情況時,即可藉由非監督式學習網路依據資料的本身特性來產生群聚。表

    6.為類神經網路研究史上之大事,記錄其間為 1943年至 1990,當中,記載著學

    者提出之論點與事件[21]。

  • 25

    表 6. 類神經網路研究史上的大事如下

    年代 學者 提出論點

    1943年 McCullonch 與 Pitts 提出神經元數學模式(MP模式)

    1949年 Hebb 提出 Hebb學習法則

    1957年 Rosenblatt 提出認知機(Perceptron),是最早的類

    神經網路模式。

    1960年 Widrow 提出自適應線性元件(Adaline)模式。

    1969年 Minsky與 Papert 出版「認知機」一書。

    1972年 福島邦彥 提出認知機(Cognitron)模式。

    1978年 Grossberg 等 提出自適應共振理論(ART)模式。

    1980年 Kohonen 提出自組織映射圖(SOM)模式。

    1982年 Hopfield 提出 Hopfield神經網路(HNN)模式。

    1984年 福島邦彥 提出新認知機(Neocognitron)模式。

    1984年 Hinton等人 提出波茲曼機(Boltzmann machine)模

    式。

    1985年 Hopfield 與 Tank 提出Hopfield-Tank網路解最適化問題。

    1985年 Kosko 提出雙向聯想記憶網路(BAM)模式。

    1985年 Rumelhart 等人 提出倒傳遞算法(BP)與通用差距法測

    (generalized delta rule)。

    1986年 Rumelhart與 McClelland 出版「Parallel Distributed

    Processing」一書。

    1987年 Grossberg 等 提出新的自適應共振理論模式-ART2。

    1987年 第一屆 ICNN 國際類神經網路研討會。

    1988年 Gallant 提出類神經網路式專家系統。

    1988年 IEEE成立神經網路委員會。

    1988年 國際類神經網路學會創立。

    1988年 國際類神經網路學會會刊「神經網路」期刊創刊。

    1988年 Specht 提出機率神經網路(PNN)模式。

    1988年 Kohonen 提出學習向量量化網路(LVQ)模式。

    1988年 Van den Bout 與 Miller 提出退火神經網路模式。

    1989年 第一屆 IJCNN 國際類神經網路研討會

    1990年 IEEE神經網路期刊創刊。

  • 26

    二、支援向量機(Support Vector Machine)

    支援向量機是機器學習中的工具之一,它的運作原理是假設給定一群已經分

    類好的資料時,支援向量機可以經由訓練獲得一組模型,之後若有未分類的資料

    加入時,支持向量機便可以依據先前訓練出的模型去做預測,並決定這筆資料所

    屬的分類[19]。

    支援向量機的基本概念就是一個線性的二元分類器 (linear binary

    classifier),其使用線性可分離超平面(hyperplane)作為一個分類器。而

    Vapnik學者對於支援向量機的定義為,將兩組事先標籤好分類值(1或-1)的資料

    ,輸入線性函數(linear function)做不斷的訓練,最後訓練兩組資料的最佳決

    策函數(decision function),透過此最佳的決策函數形成超平面分類兩組資料

    間最大的分離區間(maximum margin),使得能夠將兩組資料分的最開,如此可

    產生較高的分類正確率。當問題處於線性不可分割的情況下,SVM 可以將原始空

    間中的樣本映射至高維度的特徵空間中,使得原本線性不可分割的問題轉換為一

    個線性可分的問題,SVM 的分類結果之優劣與資料間分離程度有很大的關係

    [19]。

    支持向量機的輸入樣本進行分類只有在線性情況下。因此,在當輸入空間是

    非線性的情況下,該技術需要從非線性的輸入空間轉換到高維特徵空間時,其結

    構風險最小化,且提供更好的泛化能力、神經網絡使用經驗風險最小化。其研究

    領域包括分類的虹膜數據、數字數據、甲狀腺數據、血細胞的數據、平假名數據、

    數據挖掘、客戶欺詐檢測、圖像分類用等[22]。使用支援向量機,可以將資料分

    為兩組,而無需過度擬合。支援向量機可以與大量資料集配合使用,可以知道哪

    些是含有大量預測變數欄位的資料集。

  • 27

    三、決策樹(Decision Tree)

    決策樹主要是將資料依據不同的變數依序來產生分析結果,它是由使用者依

    據其目的,而將資料依據其特性加以分類,且使用者可以利用決策樹的各項不同

    變數來判斷及預測可能之結果。決策樹為一樹狀結構圖,且每一個結果(internal

    node)代表一個測詴屬性,每一分支(branch),則表示測詴後的結果,樹葉節

    點(leaf node),則代表決策類別以及類別分佈的情形[23]。

    決策樹是一個快速又有效的方法,對於分類資料集來說,可以提供良好的決

    策支援能力[24]。在決策樹中的結點,其功能包括測詴一個特定的屬性,通常此

    屬性為一個常數值。然而,樹的兩個屬性相互比較。葉節點給定適用於所有情況

    下,即可到達葉的分類。對一個未知的例子做分類時,它是沿著樹根,根據屬性

    的測詴值,來做連續的結點[25]。使用決策樹來做分類,可以把資料庫的案例依

    據分類模型,分為不同的等級[24]。決策樹 ID3(新的版本 C5.0)之節點可建構決

    策樹或規則集。其模型運行模式為,根據在每個類別提供最大資訊收穫的欄位分

    割樣本。目標欄位必頇為分類欄位。允許進行多次多於兩個子組的分割。

    第五節 集成方法

    集成學習(ensemble methods)是機器學習的典範,多重的學習被訓練去解決

    相同的問題[26]。相對於普通的機器學習方法,其嘗詴去學習訓練資料的假設。

    集成方法詴圖去建構一套假說,且把它他們結合起來去使用[27]。通常是由基礎

    學習組合而成的,被稱為集成學習[28]。

    最早研究集成學習的學者為(Dasarathy and Sheela’s 在1979年研究的),

    當中討論到使用兩個或多個分類器去分割特徵空間[29]。集成學習的泛化能力通

    常比單一學習來的強大,這使得集成方法非常具有吸引力[30]。事實上,要達到

  • 28

    好的集成學習,需滿足兩個必備條件:準確度和多樣性[31]。以下分別對於集成

    方法加以敘述:

    一、Bagging法

    Bagging(裝袋法)的方法,它主要是從原始資料集裡,藉由隨機抽取的方式,

    產生不同的訓練集。由使用投票和權重的方式,來決定該分類器的分類。有研究

    表示 Bagging 法可能因為決策樹有較高的變異,而產生良好的結果[32]。然而,

    Bagging也被發現,在單一分裂的樹(只有兩個終端結點,變異較小)時,表現得

    很差。儘管如此,Bagging 已被認為是個簡單的演算法,有助於減少變異,在準

    確度上,可以改善不穩定的分類[33]。當 Bagging 使用在隨機的情況時,它可以

    避免過度擬合(Over-fitting),間接的增加準確性[34]。

    二、Boosting 法

    Boosting(推進法)的方法不像 Bagging 方法,它是一個可重覆用來適應訓練

    資料分配改變的程序。Boosting 法可指定每個訓練資料的權重,也可以在每次

    boosting結束時適當的改變權重。

    Boosting法用在基礎學習方法特別好的原因在於,它會產生不穩定的模型,

    模型很容易因為資料描述的微小改變,而成為過時的資料。如”decision

    tree ”、” rules “。Boosting 一般來說的效能很好,甚至在於它與其它弱

    基礎學習組合起來,也一樣[35]。

    Boosting,著重於錯誤值組,因此它產生的訓練模型具有過適的風險,所以

    有時候利用 Boosting 所產生的結果會比用單一的模型來的差;裝袋法比較不受

    過適的影響 但是兩者皆可改善正確率,一般來說 Boosting的正確率會比裝袋法

    高。Boosting 可以改善決策樹的正確率。

  • 29

    三、Stacking 法

    Stacking是一種可以組合多種模型的方法,但是它不像 Boosting,Stacking

    的使用可以混合多種學習演算法使用,如:Stacking的分類可以結合Naïve Bayes、

    decision tree、和 rule-based 分類。而每個分類都有自己的預分類評估機率。

    最後的分類是使用 meta分類,像是多線性迴歸,這就是以概率的機礎學習模型。

    Stacking是在 1992 被 Wolpert學者提出[36]。而 Seewald學者[37]製造了一個

    增強版的 Stacking,稱它為 StackingC,它改善了 Stacking 在多重分類預測問

    題的效能。Stacking 通常的效能比單一學習模型的效能相對來的佳[36, 38, 39]。

    而每個分類都有自己的預分類評估機率 Stacking 在總體上而言是相對較佳的方

    法[34]。

    Stacking 是一個提供學習子集評估和校正的方法,和單一模型使用,其被

    發現可以減少很多一般問題的泛化錯誤率。Stacking 也被發現,結合不同種類

    的學習演算法,在預測問題的準確度上,可以達到更好[36]。

    第六節 分類器效能可靠評估方法

    為了評定分類之效能,因此眾多學者發展了評估分類效能是否可靠的方法,

    在此提及九種方法,加以描述,分別為 ROC 曲線評估、增益圖、保留法、

    Leave-one-out Cross-Validation 法、十摺交叉驗證法、錯誤率、層別法、混

    淆矩陣。在此可區分為效能、可信度兩大類:

    一、 效能:

    (一)以 ROC曲線評估

    ROC (Receiver Operative Characteristic curve),又被叫做 Relative

    Operating Characteristic Curve「接收操作特徵曲線」或「相對操作特徵曲線。

    ROC 曲線最早是用在無線電偵測技術及心理物理學中發展的運用,ROC 是用來評

  • 30

    估一個兩分變項中的分類表現,而且在 ROC 曲線下之面積大小(Area under the

    Receiver Operating Characteristic curve,AUC)被用來評估其預測準確度。ROC

    曲線上的每個點,即是代表某量表之每一次預測之正確率(hit rate)與錯誤率

    (false alarm rate),曲線下之分數會分配在 0.50 到 1.00 之間,(1.00 表示

    該預測係 100%的正確,而 0.50則代表預測不會比猜測來的準)[40]。曲線下面

    積較大的是指該分類器的性能優於其他[41, 42]。AUC 曲線,其主要的作法為,

    將一個量測工具的各個可能之截切點都給予考慮進去,而後計算各個不同截切點

    下的敏感度及特異度,然後將其劃在縱軸為敏感度,橫軸為(1-特異度)的座標系

    統中,並以直線連結各座標點。直觀而言,一個檢測工具如果具有較高之 AUC,

    則表示此檢測工具可以將有病者與無病者分開的較為徹底。反之 AUC 若較小,或

    者是等於 1/2,則表示有病者和無病者重疊越多或者甚至完全重合。AUC 指標,

    可對不同篩檢工具,不論二元,序位,以及連續尺度,進行整體表現的評估比較

    [43]。

    (二)增益圖

    增益圖(Life charts),增益圖可以繪出測詴資料集之預測查詢結果,接著

    可以對照資料集現有之可預測資料行的已知值。增益圖可以顯現出資料探勘模型

    的結果,另外也會顯示理想模型所產生之結果的表示法及隨機猜測結果的表示法

    。隨機線條上之任何改進都稱為增益(Lift)。模型所展示的增益越多,就代表模

    型越有效。而增益圖只能比較包含分隔可預測屬性的資料探勘模型[44]。

    (三)保留法

    保留法(holdout method),係指把資料分成二部份,一部份為訓練資料,而

    另一部份為測詴資料,而兩資料之間是互斥(disjoint)的。普遍而言,訓練資料

    會佔整體資料的三分之二,而測詴資料會佔整體資料的三分之一,並且在訓練階

    段中找出區分平面,而後利用測詴資料去驗證其正確率。此方法的優點為易於處

  • 31

    理資料。然而,其缺點為較不適用在資料量過小的情況[45]。

    (四)Leave-one-out Cross-Validation法

    Leave-one-out Cross-Validation , 常 被 視 為 簡 單 n-fold

    Cross-Validation,n 代表,每個資料集中資料物件的個數。在訓練過程內,

    依次選擇單一筆物件,而後輪流提出,然後針對所剩餘的物件進行整個學習訓

    練。所以使用此方法,在每一次個案內,會有數量較大的資料物件被訓練,推

    測可增加在分類上的準確率,且隨機抽樣的問題及出現重複訓練相同的資料物

    件多次的狀況,可較為避免,也因為訓練次數隨著每一次資料集合的物件數而

    改變,所以當資料物件數增加時,相對的資料分割訓練次數也會因此而增加,

    如此間接的會提高計算上的成本。且當每一資料集內有 n 筆資料物件時,會使

    整個學習程序頇執行 n 次,時間成本也因此相對的提高了。因此對於用於大量

    的資料庫較不適合。此方法較適合使用在資料數較小的資料集合[46]。

    二、信度:

    (一)十摺交叉驗證法

    十摺交叉驗法(10-fold cross-validation),是常用的精度測詴方法。將數

    據集分成十份,輪流將其中 9 份做訓練 1 份做測詴,10 次的結果的均值作為對

    算法精度的估計,一般還需要進行多次 10 倍交叉驗證求均值,但如 10 次 10 倍

    交叉驗證,更精確一點[47]。

    (二)錯誤率

    分類模式的錯誤,有分兩種,一種為訓練錯誤,另一種為推論錯誤。訓練錯

    誤,即重新帶入錯誤(resubstitution error),又稱表面錯誤(apparent error),

  • 32

    其是指訓練的資料被誤判的個數,其可能是因為過度學習(overfitting),係指

    樹太大時,其測詴錯誤率(Error rate)就會增加。或者是因為學習不足

    (underfitting),樹太小時,其模式的訓練及測詴的錯誤率會變得很大。而推論

    錯誤:則是指期望未能夠推論至未知資料的程度。

    (三)層別法

    層別法(Stratification),又叫分類法或分組法,其為品管七大手法之一,

    當所收集之資料來源過於廣泛時,會較不易從當中發現到有用的資訊,然而,層

    別法可以解決這個問題。分層法的目的在於把雜亂無章的數據加以整理,使之能

    確切地反映數據所代表的客觀事實。分層的原則是,使同一層次內的數據波動幅

    度盡可能的差異小,而層與層之間的差別盡可能的差異大。層別法可用於將資料

    分組,例如:可用班別、設備別、材料來源別等,來把資料分成幾個小組來觀察,

    如此可簡化資訊擷取之困難度[48]。

    (四)混淆矩陣

    混淆矩陣(confusion matrix),為了顯示基礎模型和集成模型的效能,可以

    使用一種視覺化的工具,混淆矩陣。其常被用來評估人工智能領域之模型評估,

    如表 7.,每一列在例子中代表其真實的分類。混淆矩陣其優點在於它可以很清

    楚的看出被受分類混淆的模型。其評估的準則包括:平均準確度、型Ⅰ錯誤(Type-

    Ⅰerror)、型Ⅱ錯誤(Type-Ⅱ error)。這些衡量標準,可以解釋混淆矩陣。每

    項衡量標準都有其優點和限制,可以結合使用這些衡量標準去評估模型的效能。

    集成方法優於基本模型,對於預測手術併發症來講,其更為穩定可信。模型的平

    均準確度可以表示出整體上使用 stacking 方法的好壞程度,屬性子集合評估是

    否一致。然而,型Ⅰ錯誤和型Ⅱ錯誤不適用在所有模型。事實上,型Ⅰ錯誤被稱

    為”假陽性”,型Ⅰ錯誤增加,代表原本病人有此疾病,但判斷其病人沒此疾病,

  • 33

    因此遺失此診斷的判別的機率增加。型Ⅱ錯誤,被稱為”假陰性”,代表原本病

    人無此疾病,但判斷其病人有此疾病,因此誤判此診斷的機率增加。在大多數情

    況下,型Ⅱ錯誤不像型Ⅰ錯誤,可以用來預測術後併發症。對於預測手術後併發

    症來講,判斷認為好的模型必需符合良好的平均準確度、降低型Ⅰ錯誤,且型Ⅰ

    錯誤和型Ⅱ錯誤需一致最好[49]。

    表 7. 混淆矩陣用於評估模型[49]

    實際情況

    (Actual Condition)

    目前有併發症

    (Complication

    present)

    目前無併發症

    (Complication

    sabsent)

    測詴結果

    (Test

    result)

    陽性結果

    (Positive

    result)

    真陽性

    (True Positive;TP)

    假陽性

    (False Positive;FP)

    陰性結果

    (Negative

    result)

    假陰性

    (False Negative;FN)

    真陰性

    (True Negative;TN)

    1.真陽性:True positive。指在疾病預測中,檢驗出病人有病,而其實際上病

    人也真的有病。

    2.真陰性:True negative。指在疾病預測中,檢驗出病人沒病,而其實際上病

    人也真的沒有病。

    3.敏感度:Sensitivity。指在疾病預測中,表示在有疾病的群體中,檢驗出其

    有疾病的比率,此即為「正陽性率」。

    4.特異度:原文為 Specificity。在疾病預測中,表示在沒病的群體中,檢驗出

    沒有病的比率,此即為「正陰性率」。

  • 34

    平均準確度、型Ⅰ錯誤、型Ⅱ錯誤公式如下:

    (1)

    (公式 1)

    (2) -Ⅰ

    (公式 2)

    (3) -Ⅱ

    (公式 3)

    當中,公式1為準確率,其為對新的或未知的資料正確判斷或猜測的能力。

    第七節 資料離散化

    連續屬性離散化主要目的就是在特定的連續性的值域範圍內,設定若干個離

    散化劃分點(中斷點),而後把屬性的值域範圍分成一些離散的區間,再使用不同

    的符號或整數值來表示每個區間的屬性值[50]。為了使得資料規則的簡化與正確

    ,通常會在前置處理中,將具有連續性數值的資料屬性離散化,以減低規則尋找

    的時間和降低規則的複雜度[51]。有更多學者指出,當資料類型屬於連續型的時

    候,利用將資料離散化的過程,會遠比假設一個不確定的資料分配,而更能得到

    很好的結果[52]。離散化演算法可分為兩類,一為非監督式(supervised)的,如

    等寬演算法(Equal Width)、等頻率演算法(Equal Frequency);一為監督式

    (supervised)的,如 Paterson-Niblett、Maximum Entropy、CADD、Information

    Entropy Maximization(IEM) 、 CAIM(Class-Attribute Interdependent

    Discretization ) [53]。本文內資料離散化方法採用 Fayyad &Irani 1993[54]

    之最小描述長度(Minimum Description Length;MDL)法作離散化處理。最小描

    述長度法其背後的基本想法是:在任一給定的資料集內的任何規律性都可用來壓

    縮。也就是指在描述資料時,與逐字逐句來描述資料的方式相比,能使用比所需

    還少的符號[55]。最小描述長度法提供了一個評量複雜度和精確度的標準,可以

    避免過度學習(過適)的情況發生[56]。

  • 35

    第三章 研究方法

    在此一章中,將分為三個小節,第一節描述探索性資料分析方法論、第二節

    描述探索性資料分析方法論之步驟描述、第三節為所建立的預測模型、第四節為

    資料探勘工具介紹。

    第一節 探索性資料分析方法論

    探索性資料分析方法論為資料探勘的一種流程。如圖 4.所示,本研究資料

    探勘中之探索性資料分析順序為:搜集到的資料、而後做資料清潔與前處理、再

    來給予特徵技術選擇(本研究使用 CFS、Consistency、Wrapper之特徵選取)、接

    著使用探索性資料分析、接著就可以依據資料推論到知識(規則的萃取),其可以

    多維度數據顯示(ex:OLAP)、電子表格、數據可視化、報表等…產生。

  • 36

    資料準備

    特徵選擇

    人工智慧神經網路

    支援向量機

    決策樹

    結果與分析

    結論

    StackingC

    模型建立

    集成學習步驟 4 :探索性資料分析(1)

    ◎揭發隱藏的結構◎發展準確的模型

    步驟 2 :資料清潔與前處理◎檢測離群值和異常值

    步驟 3 :特徵選擇◎重要變數的篩選

    步驟 5 :探索性資料分析(2)◎模式的效能評估

    步驟 6 :探索性資料分析(3)◎模式的實務應用

    步驟 1 :洞悉資料集

    圖 4. 探索性資料分析方法之步驟

  • 37

    第二節 探索性資料分析方法之步驟描述

    本研究使用分類的方法,主要目的,即為了了解目標值的特徵。此節依據探

    索性資料分析方法,在其執行的步驟內,給予描述,如下:

    步驟 1:洞悉資料集

    資料取自台北某醫學中心,自 2007年 10月至 2009年 9月之心臟血管疾病

    資料庫。

    步驟 2:資料清潔與前處理

    (1)資料清理:消除或減少噪音,處理空缺值,在此主要的目的是減少機器學

    習時的混亂。

    (2)相關性分析:資料中有些屬性與目標值不相關,有些屬性可能是冗餘的,

    刪除這些屬性可以加快機器學習的步驟,使得學習結果更精確。

    (3)資料轉換:將資料進行離散化,使其落入一個指定的區間。

    (4)檢測離群值和異常值:

    在此主要目的是為了確認資料的正確性以及完整性,使得資料探勘能夠順利

    進行。因此,利用人工處理與資料探勘分類(classification)的分式,分為兩階

    段的方式,來檢測離群值和異常值。藉由篩選、清理、增加、改變資料,對屬性

    做資料調整。而使用分類的方法主要是想把已分類的資料來研究罹患心臟血管疾

    病的患者資料特徵屬性,日後,可再根據這些特徵對其他未經分類或是新的資料

    做預測。

    步驟 3:特徵選擇

    重要變數的篩選:屬性選擇為一個識別的流程,其可從資料集中,去移除單

    一變數相同值過多和冗餘的資訊。本研究首先利用資料探勘軟體工具 SPSS

  • 38

    Clementine 12.0軟體,先作卡方檢定,得到與目標值,有顯著關係的特徵。接

    著使用資料探勘軟體工具 Weka,在資料前處理中,將資料使用(CFS、Consistency

    、Wrapper 之特徵選取)的方式,來分別進行重要的變數的挑選。當中,在 CFS

    法內,將最佳屬性搜尋方式設定為 Best First。

    步驟 4:探索性資料分析(1)

    (1)揭發隱藏的結構:利用 Weka軟體之 Explorer選單,開啟資料,其為資

    料可視化,可因此了解資料的分佈狀態、資料內所蘊含的資訊,進而去

    發現資料的分佈(關係)、且也可藉此檢測資料的品質程度。

    (2)發展準確的模型:在此步驟內,依據資料的特性,而去發展適合的演算

    法模型,其應用資料探勘演算法進行模型的建構。分別選定類神經網路、

    支援向量機、決策樹的單獨模型,與 stackingC 方法。選擇以類神經網

    路之原由為:其準確率為目前公認所接受的。選擇以支援向量機之原由

    為:其可以解決非線性的問題。選擇決策樹的原由為:其可以支援不穩

    定的結構。

    步驟 5:探索性資料分析(2)

    在此部份為模型的效能評估。對每個測詴樣本進行處理,將此樣本已知的類

    別標記和該樣本於模型中之類別預測結果比較。模型在給定測詴集上的準確率,

    是正確被模型分類的測詴樣本之百分比。在此步驟內,使用 Weka 軟體的 Weka

    Explorer 介面。在選定之模型當中,類神經網路(ANN)模型使用的演算法為:

    MultilayerPerceptron;支援向量機(SVM) 模型使用的演算法為:SMO;決策樹

    (DT)模型,使用的演算法為:J48。而後把所選定的模型,給予 Weka 軟體運算,

    計算出平均準確度、AUC。最後,使用平均準確度、AUC 的值來評定模型效能,

    與做為選擇模型之參考使用。

  • 39

    步驟 6:探索性資料分析(3)

    在此部份為模型的實務應用,也就是如果測詴準確率是可接受的,模型將用

    來區別未知的資料。

    第三節 預測模型建立

    建立模型又稱學習或訓練步驟。其假定每個值屬於一個預先定義的類別,這

    些類別資料存放於一個類別屬性。其基本概念而言,分為訓練資料集:由為建立

    模型而被分析的許多資料值組合形成。訓練樣本:訓練資料集中的單個樣本(值

    組)。而本研究內,在建立模型的過程中,選擇以類神經網路、支援向量機、決

    策樹、及 StackingC 做為其模型的選定。圖 4.為研究架構圖。整體上主要是在

    於描述本研究搜集到的資料,如何在整個探索性資料分析方法論之六個步驟中實

    現。如圖 4,左側描述如下:一開始取得資料來源後,先做資料前處理,接著,

    在特徵選擇的部份,找到重要的變數,而後建立模型,使用類神經網路、支援向

    量機、StackingC等方法。接著再來做結果與分析的部份。最後,得到研究結論。

  • 40

    第四節 資料探勘工具

    本研究所使用到的資料探勘工具為 Weka(Waikato Environment for

    Knowledge Analysis, WEKA),它是由紐西蘭的懷卡托(Waikato)大學開發出來的,

    此系統是以 JAVA 撰寫的,它幾乎可以使用在任何平台,如 Linux、Windows、

    Macintosh作業系統,甚至可以用在個人數位助理(Personal Digital Assistant

    ,PDA)上使用。它提供了很多不同種類的學習演算的方法。它廣泛的提供資料探

    勘實驗完整的流程,包括輸入數據、評估模型、視覺化的輸出資料。除了各式各

    樣的學習演算法,它還提供廣泛的預處理工具。其多樣化的功能,可供使用者可

    以比較不同的演算法,對於想解決的問題選擇最適當的演算法[25]。圖 5.為資

    料探勘工具之 Weka 軟體之開啟選單之介面。

    圖 5. 資料探勘工具-Weka 軟體

  • 41

    第四章 實證評估

    此章為探索性資料分析方法之步驟實做部份,當中,使用術前與術中、與目

    標值相關聯等的資料屬性去預測五個目標值,依序如下,分別為:

    一、術後的併發症(Como3)、

    二、術後病人在加護病房的時間(T_ICU)、

    三、術後住院時間(Length of hospital stay)、

    四、術後第 1次心臟超音波檢查的左心室功能(Echo 2 Lvef)、

    五、術後心臟的分類等級(Alive_Fc)。

    第一節 探索性資料分析方法之步驟實做

    原始資料:

    原始資料為,台北某醫學中心,自 2007 年 10 月至 2009 年 9 月之心血管疾

    病資料庫,該資料中利用 154個屬性去記錄 122位病人資料,(詳情見附錄一)。

    該資料平均年齡為 63.02 13.64,男女的比例為 67:55。當中為了要使用術前

    與術中、與目標值相關聯等的資料屬性去預測術後的併發症(Como3)、術後病人

    在加護病房的時間(T_ICU)、術後住院時間(Length of hospital stay)、術後第

    1 次心臟超音波檢查的左心室功能(Echo 2 Lvef)、術後心臟的分類等級

    (Alive_Fc)。因此,對於其資料處理的過程如下加以敘述之,對於屬性內容給予

    英文代碼替代,如術後病人在加護病房的時間,用(T_ICU)代替,對於英文代碼

    之中文名稱,(詳情見附錄一)。

  • 42

    資料前處理的部份:

    Step1:先把對於目標值相關的屬性挑出來。

    表 8.為屬性第一次篩選結果,此為依據與醫師討論的結果,而使用術前與

    術中、與目標值相關聯等的資料屬性去預測術後的目標值,而當中使用的 47個

    屬性分別如表 8.所示:

    表 8. 屬性第一次篩選

    1. sex 21. Na 41. t_pump

    2. dob_y 22. K 42. Dopa

    3. dob_m 23. echo_lvef 43. Dobu

    4. dob_d 24. echo_lvedd 44. CPK2

    5. BH 25. echo_IVS 45. CKMB2

    6. BW 26. echo_RVSP 46. CPK3

    7. PH HTN 27. PFT FEV1 47. CKMB3

    8. PH DM 28. PFT_FEV1FVC

    9. PH CVA 29. Como_ARF

    10. PH HLIPID 30. Como_ETT

    11. PH PAOD 31. Como_pneumonia

    12. PH CRI 32. Como_inf

    13. PH Uremia 33. Como_UGIB

    14. PH COPD 34. Como_lung_edema

    15. PH Pneumonia 35. Como_IABP

    16. PH Others 36. Como_hepa_dys

    17. BUN 37. Como_others

    18. Cre 38. Op_time

    19. GOT 39. HTK_vol

    20. GPT 40. t_clamp

  • 43

    Step2:有些屬性可以做合併,把它合併起來。

    在表 8.內,屬性第一次篩選結果後,當中有些屬性是可以給予合併,以

    便得到可用於運算的屬性資訊。因此,在此表 9.中,合併屬性之敘述如下:

    (1)把 dob_y、dob_m、dob_d,三者之屬性資訊,給予合併成 Age。

    (2)把 BH、BW,二者之屬性資訊,給予合併成 BMI。

    (3)把 Como_ARF、Como_ETT、Como_pneumonia、Como_inf、Como_UGIB、

    Como_lung_edema、Como_IABP、Como_hepa_dys、Como_others,九者之屬性

    資訊,給予合併成 Como。

    (4)把 Dopa、Dobu,兩者之屬性資訊,給予合併成 Doau。

    (5)把 CKMB2、CPK2,兩者之屬性資訊,給予合併成 CKMB2/CPK2。

    (6)把 CPK3、CKMB3,兩者之屬性資訊,給予合併成 CKMB3/CPK3。

    表 9. 給予屬性合併

    屬性合併前 屬性合併後

    1. dob_y Age:年齡

    2. dob_m

    3. dob_d

    4. BH BMI:身體質量指數

    5. BW

    6. Como_ARF

    Como:本次入院前是否有併發疾病。

    7. Como_ETT

    8. Como_pneumonia

    9. Como_inf

    10. Como_UGIB

    11. Como_lung_edema

    12. Como_IABP

    13. Como_hepa_dys

    14. Como_others

    15. Dopa Doau:Dopa、Dobu兩者之一是否有其

    中一個值 5。 16. Dobu

    17. CKMB2 CKMB2/CPK2:當天下刀抽血之心肌酶

    指數結果。 18. CPK2

  • 44

    屬性合併前 屬性合併後

    19. CPK3 CKMB3/CPK3:病人術後隔天 ICU 抽血之

    心肌酶指數結果。 20. CKMB3

    Step3:依據原始屬性、屬性合併之結果列表。

    經過表 8. 屬性第一次篩選,與表 9. 給予屬性合併,兩表之整理整合

    結果,將列入表 10. 屬性第 2次篩選,當中包括 33個屬性,分別為:

    sex、Age、BMI、PH HTN、PH DM、PH CVA、PH HLIPID、PH PAOD、PH CRI、PH Uremia、

    PH COPD、PH Pneumonia、PH Others、BUN、Cre、GOT、GPT、Na、K、echo_lvef、

    echo_lvedd、echo_IVS、echo_RVSP、PFT FEV1、PFT_FEV1FVC、Como、Op_time、

    HTK_vol、t_clamp、t_pump、Doau、CKMB2/CPK2、CKMB3/CPK3。

    表 10. 屬性第 2次篩選

    1. sex 11. PH COPD 21. echo_lvedd 31. Doau

    2. Age 12. PH Pneumonia 22. echo_IVS 32. CKMB2/CPK2

    3. BMI 13. PH Others 23. echo_RVSP 33. CKMB3/CPK3

    4. PH HTN 14. BUN 24. PFT FEV1 34.

    5. PH DM 15. Cre 25. PFT_FEV1FVC 35.

    6. PH CVA 16. GOT 26. Como 36.

    7. PH HLIPID 17. GPT 27. Op_time 37.

    8. PH PAOD 18. Na 28. HTK_vol 38.

    9. PH CRI 19. K 29. t_clamp 39.

    10. PH Uremia 20. echo_lvef 30. t_pump 40.

  • 45

    Step4:依據原始屬性、屬性合併之結果列表之標準值與分類。

    經過表 10. 屬性第 2 次篩選之後,使用資料探勘分類的方法,各個屬性,

    依據其標準值,給予其特定的分類標籤,將列入表 11.屬性合併之標準值分類,

    敘述如下:

    (1)把 sex,分為女性與男性。女性以「A0」分類標籤表示;男性以「A1」分類

    標籤表示。

    (2)屬性 Age,此變數為連續性資料型態,在此無法分類,因此在後續,再給予

    做資料離散化處理。

    (3)把 BMI 值,分為過輕、正常、過重,若 BMI

  • 46

    (11)把 PH COPD,分為有此過去病史,與沒有此過去病史。有此過去病史以「A1」

    分類標籤表示;沒有此過去病史以「A0」分類標籤表示。

    (12)把 PH Pneumonia,分為有此過去病史,與沒有此過去病史。有此過去病史

    以「A1」分類標籤表示;沒有此過去病史以「A0」分類標籤表示。

    (13)把 PH Others,分為有此過去病史,與沒有此過去病史。有此過去病史以「A1」

    分類標籤表示;沒有此過去病史以「A0」分類標籤表示。

    (14)把 BUN值,分為過低、正常、過高,若 BUN值 7 mg/dl,則為過低;若 BUN

    值介於 7-20 mg/dl,則為正常;若 BUN 值 20 mg/dl,則為過高。當中,過

    低以「Low」分類標籤表示;正常以「Normal」分類標籤表示;過高以「High」

    分類標籤表示。

    (15)把 Cre值,分別男性 Cre值,與女性 Cre 值,當中男性 Cre值又區分為過低、

    正常、過高,女性 Cre值又區分為過低、正常、過高;若男性Cre值 0.7 mg/dl,

    則為過低;若男性 Cre值介於 0.7-1.5 mg/dl,則為正常;若男性 Cre值 1.5

    mg/dl,則為過高;若女性 Cre值 0.5 mg/dl,則為過低;若女性 Cre值介

    於 0.5-1.2 mg/dl,則為正常;若女性 Cre 值 1.2,則為過高。當中,男性

    Cre 值過低與女性 Cre 值過低以「Low」分類標籤表示;男性 Cre 值正常與

    女性 Cre 值正常以「Normal」分類標籤表示;男性 Cre 值過高與女性 Cre

    值過高以「High」分類標籤表示。

    (16)把 GOT 值,分為過低、正常、過高,若 GOT 值 8 IU/L,則為過低;若 GOT

    值介於 8-40 IU/L,則為正常;若 GOT值 40 IU/L,則為過高。當中,過低

    以「Low」分類標籤表示;正常以「Normal」分類標籤表示;過高以「High」

    分類標籤表示。

    (17)把 GPT 值,分為過低、正常、過高,若 GPT 值 8 IU/L,則為過低;若 GPT

    值介於 8-40 IU/L,則為正常;若 GPT值 40 IU/L,則為過高。當中,過低

    以「Low」分類標籤表示;正常以「Normal」分類標籤表示;過高以「High」

  • 47

    分類標籤表示。

    (18)把 Na 值,分為過低、正常、過高,若 Na 135 meq/l,則為過低;若 Na 值

    介於 135-145 meq/l,則為正常;若 Na 值 145 meq/l,則為過高。當中,

    過低以「Low」分類標籤表示;正常以「Normal」分類標籤表示;過高以「High」

    分類標籤表示。