27
1 監監監監監監監監監監監監監監監 監監監監監監監監監 監監監監監監監監監監監 監監監 : 監監監 監監監監 : 監監監監監

監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

Embed Size (px)

DESCRIPTION

監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究. 研究生 : 鍾翔航 指導教授 : 李俊宏博士. Outlines. Introduction goal Related Techniques Experiments Results & Analyses Conclusions Future Work Data integration. Introduction. 傳統檢驗法 預培養 (preculture) 選擇性培養基培養 (selective medium culture) 生化型鑑定 (biotype test) - PowerPoint PPT Presentation

Citation preview

Page 1: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

1

監督式學習與非監督式學習為主的資料探勘技術應用於

癌症基因表現資訊之研究

研究生 : 鍾翔航指導教授 : 李俊宏博士

Page 2: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

2

OutlinesIntroductiongoalRelated TechniquesExperimentsResults & AnalysesConclusionsFuture WorkData integration

Page 3: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

3

Introduction傳統檢驗法

預培養 (preculture)

選擇性培養基培養 (selective medium culture)

生化型鑑定 (biotype test)

血清型鑑定 (Serotype test)

DNA 探針• PCR fingerprinting

• multiplex-PCR

• DNA 定序• PCR-RFLP

• gene-specific probe hybridization

• ribotyping

microarray

Page 4: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

4

Goal

由於微陣列晶片靈敏度高導致準確度下降

BLAST(Basic Local Alignment Search Tool) 同源性比對, northern blotting 和 RT-PCR 進行驗證。

只靠微陣列晶片就能獲得可信的成果,對基因分析、解讀將會是一個很大的進步。

Page 5: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

5

Related Techniques

手工分類法

非監督聚類法 配對平均連鎖聚類分析 (K -mean )

混合聚類法 通過將每一數據點傅立葉變換尋找那些表達呈週期性變化的基因,比如細胞週期涉及的基因

Page 6: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

6

Experiments

Page 7: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

7

Data Pre-Processing

Gene SelectionStanford NCI60 Cancer Microarray Project

9712 gene , 2549 named

RPL3 、 SOD2 、 CDC42 、 FN1(lung carcinoma)

正規化 ( 去除螢光染料之背景干擾 )Raw Log Ratio = log10 ( Rf – Rb ) - log10 ( Gf – Gb )

Page 8: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

8

SVMs Classifiers Deciding

Deciding

SVM ClassifierDecision Function W

Kernel Function

Output Decision Value

9712 gene

Page 9: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

9

Results & Analyses (SVMs -1)

SVM Kernel Type

Gamma值

群的大小 正確的GENE數

Precision Recall F1

Linear   16 16 1 0.7619 0.86486

Polynomial 3 21 21 1 1 1

RBF 5 19 19 1 0.90476

0.95

SVM of Ribosomal protein L3(60436)

SVM Kernel Type

Gamma值

群的大小 正確的 GENE數

Precision Recall F1

Linear   15 15 1 0.71429

0.83333

Polynomial 3 21 21 1 1 1

RBF 5 21 21 1 1 1

SVM of Ribosomal protein L3(376861)

SVM Kernel Type

Gamma值

群的大小 正確的 GENE數

Precision

Recall F1

Linear   14 14 1 0.66667

0.8

Polynomial 4 21 21 1 1 1

RBF 5 20 20 1 0.95238

0.97561

SVM of Ribosomal protein L3(256323)

Page 10: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

10

Results & Analyses (SVMs -2)

SVM Kernel Type

Gamma 值

群的大小 正確的 GENE數

Precision Recall F1

Linear   32 32 1 0.8 0.88889

Polynomial 3 40 40 1 1 1

RBF 5 39 39 1 0.975 0.98734

SVM of Ribosomal protein L3(60436)(376861)

SVM Kernel Type

Gamma 值

群的大小 正確的 GENE數

Precision Recall F1

Linear   29 29 1 0.74359

0.85294

Polynomial 4 39 39 1 1 1

RBF 5 37 37 1 0.94872

0.97368

SVM of Ribosomal protein L3(60436)(256323)

SVM Kernel Type

Gamma 值

群的大小 正確的 GENE數

Precision Recall F1

Linear   30 30 1 0.78947

0.88235

Polynomial 4 38 38 1 1 1

RBF 5 37 37 1 0.97368

0.98667

SVM of Ribosomal protein L3(376861)(256323)

Page 11: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

11

Results & Analyses (SVMs -3)

SVM Kernel Type

Gamma 值

群的大小 正確的 GENE數

Precision Recall F1

Linear   43 43 1 0.7963 0.8866

Polynomial 4 54 54 1 1 1

RBF 5 53 53 1 0.98148

0.99065

SVM of Ribosomal protein L3(60436)(376861)(256323)

Page 12: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

12

k-NN Classifiers Deciding

Deciding

k-NN ClassifierDecision Function

Output Decision Value

21 gene

Page 13: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

13

Results & Analyses (k-NN)k-NN of Ribosomal protein L3(60436) k-NN of Ribosomal protein L3(376861)

k-NN of Ribosomal protein L3(256323)

Page 14: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

14

SOM Cluster Deciding

Deciding

SOM ClusterDecision Function

Output Decision Value

9712 gene

Number of Cluster

Page 15: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

15

Results & Analyses (SOM -1)

群的數量 群的大小 正確的GENE數

Precision Recall F1

28965 21

0.002342443

1 0.004673937

37098 20

0.002817695

0.952381

0.005618767

83519 14

0.003978403

0.666667

0.007909605

93286 14

0.004260499

0.666667

0.008466888

SOM of Ribosomal protein L3(60436)

SVM of Ribosomal protein L3(376861)

群的數量 群的大小 正確的 GENE數

Precision Recall F1

28965 21

0.002342443

1 0.004673937

37098 21

0.00295858

1 0.005899705

83519 20

0.005683433

0.952381

0.011299435

93286 20

0.006086427

0.952381

0.012095555

Page 16: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

16

Results & Analyses (SOM -2)

群的數量 群的大小 正確的GENE數

Precision Recall F1

28965 21

0.002342443

1 0.004673937

37098 21

0.00295858

1 0.005899705

82188 5

0.002285192

0.238095

0.004526935

91959 5

0.002552323

0.238095

0.005050505

SVM of Ribosomal protein L3(256323)

SVM of Ribosomal protein L3(60436)(376861)

群的數量 群的大小 正確的GENE數

Precision Recall F1

28965 40

0.004461796

1 0.008883953

37098 39

0.005494505

0.975 0.010927431

83519 32

0.009093492

0.8 0.017982579

93286 32

0.009738284

0.8 0.019242333

Page 17: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

17

Results & Analyses (SOM -3)

群的數量 群的大小 正確的GENE數

Precision Recall F1

28965 39

0.004350251

1 0.008662817

37098 38

0.005353621

0.974359

0.010648732

64435 37

0.008342728

0.948718

0.016540009

73755 33

0.008788282

0.846154

0.017395888

SVM of Ribosomal protein L3(60436)(256323)

SVM of Ribosomal protein L3(376861)(256323)

群的數量 群的大小 正確的GENE數

Precision Recall F1

28965 38

0.004238706

1 0.008441631

37098 38

0.005353621

1 0.010650224

64435 36

0.008117249

0.947368

0.016096579

73755 33

0.008788282

0.868421

0.017400475

Page 18: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

18

Results & Analyses (SOM -4)SVM of Ribosomal protein L3(60436)(376861)(256323)

群的數量 群的大小 正確的GENE數

Precision Recall F1

28965 54

0.006023424

1 0.01197472

37098 53

0.007466892

0.981481

0.014821029

44664 51

0.01093482

0.944444

0.02161933

54435 51

0.011499436

0.944444

0.02272221

64435 51

0.011499436

0.944444

0.02272221

73755 47

0.012516644

0.87037

0.024678393

Page 19: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

19

K-Means Cluster Deciding

Deciding

K-Means ClusterDecision Function

Output Decision Value

9712 gene

最大樣本點的群聚

Page 20: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

20

Results & Analyses (K-Means -1)

分群次數 群的大小 正確的GENE數

Precision Recall F1

1 9447 21 0.002222928

1 0.004435995

2 8477 21 0.002477291

1 0.004942339

17 2399 14 0.005835765

0.666667

0.011570248

18 2020 14 0.006930693

0.666667

0.013718765

SOM of Ribosomal protein L3(60436)

SVM of Ribosomal protein L3(376861)

分群次數 群的大小 正確的GENE數

Precision Recall F1

1 9447 21 0.002222928

1 0.004435995

2 8477 21 0.002477291

1 0.004942339

17 2399 18 0.007503126

0.857143

0.014876033

18 2020 18 0.008910891

0.857143

0.017638413

Page 21: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

21

Results & Analyses (K-Means -2)

分群次數 群的大小 正確的GENE數

Precision Recall F1

1 9447 21 0.002222928

1 0.004435995

2 8477 21 0.002477291

1 0.004942339

3 8321 21 0.002523735

1 0.005034764

4 7071 20 0.002828454

0.952381

0.005640158

5 6019 11 0.001827546

0.52381

0.003642384

6 5587 11 0.001968856

0.52381

0.003922967

7 5486 11 0.002005104

0.52381

0.003994916

8 4971 11 0.002212834

0.52381

0.004407051

9 894 4 0.004474273

0.190476

0.008743169

SVM of Ribosomal protein L3(256323)

SVM of Ribosomal protein L3(60436)(376861)

分群次數 群的大小 正確的GENE數

Precision Recall F1

1 9447 39 0.004128295

1 0.008222644

2 8477 39 0.004600684

1 0.00915923

17 2399 29 0.01208837

0.74359

0.023789992

18 2020 29 0.014356436

0.74359

0.028169014

Page 22: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

22

Results & Analyses (K-Means -3)

分群次數 群的大小 正確的 GENE數

Precision Recall F1

1 9447 39 0.004128295 1 0.008222644

2 8477 39 0.004600684 1 0.00915923

7 5486 26 0.004739336 0.666667 0.009411765

8 4971 26 0.005230336 0.666667 0.010379242

SVM of Ribosomal protein L3(60436)(256323)

SVM of Ribosomal protein L3(376861)(256323)

分群次數 群的大小 正確的 GENE數

Precision Recall F1

1 9447 38 0.004022441 1 0.008012652

2 8477 38 0.004482718 1 0.008925426

7 5486 27 0.004921619 0.710526 0.009775525

8 4971 27 0.005431503 0.710526 0.010780595

Page 23: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

23

Results & Analyses (K-Means -4)SVM of Ribosomal protein L3(60436)(376861)(256323)

分群次數 群的大小 正確的 GENE數

Precision Recall F1

1 9447 54 0.0057161 1 0.011367225

2 8477 54 0.006370178 1 0.012659712

3 8321 54 0.006489605 1 0.012895522

4 7071 52 0.007353981 0.962963 0.014596491

5 6019 40 0.006645622 0.740741 0.013173061

6 5587 40 0.007159477 0.740741 0.014181883

7 5486 40 0.007291287 0.740741 0.014440433

8 4971 40 0.008046671 0.740741 0.015920398

Page 24: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

24

Conclusions

Microarray databaseDifferent chip

監督式學習20 hypotheses

非監督式學習階層式分群技術 - 聚合式、分裂式

Page 25: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

25

Future Work

非監督式學習global normalization v.s. local normalization

監督式學習與 ontology

結合醫學文獻資料庫

Page 26: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

Data integration

將資料庫連結在一起的概念稱為「資料融合」資料融合技術具有相當的挑戰性

原因是資料庫中充斥著錯誤與無意義的巧合

資料融合技術可以追溯至 1970 年代發展的電腦配對程式

美國國會在 1974 年通過隱私權法案,也同時授權創立了聯邦家長協尋服務

美國洛克希德馬丁公司「戰術資料融合系統」,能夠從感測器、資料庫與其他來源即時蒐集戰場資訊,加以融合後提供給分析人員,從此「資料融合」正式成為科技新名詞

26

Page 27: 監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究

27

Thank You!!