View
97
Download
0
Category
Preview:
DESCRIPTION
監督式學習與非監督式學習為主的 資料探勘技術應用於 癌症基因表現資訊之研究. 研究生 : 鍾翔航 指導教授 : 李俊宏博士. Outlines. Introduction goal Related Techniques Experiments Results & Analyses Conclusions Future Work Data integration. Introduction. 傳統檢驗法 預培養 (preculture) 選擇性培養基培養 (selective medium culture) 生化型鑑定 (biotype test) - PowerPoint PPT Presentation
Citation preview
1
監督式學習與非監督式學習為主的資料探勘技術應用於
癌症基因表現資訊之研究
研究生 : 鍾翔航指導教授 : 李俊宏博士
2
OutlinesIntroductiongoalRelated TechniquesExperimentsResults & AnalysesConclusionsFuture WorkData integration
3
Introduction傳統檢驗法
預培養 (preculture)
選擇性培養基培養 (selective medium culture)
生化型鑑定 (biotype test)
血清型鑑定 (Serotype test)
DNA 探針• PCR fingerprinting
• multiplex-PCR
• DNA 定序• PCR-RFLP
• gene-specific probe hybridization
• ribotyping
microarray
4
Goal
由於微陣列晶片靈敏度高導致準確度下降
BLAST(Basic Local Alignment Search Tool) 同源性比對, northern blotting 和 RT-PCR 進行驗證。
只靠微陣列晶片就能獲得可信的成果,對基因分析、解讀將會是一個很大的進步。
5
Related Techniques
手工分類法
非監督聚類法 配對平均連鎖聚類分析 (K -mean )
混合聚類法 通過將每一數據點傅立葉變換尋找那些表達呈週期性變化的基因,比如細胞週期涉及的基因
6
Experiments
7
Data Pre-Processing
Gene SelectionStanford NCI60 Cancer Microarray Project
9712 gene , 2549 named
RPL3 、 SOD2 、 CDC42 、 FN1(lung carcinoma)
正規化 ( 去除螢光染料之背景干擾 )Raw Log Ratio = log10 ( Rf – Rb ) - log10 ( Gf – Gb )
8
SVMs Classifiers Deciding
Deciding
SVM ClassifierDecision Function W
Kernel Function
Output Decision Value
9712 gene
9
Results & Analyses (SVMs -1)
SVM Kernel Type
Gamma值
群的大小 正確的GENE數
Precision Recall F1
Linear 16 16 1 0.7619 0.86486
Polynomial 3 21 21 1 1 1
RBF 5 19 19 1 0.90476
0.95
SVM of Ribosomal protein L3(60436)
SVM Kernel Type
Gamma值
群的大小 正確的 GENE數
Precision Recall F1
Linear 15 15 1 0.71429
0.83333
Polynomial 3 21 21 1 1 1
RBF 5 21 21 1 1 1
SVM of Ribosomal protein L3(376861)
SVM Kernel Type
Gamma值
群的大小 正確的 GENE數
Precision
Recall F1
Linear 14 14 1 0.66667
0.8
Polynomial 4 21 21 1 1 1
RBF 5 20 20 1 0.95238
0.97561
SVM of Ribosomal protein L3(256323)
10
Results & Analyses (SVMs -2)
SVM Kernel Type
Gamma 值
群的大小 正確的 GENE數
Precision Recall F1
Linear 32 32 1 0.8 0.88889
Polynomial 3 40 40 1 1 1
RBF 5 39 39 1 0.975 0.98734
SVM of Ribosomal protein L3(60436)(376861)
SVM Kernel Type
Gamma 值
群的大小 正確的 GENE數
Precision Recall F1
Linear 29 29 1 0.74359
0.85294
Polynomial 4 39 39 1 1 1
RBF 5 37 37 1 0.94872
0.97368
SVM of Ribosomal protein L3(60436)(256323)
SVM Kernel Type
Gamma 值
群的大小 正確的 GENE數
Precision Recall F1
Linear 30 30 1 0.78947
0.88235
Polynomial 4 38 38 1 1 1
RBF 5 37 37 1 0.97368
0.98667
SVM of Ribosomal protein L3(376861)(256323)
11
Results & Analyses (SVMs -3)
SVM Kernel Type
Gamma 值
群的大小 正確的 GENE數
Precision Recall F1
Linear 43 43 1 0.7963 0.8866
Polynomial 4 54 54 1 1 1
RBF 5 53 53 1 0.98148
0.99065
SVM of Ribosomal protein L3(60436)(376861)(256323)
12
k-NN Classifiers Deciding
Deciding
k-NN ClassifierDecision Function
Output Decision Value
21 gene
13
Results & Analyses (k-NN)k-NN of Ribosomal protein L3(60436) k-NN of Ribosomal protein L3(376861)
k-NN of Ribosomal protein L3(256323)
14
SOM Cluster Deciding
Deciding
SOM ClusterDecision Function
Output Decision Value
9712 gene
Number of Cluster
15
Results & Analyses (SOM -1)
群的數量 群的大小 正確的GENE數
Precision Recall F1
28965 21
0.002342443
1 0.004673937
37098 20
0.002817695
0.952381
0.005618767
83519 14
0.003978403
0.666667
0.007909605
93286 14
0.004260499
0.666667
0.008466888
SOM of Ribosomal protein L3(60436)
SVM of Ribosomal protein L3(376861)
群的數量 群的大小 正確的 GENE數
Precision Recall F1
28965 21
0.002342443
1 0.004673937
37098 21
0.00295858
1 0.005899705
83519 20
0.005683433
0.952381
0.011299435
93286 20
0.006086427
0.952381
0.012095555
16
Results & Analyses (SOM -2)
群的數量 群的大小 正確的GENE數
Precision Recall F1
28965 21
0.002342443
1 0.004673937
37098 21
0.00295858
1 0.005899705
82188 5
0.002285192
0.238095
0.004526935
91959 5
0.002552323
0.238095
0.005050505
SVM of Ribosomal protein L3(256323)
SVM of Ribosomal protein L3(60436)(376861)
群的數量 群的大小 正確的GENE數
Precision Recall F1
28965 40
0.004461796
1 0.008883953
37098 39
0.005494505
0.975 0.010927431
83519 32
0.009093492
0.8 0.017982579
93286 32
0.009738284
0.8 0.019242333
17
Results & Analyses (SOM -3)
群的數量 群的大小 正確的GENE數
Precision Recall F1
28965 39
0.004350251
1 0.008662817
37098 38
0.005353621
0.974359
0.010648732
64435 37
0.008342728
0.948718
0.016540009
73755 33
0.008788282
0.846154
0.017395888
SVM of Ribosomal protein L3(60436)(256323)
SVM of Ribosomal protein L3(376861)(256323)
群的數量 群的大小 正確的GENE數
Precision Recall F1
28965 38
0.004238706
1 0.008441631
37098 38
0.005353621
1 0.010650224
64435 36
0.008117249
0.947368
0.016096579
73755 33
0.008788282
0.868421
0.017400475
18
Results & Analyses (SOM -4)SVM of Ribosomal protein L3(60436)(376861)(256323)
群的數量 群的大小 正確的GENE數
Precision Recall F1
28965 54
0.006023424
1 0.01197472
37098 53
0.007466892
0.981481
0.014821029
44664 51
0.01093482
0.944444
0.02161933
54435 51
0.011499436
0.944444
0.02272221
64435 51
0.011499436
0.944444
0.02272221
73755 47
0.012516644
0.87037
0.024678393
19
K-Means Cluster Deciding
Deciding
K-Means ClusterDecision Function
Output Decision Value
9712 gene
最大樣本點的群聚
20
Results & Analyses (K-Means -1)
分群次數 群的大小 正確的GENE數
Precision Recall F1
1 9447 21 0.002222928
1 0.004435995
2 8477 21 0.002477291
1 0.004942339
17 2399 14 0.005835765
0.666667
0.011570248
18 2020 14 0.006930693
0.666667
0.013718765
SOM of Ribosomal protein L3(60436)
SVM of Ribosomal protein L3(376861)
分群次數 群的大小 正確的GENE數
Precision Recall F1
1 9447 21 0.002222928
1 0.004435995
2 8477 21 0.002477291
1 0.004942339
17 2399 18 0.007503126
0.857143
0.014876033
18 2020 18 0.008910891
0.857143
0.017638413
21
Results & Analyses (K-Means -2)
分群次數 群的大小 正確的GENE數
Precision Recall F1
1 9447 21 0.002222928
1 0.004435995
2 8477 21 0.002477291
1 0.004942339
3 8321 21 0.002523735
1 0.005034764
4 7071 20 0.002828454
0.952381
0.005640158
5 6019 11 0.001827546
0.52381
0.003642384
6 5587 11 0.001968856
0.52381
0.003922967
7 5486 11 0.002005104
0.52381
0.003994916
8 4971 11 0.002212834
0.52381
0.004407051
9 894 4 0.004474273
0.190476
0.008743169
SVM of Ribosomal protein L3(256323)
SVM of Ribosomal protein L3(60436)(376861)
分群次數 群的大小 正確的GENE數
Precision Recall F1
1 9447 39 0.004128295
1 0.008222644
2 8477 39 0.004600684
1 0.00915923
17 2399 29 0.01208837
0.74359
0.023789992
18 2020 29 0.014356436
0.74359
0.028169014
22
Results & Analyses (K-Means -3)
分群次數 群的大小 正確的 GENE數
Precision Recall F1
1 9447 39 0.004128295 1 0.008222644
2 8477 39 0.004600684 1 0.00915923
7 5486 26 0.004739336 0.666667 0.009411765
8 4971 26 0.005230336 0.666667 0.010379242
SVM of Ribosomal protein L3(60436)(256323)
SVM of Ribosomal protein L3(376861)(256323)
分群次數 群的大小 正確的 GENE數
Precision Recall F1
1 9447 38 0.004022441 1 0.008012652
2 8477 38 0.004482718 1 0.008925426
7 5486 27 0.004921619 0.710526 0.009775525
8 4971 27 0.005431503 0.710526 0.010780595
23
Results & Analyses (K-Means -4)SVM of Ribosomal protein L3(60436)(376861)(256323)
分群次數 群的大小 正確的 GENE數
Precision Recall F1
1 9447 54 0.0057161 1 0.011367225
2 8477 54 0.006370178 1 0.012659712
3 8321 54 0.006489605 1 0.012895522
4 7071 52 0.007353981 0.962963 0.014596491
5 6019 40 0.006645622 0.740741 0.013173061
6 5587 40 0.007159477 0.740741 0.014181883
7 5486 40 0.007291287 0.740741 0.014440433
8 4971 40 0.008046671 0.740741 0.015920398
24
Conclusions
Microarray databaseDifferent chip
監督式學習20 hypotheses
非監督式學習階層式分群技術 - 聚合式、分裂式
25
Future Work
非監督式學習global normalization v.s. local normalization
監督式學習與 ontology
結合醫學文獻資料庫
Data integration
將資料庫連結在一起的概念稱為「資料融合」資料融合技術具有相當的挑戰性
原因是資料庫中充斥著錯誤與無意義的巧合
資料融合技術可以追溯至 1970 年代發展的電腦配對程式
美國國會在 1974 年通過隱私權法案,也同時授權創立了聯邦家長協尋服務
美國洛克希德馬丁公司「戰術資料融合系統」,能夠從感測器、資料庫與其他來源即時蒐集戰場資訊,加以融合後提供給分析人員,從此「資料融合」正式成為科技新名詞
26
27
Thank You!!
Recommended