29
机机机机机机机 模模 一、、 R 模模模模模模模模模模 机机机机机机机 机机机 R package 机机机机机机机机机机 1.模模模模模模模 XGBoost XGBoostExplain er MLR 模模模模模模模模模模模模模模 xgboost 模模模模 2.模模模模模 XGBoost 模模模模模模模 xgboost 模模模模 模模模模模模模模模 3.模模模模模 XGBoost 模模模模模模模模模模模模模模 xgboost 模模模模 4. 模模模模模模模模模 CoxBoost 模模模模模模模模 stepno 模 penalty模模模模模模模模模模模模模模模 5.模模模模(模模模模模模模) MLR MLDR 模模模模模模模 Binary relevance 模 Classifier chains 模模模模 模模模模模模模模模模模模模模模 6.模模模模 cluster factoextra 模模模模模模模模模模模模模模模模模模模模模 模模模 、:、Objective 、: 机机机机机机机 机机机机机机机机机 1. 模模模模模模模 模模模模模模模模模 () ,模模模模模模 2.模模模模模 模模 (),模模模模模模 3.模模模模模 模模 4. 模模模模 0=censor 1=event 模模模模模模模模模 5. 模模模模 模 模模模模模模模模模模模 LABEL 模模模模模模 模模 模模模模模 LABEL1-LABLELn,模模模模n模模模模模模 0=false 1=ture), 模模模模模模模 6.模模模模 模模 模 模模模模模模模模 、:

本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

Embed Size (px)

Citation preview

Page 1: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

机器学习与预测一、模块功能、所用 R 软件包与主要参数设置:

学习对象与目标 所用的R package

学习器参数设置与调试1. 两分类或多分类 XGBoost

XGBoostExplainerMLR

可自动调试参数与手置参数设置xgboost 所用参数

2. 有序多分类 XGBoost 可手置参数设置 xgboost 所用参数,自动调试参数无作用

3. 连续性变量 XGBoost 可自动调试参数与手置参数设置xgboost 所用参数

4. 时间依赖的生存状态

CoxBoost 自动寻找最佳参数 stepno 与penalty,自动调试参数与手置参数均无作用

5. 多重标签(多个两分类属性)

MLRMLDR

自动比较选择用 Binary relevance 或Classifier chains 分类方法,自动调试参数与手置参数均无作用

6. 集聚分析 clusterfactoextra

自动寻找类数,自动调试参数与手置参数均无作用

二、页面设置:结果变量、Objective、时间变量:学习对象与目标 结果变量与时间变量1. 两分类或多分类 需要两分类或多分类结果变量(数字型),时间变量置空2. 有序多分类 需要多分类结果变量(数字型),时间变量置空3. 连续性变量 需要连续性结果变量,时间变量置空4. 生存状态 需要两分类(0=censor 1=event)状态变量与时间变量5. 多重标签 结果变量置空,系统自动将数据中变量名为 LABEL 打头的

两分类变量做为结果变量。因此,须先将结果变量命名为 LABEL1-LABLELn,分别表示n 个两分类的属性(0=false 1=ture),时间变量无作用

Page 2: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

6. 集聚分析 结果变量、时间变量均置空

三、页面设置:学习样本与验证样本如只对 50%数据进行学习,对另外的 50%进行验证,输入页面设置如下:

数据中也可以用一个两分类变量来区别学习数据与验证数据,如该变量名为 TEST,0表示学习,1 表示验证,页面设置如下:

例 1.1 对两分类结果变量的预测 例 2.1 对连续性变量的预测 例 3.1 聚类分析 例 4.1 多标签 分类 例 5.1 生存分析

例1.1 对两分类结果变量的预测练习项目 DEMO 数据预测 HBP(是否高血压:0=否 1=是),输入界面如下:

Page 3: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

这里:(1)没有选自动调试参数,也没有手置参数,系统将使用默认参数。(2)Training sample 使用 100%数据,表示对所有可用于学习的记录进行学习。可用于学习的记录指结果变量不缺失、自变量可以有部分缺失(不能全缺失)的记录。对所有记录进行预测。输出结果:首先列出预测结果变量与预测因子(X 变量):Predict for: High BP Predictors: Age, years; Height, m; Weight, kg; Body mass index, kg/m2; Passive smoke; SMOKE; SMKAMT; Alcohol; Occupation; Education; SNP1; SNP2

机器学习所用的参数:

Page 4: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

SET params as: booster=gbtree, objective=binary:logistic, eta=0.3, gamma=5, max_depth=6, min_child_weight=1, subsample=1, colsample_bytree=1

预测结果(prediction)与原观察结果(observed)对照的四格表与统计检验结果:Confusion Matrix

ObservedPrediction 0 1 0 575 95 1 23 100 Overall test Accuracy (95%CI) 0.8512 (0.8245,0.8753) Kappa 0.5418 Mcnemar test P-value <0.0001 AUC 0.8794

四格表相应的统计指标,按阳性为 0 与阳性为 1 分别统计:Statistics Class 0 1 Sensitivity 0.9615 0.5128 Specificity 0.5128 0.9615 Postive predictive value 0.8582 0.8130 Negative predictive value 0.8130 0.8582 Prevalence 0.7541 0.2459 Detection rate 0.7251 0.1261 Detection prevalence 0.8449 0.1551 Balanced accuracy 0.7372 0.7372

上表中,如 0 为阳性则敏感度为 0.9615,特异度为 0.5128;如 1 为阳性,敏感度则为0.5128,特异度为 0.9615,依此类推。各预测自变量(X)的重要性,按重要性大小排序。系统自动将分类变量转换成各分类的哑变量,如 SNP1 将生成 SNP1.0、SNP1.1、SNP1.2 三个哑变量,下表显示 SNP1.2 的重要性排在第四位。重要性很小的变量不被列出。Variable importance Feature Gain Cover Frequency AGE 0.631767535 0.506883938 0.33928571 BMI 0.093068706 0.060310230 0.16071429 SMKAMT 0.081277845 0.088726822 0.14285714 SNP1.2 0.039658903 0.118536174 0.05357143

Page 5: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

SNP2.0 0.031422262 0.077847766 0.05357143 OCCU.NEW.1 0.027609734 0.034453207 0.05357143 HEIGHT 0.026436548 0.044652202 0.05357143 EDU.NEW.2 0.022785842 0.022161496 0.05357143 EDU.NEW.3 0.016180333 0.011052734 0.01785714 SNP2.1 0.015345248 0.021167633 0.03571429 ALH.1 0.011521197 0.007742572 0.01785714 WEIGHT 0.002925847 0.006465227 0.01785714

DEMO 数据总记录数为 832,用于机器学习的记录数为 793,预测记录数为 832。Observations of training data: 793 Observations of testing data: 832

对各记录的预测结果存放在一个后缀为 _pred.xls 文件中,右击左侧分析记录下 .htm 文件名即可显示。输出文件截图如下:

输出文件列排序依次为 ID 变量、结果变量、各自变量、预测 (结果变量=1) 概率,预测结果(按 0.5 切分)、各预测自变量的系数。如果原数据中结果变量为缺失,如记录11,SUBJ=7,HBP 为 NA,根据相应的自变量对该观察对象发生 HBP 的预测概率为0.1121729,后面各列是每个自变量对预测值的贡献。

图形输出:1. ROC 曲线

Page 6: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

2. 各预测因子相对重要性

3. 对每个连续性 X 对对数比值(log-odds)的影响的散点图,以 AGE 为例:

Page 7: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

该图上每个点表示一个观察对象,机器学习结果不同于一般的 logistic 回归模型就在于,同一AGE 对每个人的 Y 的影响大小是不同的,不是一条线,因为每个人的其它因素不一样。但从图上也能看出,在 40 岁前散点基本是处于比较平的低水平的状态,40-60 期间,散点开始上升,60 岁后又保持一个高水平的平的状态,这与曲线拟合结果吻合。4. 图示数据中最后 5 条 testing 记录的预测结果及其各自变量的相对贡献,以最后一条记录为例:

图解如下:

Page 8: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

每个人首先有一个截距即基线值(log-odds)为-1.25,对应发生 Y 的概率为:exp(-1.25)/(1+exp(-1.25))= 0.22, 该观察对象:AGE=52.9,对 log-odds 的贡献是 0.98,-1.25+0.98=-0.27,对应发生 Y 的概率为 0.43,HEIGHT=1.5,对 log-odds 的贡献是 0.29,-0.27+0.29=0.02,对应发生 Y 的概率为0.505,OCCU.NEW.1=0, 对 log-odds 的贡献是-0.19,0.02-0.19=-0.17,对应发生 Y 的概率为0.46,依此类推,把所有变量考虑进去后,最终 log-odds 为 0.03,对应于概率 0.51。

用户可以比较同一数据同样的预测变量,如果用 logistic 回归模型建模预测,AUC 最高为:0.757,本例使用机器学习默认参数,得出 AUC 为 0.879,大大提高。例1.2:同例,选用自动调试参数,

预测结果摘录如下:Confusion Matrix

ObservedPrediction 0 1 0 580 56 1 18 139

Overall test Accuracy (95%CI) 0.9067 (0.8843,0.9260) Kappa 0.7307 Mcnemar test P-value <0.0001 AUC 0.9584

通过自动调试参数,机器学习对自身数据进行预测正确率提高,本例达 90.67%。但不免存在过度拟合可能。用户不妨比较一下对部分数据如 50%的数据进行学习,对另外的 50%数据进行验证,比较默认参数与自动调试参数出现的结果。

例2.1 对连续性变量的预测练习项目 DEMO 数据预测 SBP(收缩压值),输入界面如下:

Page 9: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

这里:(1)没有选自动调试参数,也没有手置参数,系统将使用默认参数。(2)Training sample 使用 100%数据,表示对所有可用于学习的记录进行学习。可用于学习的记录指结果变量不缺失、自变量可以有部分缺失(不能全缺失)的记录。对所有记录进行预测。输出结果:首先列出预测结果变量与预测因子(X 变量):

Page 10: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

Predict for: Systolic BP, mmhg Predictors: Age, years; Height, m; Weight, kg; Body mass index, kg/m2; Passive smoke; SMOKE; SMKAMT; Alcohol; Occupation; Education; SNP1; SNP2

机器学习所用的参数:SET params as: booster=gblinear, objective=reg:linear, eta=0.3, gamma=5, max_depth=6, min_child_weight=1, subsample=1, colsample_bytree=1

学习数据与验证数据 SBP 统计结果Summary Method #obs Minimum Median Maximum Observed 793 88 125 255 Predicted 793 87.9272 124.6149 253.8766

预测值与实际观察值的比较(Bland-Atman 方法)Limits of agreement(assume slope=1) Diff:(Predicted-Observed) 2.5% Limit 97.5% Limit SD 0.00032 -3.53155 3.53219 1.76594

预测值与实际观察值相关系数Correlation between predicted and observed: 0.9974

各预测自变量(X)的重要性,按重要性大小排序。系统自动将分类变量转换成各分类的哑变量,有缺失的变量,自动生成一个两分类的哑变量表示是否是缺失。Variable importance Feature Gain Cover Frequency AGE 4.690373e-01 0.2913222178 0.2729528536 BMI 1.453977e-01 0.2494604528 0.1917759660 WEIGHT 8.890456e-02 0.1343622253 0.1276143212 HEIGHT 7.539337e-02 0.1194212594 0.1347040057 SMKAMT 6.061746e-02 0.0900095599 0.0755051400 OCCU.NEW.1 2.577777e-02 0.0110238421 0.0319035803 SNP2.0 1.776678e-02 0.0138718528 0.0170152428 SNP1.0 1.561202e-02 0.0164758751 0.0191421482 EDU.NEW.3 1.552605e-02 0.0072176222 0.0163062744 SNP1.1 1.542864e-02 0.0040723892 0.0102800425 EDU.NEW.2 1.082031e-02 0.0079429333 0.0173697270

Page 11: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

EDU.NEW.1 1.031070e-02 0.0016347227 0.0124069479 SNP2.1 8.482488e-03 0.0035045615 0.0116979794 PSMK.0 7.797071e-03 0.0032627911 0.0155973059 SMOKE.0 7.238522e-03 0.0028169576 0.0106345268 ALH.0 5.308777e-03 0.0012864846 0.0081531372 SNP1.2 5.030013e-03 0.0067651345 0.0042538107 SNP1.NA 4.909185e-03 0.0066764114 0.0028358738 SNP2.2 3.635215e-03 0.0051126672 0.0067352003 ALH.1 2.697699e-03 0.0025640969 0.0028358738 SNP2.NA 1.769042e-03 0.0047533388 0.0038993265 PSMK.1 1.589742e-03 0.0073595791 0.0031903580 SMOKE.1 6.246495e-04 0.0005456469 0.0010634527 PSMK.NA 3.177599e-04 0.0050195080 0.0014179369 ALH.NA 7.155811e-06 0.0035178699 0.0007089685

DEMO 数据总记录数为 832,用于机器学习的记录数为 793,预测记录数为 832。Observations of training data: 793 Observations of testing data: 832

对各记录的预测结果存放在一个后缀为 _pred.xls 文件中,右击左侧分析记录下 .htm 文件名即可显示。输出文件截图如下:

输出文件列排序依次为 ID 变量、结果变量、各自变量、预测 (结果变量=1) 概率,预测结果(按 0.5 切分)、各预测自变量的系数。如果原数据中结果变量为缺失,如记录11,SUBJ=7,SBP 为 NA,根据相应的自变量对该观察对象 SBP 的值为 102.84,后面各列是每个自变量对预测值的贡献。图形输出:

Page 12: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

1. BA plot

2. 各预测因子的相对重要性

3. 对每个连续性 X 对预测值的影响的散点图,以 AGE 为例:

Page 13: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

该图上每个点表示一个观察对象,机器学习结果不同于一般的 logistic 回归模型就在于,同一AGE 对每个人的 Y 的影响大小是不同的,不是一条线,因为每个人的其它因素不一样。但从图上也能看出,在 40 岁前散点基本是处于比较平的低水平的状态,40-60 期间,散点开始上升,60 岁后又略有下降,这与曲线拟合结果吻合。4. 图示数据中最后 5 条 testing 记录的预测结果及其各自变量的相对贡献,以最后一条记录为例:

Page 14: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

图解如下:每个人首先有一个截距即基线值为 130.3,该观察对象:OCCU.NEW.1=0(职业编码不为 0),SBP降低 6.71,130.3-6.71=123.59AGE=52.9,SBP 上升 5.82,123.59+5.82=129.41,依此类推,把所有变量考虑进去后,最终预测 SBP 为 134.6。例3.1 聚类分析1974年Motor Trend US magazine摘录的汽车数据(MTCARS)。该数据含 32 条记录,11 个变量。其中 rll:mpg Miles/(US) gallon; cyl:Number of cylinders; disp:Displacement (cu.in.); hp:Gross horsepower; drat:Rear axle ratio; wt:Weight (1000 lbs); qsec:1/4 mile time; vs:V/S; am:Transmission (0 = automatic, 1 = manual); gear:Number of forward gears; carb:Number of carburetors。 点击这里下载数据: http://www.empowerstats.com/empowerStats/exdata/mtcars.xls 聚类分析是根据给定的特征(变量)把观察对象归成几类,使类间差别最大,类内差别最小。 如临床上如发现某病有不同的亚型,其临床表现与各项检测指标及对药物的不同会有反应,这即有利于深入认识疾病又有利于治疗方案的选择。分类的第一步是要确定类数,本模块使用最常用 gap(差距)统计量来寻找最佳类数。然后使用模糊聚类(软聚类),每个元素都有属于每个聚类的概率。输入页面如下:

Page 15: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

系统自动寻找最佳类数,此时手置参数与自动调试参数均无作用,也无需定义 Training sample,系统将对所有记录进行学习归类。输出结果:首先给出所用变量名:Clustering based on: MPG; CYL; DISP; HP; DRAT; WT; QSEC; VS; AM; GEAR; CARB

类数(此数据分成 2 类):Number of cluster: 2

平均 Silhouette 值cluster neighbor average sil_width 1 2 0.7305 2 1 0.5106

Page 16: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

Silhouette 值是衡量观察点与本类相似程度及其相对于与其他聚类分离程度的指标。范围从-1到+1,其中较高的值表示该对象与自己的类集很好地匹配,并且与相邻的类集匹配不佳。如果大多数对象具有较高的值,那么该类集是适当的。如果许多点具有低值或负值,则该类集里可能还具有子类。本数据第一类 Silhouette 值比较高,第二类略低。各观察记录聚类分析结果即各点属于哪一类的概览值存放在.xls 文件里:Clustering probability and results was save to: mtcars_1_tbl_prob.xls

输出文件图示如下:

其中 Prob.1、Prob.2 分别表示属于第一类、第二类的概率,Clustering 为所归类别。图形输出:1.Gap 统计量与类数关系图,帮助寻找最佳类数。

Page 17: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

2. Silhouette 图

Page 18: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

图解:本例分两类,第一类除一个数据 silhouette 在 0.25-0.50 间外,都在 0.50 以上,第二类相对低一下且有 1 个负值。3. Cluster Plot

参考文献:Tibshirani, R., Walther, G. and Hastie, T. (2001). Estimating the number of data clusters via the Gap statistic. Journal of the Royal Statistical Society B, 63, 411--423. Tibshirani, R., Walther, G. and Hastie, T. (2000). Estimating the number of clusters in a dataset via the Gap statistic. Technical Report. Stanford. Per Broberg (2006). SAGx: Statistical Analysis of the GeneChip. R package version 1.9.7.http://home.swipnet.se/pibroberg/expression_hemsida1.html

多标签分类问题什么是多标签分类?让我们看下面这个图片:

Page 19: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

如果问这个图像是否包含房屋?该选项将是 YES 或 NO。是否有白云呢?是否有树呢?是否有人呢?每个都将有一个 YES 或 NO 的回答。这些类型的问题,我们有一组目标变量,被称为多标签分类问题。多标签区别于多分类是:多标签的每个目标变量都是 0/1 两分类变量,多分类则指目标变量是多种可能性,如职业分农民、工人、学生等多类。例 4.1:多标签分类。对 Elisseeff, A., & Weston, J. (2001): A kernel method for multi-labelled classification. In Advances in neural information processing systems (pp. 681-687) 所描述的 yeast 多标签问题使用机器学习进行多标签赋值,练习数据下载地址: http://www.empowerstats.com/empowerStats/exdata/yeast.xls该模块对目标变量命名要求是 LABEL01-LABELXX, “XX”用数字代替表示多少个标签。输入界面如下:

Page 20: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

输出结果:Multi-label for: LABEL1; LABEL2; LABEL3; LABEL4; LABEL5; LABEL6; LABEL7; LABEL8; LABEL9; LABEL10; LABEL11; LABEL12; LABEL13; LABEL14 Features: X1; X2; X3; X4; X5; X6; X7; X8; X9; X10; X11; X12; X13; X14; X15; X16; X17; X18; X19; X20; X21; X22; X23; X24; X25; X26; X27; X28; X29; X30; X31; X32; X33; X34; X35; X36; X37; X38; X39; X40; X41; X42; X43; X44; X45; X46; X47; X48; X49; X50; X51; X52; X53; X54; X55; X56; X57; X58; X59; X60; X61; X62; X63; X64; X65; X66; X67; X68; X69; X70; X71; X72; X73; X74; X75; X76; X77; X78; X79; X80; X81; X82; X83; X84; X85; X86; X87; X88; X89; X90; X91; X92; X93; X94; X95; X96; X97; X98; X99; X100; X101; X102; X103

Summary Train Test

num.attributes 117 117 num.instances 2417 2417

Page 21: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

num.inputs 103 103 num.labels 14 14 num.labelsets 198 198 num.single.labelsets 77 77 max.frequency 237 237 cardinality 4.2371 4.2371 density 0.3026 0.3026 meanIR 7.1968 7.1968 scumble 0.1044 0.1044 scumble.cv 1.0645 1.0645 tcs 12.562

112.5621

Labels for training set index

count freq IRLbl SCUMB

LESCUMBLE.CV

LABEL1 1 762 0.3153 2.3832 0.0792 0.9272

LABEL2 2 1038 0.4295 1.7495 0.0901 1.0179

LABEL3 3 983 0.4067 1.8474 0.1083 1.3364

LABEL4 4 862 0.3566 2.1067 0.1000 1.3849

LABEL5 5 722 0.2987 2.5152 0.1051 0.7621

LABEL6 6 597 0.2470 3.0419 0.1222 0.5816

LABEL7 7 428 0.1771 4.2430 0.1516 0.4235

LABEL8 8 480 0.1986 3.7833 0.1721 0.4217

LABEL9 9 178 0.0736

10.2022 0.2368 0.3485

LABEL10 10 253 0.104

7 7.1779 0.2233 0.4544 LABEL11 11 289 0.119

6 6.2837 0.2101 0.4364 LABEL12 12 1816 0.751

3 1.0000 0.1232 0.8684 LABEL13 13 1799 0.744

3 1.0094 0.1225 0.8745 LABEL1 14 34 0.014 53.411 0.7232 0.0588

Page 22: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

4 1 8

Performance Comparison Binary Relevance vs. Classifier Chains Training Set: Classifier Chains

Training Set: Binary Relevance

Testing Set: Classifier Chains

multilabel.hamloss 0.2038 0.1841 0.2038 multilabel.subset01 0.7849 0.8589 0.7849 multilabel.f1 0.6447 0.6363 0.6447 multilabel.acc 0.5392 0.5256 0.5392 multilabel.ppv 0.6666 0.7370 0.6666 multilabel.tpr 0.6638 0.6062 0.6638

Testing set evaluation Accuracy 0.796

2 AUC 0.766

3 AveragePrecision

0.4618

Coverage 9.9764

FMeasure 0.6990

HammingLoss 0.2038

MacroAUC 0.5928

MacroFMeasure 0.4764

MacroPrecision 0.6524

MacroRecall 0.4287

MicroAUC 0.7558

MicroFMeasure 0.6599

MicroPrecision 0.6665

MicroRecall 0.6535

OneError 0.2569

Page 23: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

Precision 0.6666

RankingLoss 0.1640

Recall 0.6638

SubsetAccuracy 0.2151

multilabel prediction results was saved to: yeast_1_tbl1_pred.xls

本模块自动比较比较二元相关法与分类器链法(Comparison Binary Relevance vs. Classifier Chains),通过对训练数据两种方法的比较,选出预测效果好的方法,用到验证(testing) 数据中。 分类器链法是引入其它目标变量(标签变量)的值预测某标签的特征,看引入其它标签对预测效果是否有益。预测效果(performance measure)衡量采用以下标准:

意义multilabel.hamloss

Proportion of labels that are predicted incorrectly, following the definition by Charte and Charte: https://journal.r-project.org/archive/2015-2/charte-charte.pdf.

multilabel.subset01

Proportion of observations where the complete multilabel set (all 0-1-labels) is predicted incorrectly, following the definition by Charte and Charte: https://journal.r-project.org/archive/2015-2/charte-charte.pdf.

multilabel.f1

Harmonic mean of precision and recall on a per instance basis (Micro-F1), following the definition by Montanes et al.: http: / /www.sciencedirect.com / science / article / pii / S0031320313004019. Fractions where the denominator becomes 0 are replaced with 1 before computing the average across all instances.

multilabel.acc

Averaged proportion of correctly predicted labels with respect to the total number of labels for each instance, following the definition by Charte and Charte: https: / /journal.r-project.org / archive / 2015 - 2 / charte-charte.pdf. Fractions where the denominator becomes 0 are replaced with 1 before computing the average across all instances.

multilabel.ppv

Also called precision. Averaged ratio of correctly predicted labels for each instance, following the definition by Charte and Charte: https: / /journal.r-project.org / archive / 2015 - 2 / charte-charte.pdf. Fractions where the denominator becomes 0 are ignored in the average calculation.

multilabel.tpr

Also called recall. Averaged proportion of predicted labels which are relevant for each instance, following the definition by Charte and Charte: https: / /journal.r-project.org / archive / 2015 - 2 / charte-charte.pdf. Fractions where the denominator becomes 0 are ignored in the average calculation.

Page 24: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

生存分析本模块使用 CoxBoost,它是基于似然的 Boosting 拟合 Cox 模型。CoxBoost is used to fit a Cox proportional hazards model by componentwise likelihood based boosting. It is especially suited for models with a large number of predictors and allows for mandatory covariates with unpenalized parameter estimates.In contrast to gradient boosting, CoxBoost is not based on gradients of loss functions, but adapts the offset-based boosting approach from Tutz and Binder (2007) for estimating Cox proportional hazards models. In each boosting step the previous boosting steps are incorporated as an offset in penalized partial likelihood estimation, which is employed for obtain an update for one single parameter, i.e., one covariate, in every boosting step. This results in sparse fits similar to Lasso-like approaches, with many estimated coefficients being zero.需选择的参数是 stepno(提升步数)与 penalty(惩罚参数),本模块使用optimCoxBoostPenalty 自动寻找 stepno 与 penalty 参数。例 5.1 生存分析。练习数据 PREG 项目生存分析机器学习设置界面如下:

输出结果:机器学习与预测

Page 25: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

Predict for survival status: PREG Time variable: CYCLE Predictors: HSMK; AGE; BMI; EDU 解释:上面列出 Cox 模型的生存状态变量、时间变量、自变量Using R package CoxBoost Parameters: step.no = 100; penalty = 1665 解释:上面是自动寻找出来的机器学习理想的参数Boosting results Variable Coefficients at step: 101 Overall permuted P-value HSMK.0 -0.036622 0.3857 HSMK.1 0.025573 0.3857 AGE -0.022465 0.6429 BMI -0.013809 0.7000 EDU.0 -0.032951 0.5714 EDU.1 0.9571 EDU.2 0.059574 0.4286

解释:上面列出 boost 第 101步时 cox 模型的回归系数,与每个自变量总体模拟出来的 p 值,帮助判断每个自变量对生存是否有显著性影响。Prediction results (probability of having event at each time point) saved to preg_17_tbl_pred.xls ROC analysis (using nearest neighbor if time point not match): AUC = 0.7135

解释:机器需要预测结果存放在 .xls 文件中。ROC 分析得出 AUC 面积 0.7135。ROC 分析时比较每个观察对象在其 Time(观察时间)的预测状态与实际观察状态是否一致。输出文件_pred.xls 如下图示,首先列出每个观察对象的原始数据值,然后列出该对象在每个时间点发生事件的累积概率。T:1,T:2,…表示 CYCLE=1,2,…

输出图形:

Page 26: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

此图描述各模型自变量的回归系数随 boosting step 走向稳定的过程及最后回归系数值。

此图描述 partial 似然值随 boosting step 走向稳定的过程。

Page 27: 本模块自动比较比较二元相关法与分类器链 … · Web viewMotor Trend US magazine 摘录的汽车数据(MTCARS )。该数据含32条记录,11个变量。其中rll:mpg

此图描述最后 5 个观察对象累积发生事件的概率随时间变化曲线。