·安全技术· 1000 A TP393.08 增量式关联分类方法在病毒检测中的 … · 本文提出基于关联分类增量学习的病毒检测模型，如图1 所示。图1

—159—

增量式关联分类方法在病毒检测中的应用

庄蔚蔚 1，叶艳芳 2，姜青山 1，韩智雪 2

(1. 厦门大学软件学院，厦门 361005；2. 厦门大学计算机系，厦门 361005)

摘要：传统关联规则挖掘算法主要基于支持度-可信度构架，时空开销的限制使其无法深入挖掘非频繁项集。目前对带类属性的关联分类增量学习研究较少，该文提出一种新的增量式关联分类方法，解决了带类属性数据的增量学习问题，在数据频繁更新时，实现有限时空开销下关联规则的快速提取和维护。实验结果表明，该方法能有效维护并更新关联规则，避免重复学习历史样本，保证分类模型的预测能力。关键词：关联分类规则；增量学习；病毒检测

Application of Incremental Associative Classification Method in Malware Detection

ZHUANG Wei-wei1, YE Yan-fang2, JIANG Qing-shan1, HAN Zhi-xue2 (1. School of Software, Xiamen University, Xiamen 361005; 2. Department of Computer, Xiamen University, Xiamen 361005)

【Abstract】Traditional associative rule mining algorithm is mostly based on the support-confidence framework, which disable the in-depth study of frequent items for time and space limitations. There is few study of associative classification incremental learning currently. This paper presents a new incremental associative classification method, which can solve the incremental learning problems of data with class attribute, and realize the fast extraction and maintenance of associative rule with limited time and space when the data is updating frequently. Experimental results show that this method can quickly and effectively maintain and update the classification rules, which avoid re-learning the history samples and ensure the predictability of the classification model. 【Key words】associative classification rule; incremental learning; malware detection

计算机工程 Computer Engineering

第 35 卷第 4 期 Vol.35 No.4

2009 年 2 月

February 2009

·安全技术· 文章编号：1000—3428(2009)04—0159—03 文献标识码：A 中图分类号：TP393.08

1 概述随着互联网和软件技术的发展，计算机病毒形式不断翻

新且数量急剧增长，传统基于特征码的扫描技术已无法满足反病毒要求。为了克服特征码检测技术的缺陷，数据挖掘、机器学习方法，如朴素贝叶斯网络、支撑向量机和决策树等技术被逐步引入反病毒领域。关联分类[1]作为数据挖掘研究的热点之一，具有良好的分类准确性，其分类规则易于理解和重用，已被成功用于病毒检测。文献[2]在 Windows 平台下将 PE 文件调用的 Win API 函数序列作为特征，产生关联分类规则并构造分类器，实现了对变形病毒和未知病毒的主动防御。但样本的频繁更新导致样本量日益增加，如何避免历史数据的重复学习，怎样通过对关联分类规则的增量学习确保分类模型的预测能力等问题有待解决。

文献[3]提出的 FUP 算法通过有效利用已获得的频繁项集，实现关联规则的快速更新，极大降低了更新代价。文献[4]提出一些基于 FP 树的增量更新关联规则算法，文献[5]解决了在最小支持度不变的情况下，如何生成事务数据库的频繁项集问题。上述研究针对不带类属性的事务数据库产生的关联规则进行维护，没有考虑如何同时利用支持度和置信度阈值对关联分类规则进行更新处理。

本文在被约束 FP-树[2]的基础上提出一种关联分类规则增量学习方法(Incremental Learning of Associative Classifi- cation, ILAC)，该方法能很好地处理具有类属性的数据集，进行规则提取时，无须重复学习之前的训练样本，而是在已学样本的基础上分析新增训练样本，并更新原始样本库和新

增样本，通过支持度和置信度阈值进行规则的添加与过滤，极大提高了学习效率。

2 基于关联分类的增量学习方法 2.1 基于关联分类增量学习的病毒检测模型

本文提出基于关联分类增量学习的病毒检测模型，如图 1 所示。

图 1 基于关联分类增量学习的病毒检测模型

上述模型主要包含以下模块： (1)特征提取模块。收集已知的正常特征和病毒样本特征

放入新增文件数据表 db 中，以表征该文件。 (2)关联规则挖掘模块。利用关联规则挖掘算法对新增数

据集 db 进行特征提取。 (3)关联规则更新模块。对原始规则集和频繁项目集进行

基金项目：国家自然科学基金资助项目(10771176) 作者简介：庄蔚蔚(1982－)，男，硕士，主研方向：数据挖掘；叶艳芳，博士；姜青山，教授；韩智雪，硕士收稿日期：2008-07-09 E-mail：[email protected]

—160—

更新与过滤，产生新的规则集，同步更新数据库规则。 (4)病毒检测模块。提取未知文件特征，通过比较数据库

中的特征，对文件进行检测，并把新的特征加入数据库。基于关联分类增量学习的病毒检测模型与传统检测模型

具有以下不同：该模型修改了传统关联规则挖掘模块，并引入关联规则更新模块，每次只要对新增文件样本进行关联规则挖掘，并结合原始保留的频繁项集更新规则集即可，从而避免了重复学习历史数据带来的效率低下和时空开销问题。 2.2 基本概念和定义

本文以 PE 文件调用的 Win API 函数序列为特征，将关联分类方法用于病毒检测。

定义 1 支持度及置信度设 I={i1, i2,… , im}为数据库 DB 的一个项目集，规则

( , )I Class os oc→ 的支持度 os 和置信度 oc 定义如下： ( { }, ) 100%num I Class DBos

DB∪

= × (1)

( { }, ) 100%( , )

num I Class DBocnum I DB∪

= × (2)

其中， ( { }, )num I Class DB∪ 表示数据库 DB 中类标号为 Class且包含项目集 I 的记录数；|DB|表示数据库 DB 的记录数；

( , )num I DB 表示数据库 DB 中包含项目集 I 的记录数。定义 2 频繁模式给定最小支持度 mos，若项目集 I 对应规则的支持度 os≥

mos，则称项目集 I 为频繁模式/项集。定义 3 分类关联规则给定最小置信度 moc，若项目集 I={i1, i2,…, im}为频繁模

式，且其对应规则 ( , )I Class os oc→ 置信度 oc≥moc，则称该规则为分类关联规则。

因此，病毒检测先要提取 Win API 函数集满足分类目标Class1=Malware 及 Class2=Benign Files 的关联分类规则。 2.3 ILAC 方法原理与过程

本文针对传统检测模型中关联规则挖掘模块与规则更新策略的不足，提出 ILAC 方法，使用增量学习的模式对关联规则进行维护和更新，具体流程如图 2 所示。

图 2 ILAC 方法流程

frequent_item_sets 代表原始频繁集，DB 代表原 PE 数据集，db 代表新增病毒文件数据集，ruledt 是关联分类规则表。设 FP_DB_VIR 和 FP_DB_ALL 为上次增量学习保留的频繁项集，其中， FP_DB_ALL 为 DB 中所有频繁项目集；FP_DB_VIR 为 DB 中病毒频繁项目集。预处理模块和知识积累模块是 ILAC 方法的重要组成部分。ILAC 方法的实现过程如下：

(1)参数设置初始时需要输入最小支持度 minsup 和最小置信度

mincof，为了挖掘更多高置信度的规则，本文设置了最高置信度阈值 maxcof，关联规则保留的条件如下：

os≥minsup and oc≥mincof, or os<minsup and oc≥maxcof (3) (2)预处理使用 OOA_Fast_FP-growth[2]算法获得新增 db 频繁项集

FP_db，为了提高运算速度并减少内存开销，应过滤掉 FP_db中重复出现的原始规则，只提取 FP_db 中新引入的规则集FP_db’ 。根据 FP_db’ 中的规则重新统计原始频繁项集FP_DB_VIR 和 FP_DB_ALL 出现的次数，按是否满足 minsup做删留标记。

(3)知识积累 1)原始规则更新按如下规则更新 ruledt 表原规则： ①若 rule 为病毒规则，则设 rule 在 FP_DB_VIR 和 FP_db’

中出现的次数为 virc，在 FP_DB_ALL 和 FP_db’中出现次数为 allc，计算规则 rule 的支持度和置信度，分别如式(4)和式(5)所示。

rule.os’=virc/(|DB|+|db|) (4) rule.oc’=virc/allc (5) ②若 rule 为正常规则，则设 rule 在小 db 出现的个数为

dbsc，令 os=rule.os, oc=rule.oc，则新的支持度和置信度分别如式(6)和式(7)所示。

rule.os’=|DB|os/(|DB|+|db|) (6) rule.oc’=|DB|os/(|DB|os/oc+dbsc) (7) ③若 rule.os’和 rule.oc’满足式(3)，则保留并更新该规则，

否则将其从 ruledt 中删除。 2)新增规则过滤按以下方法处理新增规则 rule：令 rule 在 db 数据库中出现的个数为 cnz，在 DB 病毒类

中出现的次数为 cn1，在正常类中出现的次数为 cn0，则 rule.os’=(cnz+cn1)/(|DB|+|db|) (8) rule.oc’=(cnz+cn1)/(cnz+cn1+cn0) (9) 若 rule.os’和 rule.oc’满足式(3)，则将该规则插入 ruledt。 3)频繁集更新与保存保存更新后的频繁集 FP_DB_VIR 和 FP_DB_ALL，供下

次增量学习使用。 (4)合并数据表将新增 db 数据并入 DB 数据表。

2.4 算法描述 ILAC 方法描述如下: 输入原始大 DB，新增病毒 db，规则表 ruledt，DB 病毒频繁项

集 FP_DB_VIR，DB 所有频繁项集 FP_DB_ALL，最小支持度 minsup，最小置信度 mincof，最高置信度 maxcof

输出新规则表 ruledt，更新后的频繁项集 //产生 db 频繁项集 FP_db FP_db = OOA_Fast_FP-growth (db); //提取新出现的频繁项集 FP_db’ =Filter(FP_db,FP_DB_VIR); //读取原始频繁项集 LoadData(FP_DB_VIR,FP_DB_ALL); //根据 minsup 和 db 过滤原始频繁项集 FP_DB_Filter(db,FP_DB_ALL ,FP_DB_VIR); //更新原始规则集 Filter_Rule (ruledt,FP_DB_ALL,FP_DB_VIR);

—161—

//新增规则集处理 For each rule in FP_db’ do bool save = Filter_db(rule,DB) //条件过滤 If(save) //新增该规则 InsertIntoRuledt(rule,ruledt); Else //删除该规则 DeleteRule(rule); //保存更新后的频繁集,合并数据表 SaveFPInfo(FP_DB_ALL, FP_DB_VIR); DB = CombineDb(DB,db);

3 实验与分析本文实验对 ILAC 方法和传统重复学习的 OOA_Fast_

Fp-growth 算法进行关联分类规则维护和更新的比较，并将ILAC 方法用于实际病毒检测，与其他各种传统分类器的分类性能进行比较。 3.1 实验数据

实验采用 10 000 个病毒样本和 10 000 个正常程序进行训练，其中，5 000 个病毒样本和 5 000 个正常程序为测试集，所有样本均由金山毒霸反病毒实验室提供。 3.2 开发环境

实验环境为 Pentium 4 CPU 3.00 GHz、1 GB 内存、WinXP系统，使用 VC++6.0 和 MySQL4.0 数据库。 3.3 实验结果及分析

本文实验主要包括：(1)在有限时空开销下，ILAC 方法与传统重复学习的方法进行关联分类规则维护和更新的结果比较；(2)ILAC 方法用于病毒检测中，与其他分类器的分类性能比较。 3.3.1 OOA_Fast_Fp-growth 算法与 ILAC 方法的比较

由于 OOA_Fast_Fp-growth 算法效率远高于传统 Apriori方法和 Fp-growth 方法，支持度阈值越小，效果越明显[2]，因此直接对 OOA_Fast_Fp-growth 算法与本文 ILAC 方法进行比较。直接使用 OOA_Fast_Fp-growth 算法对 20 000 条训练数据进行处理，结果如表 1 所示，其中，minsup 表示最小支持度阈值；mincof 表示最小置信度阈值；virRules 表示挖掘出的病毒规则数目；NULL 表示在允许时空开销下得不到规则。

表 1 OOA_Fast_Fp-growth 算法实验结果

实验序号 minsup mincof virRules

1 0.09 0.7 111

2 0.07 0.7 418

3 0.05 0.7 NULL

为了使用 ILAC 方法进行增量学习，把 20 000 条记录 D分为 9 个部分，即 D={D0, D1, D2,…, D8}，其中，D0 包含 4 000 条记录，病毒和正常记录各占一半；其他部分各包含 2 000 条记录，D1~D4 为病毒文件；D5~D8 为正常文件。以 D0

为初始数据库，先对 D0 进行一次 OOA_Fast_Fp-growth，得到初始规则和频繁项集，然后通过增量方法逐一学习剩余的8 个部分样本集，实验结果如表 2 所示，其中，maxcof 表示为了保留更多高置信度规则而设置的最高置信度阈值。

表 2 ILAC 方法实验结果实验序号 minsup mincof maxcof virRules

1 0.09 0.7 0.0 8 938

2 0.07 0.7 0.0 17 445

3 0.05 0.7 0.0 43 467

4 0.05 0.7 0.9 173 779

由实验结果可知，采用 OOA_Fast_Fp-growth 一次性直接处理大样本集时，最小支持度设得越小，越可能获得更多高置信度规则。但当 minsup=0.05 时，由于大数据集频繁项集组合爆炸的问题，使得大量系统资源被占用，512 MB 内存无法满足要求，因此，不能在允许的时空开销内完成规则挖掘。采用本文 ILAC 增量学习方法，可以使划分后的数据集规模缩小，因此，在最小支持度为 0.05 时，能有效进行规则挖掘，避免重复学习，解决了有限时空开销下重复学习大样本集的不可行问题，提高了学习效率。只考虑置信度而忽略支持度因素，引入最大置信度 maxcof 后，ILAC 能保留更多高置信度规则。 3.3.2 ILAC 与其他传统分类器的性能比较

为了比较 ILAC 与其他传统分类器的性能，以本节所述20 000 个样本作为训练集和 10 000 个样本作为测试集，在相同运行环境下，实验结果如表 3 所示，其中，TP 表示正确检测为病毒的样本数；TN 表示正确检测为正常程序的样本数；FP 表示错分为病毒的样本数；FN 表示错分为正常程序的样本数；DR 表示病毒的检出率；ACY 表示分类器的分类精度。

表 3 不同分类器的分类性能比较

分类器 TP TN FP FN DR/(%) ACY/(%)

Decision Tree 4 078 4 885 115 922 81.56 89.63

Naïve Bayes 4 109 4 860 160 891 82.18 89.69

Lib SVM 4 401 4 857 143 599 88.02 92.58

ILAC 4 453 4 897 103 547 89.06 93.50

由于决策树算法需要进行深度优先搜索，因此受内存大小限制。为了处理大数据集进行的各种改进(如离散化、取样)增加了分类算法的额外开销，且降低了分类准确性。因此，在有噪声的情况下，对训练数据的完全拟合不具备较好的预测性能。贝叶斯分类算法成立的前提是一个属性值对给定类的影响独立于其他属性值，即各属性之间互相独立，而该假设在病毒分类中不成立，因此，其分类准确率不高。对 SVM算法而言，正常样本和病毒样本类间的重叠增加了其分类困难，重叠区域内的学习样本越不平衡，分类边界往少数类的偏移越多，导致分类器性能的下降。本文以 CBA 为基础构造的分类器，结合了 ILAC 关联分类规则增量学习方法，充分考虑样本属性与类别之间的相互关系，有效保证了分类器的预测能力。由比较结果可以看出，与其他常用分类器相比，本文方法具有较高性能，在一定程度上提高了病毒的检出率和分类精度。

4 结束语与传统方法相比，ILAC 方法具有以下优点：(1)能很好

地处理具有类属性的数据集；(2)在挖掘频繁模式时采用改进的 OOA_Fast_Fp-growth 方法，可以不产生条件 FP-树，更快速地实现了关联分类规则的提取；(3)在挖掘频繁模式和关联分类规则时，将样本划分成小块，并通过逐一增量学习的方式不断更新关联规则和频繁项集，可以缩小每次学习的样本规模，有效避免了一次性挖掘大数据集带来的频繁项集组合爆炸问题。

在支持度阈值设置较小的情况下，ILAC 方法比传统关联规则分类方法占用更少时空资源，能获得更多高置信度规则，它可以被有效用于病毒检测。 (下转第 164 页)

—164—

图 5 64 级反馈移位寄存器内部结构

5 性能分析指令条数是衡量执行时间的重要因素，也是评估结构设

计是否合理的重要指标。因此，本文以 A5[6]算法和 Grain[7]

算法为例，分别采用本文设计的专用指令和通用微处理器来实现算法中的线性反馈函数和非线性反馈函数，并对它们所实现的指令条数进行统计，将两者进行比较，结果见表 2。

表 2 比较结果

指令条数算法

通用微处理器本文的设计

A5 线性反馈函数 2 045 4

Grain 线性反馈函数 3 839 5

Grain 非线性反馈函数 10 111 133

可见，采用本文的设计对流密码算法中的线性和非线性反馈函数进行实现时，与通用微处理器相比具有明显优势，

所用指令条数大大减少。

6 结束语本文基于多种流密码算法和 VLIW 体系结构的特点，总

结其中所用线性和非线性反馈移位寄存器的结构及其相应操作，对其相关指令进行了探索。综合考虑资源及时延，提出可高效、灵活实现多种组合并完成相应操作的专用反馈移位寄存器指令。设计实现了支持该专用反馈移位寄存器指令执行的硬件单元。本文的设计能较好地匹配多种流密码算法的处理，具有较广泛的适用环境、较低的实现复杂度和较少的资源消耗。

参考文献

[1] 刘运毅, 覃团发, 倪皖荪, 等. 简评 ECRYPT 的候选流密码算

法[D]. 南京: 南京大学, 2005.

[2] Wu Lisa, Weaver C, Austin T. Cryptomaniac: A Fast Flexible

Architecture for Secure Communication[C]//Proc. of the 28th

Annual International Symp. on Computer Architecture. Göteborg,

Sweden: [s. n.], 2001.

[3] 曲英杰. 可重组密码逻辑的设计原理[D]. 北京: 北京科技大学,

2002.

[4] 马云. 基于可重组体系结构的密码芯片设计及其 FPGA 实

现[D]. 长沙: 国防科技大学, 2002.

[5] Elbirt A J. Reconfigurable Computing for Symmetric-key Algori-

thms[D]. Massachusetts, USA: University of Massachusetts Lowell,

2002.

[6] Galanis M, Kitsos P, Kostopoulos G, et al. Comparison of the

Hardware Implementation of Stream Ciphers[D]. Patras, Greece:

University of Patras, 2005.

[7] Hell M, Johansson T, Meier W. Grain: A Stream Cipher for

Constrained Environments[D]. Windisch, Switzerland: Lund

University, 2007.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(上接第 158 页)

参考文献 [1] Fiat A, Naor M. Broadcast Encryption[C]//Proc. of CRYPTO’94.

Berlin, Germany: Springer-Verlag, 1994. [2] Scott C. New Constructions on Broadcast Encryption and Key

Pre-distribution Schemes[C]//Proc. of IEEE Annual Joint Conf. on Computer and Communications Societies. Minnesota, USA: [s. n.], 2005.

[3] 赖霞. 一个安全的基于广播加密的会话密钥分配新方案[J].

计算机工程, 2008, 34(5): 155-157. [4] Naor M. Revocation and Tracing Schemes for Stateless

Receivers[C]//Proc. of CRYPTO’01. Berlin, Germany: Springer- Verlag, 2001.

[5] Hlevy D, Shamire A. The LSD Broadcast Encryption Scheme[C]// Proc. of CRYPTO’02. Berlin, Germany: Springer- Verlag, 2002.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(上接第 161 页)

参考文献 [1] Liu Bing, Wynne H, Ma Yiming. Integrating Classification and

Association Rule Mining[C]//Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining. [S. l.]: AAAI Press, 1998: 80-86.

[2] Ye Yanfang, Wang Dingding, Li Tao, et al. An Intelligent Pe- malware Detection System Based on Association Mining[Z]. 2008.

[3] Cheung D W. Maintenance of Discovered Association Rules in

Large Databases: An Incremental Updating Technique[C]// Proceedings of International Conference on Data Engineering. New Orleans, Louisiana, USA: [s. n.], 1996: 106-114.

[4] Yang Ming. Fast Incremental Updating of Frequent Itemsets[J]. Journal of Applied Sciences, 2003, 21(4): 367-372.

[5] Zhu Yuquan. Fast Updating Frequent Itemsets[J]. Journal of Computer Research and Development, 2003, 40(1): 94-99.

Documents

·安全技术· 1000 A TP393.08 增量式关联分类方法在病毒检测中的 … · 本文提出基于关联分类增量学习的病毒检测模型，如 图1 所示。 图1

·安全技术· 1000 A TP393.08 增量式关联分类方法在病毒检测中的 … · 本文提出基于关联分类增量学习的病毒检测模型，如图1 所示。图1