徐丹,韩艳杰,寇曼曼
(河南省地震局,河南郑州450016)
摘要:在粗糙集理论基础上,提出一种增量式的垃圾邮件过滤方法。该方法将邮件样本的局部最小确定性作为阈值来控制规则产生,并在邮件识别过滤过程中增加了反馈环节,将错判和未识别样本作为增量样本进行再学习,动态调整邮件规则的置信度。根据阈值选择可信度较高的规则进行更新,从而减少了规则的个数,提高了样本的正确识别率,最后用实验证明了该方法的有效性。
教育期刊网 http://www.jyqkw.com
关键词 :垃圾邮件过滤;粗糙集理论;增量学习;ILRS算法
中图分类号:TN911?34 文献标识码:A 文章编号:1004?373X(2015)14?0024?04
收稿日期:2015?02?25
基金项目:国家自然科学基金(61379114)
0 引言
随着Internet技术的快速发展,电子邮件在人们的生活中扮演着越来越重要的角色。人们之间大量的交流都通过电子邮件来进行,但是垃圾邮件的日益增多也成为困扰人们日常工作生活的一个难题,电子邮件过滤技术由此产生并成为阻止垃圾邮件的重要手段之一。
有很多学者对电子邮件过滤方法进行了研究,常见的有以下三种:
(1)基于黑名单?白名单的识别方法,即利用邮件地址、IP地址或域名的属性进行的邮件识别,这种方法的正确识别率低,容易造成误判,典型的应用有结合DNS(Domain Name Server)的RBL(Real ? time BlockList)识别[1]等。
(2)基于数据挖掘技术,利用文本分类和统计算法的识别,比如Bayes[2]、SVM[3]、人工神经网络[4]等,识别准确率较高,但速度慢,不适用于邮件规模较大的情况;同时,它们大都没有考虑交互的问题,对错判邮件的处理不够完善。
(3)基于规则匹配的识别方法。文献[5]结合粗糙集理论的数据分析技术研究了邮件过滤系统的建模和特征发现等问题,并用经验数据进行实验,得到了较好的结果。刘洋等基于粗糙集理论将邮件向量同规则向量统一定义,有选择的进行二次过滤,得到了80%左右的正确率[6]。
以上所介绍的方法都只能静态的对电子邮件进行分类过滤,如何对邮件信息进行动态的增量式学习将是未来研究的热点。文献[7]在扩展决策矩阵的定义的基础上提出一种能够增量的从样本数据中提取确定性和可能性规则的方法,该方法对缺乏领域知识时的规则获取有重要意义;文献[8]首先根据粗糙集方法提取规则,然后在自定义的归纳分配表上利用概率论的思想提取可以覆盖新样本的规则强度高的规则,并用实验证明了它的有效性,如何将连续属性进一步离散化是该方法的下一步需要考虑的问题之一。文献[9]提出了一种基于概率粗糙集模型的增量式规则学习算法,该算法能够有效地从不一致和含有噪声的决策表中提取带有确定性因子和支持数的决策规则,提取的规则具有很好的抗噪声能力,但是在数据量较大的情况下,该方法未能得到有效验证。
本文提出的增量式电子邮件过滤方法是在基于粗糙集的电子邮件过滤模型的基础上增加反馈环节,将识别过程中错误识别和未识别的邮件信息作为新增的矛盾样本进行再学习,通过邮件决策信息表的局部最小确定性与矛盾规则和样本可信度的比较,对规则集进行更新,有效地提高了邮件的正确识别率。本文介绍了基于粗糙集理论的邮件分类模型的相关基本概念,在此基础上提出了一种基于粗糙集的增量式电子邮件过滤方法,并利用UCI中的Spam Database数据集对该方法进行了实验,并分别与增量前的学习效果和ID4 算法进行比较,从而验证了该方法的有效性。
1 相关基本概念
定义1(电子邮件决策表信息系统):电子邮件决策表信息系统是一个四元组S = {U,R = C ? D,V,f }。其中:U 是邮件的集合;R 为属性的集合;C 为邮件条件属性的集合;D 表示决策属性集合;V 是属性值的集合;f是信息函数,它指定U 中每个对象x 的属性值[10]。
2 基于粗糙集的增量式邮件过滤方法
为了更有效地获得邮件规则,需要将学习识别后反馈的错判和未识别信息作为新样本进行再训练,原始的非增量式学习方法是将错判和未识别样本放入原始信息决策表,进行重新训练。这种方法比较简单,但在样本集非常大的时候,重新训练的周期较长,且规则更新速度非常慢,影响学习的效率,不能满足实时邮件过滤要求。本文提出的增量式邮件过滤方法针对错判和未识别样本的情况,能从矛盾的邮件决策信息表中提取带有置信度的决策规则,从而实现邮件规则集的动态更新。
基于粗糙集的自主式增量邮件过滤方法需要经过以下两个步骤:
(1)根据粗糙集的方法:邮件决策信息表→ 数据预处理→ 属性约简→ 值约简→ 规则集,抽取数据集进行匹配,记录匹配过程中出现的错判和未识别样本。
(2)将上述反馈的错判、未识别样本加入新增样本训练集中,将计算样本的置信度加入到原始规则集中。
输入:邮件规则集M ,新增样本x 。
输出:更新后的规则集M′ 。
Step1:根据原邮件规则集中的规则对新增对象x进行匹配,匹配结果分为2种情况。
(1) 若x:θx → ψx 的条件属性特征和已有规则θy → ψy 匹配,而决策属性特征不匹配,即?y ∈ U,θx≡ θy ,ψx≠ ψy 出现矛盾样本,转向Step2。
3 实验仿真
本文抽取UCI机器学习数据库中的垃圾邮件数据集Spambase[12]进行实验,该数据集包含4 601个实例,其中包括1 813封垃圾邮件,2 788封非垃圾邮件,每个实例分别用58个特征属性来描述(包括57个条件属性特征和1个决策属性特征),用0,1对垃圾邮件和非垃圾邮件分别进行标识。以下实验分为两个部分:测试1为增量前后的对比实验,测试2为ILRS算法与决策树ID4算法的增量式电子邮件学习效果的比较。
3.1 增量前后的实验对比
从Spambase 的4 601 条实例中随机抽取含有500,1 000,1 500,2 000,2 500,3 000,3 500,4 000,4 500个样本的9个数据集,进行对比实验。
具体实验步骤如下:
Step1:将原始数据集中随机抽取50%邮件样本用粗糙集方法进行属性约简、值约简得到规则集;
Step2:用Step1中得到的规则集对剩下的50%邮件样本进行识别,记录反馈的错误识别和未识别的样本;
Step3:对Step2中错判和未识别的邮件样本进行增量式学习,得到更新后的规则集;
Step4:在Spambase 数据集中重新提取与训练集数量相同的样本作为测试集,将第3步得到的更新后的规则集用测试集进行测试,得到正确识别率、未识别率和规则个数。表1中,各个符号的含义如下:N#为邮件样本数量;RR(%)为邮件样本正确识别率;NR(%)为未识别率;GR为规则个数。
3.2 ILRS算法与ID4方法的实验对比
为了进一步验证算法的有效性,将ILRS 算法和决策树ID4 算法作对比测试。实验步骤同实验3.1,原始数据样本为测试集,记录运算时间T(s)、正确识别率RR(%)、错误识别率WR(%)及规则个数GR。实验结果如表2所示。
从图3、图4可见,在进行增量式学习时粗糙集方法ILRS 在规则个数较少的情况下,对邮件样本的正确识别率高于ID4算法。
4 结论
本文在粗糙集理论的基础上,提出了一种增量式的邮件过滤方法,即将学习后反馈的错判和未识别邮件信息作为新增样本进行再学习,把邮件决策信息表局部最小确定性作为阈值与矛盾规则的置信度进行比较,从而更新规则。实验表明,增量学习后对邮件样本的正确识别率明显提高,错误识别率有所降低,并且经过实验对比可以看出,本文提出的ILRS算法比ID4算法提取的规则数量少近3 倍,对邮件的正确识别率却高出10%~20%,从而证明了该方法的有效性。
教育期刊网 http://www.jyqkw.com
参考文献
[1] 杨峰,曹麒麟,段海新.基于DNS Blocklist的反垃圾邮件系统的设计与实现[J].计算机工程与应用,2003(7):11?12.
[2] PROVOST J. Naive?Bayes vs rule?learning in classification ofemail [D]. Austin,USA:Department of Computer Sciences,University of Texas,1999.
[3] DRUCKER H, WU D, VAPNIK V N. Support vector ma?chines for spam categorization [J]. IEEE Transactions on Neu?ral Networks,1999,10:1048?1054.
[4] TRETYAKOV Konstantin. Machine learning techniques inspam filtering data mining problem ? oriented seminar [J].MTAT,2004,177:60?79.
[5] 于洪,李志君,唐宏,等.电子邮件过滤系统的粗糙集分析模型[J].计算机工程与应用,2003(15):47?48.
[6] 刘洋,杜孝平,罗平,等.垃圾邮件的智能分析、过滤及Rough集讨论[C]//2002年第十二届中国计算机学会网络与数据通信学术会议.武汉:中国计算机学会,2002:515?521.
[7] 於东军,王士同,杨静宇.一种增量式规则提取算法[J].小型微型计算机系统,2004,25(1):79?81.
[8] 邱兆雷,王爱云,陈传臻.基于变精度粗集和搜索树的增量式规则获取算法[J].计算机工程与应用,2008,44(14):163?165.
[9] 付长龙,杜旭辉,姚全珠.一种基于概率粗糙集模型的增量式规则学习算法[J].计算机科学,2008,35(5):143?146.
[10] 王国胤.Rough集理论与知识获取[M].西安:西安交通大学出版社,2001.
[11] 王国胤,何晓.一种不确定性条件下的自主式知识学习模型[J].软件学报,2003,14(6):1096?1102.
[12] ZHENG Z,WANG G Y. RRIA:a rough set and rule treebased incremental knowledge Algorithm [J].Fundamental Infor?mation,2004,59(2/3):299?313.
作者简介:徐丹(1983—),女,河南郑州人,硕士研究生。主要研究方向为数据挖掘、自主式知识获取。
韩艳杰(1970—),女,河南郑州人,工程师。主要研究方向为计算机网络与通信、模式识别。
寇曼曼(1982—),女,河南郑州人,工程师。主要研究方向为图像识别、人工智能。