第3期 谭营,等:反垃圾电子邮件方法研究进展 ·197· 10)人工免疫系统 式中:n。表示被正确分类的垃圾邮件的数量,而 A.Secker等人「61]提出基于免疫的邮件分类算 n。1表示垃圾邮件被错误分类为正常邮件的数量。 AISEC(artifical immune system for e-mail classifi- 2)垃圾邮件精确率. cation).该算法旨在区分出用户感兴趣的邮件和不 该标准评估出系统检测垃圾邮件的精确性:度量 感兴趣的邮件.在不需要进行重新训练的前提下,算 被系统分类为垃圾邮件的邮件中,分类正确的比例.这 法能够连续地对e-mail进行分类处理,并能够及时 个标准另一方面也能够反映出被系统错误分类的正常 地追踪用户兴趣的变化. 邮件所占的比例.系统垃圾邮件精确率(spam preci- T.Oda等人[2]将人工免疫模型应用于垃圾邮 sio)越高,被系统错误分类的正常邮件的数量也就越 件处理,主要利用免疫中自己/异己(self/non-self) 少.垃圾邮件精准率计算方法如下所示: 的检测原理和检测器(dector)的概念.在实现的邮 P。= 几gw 件过滤系统中,首先从多样的来源中构建基因库,这 nm+n 些来源包括语言中的词汇、所收集的邮件中的词汇 式中:1表示正常邮件被错误分类为垃圾邮件的数量, 和词组、垃圾邮件中的联系信息和邮件头信息等.在 3)正常邮件召回率和正常邮件精确率 系统初始化的过程中,使用随机的方法从基因库中 由于垃圾邮件检测是关于两类邮件的(正常邮 生成抗体(antibody)及其关联的淋巴细胞(lympho- 件和垃圾邮件),这2种标准与垃圾邮件召回率和 cyte).在构建的过程中,不允许相似抗体的重复产 精准率是对称的,计算式也可以对称地推导出来 生,每个淋巴细胞除了具有抗体属性外,还有msg 4)准确率. matched和pam_matched2个属性与其关联,分别 该标准能够反映邮件过滤系统的整体性能.它 用于表示淋巴细胞所匹配的邮件的数目和垃圾邮件 能够表示被正确分类的邮件(包括正常邮件和垃圾 的数目.在对淋巴细胞的训练过程中,对发生匹配的 邮件)的比例,被定义如下: 淋巴细胞修改其msg_matched和spam_matched这2 A=乃+乃 个属性的值.在系统的运行过程中,使用了带权平均 n+na 值的评价方法对邮件的类别进行判断,在这种评价 式中:n1表示被正确分类的正常邮件的数量,m1和 方法下,匹配次数多的淋巴细胞在评分中具有较大 n.分别表示正常邮件和垃圾邮件的总体数量. 的权重。 5)加权准确率。 研究人员观察得出,正常邮件的丢失(被系统 4性能评估方法及标准数据集 错误过滤掉)意味着人们会错过生活中的重要信 垃圾邮件检测技术仍是现今国内外研究热点之 息,比垃圾邮件的错误分类要严重得多.为了反映出 一,大量的相关工作不断涌现出来.为了便于人们比 正常邮件的重要性,研究人员在准确率的基础上,定 较和选择合适的垃圾邮件过滤方法,研究人员提出 义出如下加权准确率: 一些评估标准来对比不同过滤方法、系统的性 能21).本节主要介绍并分析几种常见的性能评估 A.=htmd An+n 方法,并给出一些标准数据集, 式中:入是反映正常邮件重要性的参数,它的值越 4.1性能评估方法 大,说明正常邮件在该情景下的重要性越强,一般可 1)垃圾邮件召回率. 以取值9、99或999.若将入赋值为999,则表明正常 该标准能够度量出被算法模型正确检测、分类 邮件在该情景下极为重要.当入取1时,加权准确率 的垃圾邮件的比例.垃圾邮件召回率(spam recall) 与准确率标准等价 高的系统模型能够更好地将垃圾邮件过滤掉,更有 6)Fg度量. 效减少垃圾邮件对人们生活的妨碍.下式给出垃圾 垃圾邮件召回率与精确率只能分别反映系统的 邮件召回率的计算方法, 单一方面,不能够反映系统整体的性能.为了解决这 R。= T几。e 一问题,F。度量被定义为这2种标准的融合,如下式 n,格十乃ga 所示: