第3期 谭营,等:反垃圾电子邮件方法研究进展 ·193 信息及发信人的基本意图:发件人、收件人、抄送、发 节省资源.文章采用贝叶斯分类方法,实验效果在时 送时间等.一般情况下,正常的邮件在这些条目中将 间性能和资源耗用上优于其他的一些算法 用正确的格式填入完整的信息.但为了避开一些常 文献[27]对发送人P地址、SMTP ID序列、 用的反垃圾邮件机制,垃圾邮件发送者往往在这些 URL连接和回复邮件地址进行分析,对其按照设定 条目中填人伪造的数据和错误的格式, 的公式计算相应邮件的评分,然后用人工免疫系统 文献[22]针对这种行为模式提出一种基于行 对处理过的数据进行分类.该机制具有可靠性、有效 为的反垃圾邮件机制:首先,该文献在头部信息中选 性和可扩充性 取最能区分出垃圾邮件的7个条目,如From field、 文献[28]针对P和域名,发送者、接收者的对 To field、.Reply-To field等;然后,基于这些基本的特 应关系,发送者、接收者邮件地址的长度,以及发送 征,从他们的交叉比对组合中选出10个特征,如 频率等信息为特征,用决策树进行分类. From-To、From-Reply-To等:接着针对各条目的数据 2.3.2基于附件的行为分析 正确、错误、伪造类型分别定义出相应的类别,并进 文献[29-30]分析邮件的附件行为用于发现带 行编码,得到113维的特征向量:最后,作者使用支 病毒的可疑垃圾邮件.文中MET客户端(malicious 持向量机、贝叶斯和决策树3种分类方法对特征化 email tracking)采用MD5哈希技术给每个附件赋予 后的邮件数据库进行分类.实验中,支持向量机在各 一个特定标识,并保存一个相关记录(标识、时间 数据集上的性能优于其他2种方法,但决策树有较 戳、附件有无病毒、发件人地址、收件人地址).MET 高的准确度.相对于基于内容的机制来说,该机制拥 服务器端接收MET客户端的信息,并根据附件的特 有较高的准确度、较低的特征维度和较低的时间复 征进行分析处理一病毒事件、附件产生率、病毒生 杂度 命周期、病毒事件频率、病毒死亡率、病毒流行程度、 文献[23-24]在此基础上加入系统日志中的一 病毒威胁、病毒传播等.当MET客户端发现某一附 些条目信息作为特征,并利用一种增强型的BP神 件的产生率或流行率大于给定的阈值时,将会对其 经网络对特征化后的邮件数据进行分类,根据各特 他的特征进行进一步分析,来确定是否为病毒.如果 征的重要程度赋予各个特征不同的权重.文献[25] 是病毒,就将此报告给中心服务器.中心服务器将会 指出,有190多个头部信息条目和23个系统日志条 基于其他客户端关于此附件的报告来作出最终决 目可以被邮件用户代理/邮件传送代理(mail user 定,判明其是否为病毒.若为病毒,则将相关标识、病 Agent/mail transfer Agent,.MUA/MTA)使用.文献 毒死亡率、该种病毒发生频率等信息发给客户端,来 [23]研究探讨了多达13种形态24种类型的垃圾 避免将来的感染.如果客户端提供了邮件地址和P 邮件行为形态,选取32个基本条目及38个交叉比 地址,那么就可以根据信息追踪出病毒的制造者. 对条目提取特征.并且还进行实验验证交叉比对条 文献[31]提到将邮件携带附件的类型(图片、 目的重要性.文献[24]观察得出,MUA/MTA并没有 二进制文件、文本文件等),以及附件的数量作为区 使用所有的头部信息和系统日志条目,文中选出6 分垃圾与非垃圾邮件的行为特征 个最有意义的头部信息条目和4个最有意义、最高 2.3.3基于网络的行为分析 出现频率的系统日志条目,以及基于此选择出16个 1)基于社会网络的特征提取 交叉比对条目进行研究实验 文献[30,32]分析邮件传送过程中的簇行为特 文献[26]提出基于行为的分阶段过滤垃圾邮 征,即用邮件经常交流的一些人形成特定的簇,邮件 件技术,在过滤的过程中,该机制不仅分析处理到目 发送行为一般发生在簇内部.比如说,一般情况下, 前阶段为止的所有行为信息,而且还特定分析处理 一个用户不会将同一个邮件信息同时发送给他的配 新增的行为信息.根据STP协议,它将处理分为4 偶、上司、朋友等,这种概率非常小.然而一个对用户 个阶段:HELO、FROM、RCPT TO和DATA,利用各 地址簿的攻击者显然不知道这些社会关系模式,当 个阶段中的属性信息进行分类处理.如果邮件在前 他试图给地址簿中的所有人发送邮件时就会违反正 一个阶段中被确定分类为垃圾邮件,那么邮件就会 常邮件的簇行为特征.从概念上来说,有2种簇模 被直接拒绝掉,而不会进入下一个阶段,这样做能够 式:用户簇模式和群落簇模式