正在加载图片...
·194 智能系统学报 第5卷 用户簇模式通过对单个用户帐户的邮件历史分 关系.该文献通过研究P地址空间分布特征,来分 析计算得到.对于某一邮件来说,收件人列表(收件 析垃圾邮件发送者、垃圾邮件僵尸网络和正常邮件 人、抄送、密送)中的所有帐户看作一个簇关系.为 发送者的网络分布.大多情况下,正常邮件与垃圾邮 了避免簇的数量过大,以及冗余现象,只选定那些最 件分布大致相同,大多数的邮件都来自一小部分P 大化的簇,即所选定的每个簇都不是其他簇的子集。 地址空间.但有一小部分例外的情况,在地址段 例如,有3个收件人列表:[A,B,C],[A,B]和[A, 80*~90.*中,绝大多数邮件都是垃圾邮件,在地址 B,D],则会选择2个作为簇—[A,B,C]和[A,B, 段60*~70*中,绝大多数邮件都是正常邮件.这表 D].若某一邮件的收件人列表不是任何用户簇的 明可以将P地址作为一个区分特征.该文献还分析 子集,那么称其为不一致簇行为.这种方法往往要与 了僵尸网络的行为特征,分析得出:绝大部分的垃圾 其他模型结合使用,以处理特殊的收件人列表情况. 邮件是从Windows操作系统中发出的,并且有很大 如果用户曾发过一个全体收件人列表的广播邮件, 比例(25%)的垃圾邮件来自僵尸网络.65%的已感 那么该机制就会失效.然而,这种情况较少发生,一 染的P地址仅发送了一次垃圾邮件,且其中75% 般情况下,用户只会给地址簿中少于10%的帐号同 发送时间短于2min.由于这些P地址生命周期短, 时发送邮件. 这种情况使得黑名单方法失效.研究还表明,每个僵 群落簇模式通过2个用户间的邮件交流数量建 尸网络节点在整个周期发送的垃圾邮件数量少于 立相应的联系.若两帐户间交换的邮件数量超过给 100封.垃圾邮价发送者利用大量的僵尸网络节点 定阈值,那么就认为这两帐户间存在联系.然后,利 发送垃圾邮件,且对每个节点来说,只利用很短的时 用层次算法,逐步建立大小为n的簇.例如,当前层 间,发送少量的邮件因此,基于黑名单和发送数量 次为2,存在AB、AC、AD、BC、BD、CE6个簇.只有 的方法对这种情况都会失效.文献还分析了边界网 当只是最后一个成员不同时,2个簇才能进行融合, 关协议(border gateway protocol,BGP),用路由广播 以避免重复.例如,AB、AC形成候选簇ABC,但是 传播垃圾邮件.该机制使用了大量的P地址空间, AB、BC不再融合.当所有候选簇形成完毕后,要对 并且发送者在空间中分散分布,使得不容易被察觉. 其合法性进行检查.只有当前层次中同时存在AB、 目前使用这种机制发送的垃圾邮件比例还很小,大 AC、BC时,候选簇ABC才是合法的.最后,要将那 约为1%~10% 些是其他簇的子集的簇去掉,如AB、AC、BC将会被 2.3.4基于用户行为的技术 去除.如此进行下去,形成大小为n的群落簇, 文献[35]分析用户的行为特征,用户查收邮件 文献[33]定义3种类型的图,来描述邮件的发送 可以归纳为以下几类行为:在远程邮件箱中将认为无 行为:有向图、无向图和差分图.在有向图中,节点代 用的邮件删除;打开邮件并且阅读时间超过给定阈值 表至少进行了一次发送或接收行为的电子邮件用户, N;打开邮件但在低于N将邮件删除;将邮件移存至 有向图的边表示一用户从另一用户那里接收或向其 邮件箱目录;回复、转发邮件;将发件人加入通讯簿 发送了一封邮件.无向图中,节点代表至少进行了一 通过收集这些用户处理邮件的行为信息,该方法将其 次与另一用户发送和接收行为的那些邮件用户,边代 作为垃圾邮件检测系统的反馈信息,将处理的信息反 表两用户间交换了信息.差分图是基于2个有向图建 馈给反垃圾邮件网关.网关可以将界定的垃圾邮件作 立的,用于表示那些存在某一图中,而不存在于另一 为其他过滤器的训练或学习样本,提交共享黑名单 图中的那些边.基于此,算法共分为3个阶段:a)基于 等.另外,还应清除邮件系统中某些用户收件箱中未 服务器的系统日志,建立3种类型的图;b)利用有向 阅读的但已被其他用户界定的垃圾邮件 图和无向图,对邮件发送者进行初步分类,列入黑名 文献[30]提出使用模型来描述用户发送邮件 单、白名单或灰名单;c)利用差分图,对b)阶段的分 的特征.它统计出每个用户在每个小时段的发送行 类结果进行调整,得到最终分类结果, 为(向外发送邮件的数量、附件数量、邮件大小、收 2)邮件的网络分布特征 件人数量),建立柱状图.通过将当前阶段的行为特 文献[34]分析垃圾邮件发送的网络层次行为, 征柱状图与历史行为特征柱状图进行对比分析,来 是首次分析垃圾邮件、僵尸网络和网络路由的相互 发现异常行为(垃圾邮件)
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有