【机器学习】移动社交网络异常签到在线检测算法

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：2.02MB

第12卷第5期智能系统学报 Vol.12 No.5 2017年10月 CAAI Transactions on Intelligent Systems 0ct.2017 D0I:10.11992/tis.201706027 网络出版地址：http:/kns.cmki.net/kcms/detail/23.1538.TP.20170831.1058.016.html 移动社交网络异常签到在线检测算法赵冠哲，齐建鹏，于彦伟，刘兆伟，宋鹏 (烟台大学计算机与控制工程学院，山东烟台264005) 摘要：随着智能手机、Pd等智能移动设备的广泛普及，移动社交网络的应用得到了快速发展。本文针对移动社交网络中用户异常签到位置检测问题，提出了一类基于用户移动行为特征的异常签到在线检测方法。首先，在基于距离的异常模型基础上，提出了基于历史位置(H-Outlier)和基于好友圈(F-Outlier)两种异常签到模型：然后，针对H- Outlier提出了一种优化的检测算法H-Opt,利用所提的签到状态模型与优化的邻居搜索机制降低检测时间：针对F. Outlier提出了一种基于触发的优化检测算法F-Opt,将连续的在线异常检测转化成了基于触发的异常检测方式：最后，在真实的移动社交网络用户签到数据集上，验证了所提算法的有效性。实验结果显示，F-Opt显著降低了H-Op 的异常检测错误率：同时，相比于LUE算法，F-0pt和H-0pt的效率分别平均提升了2.34倍和2.45倍。关键词：移动社交网络；异常检测：签到位置：基于距离的异常：好友圈：签到状态：邻居搜索：时间触发检测中图分类号：TP391文献标志码：A文章编号：1673-4785(2017)05-0752-08 中文引用格式：赵冠哲，齐建鹏，于彦伟，等.移动社交网络异常签到在线检测算法[J].智能系统学报，2017,12(5)：752-759. 英文引用格式：ZHA0 Guanzhe,QI Jianpeng,YU Yanwei,,etal.Online check-in outlier detection method in mobile social networks[J].CAAI transactions on intelligent systems,2017,12(5):752-759. Online check-in outlier detection method in mobile social networks ZHAO Guanzhe,QI Jianpeng,YU Yanwei,LIU Zhaowei,SONG Peng (School of Computer and Control Engineering,Yantai University,Yantai 264005,China) Abstract:With the increasing popularization of smartphone,Pads and other smart mobile devices,the use of mobile social networks has also developed rapidly.In this paper,we propose an online method for detecting check- in outliers based on user mobility behavior in mobile social networks.First.based on a distance-based outlier model,we propose two check-in outlier models with respect to historical location(H-Outlier)and friend circle (F- Outlier),respectively.Second,for the H-Outlier,we propose an optimized detection algorithm called H-Opt, which utilizes the proposed check-in status model and an optimized neighbor searching mechanism to reduce computation time.For the F-Outlier,we propose a trigger-based optimized detection algorithm called F-Opt,which transforms continuous online outlier detection into trigger-based outlier detection.Lastly,we present our experimental results,based on a real-world check-in dataset,which demonstrate the effectiveness of the proposed algorithm.Our experimental results show that F-Opt significantly reduces the error rate of H-Opt outlier detection. In addition,compared with the LUE algorithm,the F-Opt and H-Opt algorithms improved efficiency by 2.34 and 2.45 times,respectively. Keywords:location-based social networks;outlier detection;check-in location;distance-based outlier;friend circle;status of check-in;neighbor searching;time-triggered detection 随着GPS终端、Pad、智能手机等位置感知设备了快速发展。移动社交网络也称基于位置的社交的广泛普及，各类新型社交网络手机应用不断涌网络(location-based social networks,LBSN),本质是现，促使移动社交网络(mobile social networks)得到提供一个在人群中分享兴趣、爱好、状态和活动等收稿日期：2017-06-08.网络出版日期：2017-08-31. 信息的平台)。如国内的腾讯QQ、微信、新浪微基金项目：国家自然科学基金项目(61403328,61572419)：山东省重点博、人人网，国外的Twitter、Facebook、Gowalla、研发计划项目(2015GSF115009):山东省自然科学基金项目 (ZR2014Q016):烟台大学研究生科技创新基金项目Foursquare等，这些LBSN应用聚集了大量移动用 (YDZD1712). 通信作者：于彦伟.E-mail:yuyanwei(@ytu.cdu.cm. 户。据We Are Social公司在2016年数字报告[)中

第１２卷第５期智能系统学报Ｖｏｌ．１２ №．５２０１７年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１７０６０２７网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０８３１．１０５８．０１６．ｈｔｍｌ移动社交网络异常签到在线检测算法赵冠哲，齐建鹏，于彦伟，刘兆伟，宋鹏（烟台大学计算机与控制工程学院，山东烟台２６４００５）摘要：随着智能手机、Ｐａｄ等智能移动设备的广泛普及，移动社交网络的应用得到了快速发展。本文针对移动社交网络中用户异常签到位置检测问题，提出了一类基于用户移动行为特征的异常签到在线检测方法。首先，在基于距离的异常模型基础上，提出了基于历史位置（Ｈ⁃Ｏｕｔｌｉｅｒ）和基于好友圈（Ｆ⁃Ｏｕｔｌｉｅｒ）两种异常签到模型；然后，针对Ｈ⁃ Ｏｕｔｌｉｅｒ提出了一种优化的检测算法Ｈ⁃Ｏｐｔ，利用所提的签到状态模型与优化的邻居搜索机制降低检测时间；针对Ｆ⁃ Ｏｕｔｌｉｅｒ提出了一种基于触发的优化检测算法Ｆ⁃Ｏｐｔ，将连续的在线异常检测转化成了基于触发的异常检测方式；最后，在真实的移动社交网络用户签到数据集上，验证了所提算法的有效性。实验结果显示，Ｆ⁃Ｏｐｔ显著降低了Ｈ⁃Ｏｐｔ的异常检测错误率；同时，相比于ＬＵＥ算法，Ｆ⁃Ｏｐｔ和Ｈ⁃Ｏｐｔ的效率分别平均提升了２．３４倍和２．４５倍。关键词：移动社交网络；异常检测；签到位置；基于距离的异常；好友圈；签到状态；邻居搜索；时间触发检测中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０５－０７５２－０８中文引用格式：赵冠哲，齐建鹏，于彦伟，等．移动社交网络异常签到在线检测算法［Ｊ］．智能系统学报，２０１７，１２（５）：７５２－７５９．英文引用格式：ＺＨＡＯＧｕａｎｚｈｅ，ＱＩＪｉａｎｐｅｎｇ，ＹＵＹａｎｗｅｉ，ｅｔａｌ．Ｏｎｌｉｎｅｃｈｅｃｋ⁃ｉｎｏｕｔｌｉｅｒｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄｉｎｍｏｂｉｌｅｓｏｃｉａｌｎｅｔｗｏｒｋｓ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（５）：７５２－７５９．Ｏｎｌｉｎｅｃｈｅｃｋ⁃ｉｎｏｕｔｌｉｅｒｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄｉｎｍｏｂｉｌｅｓｏｃｉａｌｎｅｔｗｏｒｋｓＺＨＡＯＧｕａｎｚｈｅ，ＱＩＪｉａｎｐｅｎｇ，ＹＵＹａｎｗｅｉ，ＬＩＵＺｈａｏｗｅｉ，ＳＯＮＧＰｅｎｇ（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒａｎｄＣｏｎｔｒｏｌＥｎｇｉｎｅｅｒｉｎｇ，ＹａｎｔａｉＵｎｉｖｅｒｓｉｔｙ，Ｙａｎｔａｉ２６４００５，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｗｉｔｈｔｈｅｉｎｃｒｅａｓｉｎｇｐｏｐｕｌａｒｉｚａｔｉｏｎｏｆｓｍａｒｔｐｈｏｎｅ，Ｐａｄｓａｎｄｏｔｈｅｒｓｍａｒｔｍｏｂｉｌｅｄｅｖｉｃｅｓ，ｔｈｅｕｓｅｏｆｍｏｂｉｌｅｓｏｃｉａｌｎｅｔｗｏｒｋｓｈａｓａｌｓｏｄｅｖｅｌｏｐｅｄｒａｐｉｄｌｙ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｐｒｏｐｏｓｅａｎｏｎｌｉｎｅｍｅｔｈｏｄｆｏｒｄｅｔｅｃｔｉｎｇｃｈｅｃｋ⁃ ｉｎｏｕｔｌｉｅｒｓｂａｓｅｄｏｎｕｓｅｒｍｏｂｉｌｉｔｙｂｅｈａｖｉｏｒｉｎｍｏｂｉｌｅｓｏｃｉａｌｎｅｔｗｏｒｋｓ．Ｆｉｒｓｔ，ｂａｓｅｄｏｎａｄｉｓｔａｎｃｅ⁃ｂａｓｅｄｏｕｔｌｉｅｒｍｏｄｅｌ，ｗｅｐｒｏｐｏｓｅｔｗｏｃｈｅｃｋ⁃ｉｎｏｕｔｌｉｅｒｍｏｄｅｌｓｗｉｔｈｒｅｓｐｅｃｔｔｏｈｉｓｔｏｒｉｃａｌｌｏｃａｔｉｏｎ（Ｈ⁃Ｏｕｔｌｉｅｒ）ａｎｄｆｒｉｅｎｄｃｉｒｃｌｅ（Ｆ⁃ Ｏｕｔｌｉｅｒ），ｒｅｓｐｅｃｔｉｖｅｌｙ．Ｓｅｃｏｎｄ，ｆｏｒｔｈｅＨ⁃Ｏｕｔｌｉｅｒ，ｗｅｐｒｏｐｏｓｅａｎｏｐｔｉｍｉｚｅｄｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｃａｌｌｅｄＨ⁃Ｏｐｔ，ｗｈｉｃｈｕｔｉｌｉｚｅｓｔｈｅｐｒｏｐｏｓｅｄｃｈｅｃｋ⁃ｉｎｓｔａｔｕｓｍｏｄｅｌａｎｄａｎｏｐｔｉｍｉｚｅｄｎｅｉｇｈｂｏｒｓｅａｒｃｈｉｎｇｍｅｃｈａｎｉｓｍｔｏｒｅｄｕｃｅｃｏｍｐｕｔａｔｉｏｎｔｉｍｅ．ＦｏｒｔｈｅＦ⁃Ｏｕｔｌｉｅｒ，ｗｅｐｒｏｐｏｓｅａｔｒｉｇｇｅｒ⁃ｂａｓｅｄｏｐｔｉｍｉｚｅｄｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｃａｌｌｅｄＦ⁃Ｏｐｔ，ｗｈｉｃｈｔｒａｎｓｆｏｒｍｓｃｏｎｔｉｎｕｏｕｓｏｎｌｉｎｅｏｕｔｌｉｅｒｄｅｔｅｃｔｉｏｎｉｎｔｏｔｒｉｇｇｅｒ⁃ｂａｓｅｄｏｕｔｌｉｅｒｄｅｔｅｃｔｉｏｎ．Ｌａｓｔｌｙ，ｗｅｐｒｅｓｅｎｔｏｕｒｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓ，ｂａｓｅｄｏｎａｒｅａｌ⁃ｗｏｒｌｄｃｈｅｃｋ⁃ｉｎｄａｔａｓｅｔ，ｗｈｉｃｈｄｅｍｏｎｓｔｒａｔｅｔｈｅｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍ．ＯｕｒｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔＦ⁃ＯｐｔｓｉｇｎｉｆｉｃａｎｔｌｙｒｅｄｕｃｅｓｔｈｅｅｒｒｏｒｒａｔｅｏｆＨ⁃Ｏｐｔｏｕｔｌｉｅｒｄｅｔｅｃｔｉｏｎ．Ｉｎａｄｄｉｔｉｏｎ，ｃｏｍｐａｒｅｄｗｉｔｈｔｈｅＬＵＥａｌｇｏｒｉｔｈｍ，ｔｈｅＦ⁃ＯｐｔａｎｄＨ⁃Ｏｐｔａｌｇｏｒｉｔｈｍｓｉｍｐｒｏｖｅｄｅｆｆｉｃｉｅｎｃｙｂｙ２．３４ａｎｄ２．４５ｔｉｍｅｓ，ｒｅｓｐｅｃｔｉｖｅｌｙ．Ｋｅｙｗｏｒｄｓ：ｌｏｃａｔｉｏｎ⁃ｂａｓｅｄｓｏｃｉａｌｎｅｔｗｏｒｋｓ；ｏｕｔｌｉｅｒｄｅｔｅｃｔｉｏｎ；ｃｈｅｃｋ⁃ｉｎｌｏｃａｔｉｏｎ；ｄｉｓｔａｎｃｅ⁃ｂａｓｅｄｏｕｔｌｉｅｒ；ｆｒｉｅｎｄｃｉｒｃｌｅ；ｓｔａｔｕｓｏｆｃｈｅｃｋ⁃ｉｎ；ｎｅｉｇｈｂｏｒｓｅａｒｃｈｉｎｇ；ｔｉｍｅ－ｔｒｉｇｇｅｒｅｄｄｅｔｅｃｔｉｏｎ收稿日期：２０１７－０６－０８．网络出版日期：２０１７－０８－３１．基金项目：国家自然科学基金项目（６１４０３３２８，６１５７２４１９）；山东省重点研发计划项目（２０１５ＧＳＦ１１５００９）；山东省自然科学基金项目（ＺＲ２０１４ＦＱ０１６）；烟台大学研究生科技创新基金项目（ＹＤＺＤ１７１２）．通信作者：于彦伟．Ｅ⁃ｍａｉｌ：ｙｕｙａｎｗｅｉ＠ｙｔｕ．ｅｄｕ．ｃｎ．随着ＧＰＳ终端、Ｐａｄ、智能手机等位置感知设备的广泛普及，各类新型社交网络手机应用不断涌现，促使移动社交网络（ｍｏｂｉｌｅｓｏｃｉａｌｎｅｔｗｏｒｋｓ）得到了快速发展。移动社交网络也称基于位置的社交网络（ｌｏｃａｔｉｏｎ⁃ｂａｓｅｄｓｏｃｉａｌｎｅｔｗｏｒｋｓ，ＬＢＳＮ），本质是提供一个在人群中分享兴趣、爱好、状态和活动等信息的平台［１］。如国内的腾讯ＱＱ、微信、新浪微博、人人网，国外的Ｔｗｉｔｔｅｒ、Ｆａｃｅｂｏｏｋ、Ｇｏｗａｌｌａ、Ｆｏｕｒｓｑｕａｒｅ等，这些ＬＢＳＮ应用聚集了大量移动用户。据ＷｅＡｒｅＳｏｃｉａｌ公司在２０１６年数字报告［２］中

第5期赵冠哲，等：移动社交网络异常签到在线检测算法 ·753· 指出，2016年全球社交网络用户约19.7亿，占全球 (DB-Outlier)检测问题。给定一个数据集合，若某总人口的27%。LBSN中海量带有位置信息的社会数据点的邻域内的数据个数小于给定阈值，则该数媒体数据可被用于各类挖掘应用研究，如挖掘用户据点为基于距离的异常点。之后，Knor等)将基兴趣偏好、好友推荐、兴趣点推荐、热点路径推于距离的异常模型应用到时空轨迹数据异常检测荐等[3 中。Ramaswamy等[)提出了一种基于k近邻的异移动社交网络正逐渐改变着人们的生活方式常定义，根据数据点到第k近邻的距离检测出n个和生活习惯，给人类社会带来前所未有的变革以及巨大的经济收益。同时它也吸引了一些不法者 k近邻距离最大的数据点作为异常点。Breunig 盗取用户账号及信息进行各种恶意行为，影响了用等[]提出另外一类基于密度的数据异常类型，通过户的正常使用，损害了用户利益，甚至给用户带来计算本地异常因子LOF来检测局部异常点数据，但了巨大的经济损失。因此，面向移动社交网络，追该算法存在较高计算复杂度问题。踪用户的历史签到位置数据，从用户移动行为特征在数据流异常检测方面，Yang等Im采用滑动视角，对用户状态进行在线异常检测，这对于移动窗口方式在数据流上挖掘基于邻居的模式，主要包社交网络的安全、用户的隐私保护等具有重要意义。括基于密度的聚类和基于距离的异常检测。针对移动社交网络异常账号的检测问题，学术 Angiulli等通过在数据流上分析数据点是否为界和工业界都提出了大量检测方案[)，主要包括基 “safe inlier'”来优化检测方法。Kontaki等u]利用于行为特征的检测、基于内容的检测、基于图的检 “safe inlier'”设计了一种事件触发的数据流异常检测和无监督学习的异常检测方法等。而针对移动测优化算法。Cao等[提出了一种数据流异常检社交网络中签到位置数据异常检测研究还比较少。测框架，该框架可用于处理基于距离的和基于k近本文从用户的移动位置特征视角对异常签到位置进行检测，针对移动社交网络用户异常签到检测问邻的两类异常检测模型。题，提出了一类基于签到位置的在线异常检测方针对移动对象的轨迹数据，Lee等[us]提出了一法。首先，在基于距离的异常检测基础上，提出了种划分-检测的轨迹异常检测框架，将轨迹划分成- 两种异常签到模型，即基于历史位置的异常签到 partition序列，通过计算t-partition间的距离和密度， (history location based outlier,H-Outlier)和基于好友以发现异常的子t-partition。Bu等6提出了一种连圈的异常签到(friendship based outlier,.F-Outlier); 续监控移动对象实时轨迹数据流的异常检测算法，其次，针对H-Outlier,提出了一种优化的检测算法该方法关注在检测单个移动对象实时轨迹数据中 H-Opt,利用优化的检测状态与邻居搜索机制降低的异常子轨迹段。文献「17]针对海量移动对象系检测时间：然后，针对F-Outlier,基于提出的3个优统中异常对象，提出了一种基于邻居的异常移动对化策略，提出了一种基于触发的优化检测算法F- 象检测方法，可发现不同于其他邻居对象运动轨迹 Opt,将连续在线异常检测转化成了基于触发的异常的异常对象。检测方式，本文采用滑动窗口技术实现H-Opt和F- Opt:最后，在真实的移动社交网络用户签到数据集 2 问题定义上，验证了所提算法的有效性和效率。在移动社交网络中用户往往会在新地点进行本节首先给出一些重要的定义和表示，然后对签到或登录，所以H-Outlier检测到的异常签到地点基于距离的移动社交网络异常签到模型进行描述。很有可能并非真正的异常。为排除这些伪异常状定义1基于距离的位置异常。给定位置数据况，本文提出了好友圈的概念和基于好友圈的异常集D、距离阈值d、邻居点数量阈值k,对于位置数据签到模型F-Outlier.,这是因为在移动社交网络中点o∈D,如果{pdist(p,o)≤d,p∈D}≤k, 50%~70%的行为可由周期行为解释，还有10%~ 则称0是一个基于距离的位置异常点。 30%行为可根据好友关系行为解释6)。也就是说， U={u1,山2，…，山m}表示移动社交网络的所有在移动社交网络中用户往往与认识的好友共同出现在不经常签到的地点，如朋友聚餐、商务活动或用户集，用户“：在t时间点的签到位置表示为p。本文采用基于签到位置数量的滑动窗口W来者公务出差等。针对这些伪异常，我们通过检测好友圈中好友签到位置来判断用户的签到是否为真处理移动社交网络中实时的签到数据，窗口长度标正的异常签到。记为|W=w,也就是说，W中包含w个签到位置。定义2基于历史位置的异常签到。给定距离相关工作阈值d、邻居点数量阈值k,滑动窗口W,对于用户u: Knor和Ng)最早提出了基于距离的空间异常的签到位置p6∈w,如果|{p|dist(p,p)≤d

指出，２０１６年全球社交网络用户约１９．７亿，占全球总人口的２７％。ＬＢＳＮ中海量带有位置信息的社会媒体数据可被用于各类挖掘应用研究，如挖掘用户兴趣偏好、好友推荐、兴趣点推荐、热点路径推荐等［３］。移动社交网络正逐渐改变着人们的生活方式和生活习惯，给人类社会带来前所未有的变革以及巨大的经济收益［４］。同时它也吸引了一些不法者盗取用户账号及信息进行各种恶意行为，影响了用户的正常使用，损害了用户利益，甚至给用户带来了巨大的经济损失。因此，面向移动社交网络，追踪用户的历史签到位置数据，从用户移动行为特征视角，对用户状态进行在线异常检测，这对于移动社交网络的安全、用户的隐私保护等具有重要意义。针对移动社交网络异常账号的检测问题，学术界和工业界都提出了大量检测方案［５］，主要包括基于行为特征的检测、基于内容的检测、基于图的检测和无监督学习的异常检测方法等。而针对移动社交网络中签到位置数据异常检测研究还比较少。本文从用户的移动位置特征视角对异常签到位置进行检测，针对移动社交网络用户异常签到检测问题，提出了一类基于签到位置的在线异常检测方法。首先，在基于距离的异常检测基础上，提出了两种异常签到模型，即基于历史位置的异常签到（ｈｉｓｔｏｒｙｌｏｃａｔｉｏｎｂａｓｅｄｏｕｔｌｉｅｒ，Ｈ⁃Ｏｕｔｌｉｅｒ）和基于好友圈的异常签到（ｆｒｉｅｎｄｓｈｉｐｂａｓｅｄｏｕｔｌｉｅｒ，Ｆ⁃Ｏｕｔｌｉｅｒ）；其次，针对Ｈ⁃Ｏｕｔｌｉｅｒ，提出了一种优化的检测算法Ｈ⁃Ｏｐｔ，利用优化的检测状态与邻居搜索机制降低检测时间；然后，针对Ｆ⁃Ｏｕｔｌｉｅｒ，基于提出的３个优化策略，提出了一种基于触发的优化检测算法Ｆ⁃ Ｏｐｔ，将连续在线异常检测转化成了基于触发的异常检测方式，本文采用滑动窗口技术实现Ｈ⁃Ｏｐｔ和Ｆ⁃ Ｏｐｔ；最后，在真实的移动社交网络用户签到数据集上，验证了所提算法的有效性和效率。在移动社交网络中用户往往会在新地点进行签到或登录，所以Ｈ⁃Ｏｕｔｌｉｅｒ检测到的异常签到地点很有可能并非真正的异常。为排除这些伪异常状况，本文提出了好友圈的概念和基于好友圈的异常签到模型Ｆ⁃Ｏｕｔｌｉｅｒ，这是因为在移动社交网络中５０％～７０％的行为可由周期行为解释，还有１０％～３０％行为可根据好友关系行为解释［６］。也就是说，在移动社交网络中用户往往与认识的好友共同出现在不经常签到的地点，如朋友聚餐、商务活动或者公务出差等。针对这些伪异常，我们通过检测好友圈中好友签到位置来判断用户的签到是否为真正的异常签到。１相关工作Ｋｎｏｒｒ和Ｎｇ［７］最早提出了基于距离的空间异常（ＤＢ⁃Ｏｕｔｌｉｅｒ）检测问题。给定一个数据集合，若某数据点的邻域内的数据个数小于给定阈值，则该数据点为基于距离的异常点。之后，Ｋｎｏｒｒ等［８］将基于距离的异常模型应用到时空轨迹数据异常检测中。Ｒａｍａｓｗａｍｙ等［９］提出了一种基于ｋ近邻的异常定义，根据数据点到第ｋ近邻的距离检测出ｎ个ｋ近邻距离最大的数据点作为异常点。Ｂｒｅｕｎｉｇ等［１０］提出另外一类基于密度的数据异常类型，通过计算本地异常因子ＬＯＦ来检测局部异常点数据，但该算法存在较高计算复杂度问题。在数据流异常检测方面，Ｙａｎｇ等［１１］采用滑动窗口方式在数据流上挖掘基于邻居的模式，主要包括基于密度的聚类和基于距离的异常检测。Ａｎｇｉｕｌｌｉ等［１２］通过在数据流上分析数据点是否为 “ｓａｆｅｉｎｌｉｅｒ” 来优化检测方法。Ｋｏｎｔａｋｉ等［１３］利用 “ｓａｆｅｉｎｌｉｅｒ”设计了一种事件触发的数据流异常检测优化算法。Ｃａｏ等［１４］提出了一种数据流异常检测框架，该框架可用于处理基于距离的和基于ｋ近邻的两类异常检测模型。针对移动对象的轨迹数据，Ｌｅｅ等［１５］提出了一种划分⁃检测的轨迹异常检测框架，将轨迹划分成ｔ⁃ ｐａｒｔｉｔｉｏｎ序列，通过计算ｔ⁃ｐａｒｔｉｔｉｏｎ间的距离和密度，以发现异常的子ｔ⁃ｐａｒｔｉｔｉｏｎ。Ｂｕ等［１６］提出了一种连续监控移动对象实时轨迹数据流的异常检测算法，该方法关注在检测单个移动对象实时轨迹数据中的异常子轨迹段。文献［１７］针对海量移动对象系统中异常对象，提出了一种基于邻居的异常移动对象检测方法，可发现不同于其他邻居对象运动轨迹的异常对象。２问题定义本节首先给出一些重要的定义和表示，然后对基于距离的移动社交网络异常签到模型进行描述。定义１基于距离的位置异常。给定位置数据集Ｄ、距离阈值ｄ、邻居点数量阈值ｋ，对于位置数据点ｏ ∈ Ｄ，如果 { ｐｄｉｓｔ(ｐ，ｏ) ≤ ｄ，ｐ ∈ Ｄ} ≤ ｋ，则称ｏ是一个基于距离的位置异常点。Ｕ＝｛ｕ１，ｕ２，．．．，ｕｍ｝表示移动社交网络的所有用户集，用户ｕｉ在ｔｊ时间点的签到位置表示为ｐｉｊ。本文采用基于签到位置数量的滑动窗口Ｗ来处理移动社交网络中实时的签到数据，窗口长度标记为Ｗ＝ｗ，也就是说，Ｗ中包含ｗ个签到位置。定义２基于历史位置的异常签到。给定距离阈值ｄ、邻居点数量阈值ｋ，滑动窗口Ｗ，对于用户ｕｉ的签到位置ｐｉｂ ∈ ｗ，如果｛ｐｉｊｄｉｓｔ（ｐｉｊ，ｐｉｂ） ≤ ｄ，第５期赵冠哲，等：移动社交网络异常签到在线检测算法 ·７５３·

.754. 智能系统学报第12卷 P∈W}|≤k,则称签到位置p是一个基于历史位和异常两种状态，而通过在滑动窗口下用户签到位置的异常签到点，记为H-Outlier。置的检测发现，签到位置的状态可进一步细分，以从定义2可以看出，H-Outlier是基于自身历史便减少距离计算。在滑动窗口W中签到位置p的签到位置的，这也是因为用户日常活动轨迹记录往状态可分为：①确定的正常点。如果p在W中邻居往具有周期性[18劉数量大于等于k,并且在P点之后邻居数量也大于设F(u:)表示用户，的所有直接好友集合。等于k,这时不管W如何滑动，位置p在滑出窗口之与QQ、微信等社交网络的好友圈的定义不同，这里前，在窗口内邻居数量一定大于等于k个，因此，此给出的好友圈定义既包括用户“：直接好友又包括与时p的状态可以认定为确定的正常签到点，记为 u,有一定数量共同好友的间接好友。 safe-inlier。②不确定的正常点。如果p在W中邻定义3好友圈。给定支持阈值m,用户u的好居数量大于等于k,但是在P点之后邻居数量小于友圈包括u,的所有直接好友和与u,存在至少m个共 k,这时p虽然是一个正常状态的签到位置，但是当同直接好友的间接好友，即(4：)U W滑动时，在位置p之前的邻居可能会滑出窗口，P {4Fr(u:)∩Fr(4)|≥m},简记为Net(u:)。的状态可能会变成异常状态，此时的p可认为是一定义4基于好友圈的异常签到。给定距离阈个不确定的正常点，记为unsafe-.inlier。③确定的异值d、好友圈包含的好友数量阈值k、时间△t,对于常点。设签到位置p之前的邻居集合为p.Neipelore, 基于历史位置的异常签到点p。,如果|{“，|3p, 之后的邻居集合为p.Neie,如果p在W中邻居数量 dist(pi,pa)≤d,lta-tl≤△t,u,∈Net(u:)}|≤ 小于k,在p之前有mor个位置，如果lp.Nei|小 k,P。是一个基于好友圈的异常签到点，记为F 于k-mo,这时不管W如何滑动，位置p在滑出窗 Outlier 口之前，都不可能包括k个邻居，因此，此时p的状根据定义4可知，F-Outlier是在H-Outlier定义态可以认定为确定的异常签到点，记为safe-outlier。的基础上定义的，因此，F-Outlier集合是H-Outlier ④异常点。剩下的异常签到点都划归为这一类，记集合的子集。为outlier。文中涉及的符号名称及描述由表1给出。很明显，一旦确定safe-inlier和safe-outlier状态表1符号名称及描述之后不必再对这些签到位置进行重新检测。而随 Table 1 Symbols and its descriptions 着窗口滑动，outlier和unsafe-inlier仍需重新检测名称解释状态。 p 用户u,在1，时间的签到位置 2)优化的邻居点搜索机制 W 基于签到位置数量的滑动窗口根据上述签到位置的状态划分方法，我们将签心距离阈值邻居点数量阈值到位置的邻居点分为在p签到之前和在p签到之后 k Fr(u）用户u的直接好友集合两个部分，以便快速确定签到位置的状态。若 m 共同直接好友数量阈值 p.Neir|≥k,p为safe-inlier;若lp.Nei|<k,但 Net(u) 用户u,的好友圈 lp.Neibefare|+|p.Nei|≥k,p为unsafe-.inlier;若 p.Neie 签到位置p之前的邻居集合 p.Neie 签到位置p之后的邻居集合 p.Neitor+p.Neiner,p.Neier<-m k 好友圈中邻居点数量國值 p为safe-outlier;其他情况下，p为outlier。 0 签到位置数据流通过观察发现，随着滑动窗口的滑动，对于签 △t 触发项的有效期到位置p的所有邻居点p.Neipefare和p.Nei, 3 基于历史位置的异常签到检测算法 p.Nei中的位置点不断滑出窗口，而p.Neie则直处在窗口内，直到p也滑出窗口才会失效。因此，本节将详细介绍H-Outlier的在线检测算法。在搜索p的邻居时可优先搜索在其之后的邻居，越为了提升检测效率，首先介绍检测算法采用的几种靠后的邻居有效期越长：而在其之前的邻居，越靠优化策略，然后给出详细的检测算法。近P存活期越长。基于该观察，在滑动窗口内从最 3.1优化策略后一个签到位置向前依次搜索邻居，满足优先搜索若两个签到位置之间距离小于给定距离阈值 Nei,又实现了从最近到最远搜索Neiw。 d,称它们互为邻居点。 3)最少邻居点搜索机制 1)签到位置的状态若查找出签到位置p的所有邻居，需扫描一遍传统检测方法仅将用户的签到位置分为正常窗口。受文献[14]启发，在检测点p时，并不需要

ｐｉｊ ∈ Ｗ｝ ≤ｋ，则称签到位置ｐｉｂ是一个基于历史位置的异常签到点，记为Ｈ⁃Ｏｕｔｌｉｅｒ。从定义２可以看出，Ｈ⁃Ｏｕｔｌｉｅｒ是基于自身历史签到位置的，这也是因为用户日常活动轨迹记录往往具有周期性［１８］。设Ｆｒ（ｕｉ）表示用户ｕｉ的所有直接好友集合。与ＱＱ、微信等社交网络的好友圈的定义不同，这里给出的好友圈定义既包括用户ｕｉ直接好友又包括与ｕｉ有一定数量共同好友的间接好友。定义３好友圈。给定支持阈值ｍ，用户ｕｉ的好友圈包括ｕｉ的所有直接好友和与ｕｉ存在至少ｍ个共同直接好友的间接好友，即Ｆｒ（ｕｉ） ∪ {ｕｊＦｒ（ｕｉ）∩Ｆｒ（ｕｊ） ≥ｍ} ，简记为Ｎｅｔ（ｕｉ）。定义４基于好友圈的异常签到。给定距离阈值ｄ、好友圈包含的好友数量阈值ｋｆ、时间 △ｔ，对于基于历史位置的异常签到点ｐｉａ，如果｛ｕｓ ∃ｐｓｊ，ｄｉｓｔ（ｐｓｊ，ｐｉａ） ≤ ｄ，ｔａ－ｔｊ ≤ △ｔ，ｕｓ ∈ Ｎｅｔ（ｕｉ）｝ ≤ ｋｆ，ｐｉａ是一个基于好友圈的异常签到点，记为Ｆ⁃ Ｏｕｔｌｉｅｒ。根据定义４可知，Ｆ⁃Ｏｕｔｌｉｅｒ是在Ｈ⁃Ｏｕｔｌｉｅｒ定义的基础上定义的，因此，Ｆ⁃Ｏｕｔｌｉｅｒ集合是Ｈ⁃Ｏｕｔｌｉｅｒ集合的子集。文中涉及的符号名称及描述由表１给出。表１符号名称及描述Ｔａｂｌｅ１Ｓｙｍｂｏｌｓａｎｄｉｔｓｄｅｓｃｒｉｐｔｉｏｎｓ名称解释ｐｉｊ用户ｕｉ在ｔｊ时间的签到位置Ｗ基于签到位置数量的滑动窗口ｄ距离阈值ｋ邻居点数量阈值Ｆｒ（ｕｉ）用户ｕｉ的直接好友集合ｍ共同直接好友数量阈值Ｎｅｔ（ｕｉ）用户ｕｉ的好友圈ｐ．Ｎｅｉｂｅｆｏｒｅ签到位置ｐ之前的邻居集合ｐ．Ｎｅｉａｆｔｅｒ签到位置ｐ之后的邻居集合ｋｆ好友圈中邻居点数量阈值Ｄ签到位置数据流 △ｔ触发项的有效期３基于历史位置的异常签到检测算法本节将详细介绍Ｈ⁃Ｏｕｔｌｉｅｒ的在线检测算法。为了提升检测效率，首先介绍检测算法采用的几种优化策略，然后给出详细的检测算法。３．１优化策略若两个签到位置之间距离小于给定距离阈值ｄ，称它们互为邻居点。１）签到位置的状态传统检测方法仅将用户的签到位置分为正常和异常两种状态，而通过在滑动窗口下用户签到位置的检测发现，签到位置的状态可进一步细分，以便减少距离计算。在滑动窗口Ｗ中签到位置ｐ的状态可分为：①确定的正常点。如果ｐ在Ｗ中邻居数量大于等于ｋ，并且在ｐ点之后邻居数量也大于等于ｋ，这时不管Ｗ如何滑动，位置ｐ在滑出窗口之前，在窗口内邻居数量一定大于等于ｋ个，因此，此时ｐ的状态可以认定为确定的正常签到点，记为ｓａｆｅ⁃ｉｎｌｉｅｒ。 ②不确定的正常点。如果ｐ在Ｗ中邻居数量大于等于ｋ，但是在ｐ点之后邻居数量小于ｋ，这时ｐ虽然是一个正常状态的签到位置，但是当Ｗ滑动时，在位置ｐ之前的邻居可能会滑出窗口，ｐ的状态可能会变成异常状态，此时的ｐ可认为是一个不确定的正常点，记为ｕｎｓａｆｅ⁃ｉｎｌｉｅｒ。 ③确定的异常点。设签到位置ｐ之前的邻居集合为ｐ．Ｎｅｉｂｅｆｏｒｅ，之后的邻居集合为ｐ．Ｎｅｉａｆｔｅｒ，如果ｐ在Ｗ中邻居数量小于ｋ，在ｐ之前有ｍｂｅｆｏｒｅ个位置，如果ｐ．Ｎｅｉａｆｔｅｒ小于ｋ⁃ｍｂｅｆｏｒｅ，这时不管Ｗ如何滑动，位置ｐ在滑出窗口之前，都不可能包括ｋ个邻居，因此，此时ｐ的状态可以认定为确定的异常签到点，记为ｓａｆｅ⁃ｏｕｔｌｉｅｒ。 ④异常点。剩下的异常签到点都划归为这一类，记为ｏｕｔｌｉｅｒ。很明显，一旦确定ｓａｆｅ⁃ｉｎｌｉｅｒ和ｓａｆｅ⁃ｏｕｔｌｉｅｒ状态之后不必再对这些签到位置进行重新检测。而随着窗口滑动，ｏｕｔｌｉｅｒ和ｕｎｓａｆｅ⁃ｉｎｌｉｅｒ仍需重新检测状态。２）优化的邻居点搜索机制根据上述签到位置的状态划分方法，我们将签到位置的邻居点分为在ｐ签到之前和在ｐ签到之后两个部分，以便快速确定签到位置的状态。若ｐ．Ｎｅｉａｆｔｅｒ ≥ｋ，ｐ为ｓａｆｅ⁃ｉｎｌｉｅｒ；若ｐ．Ｎｅｉａｆｔｅｒ＜ｋ，但ｐ．Ｎｅｉｂｅｆｏｒｅ＋ｐ．Ｎｅｉａｆｔｅｒ ≥ ｋ，ｐ为ｕｎｓａｆｅ⁃ｉｎｌｉｅｒ；若ｐ．Ｎｅｉｂｅｆｏｒｅ＋ｐ．Ｎｅｉａｆｔｅｒ＜ｋ，并且ｐ．Ｎｅｉａｆｔｅｒ＜ｋ⁃ｍｂｅｆｏｒｅ，ｐ为ｓａｆｅ⁃ｏｕｔｌｉｅｒ；其他情况下，ｐ为ｏｕｔｌｉｅｒ。通过观察发现，随着滑动窗口的滑动，对于签到位置ｐ的所有邻居点ｐ．Ｎｅｉｂｅｆｏｒｅ和ｐ．Ｎｅｉａｆｔｅｒ，ｐ．Ｎｅｉｂｅｆｏｒｅ中的位置点不断滑出窗口，而ｐ．Ｎｅｉａｆｔｅｒ则一直处在窗口内，直到ｐ也滑出窗口才会失效。因此，在搜索ｐ的邻居时可优先搜索在其之后的邻居，越靠后的邻居有效期越长；而在其之前的邻居，越靠近ｐ存活期越长。基于该观察，在滑动窗口内从最后一个签到位置向前依次搜索邻居，满足优先搜索Ｎｅｉａｆｔｅｒ，又实现了从最近到最远搜索Ｎｅｉｂｅｆｏｒｅ。３）最少邻居点搜索机制若查找出签到位置ｐ的所有邻居，需扫描一遍窗口。受文献［１４］启发，在检测点ｐ时，并不需要 ·７５４· 智能系统学报第１２卷

第5期赵冠哲，等：移动社交网络异常签到在线检测算法 ·755. 搜索出所有邻居，当满足k个时，即可判定位置p的 20)if lpNeitore then 状态，但是同时为了结合上述的优化策略1)和2)， 21)Per·status更新为outlier 我们给出最少邻居点搜索机制。 4 给定签到位置p和新签到位置P,若基于好友圈的异常检测算法 lp.Nei|≥k同时IpNeior|≥k,则无需计算本节将详细介绍基于好友圈的异常签到 p与pea的距离。此时位置p已经确定为safe-inlier, F-Outlier的检测算法。F-Outlier定义在H-Outlier之而p也已确定为unsafe-inlier。否则，将继续计算上，对于当前窗口W上H-Outlier需进一步验证是否 P到所有之前签到位置的距离，以确定P为为F-Outlier。H-Outlier仅在用户自身近期的历史签 outlier。采用该机制，既满足了所有签到位置状态到位置上查找邻居点（滑动窗口W内），而F-Outlier 的检测又实现了最少的距离计算。则在其好友圈用户的最近签到位置中搜索邻居点 3.2H-0 utlier在线检测算法 (△t时间差内)。算法1给出了H-Outlier的优化检测算法，对于为了进一步降低F-Outlier检测的时间消耗，本新签到位置Pw,对窗口W中所有签到位置进行状节同样给出了3个优化策略。态重新检测。首先，按照优化的邻居搜索机制，从 1)最少好友搜索机制窗口内最后一个位置，依次向前搜索邻居，如第1行与H-Outlier检测的最少邻居点搜索机制相似，所示。然后，采用最少邻居点搜索机制，判定位置P: 检测用户u,签到位置p。的状态时，并非需要完整搜和P是否都已确定状态，若已确定，则不用再继续索一遍Net(w:),若已存在k个好友在t内在同一地搜索邻居2)~4)行，否则，继续计算距离，更新邻居点（小于给定距离d)签到过，则可以停止搜索，此时集合（见5）~7))。如果p,的状态不是safe-inlier或可判定pi并非F-Outlier。 safe-outlier,则根据搜索邻居情况更新其状态，如 2)历史邻近好友优先原则 8)~17)所示。如果P搜索到k个在其之前的邻在社会学领域研究中发现，人们在某一段时间居，状态更新为unsafe-inlier(见l8)~19)),检测完内往往与相同一群人存在较密集的交互4)。根据窗口W后，若邻居数量依然少于k个，状态标记为上述社会学的发现，我们对每个用户维护一个邻近 outlier. 好友的排序列表L,用于记录历史邻近签到状况，最算法1H-Outlier优化检测算法近一次的邻近签到好友排在首位，每次搜索邻近好输入当前窗口W,k,d,Pw; 友时同时更新列表次序可以较大概率快速搜索邻输出所有p∈W的状态。近的签到好友，以排除H-Outlier,而不用随机遍历 1)fori从Wa到Wan do Net(u;). 2)ifp:sta是safe-inlier或者p.sta是safe-outlier 3)基于时间触发的检测机制 3)if pnex·sta是unsafe-inlier then 当签到位置p.在当前时刻检测为F-Outlier后， 4)继续在后续的△1内需要不断重新检测它的状态是否有 5)else if p:与pen的距离≤d then 变化，但是当好友圈用户没有签到数据更新时，重 6)将p:添加到pNeibeore 新检测会导致冗余计算。因此，提出了一种基于时 7)将Pen添加到P:.Nei 间触发的检测机制。 8)else 每个用户u维护一个触发列表trigger,触发列 9)ifp:与pe的距离≤d then 表中每项表示为〈p。〉，当用户u更新签到数据时， 1O)将p:添加到pNeibefor 触发对p.的F-Outlier状态重检测。可以看出，每 1l)将poen添加到p.Neiafer 个触发项都存在一个有效期，即It。-t.I≤△t,当前时 12)if Ip:.Neie then 间t.与△t。的时间差不大于△t,超过该时间差，触 l3)p.status更新为safe-inlier 发项自动失效。 14)else if p:Neirp:Nei then 基于时间触发的检测机制将连续异常检测转 l5)p:.status更新为unsafe-inlier 化成了基于触发的检测，当有新签到数据时，才对 16)else if lp:Neir-m then 未过期的签到位置进行重新检测，大大减少了额外 l7)p:.status更新为safe-inlier 的周期性重新检测成本。 18)if pNeieore then 算法2描述了采用优化策略的F-Outlier的检 19)Pstatus更新为unsafe-inlier 测过程，针对用户“，的新签到位置p,首先执行H

搜索出所有邻居，当满足ｋ个时，即可判定位置ｐ的状态，但是同时为了结合上述的优化策略１）和２），我们给出最少邻居点搜索机制。给定签到位置ｐ和新签到位置ｐｎｅｗ，若ｐ．Ｎｅｉａｆｔｅｒ ≥ ｋ同时ｐｎｅｗ．Ｎｅｉｂｅｆｏｒｅ ≥ｋ，则无需计算ｐ与ｐｎｅｗ的距离。此时位置ｐ已经确定为ｓａｆｅ⁃ｉｎｌｉｅｒ，而ｐｎｅｗ也已确定为ｕｎｓａｆｅ⁃ｉｎｌｉｅｒ。否则，将继续计算ｐｎｅｗ到所有之前签到位置的距离，以确定ｐｎｅｗ为ｏｕｔｌｉｅｒ。采用该机制，既满足了所有签到位置状态的检测又实现了最少的距离计算。３．２Ｈ⁃Ｏｕｔｌｉｅｒ在线检测算法算法１给出了Ｈ⁃Ｏｕｔｌｉｅｒ的优化检测算法，对于新签到位置ｐｎｅｗ，对窗口Ｗ中所有签到位置进行状态重新检测。首先，按照优化的邻居搜索机制，从窗口内最后一个位置，依次向前搜索邻居，如第１行所示。然后，采用最少邻居点搜索机制，判定位置ｐｉ和ｐｎｅｗ是否都已确定状态，若已确定，则不用再继续搜索邻居２）～４）行，否则，继续计算距离，更新邻居集合（见５）～７））。如果ｐｉ的状态不是ｓａｆｅ⁃ｉｎｌｉｅｒ或ｓａｆｅ⁃ｏｕｔｌｉｅｒ，则根据搜索邻居情况更新其状态，如８）～１７）所示。如果ｐｎｅｗ搜索到ｋ个在其之前的邻居，状态更新为ｕｎｓａｆｅ⁃ｉｎｌｉｅｒ（见１８）～１９）），检测完窗口Ｗ后，若邻居数量依然少于ｋ个，状态标记为ｏｕｔｌｉｅｒ。算法１Ｈ⁃Ｏｕｔｌｉｅｒ优化检测算法输入当前窗口Ｗ，ｋ，ｄ，ｐｎｅｗ；输出所有ｐ ∈ Ｗ的状态。１）ｆｏｒｉ从Ｗｅｎｄ到Ｗｓｔａｒｔｄｏ２）ｉｆｐｉ．ｓｔａ是ｓａｆｅ⁃ｉｎｌｉｅｒ或者ｐｉ．ｓｔａ是ｓａｆｅ⁃ｏｕｔｌｉｅｒ３）ｉｆｐｎｅｗ．ｓｔａ是ｕｎｓａｆｅ⁃ｉｎｌｉｅｒｔｈｅｎ４）继续５）ｅｌｓｅｉｆｐｉ与ｐｎｅｗ的距离≤ｄｔｈｅｎ６）将ｐｉ添加到ｐｎｅｗ．Ｎｅｉｂｅｆｏｒｅ７）将ｐｎｅｗ添加到ｐｉ．Ｎｅｉａｆｔｅｒ８）ｅｌｓｅ９）ｉｆｐｉ与ｐｎｅｗ的距离≤ｄｔｈｅｎ１０）将ｐｉ添加到ｐｎｅｗ．Ｎｅｉｂｅｆｏｒｅ１１）将ｐｎｅｗ添加到ｐｉ．Ｎｅｉａｆｔｅｒ１２）ｉｆｐｉ．Ｎｅｉａｆｔｅｒ ≥ｋｔｈｅｎ１３）ｐｉ．ｓｔａｔｕｓ更新为ｓａｆｅ⁃ｉｎｌｉｅｒ１４）ｅｌｓｅｉｆｐｉ．Ｎｅｉｂｅｆｏｒｅ＋ｐｉ．Ｎｅｉａｆｔｅｒ ≥ｋｔｈｅｎ１５）ｐｉ．ｓｔａｔｕｓ更新为ｕｎｓａｆｅ⁃ｉｎｌｉｅｒ１６）ｅｌｓｅｉｆｐｉ．Ｎｅｉｂｅｆｏｒｅ＜ｋ⁃ｍｂｅｆｏｒｅｔｈｅｎ１７）ｐｉ．ｓｔａｔｕｓ更新为ｓａｆｅ⁃ｉｎｌｉｅｒ１８）ｉｆｐｎｅｗ．Ｎｅｉｂｅｆｏｒｅ ≥ｋｔｈｅｎ１９）ｐｎｅｗ．ｓｔａｔｕｓ更新为ｕｎｓａｆｅ⁃ｉｎｌｉｅｒ２０）ｉｆｐｎｅｗ．Ｎｅｉｂｅｆｏｒｅ＜ｋｔｈｅｎ２１）ｐｎｅｗ．ｓｔａｔｕｓ更新为ｏｕｔｌｉｅｒ４基于好友圈的异常检测算法本节将详细介绍基于好友圈的异常签到Ｆ⁃Ｏｕｔｌｉｅｒ的检测算法。Ｆ⁃Ｏｕｔｌｉｅｒ定义在Ｈ⁃Ｏｕｔｌｉｅｒ之上，对于当前窗口Ｗ上Ｈ⁃Ｏｕｔｌｉｅｒ需进一步验证是否为Ｆ⁃Ｏｕｔｌｉｅｒ。Ｈ⁃Ｏｕｔｌｉｅｒ仅在用户自身近期的历史签到位置上查找邻居点（滑动窗口Ｗ内），而Ｆ⁃Ｏｕｔｌｉｅｒ则在其好友圈用户的最近签到位置中搜索邻居点（ △ｔ时间差内）。为了进一步降低Ｆ⁃Ｏｕｔｌｉｅｒ检测的时间消耗，本节同样给出了３个优化策略。１）最少好友搜索机制与Ｈ⁃Ｏｕｔｌｉｅｒ检测的最少邻居点搜索机制相似，检测用户ｕｉ签到位置ｐｉａ的状态时，并非需要完整搜索一遍Ｎｅｔ（ｕｉ），若已存在ｋｆ个好友在ｔ内在同一地点（小于给定距离ｄ）签到过，则可以停止搜索，此时可判定ｐｉａ并非Ｆ－Ｏｕｔｌｉｅｒ。２）历史邻近好友优先原则在社会学领域研究中发现，人们在某一段时间内往往与相同一群人存在较密集的交互［４］。根据上述社会学的发现，我们对每个用户维护一个邻近好友的排序列表Ｌｆ，用于记录历史邻近签到状况，最近一次的邻近签到好友排在首位，每次搜索邻近好友时同时更新列表次序可以较大概率快速搜索邻近的签到好友，以排除Ｈ⁃Ｏｕｔｌｉｅｒ，而不用随机遍历Ｎｅｔ（ｕｉ）。３）基于时间触发的检测机制当签到位置ｐｉａ在当前时刻检测为Ｆ⁃Ｏｕｔｌｉｅｒ后，在后续的 Δｔ内需要不断重新检测它的状态是否有变化，但是当好友圈用户没有签到数据更新时，重新检测会导致冗余计算。因此，提出了一种基于时间触发的检测机制。每个用户ｕ维护一个触发列表ｔｒｉｇｇｅｒ，触发列表中每项表示为〈ｐｉａ〉，当用户ｕ更新签到数据时，触发对ｐｉａ的Ｆ－Ｏｕｔｌｉｅｒ状态重检测。可以看出，每个触发项都存在一个有效期，即｜ｔｃ－ｔａ｜ ≤Δｔ，当前时间ｔｃ与 Δｔａ的时间差不大于 Δｔ，超过该时间差，触发项自动失效。基于时间触发的检测机制将连续异常检测转化成了基于触发的检测，当有新签到数据时，才对未过期的签到位置进行重新检测，大大减少了额外的周期性重新检测成本。算法２描述了采用优化策略的Ｆ⁃Ｏｕｔｌｉｅｒ的检测过程，针对用户ｕｉ的新签到位置ｐｉｃ，首先执行Ｈ⁃ 第５期赵冠哲，等：移动社交网络异常签到在线检测算法 ·７５５·

·756· 智能系统学报第12卷 Outlier检测，如1)所示，如果p.是一个H-Outlier,则对比方法。算法1描述的基于历史位置的异常继续检测p是否为F-Outlier.,如2)~12)所示。根据检测算法记为H-Opt算法，算法2描述的基于好友历史邻近好友优先原则，从L中由前向后搜索好圈的异常检测算法记为F-Opt算法，对比方法记为友，若存在邻近签到的好友，则插入好友邻居集合 LUE(lazy with update events)算法[s) Neia,并将该好友放置于L首位（见4）~7))，然后评估方法。采用所有用户在单个窗口内异常根据最少好友搜索机制，满足k,个好友，停止搜索率来评估所提方法的有效性。实验结果取所有滑 (见8)~9))。搜索完一遍u,好友圈之后，认为满足动窗口下的平均值。对于效率评估，通过变化各重 k条件，则认定为F-Outlier.,并将放入好友圈Net 要参数，采用单个窗口平均消耗的CPU时间和内存 (:)中每个用户的trigger列表中，如10)~12) 占用来评估算法的性能。每次窗口滑动一个新签所示。到位置。算法2F-Outlier检测算法 5.1有效性评估输入新的签到p、k、d; 首先，对H-Opt和F-Opt算法的有效性进行了输出所有的F-Outlier 评估与分析。默认参数设置：d=300m,0=20,k= l)对于状态为H-Outlier的pd 4,k,=3,△t=3h,m=4。H-0pt与F-0pt的异常检测 2)if p .sta outlier then 结果如图1所示。图1(a)描述的是变化参数k对 3)forj取值1,2，…，lNet(u,)|do 不同算法的有效性影响。可以发现，随着k的增加， 4)L获取j后给u H-Opt和F-Opt检测出的异常率都呈线性增加，这 5)ifp与pa的距离≤d then 是因为增加邻居点数量阈值k会使较多的签到点被 6)将pa,添加到.Neim 认定为H-Outlier。由于F-Outlier基于H-Outlier,随着H-Outlier数量的增加，F-Outlier也会有所上升， 7)将u插入到L首位这与它们定义相符。同时还可以发现，随着k的增 8)if pi .Nei then 加，F-Opt算法与H-Opt算法在异常率检测上的差 9)p..sta更新为F-Inlier、break 异不断增大，即F-Opt的异常误判率不断降低。当 10)if p .Neira then k=7时，降低的异常率已达到1.09%，也就是说，F 1l)p.sta更新为F-0 utlier 0 utlier有效排除了30.27%的伪异常。 12)将p.添加到Nei(u:).trigger 4.0r H-Outlier l3)u,.trigger更新到Trigger 3.5 -F-Outlier 14)for每个pa∈Trigger do 3.0 15)iflt.t.|≤△t并且p.与p.的距离≤d then 2.5 16)将p.添加到pNei 2.0 17)if p Neifri,then 1.5 18)p。.sta更新为F-Inlier 1.0 19)将p.从w.trigger中删除 0.5 6 接下来，就要触发，的trigger列表，如13)~ 个 19)所示。每个触发项。，若仍在有效期内，且与p (a)参数k对异常率的影响为邻居，则判断它邻居点的数量是否满足k,若满 2.6 -H-Outlier 足，则更新p。的状态，并将其移出u,的trigger列表 2.4 -F-Outlier (见17)~19)。 2.2 5实验评估 .20 1.8 实验平台配置为4.0GHz7-6700k处理器， 1.6 8GB内存，Windows7操作系统，所有算法由Java 1.4 实现。数据集。实验数据集采用的是基于位置的移动社 10 15 20 25 30 个交网络Gowalla真实数据集)。数据集中包括了 (b)参数W对异常率的影响 195591个用户，95万条好友关系，收集了2009年2月~ 图1。不同参数下的算法异常率 2010年10月之间的644万个签到位置数据。 Fig.1 Outlier rate under different parameters

Ｏｕｔｌｉｅｒ检测，如１）所示，如果ｐｉｃ是一个Ｈ⁃Ｏｕｔｌｉｅｒ，则继续检测ｐｉｃ是否为Ｆ⁃Ｏｕｔｌｉｅｒ，如２）～１２）所示。根据历史邻近好友优先原则，从Ｌｆ中由前向后搜索好友，若存在邻近签到的好友，则插入好友邻居集合Ｎｅｉｆｒｉ，并将该好友放置于Ｌｆ首位（见４）～７）），然后根据最少好友搜索机制，满足ｋｆ个好友，停止搜索（见８）～９））。搜索完一遍ｕｉ好友圈之后，认为满足ｋｆ条件，则认定为Ｆ⁃Ｏｕｔｌｉｅｒ，并将放入好友圈Ｎｅｔ（ｕｉ）中每个用户的ｔｒｉｇｇｅｒ列表中，如１０）～１２）所示。算法２Ｆ⁃Ｏｕｔｌｉｅｒ检测算法输入新的签到ｐｉｃ、ｋｆ、ｄ；输出所有的Ｆ⁃Ｏｕｔｌｉｅｒ。１）对于状态为Ｈ⁃Ｏｕｔｌｉｅｒ的ｐｉｃ２）ｉｆｐｉｃ．ｓｔａ为ｏｕｔｌｉｅｒｔｈｅｎ３）ｆｏｒｊ取值１，２，…，Ｎｅｔ（ｕｉ）ｄｏ４）Ｌｆ获取ｊ后给ｕｊ５）ｉｆｐｉｃ与ｐｉｃ ±△ｔ的距离≤ｄｔｈｅｎ６）将ｐｉｃ ±△ｔ添加到ｐｉｃ．Ｎｅｉｆｒｉ７）将ｕｊ插入到Ｌｆ首位８）ｉｆｐｉｃ．Ｎｅｉｆｒｉ ≥ｋｆｔｈｅｎ９）ｐｉｃ．ｓｔａ更新为Ｆ⁃Ｉｎｌｉｅｒ、ｂｒｅａｋ１０）ｉｆｐｉｃ．Ｎｅｉｆｒｉ＜ｋｆｔｈｅｎ１１）ｐｉｃ．ｓｔａ更新为Ｆ⁃Ｏｕｔｌｉｅｒ１２）将ｐｉｃ添加到Ｎｅｉ（ｕｉ）．ｔｒｉｇｇｅｒ１３）ｕｉ．ｔｒｉｇｇｅｒ更新到Ｔｒｉｇｇｅｒ１４）ｆｏｒ每个ｐｉａ ∈ Ｔｒｉｇｇｅｒｄｏ１５）ｉｆｔａ－ｔｃ ≤ △ｔ并且ｐｉｃ与ｐｊａ的距离≤ｄｔｈｅｎ１６）将ｐｉｃ添加到ｐｉａ．Ｎｅｉｆｒｉ１７）ｉｆｐｉａ．Ｎｅｉｆｒｉ ≥ｋｆｔｈｅｎ１８）ｐｉａ．ｓｔａ更新为Ｆ⁃Ｉｎｌｉｅｒ１９）将ｐｉａ从ｕｊ．ｔｒｉｇｇｅｒ中删除接下来，就要触发ｕｉ的ｔｒｉｇｇｅｒ列表，如１３）～１９）所示。每个触发项ｐｊａ，若仍在有效期内，且与ｐｉｃ为邻居，则判断它邻居点的数量是否满足ｋｆ，若满足，则更新ｐｊａ的状态，并将其移出ｕｉ的ｔｒｉｇｇｅｒ列表（见１７）～１９））。５实验评估实验平台配置为４．０ＧＨｚｉ７⁃６７００ｋ处理器，８ＧＢ内存，Ｗｉｎｄｏｗｓ７操作系统，所有算法由Ｊａｖａ实现。数据集。实验数据集采用的是基于位置的移动社交网络Ｇｏｗａｌｌａ真实数据集［１８］。数据集中包括了１９５５９１个用户，９５万条好友关系，收集了２００９年２月～２０１０年１０月之间的６４４万个签到位置数据。对比方法。算法１描述的基于历史位置的异常检测算法记为Ｈ⁃Ｏｐｔ算法，算法２描述的基于好友圈的异常检测算法记为Ｆ⁃Ｏｐｔ算法，对比方法记为ＬＵＥ（ｌａｚｙｗｉｔｈｕｐｄａｔｅｅｖｅｎｔｓ）算法［１３］。评估方法。采用所有用户在单个窗口内异常率来评估所提方法的有效性。实验结果取所有滑动窗口下的平均值。对于效率评估，通过变化各重要参数，采用单个窗口平均消耗的ＣＰＵ时间和内存占用来评估算法的性能。每次窗口滑动一个新签到位置。５．１有效性评估首先，对Ｈ⁃Ｏｐｔ和Ｆ⁃Ｏｐｔ算法的有效性进行了评估与分析。默认参数设置：ｄ＝３００ｍ，ｗ＝２０，ｋ＝４，ｋｆ＝３，Δｔ＝３ｈ，ｍ＝４。Ｈ⁃Ｏｐｔ与Ｆ⁃Ｏｐｔ的异常检测结果如图１所示。图１（ａ）描述的是变化参数ｋ对不同算法的有效性影响。可以发现，随着ｋ的增加，Ｈ⁃Ｏｐｔ和Ｆ⁃Ｏｐｔ检测出的异常率都呈线性增加，这是因为增加邻居点数量阈值ｋ会使较多的签到点被认定为Ｈ⁃Ｏｕｔｌｉｅｒ。由于Ｆ⁃Ｏｕｔｌｉｅｒ基于Ｈ⁃Ｏｕｔｌｉｅｒ，随着Ｈ⁃Ｏｕｔｌｉｅｒ数量的增加，Ｆ⁃Ｏｕｔｌｉｅｒ也会有所上升，这与它们定义相符。同时还可以发现，随着ｋ的增加，Ｆ⁃Ｏｐｔ算法与Ｈ⁃Ｏｐｔ算法在异常率检测上的差异不断增大，即Ｆ⁃Ｏｐｔ的异常误判率不断降低。当ｋ＝７时，降低的异常率已达到１．０９％，也就是说，Ｆ⁃ Ｏｕｔｌｉｅｒ有效排除了３０．２７％的伪异常。（ａ）参数ｋ对异常率的影响（ｂ）参数Ｗ对异常率的影响图１不同参数下的算法异常率Ｆｉｇ．１Ｏｕｔｌｉｅｒｒａｔｅｕｎｄｅｒｄｉｆｆｅｒｅｎｔｐａｒａｍｅｔｅｒｓ ·７５６· 智能系统学报第１２卷

第5期赵冠哲，等：移动社交网络异常签到在线检测算法 ·757. 图1(b)显示的是变化参数W对不同算法的有 5.2效率评估效性影响。由图1可以看出，随着W的增大，异常本节评估了滑动窗口W和邻居点数量k对H 率不断下降。这是因为当增大W时，邻居点的历史 Opt和F-Opt算法的消耗时间和内存的影响，并与签到时间范围也随之增加，从而签到的邻居点数量 LUE算法进行了对比分析。默认参数：d=300,k= 也会相应增加，使H-Outlier和F-Outlier的异常率随 3,△t=3h,m=4。之减少，这也与它们定义相符。同时可以看出，F 在图3(a)中，固定k=4,W从10变化到30，随 Opt的异常率明显低于H-Opt算法，这也证明了F- 着W的增加，3个算法消耗的时间都有所增加，这是 Outlier检测的有效性。因为窗口增加，都需要增加对异常点邻居搜索范为了更好地考察F-Opt算法的有效性，进一步围，而LUE需要计算当前签到点与窗口内所有签到对F-Opt算法进行了评估。图2是k、△t和m在不点的距离，所以导致了耗时较长。同时，随着窗口同组合时，F-Outlier相比H-Outlier降低的异常率情增长，H-Outlier和F-Outlier数量反而越少，虽然搜况。如图2(a)所示，当k,值从2变化到6时，考虑索邻居的范围增加导致了总消耗时间增加，但是由间接好友的F-Outlier进一步降低了H-Outlier的异于采用了优化的邻居搜索机制和最少邻居搜索机常率。共同好友的要求越低(m值越小)，异常的降制，仅有异常点增加了邻据搜索，因此，消耗的CPU时间低率越高，即伪异常越少，当m=2时，相对仅考虑增长越来越缓慢，而F-Opt算法需要再次检测的异常点直接好友，F-0 utlier异常的降低率平均提高了8%。图2(b)展示的是当k,=4时，△1从1~5变化，对算变少也使得消耗的时间越来越少。相比于LUE,F-Op 和H-0pt分别平均提升了2.342.45倍效率。在图3(b) 法异常降低率的影响。可以发现，随着△：的增加，异常的降低率在不断增大，这是因为搜索的时间区中固定W=20,k从2变化到6。随着k的增加，3个间增加，在时间区间内邻近签到好友的数量也在增算法消耗的CPU时间也逐渐增加。虽然F-Opt算加。同样地，考虑好友圈的F-Outlier减少了更多伪法需要重新检测更多H-Outlier异常，但F-Opt算法异常。在△t≤4时，F-Outlier减少的异常率变化不并没有快速增加时间消耗，仅平均增加了0.002ms。大，这也说明大多邻近好友的签到是在较短时间差这也体现了我们提出的基于触发的优化检测策略内完成。的作用。相比于LUE,F-Opt和H-Opt分别平均提升了2.31、2.36倍效率。 30 m=2 -=4 0.20 一无间接好友 0.18 --LUE 26 F-Opt 0.16 --H-Opt 24 0.14 0.12 0.10 20 0.08 2 3 4 5 0.06 △/h 10 15 20 25 30 (a)参数k,m对异常降低率的影响 WI个 (a)参数W对CPU消耗时间的影响 32 550r △-LUE F-Opt 30 +m=4 #-m=6 500 H-Opt 28 ◆无间接好友 450 26 400 24 350f 22 300 20 250 1 200 2 6 M个个 (b)参数△，m对异常降低率的影响 (b)参数k对CPU消耗时间的影响图2不同参数对F-Opt异常降低率的影响图3不同参数下的算法消耗的时间 Fig.2 F-Opt outlier decreasing rate w.r.t.different parameters Fig.3 CPU time w.r.t.different parameters

图１（ｂ）显示的是变化参数Ｗ对不同算法的有效性影响。由图１可以看出，随着Ｗ的增大，异常率不断下降。这是因为当增大Ｗ时，邻居点的历史签到时间范围也随之增加，从而签到的邻居点数量也会相应增加，使Ｈ⁃Ｏｕｔｌｉｅｒ和Ｆ⁃Ｏｕｔｌｉｅｒ的异常率随之减少，这也与它们定义相符。同时可以看出，Ｆ⁃ Ｏｐｔ的异常率明显低于Ｈ⁃Ｏｐｔ算法，这也证明了Ｆ⁃ Ｏｕｔｌｉｅｒ检测的有效性。为了更好地考察Ｆ⁃Ｏｐｔ算法的有效性，进一步对Ｆ⁃Ｏｐｔ算法进行了评估。图２是ｋｆ、Δｔ和ｍ在不同组合时，Ｆ⁃Ｏｕｔｌｉｅｒ相比Ｈ⁃Ｏｕｔｌｉｅｒ降低的异常率情况。如图２（ａ）所示，当ｋｆ值从２变化到６时，考虑间接好友的Ｆ⁃Ｏｕｔｌｉｅｒ进一步降低了Ｈ⁃Ｏｕｔｌｉｅｒ的异常率。共同好友的要求越低（ｍ值越小），异常的降低率越高，即伪异常越少，当ｍ＝２时，相对仅考虑直接好友，Ｆ⁃Ｏｕｔｌｉｅｒ异常的降低率平均提高了８％。图２（ｂ）展示的是当ｋｆ＝４时，Δｔ从１～５变化，对算法异常降低率的影响。可以发现，随着 Δｔ的增加，异常的降低率在不断增大，这是因为搜索的时间区间增加，在时间区间内邻近签到好友的数量也在增加。同样地，考虑好友圈的Ｆ⁃Ｏｕｔｌｉｅｒ减少了更多伪异常。在 Δｔ ≤ ４时，Ｆ⁃Ｏｕｔｌｉｅｒ减少的异常率变化不大，这也说明大多邻近好友的签到是在较短时间差内完成。（ａ）参数ｋｆ、ｍ对异常降低率的影响（ｂ）参数 Δｔ、ｍ对异常降低率的影响图２不同参数对Ｆ⁃Ｏｐｔ异常降低率的影响Ｆｉｇ．２Ｆ⁃Ｏｐｔｏｕｔｌｉｅｒｄｅｃｒｅａｓｉｎｇｒａｔｅｗ．ｒ．ｔ．ｄｉｆｆｅｒｅｎｔｐａｒａｍｅｔｅｒｓ５．２效率评估本节评估了滑动窗口Ｗ和邻居点数量ｋ对Ｈ⁃ Ｏｐｔ和Ｆ⁃Ｏｐｔ算法的消耗时间和内存的影响，并与ＬＵＥ算法进行了对比分析。默认参数：ｄ＝３００，ｋｆ＝３， Δｔ＝３ｈ，ｍ＝４。在图３（ａ）中，固定ｋ＝４，Ｗ从１０变化到３０，随着Ｗ的增加，３个算法消耗的时间都有所增加，这是因为窗口增加，都需要增加对异常点邻居搜索范围，而ＬＵＥ需要计算当前签到点与窗口内所有签到点的距离，所以导致了耗时较长。同时，随着窗口增长，Ｈ⁃Ｏｕｔｌｉｅｒ和Ｆ⁃Ｏｕｔｌｉｅｒ数量反而越少，虽然搜索邻居的范围增加导致了总消耗时间增加，但是由于采用了优化的邻居搜索机制和最少邻居搜索机制，仅有异常点增加了邻居搜索，因此，消耗的ＣＰＵ时间增长越来越缓慢，而Ｆ⁃Ｏｐｔ算法需要再次检测的异常点变少也使得消耗的时间越来越少。相比于ＬＵＥ，Ｆ⁃Ｏｐｔ和Ｈ⁃Ｏｐｔ分别平均提升了２．３４、２．４５倍效率。在图３（ｂ）中固定Ｗ＝２０，ｋ从２变化到６。随着ｋ的增加，３个算法消耗的ＣＰＵ时间也逐渐增加。虽然Ｆ⁃Ｏｐｔ算法需要重新检测更多Ｈ⁃Ｏｕｔｌｉｅｒ异常，但Ｆ⁃Ｏｐｔ算法并没有快速增加时间消耗，仅平均增加了０．００２ｍｓ。这也体现了我们提出的基于触发的优化检测策略的作用。相比于ＬＵＥ，Ｆ⁃Ｏｐｔ和Ｈ⁃Ｏｐｔ分别平均提升了２．３１、２．３６倍效率。（ａ）参数Ｗ对ＣＰＵ消耗时间的影响（ｂ）参数ｋ对ＣＰＵ消耗时间的影响图３不同参数下的算法消耗的时间Ｆｉｇ．３ＣＰＵｔｉｍｅｗ．ｒ．ｔ．ｄｉｆｆｅｒｅｎｔｐａｒａｍｅｔｅｒｓ第５期赵冠哲，等：移动社交网络异常签到在线检测算法 ·７５７·

·758· 智能系统学报第12卷在内存方面，如图4所示，随着W的增加，3个 0.10r 。无间接好友算法消耗的内存也逐渐增加。这是因为随着滑动 ◆-m-6 0.09 窗口的增长，窗口内存储的签到点也随之增多。 LUE算法需要储存窗口存储所有签到点的邻居点， 0.08 消耗的内存较多。H-Opt和F-Opt消耗内存较少，这 0.07 是因为采用了优化的邻居搜索机制和最少邻居搜 0.061 索机制。由于增加了F-Outlier好友圈的邻近签到存储，F-Opt略高于H-Opt。 0.05 k,/个 0.24f -LUE 0.22 F-Opt (a)参数k,和m 0.20 -H-Opt 018 0.10m 6-无间接好友 +m=6 0.14 0.09 "-m=4 012 4-m=2 0.10 0.08 0.08 0.06 0.07 材个 0.06 图4参数W和k变化下内存的消耗情况 0.05 Fig.4 Memory w.r.t.parameter W and k 3 4 △h 随着k的增加，3个算法消耗的内存也在增加。 (b)参数△和m 这是因为所有算法都需要寻找更多的邻居。H-Opl 图5不同参数变化的算法CPU时间和F-Opt消耗内存增长缓慢，这是因为H-Opt算法 Fig.5 CPU time w.r.t.different parameters 采用最少邻居点搜索机制，随着k值的增加，在H- Opt算法中需要存储的自身签到点也随之增加。相 6 结束语比于LUE,F-Opt和H-0pt分别平均减少了30%和本文提出了一种针对移动社交网络异常签到 32%的内存消耗。位置的在线检测方法。基于距离的异常检测，定义接下来，进一步评估了参数m、k和△t对F-Opt 了基于历史位置和基于好友圈的两种异常签到模算法效率的影响。我们测试了变化k和△1对多个型。然后，针对两种异常签到模型，分别提出了优 m值下F-Opt算法效率的影响，如图5所示。固定化的检测算法，从签到位置的状态模型、优化的邻 W=20,k=4,d=300,在图5(a)中固定△t=3h,在居搜索机制和基于时间触发的检测机制方面有效图5(b)中固定k=3,可以看出，随着k,和△1增加，降低了检测时间。最后，在真实的移动社交网络用 F-Opt消耗的CPU时间都逐渐增加。这是因为k 户签到数据集上，验证了所提模型与算法的有效性增加，使得邻近签到好友搜索的个数增加：△1增加和效率。下一步将结合用户的操作行为进一步研使得时间区间增加。因此消耗的CPU时间也要相究有效的移动社交网络异常检测方法。应增加。同时也发现，不考虑间接好友时的F-Opt 参考文献：算法消耗最多时间，考虑间接好友时共同好友数量 [1]於志文，周兴社，郭斌.移动社交网络中的感知计算模 m值越少，使用的检测时间越少。这是因为m值越型、平台与实践[J].中国计算机学会通讯，2012,8(5)：小，Nt(u)集合越大，虽然搜索范围增加了，伪异常 15-21. 也增多了，由于我们采用了历史邻近好友优先原则 [2]WE ARE SOCIAL LTD.DIGITAL IN 2016[EB/OL ] 和基于触发的检测机制，可快速发现伪异常，有效 [2017-03-10].http://wearesocial.com/uk/special-reports/ digital-in-2016. 提升了算法检测效率。结合图2的实验结果可以说 [3]ZHENG Yu,XIE X.Location-based social networks: 明，在移动社交网络异常签到检测中考虑用户间接 locations[].Computing with spatial trajectories,2011: 好友的必要性和优势。 277-308

在内存方面，如图４所示，随着Ｗ的增加，３个算法消耗的内存也逐渐增加。这是因为随着滑动窗口的增长，窗口内存储的签到点也随之增多。ＬＵＥ算法需要储存窗口存储所有签到点的邻居点，消耗的内存较多。Ｈ⁃Ｏｐｔ和Ｆ⁃Ｏｐｔ消耗内存较少，这是因为采用了优化的邻居搜索机制和最少邻居搜索机制。由于增加了Ｆ⁃Ｏｕｔｌｉｅｒ好友圈的邻近签到存储，Ｆ⁃Ｏｐｔ略高于Ｈ⁃Ｏｐｔ。图４参数Ｗ和ｋ变化下内存的消耗情况Ｆｉｇ．４Ｍｅｍｏｒｙｗ．ｒ．ｔ．ｐａｒａｍｅｔｅｒＷａｎｄｋ随着ｋ的增加，３个算法消耗的内存也在增加。这是因为所有算法都需要寻找更多的邻居。Ｈ⁃Ｏｐｔ和Ｆ⁃Ｏｐｔ消耗内存增长缓慢，这是因为Ｈ⁃Ｏｐｔ算法采用最少邻居点搜索机制，随着ｋ值的增加，在Ｈ⁃ Ｏｐｔ算法中需要存储的自身签到点也随之增加。相比于ＬＵＥ，Ｆ⁃Ｏｐｔ和Ｈ⁃Ｏｐｔ分别平均减少了３０％和３２％的内存消耗。接下来，进一步评估了参数ｍ、ｋｆ和 Δｔ对Ｆ⁃Ｏｐｔ算法效率的影响。我们测试了变化ｋｆ和 Δｔ对多个ｍ值下Ｆ⁃Ｏｐｔ算法效率的影响，如图５所示。固定Ｗ＝２０，ｋ＝４，ｄ＝３００，在图５（ａ）中固定 Δｔ＝３ｈ，在图５（ｂ）中固定ｋｆ＝３，可以看出，随着ｋｆ和 Δｔ增加，Ｆ⁃Ｏｐｔ消耗的ＣＰＵ时间都逐渐增加。这是因为ｋｆ增加，使得邻近签到好友搜索的个数增加； Δｔ增加使得时间区间增加。因此消耗的ＣＰＵ时间也要相应增加。同时也发现，不考虑间接好友时的Ｆ⁃Ｏｐｔ算法消耗最多时间，考虑间接好友时共同好友数量ｍ值越少，使用的检测时间越少。这是因为ｍ值越小，Ｎｅｔ（ｕ）集合越大，虽然搜索范围增加了，伪异常也增多了，由于我们采用了历史邻近好友优先原则和基于触发的检测机制，可快速发现伪异常，有效提升了算法检测效率。结合图２的实验结果可以说明，在移动社交网络异常签到检测中考虑用户间接好友的必要性和优势。（ａ）参数ｋｆ和ｍ（ｂ）参数 Δｔ和ｍ图５不同参数变化的算法ＣＰＵ时间Ｆｉｇ．５ＣＰＵｔｉｍｅｗ．ｒ．ｔ．ｄｉｆｆｅｒｅｎｔｐａｒａｍｅｔｅｒｓ６结束语本文提出了一种针对移动社交网络异常签到位置的在线检测方法。基于距离的异常检测，定义了基于历史位置和基于好友圈的两种异常签到模型。然后，针对两种异常签到模型，分别提出了优化的检测算法，从签到位置的状态模型、优化的邻居搜索机制和基于时间触发的检测机制方面有效降低了检测时间。最后，在真实的移动社交网络用户签到数据集上，验证了所提模型与算法的有效性和效率。下一步将结合用户的操作行为进一步研究有效的移动社交网络异常检测方法。参考文献：［１］於志文，周兴社，郭斌．移动社交网络中的感知计算模型、平台与实践［Ｊ］．中国计算机学会通讯，２０１２，８（５）：１５－２１．［２］ＷＥＡＲＥＳＯＣＩＡＬＬＴＤ．ＤＩＧＩＴＡＬＩＮ２０１６［ＥＢ／ＯＬ］．［２０１７⁃０３⁃１０］．ｈｔｔｐ：／／ｗｅａｒｅｓｏｃｉａｌ．ｃｏｍ／ｕｋ／ｓｐｅｃｉａｌ⁃ｒｅｐｏｒｔｓ／ｄｉｇｉｔａｌ⁃ｉｎ－２０１６．［３］ＺＨＥＮＧＹｕ，ＸＩＥＸ．Ｌｏｃａｔｉｏｎ⁃ｂａｓｅｄｓｏｃｉａｌｎｅｔｗｏｒｋｓ：ｌｏｃａｔｉｏｎｓ［Ｊ］．Ｃｏｍｐｕｔｉｎｇｗｉｔｈｓｐａｔｉａｌｔｒａｊｅｃｔｏｒｉｅｓ，２０１１：２７７－３０８． ·７５８· 智能系统学报第１２卷

第5期赵冠哲，等：移动社交网络异常签到在线检测算法 ·759· [4]萧世掄.基于位置服务与人类活动的关系和影响[J].中 [15 LEE J G,HAN J,LI X.Trajectory outlier detection: 国计算机学会通讯，2010,6(6)：30-35. a partition-and-detect framework[C]//International Confe- [5]张玉清，吕少卿，范丹.在线社交网络中异常帐号检测 rence on Data Engineering.Cancun,Mexico,2008: 方法研究[J].计算机学报，2015,38(10)：2011-2027. 140-149. ZHANG Yuqing,LV Shaoqing,FAN Dan.Anomaly detection [16]BU Yingyi,CHEN L.FU W C,et al.Efficient anomaly in online social networks[].Chinese journal of computers, monitoring over moving object trajectory streams[C]// 2015,38(10):2011-2027. ACM SIGKDD International Conference on Knowledge [6]CHO E.MYERS S A,LESKOVEC J.Friendship and Discovery and Data Mining.Paris.France,2009: mobility:user movement in location-based social networks 159-168. [C ]//ACM SIGKDD International Conference on [17]YU Yanwei,CAO Lei,RUNDENSTEINER E A,et al. Knowledge Discovery and Data Mining.San Diego,USA, Detecting moving object outliers in massive-scale 2011:1082-1090. trajectory streams C ]//ACM SIGKDD International [7]KNORR E M,NG R T.Algorithms for mining distance- Conference on Knowledge Discovery and Data Mining. based outliers in large datasets [C]//International New York,USA,2014:422-431. Conference on Very Large Data Bases.New York,USA, 1998:392-403. [18]LI Zhenhui,WANG J,Han J.Mining event periodicity [8]KNORR E M,NG R T,TUCAKOV V.Distance-based from incomplete observations C ]/ACM SIGKDD outliers:algorithms and applications [J].Vldb journal, International Conference on Knowledge Discovery and 2000,8(3/4):237-253. Data Mining.Beijing,China,2012:444-452. [9 RAMASWAMY S,RASTOGI R,SHIM K.Efficient 作者简介： algorithms for mining outliers from large data sets[C]/ 赵冠哲，男，1992年生，硕士研究 ACM SIGMOD International Conference on Management of 生，主要研究方向为数据挖掘。 Data.Dallas,USA,2000:427-438. [10]BREUNIG MARKUS M.LOF:identifying density-based local outliers[J].ACM sigmod record,2000,29(2): 93-104. [11]YANG D,RUNDENSTEINER E A,Ward M O.Neighbor- based pattern detection for windows over streaming data 齐建鹏，男，1992年生，硕士研究 [C]//International Conference on Extending Database 生，主要研究方向为数据挖掘。 Technology:Advances in Database Technology.Saint Petersburg,Russia,2009:529-540. [12 ANGIULLI F,FASSETTI F.Detecting distance-based outliers in streams of data C]//Sixteenth ACM Conference on Conference on Information and Knowledge Management.Lisboa,Portugal,2007:811-820. 于彦伟，男，1986年生，讲师，博士 [13]KONTAKI M,GOUNARIS A.PAPADOPOULOS A N,et 主要研究方向为时空数据挖掘、流式数 al.Continuous monitoring of distance-based outliers over data streams[C]//IEEE,International Conference on 据处理、分布式计算。主持国家自然科学基金青年基金1项，参与国家自然科 Data Engineering.Hannover,Germany,2011:135-146. 学基金面上项目1项，山东省重点研发 [14]CAO L,YANG D,WANG Q,et al.Scalable distance- 计划项目1项。发表学术论文30余篇。 based outlier detection over high-volume data streams [C]//International Conference on Data Engineering. Chicago,USA,2014:76-87

［４］萧世埨．基于位置服务与人类活动的关系和影响［Ｊ］．中国计算机学会通讯，２０１０，６（６）：３０－３５．［５］张玉清，吕少卿，范丹．在线社交网络中异常帐号检测方法研究［Ｊ］．计算机学报，２０１５，３８（１０）：２０１１－２０２７．ＺＨＡＮＧＹｕｑｉｎｇ，ＬＶＳｈａｏｑｉｎｇ，ＦＡＮＤａｎ．Ａｎｏｍａｌｙｄｅｔｅｃｔｉｏｎｉｎｏｎｌｉｎｅｓｏｃｉａｌｎｅｔｗｏｒｋｓ［Ｊ］．Ｃｈｉｎｅｓｅｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒｓ，２０１５，３８（１０）：２０１１－２０２７．［６］ＣＨＯＥ，ＭＹＥＲＳＳＡ，ＬＥＳＫＯＶＥＣＪ．Ｆｒｉｅｎｄｓｈｉｐａｎｄｍｏｂｉｌｉｔｙ：ｕｓｅｒｍｏｖｅｍｅｎｔｉｎｌｏｃａｔｉｏｎ⁃ｂａｓｅｄｓｏｃｉａｌｎｅｔｗｏｒｋｓ［Ｃ］／／ＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．ＳａｎＤｉｅｇｏ，ＵＳＡ，２０１１：１０８２－１０９０．［７］ＫＮＯＲＲＥＭ，ＮＧＲＴ．Ａｌｇｏｒｉｔｈｍｓｆｏｒｍｉｎｉｎｇｄｉｓｔａｎｃｅ⁃ ｂａｓｅｄｏｕｔｌｉｅｒｓｉｎｌａｒｇｅｄａｔａｓｅｔｓ［Ｃ］／／ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＶｅｒｙＬａｒｇｅＤａｔａＢａｓｅｓ．ＮｅｗＹｏｒｋ，ＵＳＡ，１９９８：３９２－４０３．［８］ＫＮＯＲＲＥＭ，ＮＧＲＴ，ＴＵＣＡＫＯＶＶ．Ｄｉｓｔａｎｃｅ－ｂａｓｅｄｏｕｔｌｉｅｒｓ：ａｌｇｏｒｉｔｈｍｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ［Ｊ］．Ｖｌｄｂｊｏｕｒｎａｌ，２０００，８（３／４）：２３７－２５３．［９］ＲＡＭＡＳＷＡＭＹＳ，ＲＡＳＴＯＧＩＲ，ＳＨＩＭＫ．Ｅｆｆｉｃｉｅｎｔａｌｇｏｒｉｔｈｍｓｆｏｒｍｉｎｉｎｇｏｕｔｌｉｅｒｓｆｒｏｍｌａｒｇｅｄａｔａｓｅｔｓ［Ｃ］／／ＡＣＭＳＩＧＭＯＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．Ｄａｌｌａｓ，ＵＳＡ，２０００：４２７－４３８．［１０］ＢＲＥＵＮＩＧＭＡＲＫＵＳＭ．ＬＯＦ：ｉｄｅｎｔｉｆｙｉｎｇｄｅｎｓｉｔｙ－ｂａｓｅｄｌｏｃａｌｏｕｔｌｉｅｒｓ［Ｊ］．ＡＣＭｓｉｇｍｏｄｒｅｃｏｒｄ，２０００，２９（２）：９３－１０４．［１１］ＹＡＮＧＤ，ＲＵＮＤＥＮＳＴＥＩＮＥＲＥＡ，ＷａｒｄＭＯ．Ｎｅｉｇｈｂｏｒ⁃ ｂａｓｅｄｐａｔｔｅｒｎｄｅｔｅｃｔｉｏｎｆｏｒｗｉｎｄｏｗｓｏｖｅｒｓｔｒｅａｍｉｎｇｄａｔａ［Ｃ］／／ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＥｘｔｅｎｄｉｎｇＤａｔａｂａｓｅＴｅｃｈｎｏｌｏｇｙ：ＡｄｖａｎｃｅｓｉｎＤａｔａｂａｓｅＴｅｃｈｎｏｌｏｇｙ．ＳａｉｎｔＰｅｔｅｒｓｂｕｒｇ，Ｒｕｓｓｉａ，２００９：５２９－５４０．［１２］ＡＮＧＩＵＬＬＩＦ，ＦＡＳＳＥＴＴＩＦ．Ｄｅｔｅｃｔｉｎｇｄｉｓｔａｎｃｅ⁃ｂａｓｅｄｏｕｔｌｉｅｒｓｉｎｓｔｒｅａｍｓｏｆｄａｔａ［Ｃ］／／ＳｉｘｔｅｅｎｔｈＡＣＭＣｏｎｆｅｒｅｎｃｅｏｎＣｏｎｆｅｒｅｎｃｅｏｎＩｎｆｏｒｍａｔｉｏｎａｎｄＫｎｏｗｌｅｄｇｅＭａｎａｇｅｍｅｎｔ．Ｌｉｓｂｏａ，Ｐｏｒｔｕｇａｌ，２００７：８１１－８２０．［１３］ＫＯＮＴＡＫＩＭ，ＧＯＵＮＡＲＩＳＡ，ＰＡＰＡＤＯＰＯＵＬＯＳＡＮ，ｅｔａｌ．Ｃｏｎｔｉｎｕｏｕｓｍｏｎｉｔｏｒｉｎｇｏｆｄｉｓｔａｎｃｅ－ｂａｓｅｄｏｕｔｌｉｅｒｓｏｖｅｒｄａｔａｓｔｒｅａｍｓ［Ｃ］／／ＩＥＥＥ，ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＥｎｇｉｎｅｅｒｉｎｇ．Ｈａｎｎｏｖｅｒ，Ｇｅｒｍａｎｙ，２０１１：１３５－１４６．［１４］ＣＡＯＬ，ＹＡＮＧＤ，ＷＡＮＧＱ，ｅｔａｌ．Ｓｃａｌａｂｌｅｄｉｓｔａｎｃｅ⁃ ｂａｓｅｄｏｕｔｌｉｅｒｄｅｔｅｃｔｉｏｎｏｖｅｒｈｉｇｈ⁃ｖｏｌｕｍｅｄａｔａｓｔｒｅａｍｓ［Ｃ］／／ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＥｎｇｉｎｅｅｒｉｎｇ．Ｃｈｉｃａｇｏ，ＵＳＡ，２０１４：７６－８７．［１５］ＬＥＥＪＧ，ＨＡＮＪ，ＬＩＸ．Ｔｒａｊｅｃｔｏｒｙｏｕｔｌｉｅｒｄｅｔｅｃｔｉｏｎ：ａｐａｒｔｉｔｉｏｎ⁃ ａｎｄ⁃ｄｅｔｅｃｔｆｒａｍｅｗｏｒｋ［Ｃ］／／ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅ⁃ ｒｅｎｃｅｏｎＤａｔａＥｎｇｉｎｅｅｒｉｎｇ．Ｃａｎｃｕｎ，Ｍｅｘｉｃｏ，２００８：１４０－１４９．［１６］ＢＵＹｉｎｇｙｉ，ＣＨＥＮＬ，ＦＵＷＣ，ｅｔａｌ．Ｅｆｆｉｃｉｅｎｔａｎｏｍａｌｙｍｏｎｉｔｏｒｉｎｇｏｖｅｒｍｏｖｉｎｇｏｂｊｅｃｔｔｒａｊｅｃｔｏｒｙｓｔｒｅａｍｓ［Ｃ］／／ＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．Ｐａｒｉｓ，Ｆｒａｎｃｅ，２００９：１５９－１６８．［１７］ＹＵＹａｎｗｅｉ，ＣＡＯＬｅｉ，ＲＵＮＤＥＮＳＴＥＩＮＥＲＥＡ，ｅｔａｌ．Ｄｅｔｅｃｔｉｎｇｍｏｖｉｎｇｏｂｊｅｃｔｏｕｔｌｉｅｒｓｉｎｍａｓｓｉｖｅ⁃ｓｃａｌｅｔｒａｊｅｃｔｏｒｙｓｔｒｅａｍｓ［Ｃ］／／ＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ，ＵＳＡ，２０１４：４２２－４３１．［１８］ＬＩＺｈｅｎｈｕｉ，ＷＡＮＧＪ，ＨａｎＪ．Ｍｉｎｉｎｇｅｖｅｎｔｐｅｒｉｏｄｉｃｉｔｙｆｒｏｍｉｎｃｏｍｐｌｅｔｅｏｂｓｅｒｖａｔｉｏｎｓ［Ｃ］／／ＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ，２０１２：４４４－４５２．作者简介：赵冠哲，男，１９９２年生，硕士研究生，主要研究方向为数据挖掘。齐建鹏，男，１９９２年生，硕士研究生，主要研究方向为数据挖掘。于彦伟，男，１９８６年生，讲师，博士，主要研究方向为时空数据挖掘、流式数据处理、分布式计算。主持国家自然科学基金青年基金１项，参与国家自然科学基金面上项目１项，山东省重点研发计划项目１项。发表学术论文３０余篇。第５期赵冠哲，等：移动社交网络异常签到在线检测算法 ·７５９·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录