用户驻点与ＰＯＩ数据往往不能简单地通过距离计算的方式建立关系。由于

正在加载图片...

第2期陈万志，等：基于用户移动轨迹的个性化健康建议推荐方法 ·267. 用户驻点与POI数据往往不能简单地通过距离种因素，故引入特征向量的定义计算的方式建立关系。由于驻留区域直径和驻留区特征向量：用一组向量f,=(01,02,…,w)表域时长的不当选取或实际生活中突发的事件，导致示用户驻点区域中兴趣点内容的集合，有用户在移动过程中的某些位置上停留了一段时间， ni R 产生了非目的地或出发地的驻点，如十字路口或车 w:=N×log同 (1) 站等：考虑到GPS定位误差和城市中密集分布的信式中：n:是该区域属于第i种类别的POI的数量和，息点，通过POI数据识别用户在驻点处访问的确切 N是位于该区域的POI的总量，R为用户驻点区域地点成了不可能完成的任务。一个GPS采集点数总数，r表示出现第i种POI类别的用户驻点区域数据可以具有10m或以上的位置偏差，而在其周围量。式(1)的第1部分表示一个类别i发生频率，第可以有多种的POI数据，而距离用户驻点最近的 2部分表示一个类别i在该用户整个驻点区域中 POI数据所代表的信息点可能不是用户真实访问的 POI类型总数1RI的逆向文件频率。地方，如在有些地方餐厅、商场和电影院重叠在同一根据式(1)用一个特征向量代表一个驻点区建筑物内，实际应用如图3所示。域，虽然还不能确切地确定用户访问的地点，但此特距离用户以用户驻点驻点最近为中心，2y 征向量在一定程度上可以代表用户位置的语义含的POI信为边长的正义，即该区域中具有哪些突出的P0I类别，进而可息点方形区域以推断该区域的功能类别。用户驻点用户实际其他POI 为了进一步推断出用户在驻留区域中的动作行访问地点信息点为（如工作、用餐、访友、居住等），还需要将该区域的功能类别与用户在该区域的驻留时间相结合，并图3用户驻点与POI信息点以24h为周期，对每天用户的驻点区域进行比较， Fig.3 Users stagnation and POI information point 即可筛选出用户日常工作的区域和用户临时停留的为了解决用户驻点与POI数据的内容的关联区域。考虑到目前存在着一些在非固定地点工作的问题，将用户驻点所代表的POI数据的驻点区域表用户，对于其中大多数用户来说，其所从事的工作性示为质往往相同，因此在对用户工作地点的查找方法上， [s·x-y,s·x+y]×[s·y-y,s·y+y] 使用基于特征向量的比较方式要比使用基于坐标位式中：y是一个与GPS相关的参数定位误差，则可置的比较方式更具说服力。采用T℉IDF的统计方法构建了一组特征向量表示利用余弦相似性原理可以对前述T℉-DF计算每个驻点区域所代表的兴趣点内容，用以评估字词方法产生的特征向量进行相似度比较，其原理为计对于一个文件集或一个语料库中的其中一份文件的算求得两组向量的夹角，并得出夹角对应的余弦值，重要程度。字词的重要性随着它在文件中出现的次用来表征这两个向量的相似性。夹角越小，余弦值数成正比增加，但同时会随着它在语料库中出现的越接近于1，它们的方向更加吻合，特征越相似。其频率成反比下降。同理，应用T℉-DF算法时把词的计算式为类别和用户驻点区域中兴趣点作为文档处理。直观 ∑。·0：×f·0) 地说，如果同一类兴趣点发生在同一个地区的频率 cos 0=- (2）较高，这该种类是该地区的典型代表。此外，有些 √∑f·G×√∑五·0 POI类型（如“博物馆”和“公园”）由于在城市建设由式(2)可以从用户驻点含义层面对同一用户的数量较少且分散，因此此种类型的兴趣点在城市出现的地区进行比较判断哪些区域可能是用户的工中出现的概率很少，而一些常见功能的兴趣点（如作区域，同时也需要从时间层面对同一用户的上班 “餐馆”)可以遍布在城市的任何角落。对于个人而规律进行比较，进一步确定哪些区域是用户的工作言，由于存在一定的生活规律和做事目的，在一定的区域。国内采用的标准工作时间制度是指职工每日生活规律条件下，每日访问的地点可能有所不同但工作8h,每周工作40h的工时制度，不同地区、不目的应该相近或相同，因此在判断哪些兴趣点是用同职业会导致工作时间有所变化，但大部分工作每户真正的移动目的地时应重点分析那些经常存在于日的作息时间相差不大，尤其是上班时间。与此同用户驻点区域的POI类型。综上，需要考虑一个时也应考虑到采用轮休或倒班制度的工作，因此在 POI类别在一个区域发生频率和其逆向文件频率两计算时间相似性时法定工作日与节假日是不区分用户驻点与ＰＯＩ数据往往不能简单地通过距离计算的方式建立关系。由于驻留区域直径和驻留区域时长的不当选取或实际生活中突发的事件，导致用户在移动过程中的某些位置上停留了一段时间，产生了非目的地或出发地的驻点，如十字路口或车站等；考虑到ＧＰＳ定位误差和城市中密集分布的信息点，通过ＰＯＩ数据识别用户在驻点处访问的确切地点成了不可能完成的任务。一个ＧＰＳ采集点数据可以具有１０ｍ或以上的位置偏差，而在其周围可以有多种的ＰＯＩ数据，而距离用户驻点最近的ＰＯＩ数据所代表的信息点可能不是用户真实访问的地方，如在有些地方餐厅、商场和电影院重叠在同一建筑物内，实际应用如图３所示。图３用户驻点与ＰＯＩ信息点Ｆｉｇ．３ＵｓｅｒｓｓｔａｇｎａｔｉｏｎａｎｄＰＯＩｉｎｆｏｒｍａｔｉｏｎｐｏｉｎｔ为了解决用户驻点与ＰＯＩ数据的内容的关联问题，将用户驻点所代表的ＰＯＩ数据的驻点区域表示为 [ｓ·ｘ－ γ，ｓ·ｘ＋ γ] × [ｓ·ｙ－ γ，ｓ·ｙ＋ γ] 式中： γ 是一个与ＧＰＳ相关的参数定位误差，则可采用ＴＦ⁃ＩＤＦ的统计方法构建了一组特征向量表示每个驻点区域所代表的兴趣点内容，用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。同理，应用ＴＦ⁃ＩＤＦ算法时把词的类别和用户驻点区域中兴趣点作为文档处理。直观地说，如果同一类兴趣点发生在同一个地区的频率较高，这该种类是该地区的典型代表。此外，有些ＰＯＩ类型（如“博物馆”和“公园”）由于在城市建设的数量较少且分散，因此此种类型的兴趣点在城市中出现的概率很少，而一些常见功能的兴趣点（如 “餐馆”）可以遍布在城市的任何角落。对于个人而言，由于存在一定的生活规律和做事目的，在一定的生活规律条件下，每日访问的地点可能有所不同但目的应该相近或相同，因此在判断哪些兴趣点是用户真正的移动目的地时应重点分析那些经常存在于用户驻点区域的ＰＯＩ类型。综上，需要考虑一个ＰＯＩ类别在一个区域发生频率和其逆向文件频率两种因素，故引入特征向量的定义特征向量：用一组向量ｆｒ＝（ｗ１，ｗ２，…，ｗｎ）表示用户驻点区域中兴趣点内容的集合，有ｗｉ＝ｎｉＮ × ｌｏｇＲｒ（１）式中：ｎｉ是该区域属于第ｉ种类别的ＰＯＩ的数量和，Ｎ是位于该区域的ＰＯＩ的总量，Ｒ为用户驻点区域总数，ｒ表示出现第ｉ种ＰＯＩ类别的用户驻点区域数量。式（１）的第１部分表示一个类别ｉ发生频率，第２部分表示一个类别ｉ在该用户整个驻点区域中ＰＯＩ类型总数｜Ｒ｜的逆向文件频率。根据式（１）用一个特征向量代表一个驻点区域，虽然还不能确切地确定用户访问的地点，但此特征向量在一定程度上可以代表用户位置的语义含义，即该区域中具有哪些突出的ＰＯＩ类别，进而可以推断该区域的功能类别。为了进一步推断出用户在驻留区域中的动作行为（如工作、用餐、访友、居住等），还需要将该区域的功能类别与用户在该区域的驻留时间相结合，并以２４ｈ为周期，对每天用户的驻点区域进行比较，即可筛选出用户日常工作的区域和用户临时停留的区域。考虑到目前存在着一些在非固定地点工作的用户，对于其中大多数用户来说，其所从事的工作性质往往相同，因此在对用户工作地点的查找方法上，使用基于特征向量的比较方式要比使用基于坐标位置的比较方式更具说服力。利用余弦相似性原理可以对前述ＴＦ⁃ＩＤＦ计算方法产生的特征向量进行相似度比较，其原理为计算求得两组向量的夹角，并得出夹角对应的余弦值，用来表征这两个向量的相似性。夹角越小，余弦值越接近于１，它们的方向更加吻合，特征越相似。其计算式为ｃｏｓ θ ＝ ∑ ｎ１（ｆａ·ｗｉ × ｆｂ·ｗｉ） ∑ ｎ１ｆａ·ｗ２ｉ × ∑ ｎ１ｆｂ·ｗ２ｉ（２）由式（２）可以从用户驻点含义层面对同一用户出现的地区进行比较判断哪些区域可能是用户的工作区域，同时也需要从时间层面对同一用户的上班规律进行比较，进一步确定哪些区域是用户的工作区域。国内采用的标准工作时间制度是指职工每日工作８ｈ，每周工作４０ｈ的工时制度，不同地区、不同职业会导致工作时间有所变化，但大部分工作每日的作息时间相差不大，尤其是上班时间。与此同时也应考虑到采用轮休或倒班制度的工作，因此在计算时间相似性时法定工作日与节假日是不区分第２期陈万志，等：基于用户移动轨迹的个性化健康建议推荐方法 ·２６７·

<<向上翻页向下翻页>>

点击下载：【机器学习】基于用户移动轨迹的个性化健康建议推荐方法编辑部