正在加载图片...
第2期 陈万志,等:基于用户移动轨迹的个性化健康建议推荐方法 ·269· 数Uoi之间的对应关系如表3所示。 据每个用户的出行轨迹起,点与终点判断出用户可能 4)基于用户社会行为数据的相似度比较 的大致职业类型,并记录此职业信息为用户属性:其 综合上述3个方面分析,由于在工作类型相同 次对这些标记有出行交通工具的轨迹进行基于用户 时用户的工作压力和工作时间具有可比性并能反映 社会行为数据的相似分组计算,计算时根据文献 用户在其行业中的压力情况,首先将用户按照工作 [16-17]的研究结论并考虑到所在城市的特点将算 类型进行分类,并根据利用余弦相似性原理计算各 法中的相关系数分别设置为:驻留区域直径日。= 分类中通过经济条件指数和加班指数形成的向量之 200m,驻留区域时长6,=30min,GPS定位误差参 间的夹角,最终确定哪些同类工作的用户相似,进而 数y=200m,依据用户驻点区域相似度cos0的阈 形成相似用户组。即 值进行用户驻点区域相似度的用户分组:最后将分 Ueci x Ueci2 Uoti x Uotiz 组结果与人工判别标记的职业类型相比较,通过分 cos @ (7) √/Ueci+Uoti×√Ueci+Uoti 类的准确率来评价此部分算法的优劣程度。算法的 式中:cosw可描述用户的工作压力情况,当用户收 处理流程如图4所示。 入较高且加班时间较少时该值会趋近于1,即表示 开始 用户工作压力较小:而当用户收入较低且加班时间 较长时该值会趋近于0,表示用户工作压力较大。 读人一组用户轨迹 表3用户加班时长与Uoi的对应关系 Table 3 Relationship with the user overtime and Uoti 移动轨迹预处理 用户加班工作时长/ 用户加班指数 小于0.5 0 计算驻点并依据参数 0.5-1 1 形成驻点区域 1-2 2 依据驻点区域内POI信息计算 2-3 3 驻点区域特征向量 大于3 4 3 算法测试与结果分析 一组结束 基于用户社会行为数据的相似分组算法测试采 Y 计算任意两组 用微软亚洲研究院的Geolife Data vl.31用户轨迹 特征向量夹角 数据集,其涵盖182个用户在2007年4月一2012年 依据特征向量夹角阈值 8月间的部分出行轨迹记录,其中不但包括GPS轨 形成用户工作类型相似分组 迹信息,如标记点时间序列、采集点纬度、经度和高 结束 度的信息序列,而且数据集中还包括73个用户由不 同的GPS采集设备记录并有多种采样频率的17621 图4用户工作类型分组流程图 条轨迹记录,其中91.5%的轨迹记录的采集频率比 Fig.4 The user type grouping flow chart 较密集,采集时间间隔每1~5s或每行进5~10m一 为测出用户驻点区域相似度cos日阈值的最佳 次,并标记了出行交通工具,如驾车、乘公共汽车、骑 值,在其他条件不变的情况下仅改变c0s0阈值,最 自行车和步行。为了能够与POI底图数据相对应, 终得出的用户工作类型分组准确率如图5。由结果 选取Geolife数据集中北京地区的轨迹信息,与百度 可知对于本次使用的测试数据而言,当cos0=0.85 地图API导出北京地区的POI数据相对应。由于 时所得到的用户工作类型分组准确率达到最高。 Geolife数据集中没有包含用户实际的工作压力情 90 况,因此无法对算法得出的分组结果进行量化分析, 80 但其中的有些部分可与现有文献资料中的算法对比 60 实现量化分析,因此算法的测试与结果分析分成两 50 部分进行。 3.1用户工作类型分组测试与分析 46.5 0.60.70.80.91.0 cos0阀值 首先在进行算法测试前将标记有出行交通工具 图5c0s0与分组准确率的关系 的相关用户轨迹进行整理,利用人工判别的方式根 Fig.5 Relations between the packet accuracy rate and cos数 Uoti 之间的对应关系如表 3 所示。 4)基于用户社会行为数据的相似度比较 综合上述 3 个方面分析,由于在工作类型相同 时用户的工作压力和工作时间具有可比性并能反映 用户在其行业中的压力情况,首先将用户按照工作 类型进行分类,并根据利用余弦相似性原理计算各 分类中通过经济条件指数和加班指数形成的向量之 间的夹角,最终确定哪些同类工作的用户相似,进而 形成相似用户组。 即 cos ω = Ueci 1 × Ueci 2 + Uoti 1 × Uoti 2 Ueci 2 1 + Uoti 2 1 × Ueci 2 2 + Uoti 2 2 (7) 式中: cos ω 可描述用户的工作压力情况,当用户收 入较高且加班时间较少时该值会趋近于 1,即表示 用户工作压力较小;而当用户收入较低且加班时间 较长时该值会趋近于 0,表示用户工作压力较大。 表 3 用户加班时长与 Uoti 的对应关系 Table 3 Relationship with the user overtime and Uoti 用户加班工作时长/ h 用户加班指数 小于 0.5 0 0.5-1 1 1-2 2 2-3 3 大于 3 4 3 算法测试与结果分析 基于用户社会行为数据的相似分组算法测试采 用微软亚洲研究院的 Geolife Data v1.3 [15] 用户轨迹 数据集,其涵盖 182 个用户在 2007 年 4 月—2012 年 8 月间的部分出行轨迹记录,其中不但包括 GPS 轨 迹信息,如标记点时间序列、采集点纬度、经度和高 度的信息序列,而且数据集中还包括 73 个用户由不 同的 GPS 采集设备记录并有多种采样频率的17 621 条轨迹记录,其中 91.5%的轨迹记录的采集频率比 较密集,采集时间间隔每 1~5 s 或每行进 5~10 m 一 次,并标记了出行交通工具,如驾车、乘公共汽车、骑 自行车和步行。 为了能够与 POI 底图数据相对应, 选取 Geolife 数据集中北京地区的轨迹信息,与百度 地图 API 导出北京地区的 POI 数据相对应。 由于 Geolife 数据集中没有包含用户实际的工作压力情 况,因此无法对算法得出的分组结果进行量化分析, 但其中的有些部分可与现有文献资料中的算法对比 实现量化分析,因此算法的测试与结果分析分成两 部分进行。 3.1 用户工作类型分组测试与分析 首先在进行算法测试前将标记有出行交通工具 的相关用户轨迹进行整理,利用人工判别的方式根 据每个用户的出行轨迹起点与终点判断出用户可能 的大致职业类型,并记录此职业信息为用户属性;其 次对这些标记有出行交通工具的轨迹进行基于用户 社会行为数据的相似分组计算,计算时根据文献 [16⁃17]的研究结论并考虑到所在城市的特点将算 法中的相关系数分别设置为:驻留区域直径 θd = 200 m ,驻留区域时长 θt = 30 min ,GPS 定位误差参 数 γ = 200 m ,依据用户驻点区域相似度 cos θ 的阈 值进行用户驻点区域相似度的用户分组;最后将分 组结果与人工判别标记的职业类型相比较,通过分 类的准确率来评价此部分算法的优劣程度。 算法的 处理流程如图 4 所示。 图 4 用户工作类型分组流程图 Fig.4 The user type grouping flow chart 为测出用户驻点区域相似度 cos θ 阈值的最佳 值,在其他条件不变的情况下仅改变 cos θ 阈值,最 终得出的用户工作类型分组准确率如图 5。 由结果 可知对于本次使用的测试数据而言,当 cos θ = 0.85 时所得到的用户工作类型分组准确率达到最高。 图 5 cos θ 与分组准确率的关系 Fig.5 Relations between the packet accuracy rate and cos θ 第 2 期 陈万志,等: 基于用户移动轨迹的个性化健康建议推荐方法 ·269·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有