正在加载图片...
·266 智能系统学报 第11卷 1 用户社会行为数据的相似分组算法 时间内,相邻或相近的GPS轨迹点的集合Sz= (P:,P+1,…,P),满足条件Dist(P:,P)≤4, 算法的主要思路是通过对采集得到的用户每日 Dist(P:,P)>8a,Int(P:,P)≥0,,其中0为驻留 上下班GPS轨迹数据进行分析,按照用户工作时 区域直径,0,为驻留区域时长,Dist(P,P)为 间、城市、地点、交通工具等用户特征进行个性化建 (P:,P)两点间的欧氏距离,Int(P:,P)为P:·t与 模,并对此模型进行量化分析处理,计算用户在社会 P.·t时间间隔,i≤k<j。 工作方面的相似程度,最终将具有相似工作环境和 用户驻点:用户驻点Sp=(x,y,tm,tm)指的是 工作压力的用户构建为基于用户社会行为数据的相 似用户组,进而实现相似用户组内的职场心理与健 驻留区域的几何中心,其中Sp·x=∑P·x/P|, r=i 康指导信息共享,达到个性化推荐的目的。其工作 Sp.y=Py/Pl,Sp.t =P:.t,Sp.tm=Pt 流程如图1所示,首先通过用户的多条GPS轨迹数 k-j 据结合地区P0I数据库确定用户的工作类型,然后 且Pg∈Sz。 根据GPS轨迹的时间序列和用户使用交通工具情 况折算出用户工作压力并分组。为了获得用户的工 作类型并使得用户的历史位置具有可比较性,拟利 用用户驻点区域特征向量描述POI数据与用户空 间位置的语义联系。此外,还通过有限的GPS数据 信息推断用户可能的收入和工作时间特征,并形成 图2一组GPS轨迹 可表示用户工作压力的向量,最终通过用户工作类 Fig.2 A GPS track 型和向量夹角实现对用户的分类。 如图2中{P,P2,…,P1}为智能终端采集得 用户移动 用户移动 到的一组GPS轨迹,则4≤k<9时有 轨迹序列 序列 Dist(P,P)0,Dist(P,P)>0,Int(P,Ps) 用户驻点 交通工具 用户工作 日,故驻留区域应从{P4,P,P6,P,Ps}计算,并得 区域 使用情况 压力模型 到图中以三角号表示的用户驻点S即。驻留区域直 POI 用户驻点 用户工作 径和驻留区域时长的取值应该根据用户所在地区的 信息库 特征向量 类型 环境特点进行设置,如当用户活动范围位于城市中 图1算法的工作流程 心时,驻留区域直径应设置在200m左右为宜,而当 Fig.1 Algorithm of workflow 用户活动范围位于城乡结合部或者远离城市时,驻 1.1用户轨迹处理 留区域直径应设置在500m左右为宜,与此同时在 用户的移动轨迹信息通常是GPS移动终端采 大多数情况下驻留区域时长应保证大于半小时,以 集并处理得到,其中包含采样点的坐标信息、采集时 上设置有利于更加准确地从众多轨迹信息中找到可 间以及位移速度等,属于瞬时离散型数据,在每次采 描述用户工作地点的用户驻点。 集后采集设备均有一段静默期:在实际采集过程中 通过以上定义可知,从用户移动终端采集的 由于环境复杂导致所采集的时间和坐标具有一定的 GPS数据中提取到一些关键信息,通过计算用户从 不准确性,数据往往有一定的时间和坐标偏差。因 一个驻点到另一个驻点的时间差得知用户的行程时 此用户移动轨迹数据用于判断用户驻点区域特征是 间(如上班时间),也可以通过计算用户在驻点内的 要充分考虑定位偏差与精度对结果的影响,移动终 驻留时间差得知用户驻留时间(如工作时间)。当 端采集的用户日常上下班的GPS轨迹数据采用下 然用户驻点与现实生活中具体地点的关系仍需要进 述方法处理得到用户的工作轨迹信息。其中重要的 一步确认。 定义包括: 1.2用户在驻点区域的行为建模 GPS轨迹:GPS,是一系列与时间相关的GPS 用户驻点可以粗略地表明用户每次移动的起止 轨迹点的序列GPS,=(P1,P2,P3,…,Pn),其中 地点以及移动的起止时间,结合POI数据可以进一 GPS轨迹点P:=(x,y,t)(1≤i≤n),其中 步得到用户移动起止地点的详细信息,为驻留区域 (x,y)分别表示采集数据的经度和纬度、t表示采 语义提取提供数据基础。每条POI数据内容包含 集数据的时间且满足条件P:·t<P:1 信息点名称、类别、经度和纬度及其他说明等相关地 t(1≤i≤n-1)。 驻留区域:GPS驻留区域Sz指的是一组在一定 理信息。1 用户社会行为数据的相似分组算法 算法的主要思路是通过对采集得到的用户每日 上下班 GPS 轨迹数据进行分析,按照用户工作时 间、城市、地点、交通工具等用户特征进行个性化建 模,并对此模型进行量化分析处理,计算用户在社会 工作方面的相似程度,最终将具有相似工作环境和 工作压力的用户构建为基于用户社会行为数据的相 似用户组,进而实现相似用户组内的职场心理与健 康指导信息共享,达到个性化推荐的目的。 其工作 流程如图 1 所示,首先通过用户的多条 GPS 轨迹数 据结合地区 POI 数据库确定用户的工作类型,然后 根据 GPS 轨迹的时间序列和用户使用交通工具情 况折算出用户工作压力并分组。 为了获得用户的工 作类型并使得用户的历史位置具有可比较性,拟利 用用户驻点区域特征向量描述 POI 数据与用户空 间位置的语义联系。 此外,还通过有限的 GPS 数据 信息推断用户可能的收入和工作时间特征,并形成 可表示用户工作压力的向量,最终通过用户工作类 型和向量夹角实现对用户的分类。 图 1 算法的工作流程 Fig.1 Algorithm of workflow 1.1 用户轨迹处理 用户的移动轨迹信息通常是 GPS 移动终端采 集并处理得到,其中包含采样点的坐标信息、采集时 间以及位移速度等,属于瞬时离散型数据,在每次采 集后采集设备均有一段静默期;在实际采集过程中 由于环境复杂导致所采集的时间和坐标具有一定的 不准确性,数据往往有一定的时间和坐标偏差。 因 此用户移动轨迹数据用于判断用户驻点区域特征是 要充分考虑定位偏差与精度对结果的影响,移动终 端采集的用户日常上下班的 GPS 轨迹数据采用下 述方法处理得到用户的工作轨迹信息。 其中重要的 定义包括: GPS 轨迹: GPSt 是一系列与时间相关的 GPS 轨迹点的序列 GPSt = P1 ,P2 ,P3 ,…,Pn ( ) , 其中 GPS 轨 迹 点 Pi = (x,y,t) (1 ≤ i ≤ n) , 其 中 (x,y) 分别表示采集数据的经度和纬度、 t 表示采 集数 据 的 时 间 且 满 足 条 件 Pi · t < Pi+1 · t(1 ≤ i ≤ n - 1) 。 驻留区域:GPS 驻留区域 Sz 指的是一组在一定 时间内, 相邻或相近的 GPS 轨迹点的集合 Sz = Pi,Pi+1 ,…,Pj ( ) , 满 足 条 件 Dist Pi,Pk ( ) ≤ θd , Dist Pi,Pj ( ) > θd ,Int Pi,Pj ( ) ≥ θt ,其中 θd 为驻留 区域 直 径, θt 为 驻 留 区 域 时 长, Dist Pi,Pj ( ) 为 Pi,Pj ( ) 两点间的欧氏距离, Int Pi,Pj ( ) 为 Pi·t 与 Pj·t 时间间隔, i ≤ k < j 。 用户驻点:用户驻点 Sp = x,y,t in ,t out ( ) 指的是 驻留区域的几何中心,其中 Sp·x = ∑ i k = j Pk·x / P , Sp·y =∑ i k = j Pk·y / P , Sp·t in = Pi·t,Sp·t out = Pj·t 且 Pk ∈ Sz 。 图 2 一组 GPS 轨迹 Fig.2 A GPS track 如图 2 中{ P1 ,P2 ,…,P11 } 为智能终端采集得 到 的 一 组 GPS 轨 迹, 则 4 ≤ k < 9 时 有 Dist P4 ,Pk ( ) ≤ θd ,Dist P4 ,P9 ( ) > θd ,Int P4 ,P8 ( ) ≥ θt, 故驻留区域应从{ P4 ,P5 ,P6 ,P7 ,P8 } 计算,并得 到图中以三角号表示的用户驻点 Sp。 驻留区域直 径和驻留区域时长的取值应该根据用户所在地区的 环境特点进行设置,如当用户活动范围位于城市中 心时,驻留区域直径应设置在 200 m 左右为宜,而当 用户活动范围位于城乡结合部或者远离城市时,驻 留区域直径应设置在 500 m 左右为宜,与此同时在 大多数情况下驻留区域时长应保证大于半小时,以 上设置有利于更加准确地从众多轨迹信息中找到可 描述用户工作地点的用户驻点。 通过以上定义可知,从用户移动终端采集的 GPS 数据中提取到一些关键信息,通过计算用户从 一个驻点到另一个驻点的时间差得知用户的行程时 间(如上班时间),也可以通过计算用户在驻点内的 驻留时间差得知用户驻留时间(如工作时间)。 当 然用户驻点与现实生活中具体地点的关系仍需要进 一步确认。 1.2 用户在驻点区域的行为建模 用户驻点可以粗略地表明用户每次移动的起止 地点以及移动的起止时间,结合 POI 数据可以进一 步得到用户移动起止地点的详细信息,为驻留区域 语义提取提供数据基础。 每条 POI 数据内容包含 信息点名称、类别、经度和纬度及其他说明等相关地 理信息。 ·266· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有