正在加载图片...
第2期 陈万志,等:基于用户移动轨迹的个性化健康建议推荐方法 ·267. 用户驻点与POI数据往往不能简单地通过距离 种因素,故引入特征向量的定义 计算的方式建立关系。由于驻留区域直径和驻留区 特征向量:用一组向量f,=(01,02,…,w)表 域时长的不当选取或实际生活中突发的事件,导致 示用户驻点区域中兴趣点内容的集合,有 用户在移动过程中的某些位置上停留了一段时间, ni R 产生了非目的地或出发地的驻点,如十字路口或车 w:=N×log同 (1) 站等:考虑到GPS定位误差和城市中密集分布的信 式中:n:是该区域属于第i种类别的POI的数量和, 息点,通过POI数据识别用户在驻点处访问的确切 N是位于该区域的POI的总量,R为用户驻点区域 地点成了不可能完成的任务。一个GPS采集点数 总数,r表示出现第i种POI类别的用户驻点区域数 据可以具有10m或以上的位置偏差,而在其周围 量。式(1)的第1部分表示一个类别i发生频率,第 可以有多种的POI数据,而距离用户驻点最近的 2部分表示一个类别i在该用户整个驻点区域中 POI数据所代表的信息点可能不是用户真实访问的 POI类型总数1RI的逆向文件频率。 地方,如在有些地方餐厅、商场和电影院重叠在同一 根据式(1)用一个特征向量代表一个驻点区 建筑物内,实际应用如图3所示。 域,虽然还不能确切地确定用户访问的地点,但此特 距离用户 以用户驻点 驻点最近 为中心,2y 征向量在一定程度上可以代表用户位置的语义含 的POI信 为边长的正 义,即该区域中具有哪些突出的P0I类别,进而可 息点 方形区域 以推断该区域的功能类别。 用户驻点 用户实际 其他POI 为了进一步推断出用户在驻留区域中的动作行 访问地点 信息点 为(如工作、用餐、访友、居住等),还需要将该区域 的功能类别与用户在该区域的驻留时间相结合,并 图3用户驻点与POI信息点 以24h为周期,对每天用户的驻点区域进行比较, Fig.3 Users stagnation and POI information point 即可筛选出用户日常工作的区域和用户临时停留的 为了解决用户驻点与POI数据的内容的关联 区域。考虑到目前存在着一些在非固定地点工作的 问题,将用户驻点所代表的POI数据的驻点区域表 用户,对于其中大多数用户来说,其所从事的工作性 示为 质往往相同,因此在对用户工作地点的查找方法上, [s·x-y,s·x+y]×[s·y-y,s·y+y] 使用基于特征向量的比较方式要比使用基于坐标位 式中:y是一个与GPS相关的参数定位误差,则可 置的比较方式更具说服力。 采用T℉IDF的统计方法构建了一组特征向量表示 利用余弦相似性原理可以对前述T℉-DF计算 每个驻点区域所代表的兴趣点内容,用以评估字词 方法产生的特征向量进行相似度比较,其原理为计 对于一个文件集或一个语料库中的其中一份文件的 算求得两组向量的夹角,并得出夹角对应的余弦值, 重要程度。字词的重要性随着它在文件中出现的次 用来表征这两个向量的相似性。夹角越小,余弦值 数成正比增加,但同时会随着它在语料库中出现的 越接近于1,它们的方向更加吻合,特征越相似。其 频率成反比下降。同理,应用T℉-DF算法时把词的 计算式为 类别和用户驻点区域中兴趣点作为文档处理。直观 ∑。·0:×f·0) 地说,如果同一类兴趣点发生在同一个地区的频率 cos 0=- (2) 较高,这该种类是该地区的典型代表。此外,有些 √∑f·G×√∑五·0 POI类型(如“博物馆”和“公园”)由于在城市建设 由式(2)可以从用户驻点含义层面对同一用户 的数量较少且分散,因此此种类型的兴趣点在城市 出现的地区进行比较判断哪些区域可能是用户的工 中出现的概率很少,而一些常见功能的兴趣点(如 作区域,同时也需要从时间层面对同一用户的上班 “餐馆”)可以遍布在城市的任何角落。对于个人而 规律进行比较,进一步确定哪些区域是用户的工作 言,由于存在一定的生活规律和做事目的,在一定的 区域。国内采用的标准工作时间制度是指职工每日 生活规律条件下,每日访问的地点可能有所不同但 工作8h,每周工作40h的工时制度,不同地区、不 目的应该相近或相同,因此在判断哪些兴趣点是用 同职业会导致工作时间有所变化,但大部分工作每 户真正的移动目的地时应重点分析那些经常存在于 日的作息时间相差不大,尤其是上班时间。与此同 用户驻点区域的POI类型。综上,需要考虑一个 时也应考虑到采用轮休或倒班制度的工作,因此在 POI类别在一个区域发生频率和其逆向文件频率两 计算时间相似性时法定工作日与节假日是不区分用户驻点与 POI 数据往往不能简单地通过距离 计算的方式建立关系。 由于驻留区域直径和驻留区 域时长的不当选取或实际生活中突发的事件,导致 用户在移动过程中的某些位置上停留了一段时间, 产生了非目的地或出发地的驻点,如十字路口或车 站等;考虑到 GPS 定位误差和城市中密集分布的信 息点,通过 POI 数据识别用户在驻点处访问的确切 地点成了不可能完成的任务。 一个 GPS 采集点数 据可以具有 10 m 或以上的位置偏差,而在其周围 可以有多种的 POI 数据,而距离用户驻点最近的 POI 数据所代表的信息点可能不是用户真实访问的 地方,如在有些地方餐厅、商场和电影院重叠在同一 建筑物内,实际应用如图 3 所示。 图 3 用户驻点与 POI 信息点 Fig.3 Users stagnation and POI information point 为了解决用户驻点与 POI 数据的内容的关联 问题,将用户驻点所代表的 POI 数据的驻点区域表 示为 [s·x - γ,s·x + γ] × [s·y - γ,s·y + γ] 式中: γ 是一个与 GPS 相关的参数定位误差,则可 采用 TF⁃IDF 的统计方法构建了一组特征向量表示 每个驻点区域所代表的兴趣点内容,用以评估字词 对于一个文件集或一个语料库中的其中一份文件的 重要程度。 字词的重要性随着它在文件中出现的次 数成正比增加,但同时会随着它在语料库中出现的 频率成反比下降。 同理,应用 TF⁃IDF 算法时把词的 类别和用户驻点区域中兴趣点作为文档处理。 直观 地说,如果同一类兴趣点发生在同一个地区的频率 较高,这该种类是该地区的典型代表。 此外,有些 POI 类型(如“博物馆”和“公园”)由于在城市建设 的数量较少且分散,因此此种类型的兴趣点在城市 中出现的概率很少,而一些常见功能的兴趣点(如 “餐馆”)可以遍布在城市的任何角落。 对于个人而 言,由于存在一定的生活规律和做事目的,在一定的 生活规律条件下,每日访问的地点可能有所不同但 目的应该相近或相同,因此在判断哪些兴趣点是用 户真正的移动目的地时应重点分析那些经常存在于 用户驻点区域的 POI 类型。 综上,需要考虑一个 POI 类别在一个区域发生频率和其逆向文件频率两 种因素,故引入特征向量的定义 特征向量:用一组向量 fr = (w1 ,w2 ,…,wn ) 表 示用户驻点区域中兴趣点内容的集合,有 wi = ni N × log R r (1) 式中:ni是该区域属于第 i 种类别的 POI 的数量和, N 是位于该区域的 POI 的总量,R 为用户驻点区域 总数,r 表示出现第 i 种 POI 类别的用户驻点区域数 量。 式(1)的第 1 部分表示一个类别 i 发生频率,第 2 部分表示一个类别 i 在该用户整个驻点区域中 POI 类型总数| R |的逆向文件频率。 根据式(1) 用一个特征向量代表一个驻点区 域,虽然还不能确切地确定用户访问的地点,但此特 征向量在一定程度上可以代表用户位置的语义含 义,即该区域中具有哪些突出的 POI 类别,进而可 以推断该区域的功能类别。 为了进一步推断出用户在驻留区域中的动作行 为(如工作、用餐、访友、居住等),还需要将该区域 的功能类别与用户在该区域的驻留时间相结合,并 以 24 h 为周期,对每天用户的驻点区域进行比较, 即可筛选出用户日常工作的区域和用户临时停留的 区域。 考虑到目前存在着一些在非固定地点工作的 用户,对于其中大多数用户来说,其所从事的工作性 质往往相同,因此在对用户工作地点的查找方法上, 使用基于特征向量的比较方式要比使用基于坐标位 置的比较方式更具说服力。 利用余弦相似性原理可以对前述 TF⁃IDF 计算 方法产生的特征向量进行相似度比较,其原理为计 算求得两组向量的夹角,并得出夹角对应的余弦值, 用来表征这两个向量的相似性。 夹角越小,余弦值 越接近于 1,它们的方向更加吻合,特征越相似。 其 计算式为 cos θ = ∑ n 1 (f a·wi × f b·wi) ∑ n 1 f a·w 2 i × ∑ n 1 f b·w 2 i (2) 由式(2)可以从用户驻点含义层面对同一用户 出现的地区进行比较判断哪些区域可能是用户的工 作区域,同时也需要从时间层面对同一用户的上班 规律进行比较,进一步确定哪些区域是用户的工作 区域。 国内采用的标准工作时间制度是指职工每日 工作 8 h,每周工作 40 h 的工时制度,不同地区、不 同职业会导致工作时间有所变化,但大部分工作每 日的作息时间相差不大,尤其是上班时间。 与此同 时也应考虑到采用轮休或倒班制度的工作,因此在 计算时间相似性时法定工作日与节假日是不区分 第 2 期 陈万志,等: 基于用户移动轨迹的个性化健康建议推荐方法 ·267·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有