正在加载图片...
第4期 涂飞:多特征融合的兴趣点推荐算法 ·781· 2用户一区域-内容主题模型 2.2模型的形式化 图2为用户-区域-内容联合推荐模型对应的 2.1模型介绍 概率图。该图右边的部分是一个简单的LDA模 用户是否会对特定的兴趣点签到,会受到以 型,构造了兴趣点描述文档的生成过程。当用户 下3种因素的影响: u对兴趣点l.签到时l的介绍文档d已经存在,文 1)用户自身偏好的影响:一般来说,只有兴 档和单词的主题分布可分别独立计算。当用户对 趣点满足用户的喜好,用户才会欣然前往并产生 兴趣点l签到时,首先要确定l的主题z,z有 签到行为。比如球迷可能去看CBA联赛,而音乐 3种来源,分别为兴趣点介绍文档d中出现过的 爱好者可能去听演唱会。 主题、用户的兴趣以及兴趣点所属地理区域的主 2)兴趣点自身内容的影响:LBSN中基本包 题。采用选择变量X来控制兴趣点的主题z的来 含了对兴趣点的介绍信息,图1是豆瓣活动网站 源,X满足多项式分布,其值分别为user、re- 的页面信息,该页面显示了活动的时间、地点以 gion和content。 及主题。当用户浏览该页面时,可能被活动的主 题信息中某个特征所吸引,才促使了用户的签到 行为。 我8 【书影同观】斯蒂芬·金的异想世界 —第一期《头号书迷) MISTRY 时近候阴日月入70口为 t5上海规a区公省10号8r9n-园Ccat0 古系免功 进市在⅓ 三方县5人时及线酒 节人当图4人烟 活动主盟 到 叉红,应止好数书人期已州件 图1兴趣点简介 Fig.1 A brief introduction of interest points 3)兴趣点所属区域的影响。用户根据自身爱 图2用户区域-内容联合推荐模型 Fig.2 User-content-region based joint recommendation 好或是事先知晓兴趣点的内容而产生的签到行为 model 可认为是有目的,有主观倾向性的。但并不是所 假设模型中用户集合为U,兴趣点集合为L, 有的访问签到行为都是如此。用户的某次签到行 介绍文档集合为D,单词集合为W,区域集合为 为可能开始是漫无目的的,只是随机选择某一地 R,以及主题集合为K,具体生成过程如下: 理区域的某一兴趣点。但是此处的随机也受以下 l)对于任意文档d(deD),根据Dirichlet((aa) 两点约束:1)兴趣点所属区域离用户的距离。当 分布得到文档d在主题上的多项式分布x。 该区域离用户较近时,被用户访问的概率较大, 2)对于任意主题k(keK),根据Dirichlet(Bw)分 否则访问概率较小。2)区域的主题。当用户外出 布可得到词w在主题k上的概率分布;根据 到新的区域时,对该区域一无所知,也无法从其 Dirichlet(B)分布可得到兴趣点I在主题k上的分 ‘相似用户”获得信息,在做决策是否访问某一兴 布p"o 趣点时,往往会受到该区域主题的影响。比如该 3)对于任意用户(u∈U),根据Dirichlet(a)得 区域的风俗习惯、当地人的兴趣喜好,或是当地 到用户u的主题分布mk,根据Dirichlet(a,)得到区 比较著名的人文景点等。 域r的主题分布gnx,根据Dirichlet(ar)得到用户u 用户对兴趣点签到,必定是受到以上3种因 在区域r上分布m。 素其中之一的影响。因此本文提出了一种基于用 4)长度为Na的文档d中,词w的生成过程为: 户-区域-内容的联合推荐模型,利用隐主题因子 ①根据文档d的主题分布x抽样获得主题; 表示上述3种因素,将用户对3种因素的选择过 ②利用单词在上的概率分布,抽样产生 程进行建模。 单词w:o2 用户−区域−内容主题模型 2.1 模型介绍 用户是否会对特定的兴趣点签到,会受到以 下 3 种因素的影响: 1) 用户自身偏好的影响:一般来说,只有兴 趣点满足用户的喜好,用户才会欣然前往并产生 签到行为。比如球迷可能去看 CBA 联赛,而音乐 爱好者可能去听演唱会。 2) 兴趣点自身内容的影响:LBSN 中基本包 含了对兴趣点的介绍信息,图 1 是豆瓣活动网站 的页面信息,该页面显示了活动的时间、地点以 及主题。当用户浏览该页面时,可能被活动的主 题信息中某个特征所吸引,才促使了用户的签到 行为。 图 1 兴趣点简介 Fig. 1 A brief introduction of interest points 3) 兴趣点所属区域的影响。用户根据自身爱 好或是事先知晓兴趣点的内容而产生的签到行为 可认为是有目的,有主观倾向性的。但并不是所 有的访问签到行为都是如此。用户的某次签到行 为可能开始是漫无目的的,只是随机选择某一地 理区域的某一兴趣点。但是此处的随机也受以下 两点约束:1) 兴趣点所属区域离用户的距离。当 该区域离用户较近时,被用户访问的概率较大, 否则访问概率较小。2) 区域的主题。当用户外出 到新的区域时,对该区域一无所知,也无法从其 “相似用户”获得信息,在做决策是否访问某一兴 趣点时,往往会受到该区域主题的影响。比如该 区域的风俗习惯、当地人的兴趣喜好,或是当地 比较著名的人文景点等。 用户对兴趣点签到,必定是受到以上 3 种因 素其中之一的影响。因此本文提出了一种基于用 户−区域−内容的联合推荐模型,利用隐主题因子 表示上述 3 种因素,将用户对 3 种因素的选择过 程进行建模。 2.2 模型的形式化 u lu lu d lu lu z z d X z X 图 2 为用户−区域−内容联合推荐模型对应的 概率图。该图右边的部分是一个简单的 LDA 模 型,构造了兴趣点描述文档的生成过程。当用户 对兴趣点 签到时 的介绍文档 已经存在,文 档和单词的主题分布可分别独立计算。当用户对 兴趣点 签到时,首先要确定 的主题 , 有 3 种来源,分别为兴趣点介绍文档 中出现过的 主题、用户的兴趣以及兴趣点所属地理区域的主 题。采用选择变量 来控制兴趣点的主题 的来 源 , 满足多项式分布,其值分别为 user、 re - gion 和 content。 η λ x l ω z θ (d) αu θ (u) αd φ (ω) Nd K r u αr θ (r) D R U L βl βw Zu /Zd /Zl φ (l) 图 2 用户-区域-内容联合推荐模型 Fig. 2 User-content-region based joint recommendation model U L D W R K 假设模型中用户集合为 ,兴趣点集合为 , 介绍文档集合为 ,单词集合为 ,区域集合为 ,以及主题集合为 ,具体生成过程如下: d d ∈ D Dirichlet(αd) d θ (d) K 1) 对于任意文档 ( ),根据 分布得到文档 在主题上的多项式分布 。 k k ∈ K Dirichlet(βw) w k φ (w) k Dirichlet(βl) l k φ (l) k 2) 对于任意主题 ( ),根据 分 布可得到词 在主题 上的概率分布 ;根据 分布可得到兴趣点 在主题 上的分 布 。 u u ∈ U Dirichlet(αu) u θ (u) K Dirichlet(αr) r θ (r) K Dirichlet(αur) u r θ (ur) r 3) 对于任意用户 ( ),根据 得 到用户 的主题分布 ,根据 得到区 域 的主题分布 ,根据 得到用户 在区域 上分布 。 4) 长度为 Nd 的文档 d 中,词 wi 的生成过程为: θ (d) ①根据文档 d 的主题分布 K 抽样获得主题 zi; zi φ (w) zi wi ②利用单词在 上的概率分布 抽样产生 单词 。 第 4 期 涂飞:多特征融合的兴趣点推荐算法 ·781·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有