第14卷第3期 智能系统学报 Vol.14 No.3 2019年5月 CAAI Transactions on Intelligent Systems May 2019 D0:10.11992/tis.201710028 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180425.1001.006html 加权高效用因子的两阶段混合推荐算法 张旭,孙福振,方春 (山东理工大学计算机科学与技术学院,山东淄博255049) 摘要:传统协同过滤算法大多是围绕如何降低评分误差展开研究,未涉及用户评分过程。本文考虑到用户评 分动机和用户本身评分倾向的情况,将用户评分过程分为用户评分和物品选择两个阶段,从预测用户兴趣概率 和用户效用角度出发,采用潜在狄利克雷分布模型LD)挖掘出用户潜在高效用因子和物品被靶向概率因子, 进而将两种因子加权融合作为第一阶段:第二阶段采用奇异值分解预测用户评分值并根据该评分值选择物 品。综上,本文提出一种加权高效用因子的两阶段混合推荐算法(hybrid recommendation algorithm based on two- phase weighted high utility factor,.Htp_UD。在MovieLens数据集上,实验结果表明,该算法在归一化累计折损增 益(NDCG)和1-Cl两种评价标准下优于其他4种推荐算法,能够有效提高推荐质量。 关键词:两阶段;高效用因子;靶向因子;主题模型;用户兴趣;混合推荐:用户效用;评分倾向 中图分类号:TP311 文献标志码:A文章编号:1673-4785(2019)03-0518-07 中文引用格式:张旭,孙福振,方春.加权高效用因子的两阶段混合推荐算法J.智能系统学报,2019,14(3):518-524. 英文引用格式:ZHANG Xu,SUN Fuzhen,.FANG Chun.Two-phase weighted high-utility factor-based hybrid recommendation al-. gorithmJ].CAAI transactions on intelligent systems,2019,14(3):518-524. Two-phase weighted high-utility factor-based hybrid recommendation algorithm ZHANG Xu,SUN Fuzhen,FANG Chun (College of Computer Science and Technology,Shandong University of Technology,Zibo 255049,China) Abstract:The traditional collaborative filtering algorithm focuses on methods for reducing the rating error,but it does not involve a user rating process.In this paper,we divide the user rating process into two phases,i.e.,user rating and item selection,and take into account user-rating motivation and user-rating tendency.From the perspectives of predict- ing a user's interest probability and user utility,we adopt a latent dirichlet allocation(LDA)to mine a user latent high- utility factor and an article-targeted probabilistic factor,and then weight and fuse these two factors in the first phase.In the second phase,we use singular value decomposition to predict a user rating value,which we then use in user recom- mendation lists.Our main contribution is our proposal of a two-phase weighted high-utility factor-based hybrid recom- mendation algorithm,which we abbreviate as Htp_Uf.We compare the effectiveness of the Htp_Uf algorithm with that of others using the MovieLens dataset.The results show that the performance of the proposed algorithm is superior to that of four other recommendation algorithms in terms of two evaluation criteria,namely,the normalized discounted cu- mulative gain and 1-call,which can effectively improve the quality of the recommendation. Keywords:two phases;high-utility factor,targeted factor,topic model;user interest,hybrid recommendation;user util- ity;user rating tendency 推荐系统的核心是推荐算法,根据算法的学 习目的不同,主要分为评分预测推荐算法和排序 收稿日期:2017-10-31.网络出版日期:2018-04-25. 预测推荐算法两大类。文献[1-2]研究指出,排序 基金项目:国家自然科学基金项目(61602280):山东省自然科 学基金项目(ZR2014FQ028), 预测更符合TopN推荐的思想,排序预测比评分 通信作者:孙福振.E-mail:sunfuzhen@sdut..edu.cn. 预测能更好地为用户进行TopN推荐。随着互联
DOI: 10.11992/tis.201710028 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180425.1001.006.html 加权高效用因子的两阶段混合推荐算法 张旭,孙福振,方春 (山东理工大学 计算机科学与技术学院,山东 淄博 255049) 摘 要:传统协同过滤算法大多是围绕如何降低评分误差展开研究,未涉及用户评分过程。本文考虑到用户评 分动机和用户本身评分倾向的情况,将用户评分过程分为用户评分和物品选择两个阶段,从预测用户兴趣概率 和用户效用角度出发,采用潜在狄利克雷分布模型 (LDA) 挖掘出用户潜在高效用因子和物品被靶向概率因子, 进而将两种因子加权融合作为第一阶段;第二阶段采用奇异值分解预测用户评分值并根据该评分值选择物 品。综上,本文提出一种加权高效用因子的两阶段混合推荐算法 (hybrid recommendation algorithm based on twophase weighted high utility factor,Htp_Uf)。在 MovieLens 数据集上,实验结果表明,该算法在归一化累计折损增 益 (NDCG) 和 1-Call 两种评价标准下优于其他 4 种推荐算法,能够有效提高推荐质量。 关键词:两阶段;高效用因子;靶向因子;主题模型;用户兴趣;混合推荐;用户效用;评分倾向 中图分类号:TP311 文献标志码:A 文章编号:1673−4785(2019)03−0518−07 中文引用格式:张旭, 孙福振, 方春. 加权高效用因子的两阶段混合推荐算法[J]. 智能系统学报, 2019, 14(3): 518–524. 英文引用格式:ZHANG Xu, SUN Fuzhen, FANG Chun. Two-phase weighted high-utility factor-based hybrid recommendation algorithm[J]. CAAI transactions on intelligent systems, 2019, 14(3): 518–524. Two-phase weighted high-utility factor-based hybrid recommendation algorithm ZHANG Xu,SUN Fuzhen,FANG Chun (College of Computer Science and Technology, Shandong University of Technology, Zibo 255049, China) Abstract: The traditional collaborative filtering algorithm focuses on methods for reducing the rating error, but it does not involve a user rating process. In this paper, we divide the user rating process into two phases, i.e., user rating and item selection, and take into account user-rating motivation and user-rating tendency. From the perspectives of predicting a user’s interest probability and user utility, we adopt a latent dirichlet allocation (LDA) to mine a user latent highutility factor and an article-targeted probabilistic factor, and then weight and fuse these two factors in the first phase. In the second phase, we use singular value decomposition to predict a user rating value, which we then use in user recommendation lists. Our main contribution is our proposal of a two-phase weighted high-utility factor-based hybrid recommendation algorithm, which we abbreviate as Htp_Uf. We compare the effectiveness of the Htp_Uf algorithm with that of others using the MovieLens dataset. The results show that the performance of the proposed algorithm is superior to that of four other recommendation algorithms in terms of two evaluation criteria, namely, the normalized discounted cumulative gain and 1-call, which can effectively improve the quality of the recommendation. Keywords: two phases; high-utility factor; targeted factor; topic model; user interest; hybrid recommendation; user utility; user rating tendency 推荐系统的核心是推荐算法,根据算法的学 习目的不同,主要分为评分预测推荐算法和排序 预测推荐算法两大类。文献[1-2]研究指出,排序 预测更符合 TopN 推荐的思想,排序预测比评分 预测能更好地为用户进行 TopN 推荐。随着互联 收稿日期:2017−10−31. 网络出版日期:2018−04−25. 基金项目:国家自然科学基金项目 (61602280);山东省自然科 学基金项目 (ZR2014FQ028). 通信作者:孙福振. E-mail:sunfuzhen@sdut.edu.cn. 第 14 卷第 3 期 智 能 系 统 学 报 Vol.14 No.3 2019 年 5 月 CAAI Transactions on Intelligent Systems May 2019
第3期 张旭,等:加权高效用因子的两阶段混合推荐算法 ·519· 网信息的爆炸式增长,带来信息过载问题的同 现的条件概率;P(w)表示在主题z下选择词w 时,大量信息背后隐藏着用户潜在行为因子,而 的条件概率。本文将LDA融入到Htp Uf算法中 传统推荐算法包括业界运用成熟的协同过滤算 主要考虑2种因子潜在高效用因子和物品被靶向 法),并没有考虑挖掘用户的潜在行为过程。 概率因子,即user→interest→item和user→utility→ 文献[45]运用边缘化去噪自编码的深度学习 value,详细流程如图1所示。 方法学习出一种高效潜在表征方法,没有将用户 user user 潜在行为用于深度学习建模中;文献[6]将用户的 点击行为与转化率联系在一起构建了动态集体矩 阵分解模型,有效利用了用户的显性点击行为而 interest 1 interest N utility 1 utility N 没有关注用户隐性行为:文献[]提出了一种基于 本体论与时序模式挖掘的混合推荐算法以此来提 高TopN推荐质量;文献[8-9]采用概率矩阵分解 item value 技术,将用户评分信息和社交网络信息整合,挖 (a)物品被靶向概率因子 (b)用户潜在高效用因子 掘出额外信息可以很好地解决预测精度低的问 图1两种因子流程图 题,未考虑到用户兴趣因子情况;文献[10]使用物 Fig.1 Flowchart of two factors 品协变量和物品标签等个性化物品潜在的主题, 图l中,user表示用户,interest表示用户兴趣 提出了随机变分贝叶斯(SVB)框架和一种协变量 主题,item表示选择的物品,utility表示效用,value 为导向的多异性监督主题模型(CGHSTM);文献 表示用户评分值。其中,图1(a)表示物品被靶向 [11]考虑到用户对物品各个属性面的偏好,利用 概率因子,图1(b)表示用户潜在高效用因子。 LDA模型挖掘用户K个属性面提出了一种SACF 1.2用户潜在高效用因子模型 算法;文献[12]为了提高推荐多样性,将用户的主 本文认为用户选择物品后并决定对该物品评 题模型和应用的主题模型与M相结合的LDA MF 分之前还要有一个动作,即衡量评分后这个物品 模型融合提出了一种混合推荐算法。上述几个模 会给用户自身带来多少潜在效用。然后根据这个 型有效缓解了可扩展性问题,提高了推荐多样 效用再结合该物品是否符合用户兴趣选择物品给 性,而未考虑兴趣因子以及高效用因子等用户潜 出具体评分值。 在行为因素。 定义1用户潜在高效用因子。在推荐系统 综上,为有效挖掘用户兴趣偏好,本文考虑到 中,用户在花销时间成本的条件下对物品进行评 用户的潜在行为过程,即用户评分和物品选择两 分时,不仅会考虑物品是否符合自己的兴趣,还 个阶段。通过分析用户历史行为数据,采用用户 会考虑评分给自身带来的效用,即用户满意度。 topic模型进行训练,挖掘出用户潜在高效用因子 显然效用直接决定用户评分值。而本文将这种效 和物品被靶向概率因子,提出了一种加权用户潜 用定义为用户潜在效用因子(latent utility factor, 在高效用因子的两阶段混合推荐算法。 LUF)。为避免抽取单个效用因子造成的偏置现 1算法描述 象,本文抽取其中两个高概率因子进行累加,累 加的结果称为用户潜在高效用因子(latent high 1.1用户topic模型 utility factor,.LHUF)。综上,可根据用户的历史评 考虑到一个用户不可能只对一种物品感兴 分行为来预测用户的潜在高效用因子。用户潜在 趣,一种物品通常有多重属性,不仅归属于单一 高效用因子数学范式为 类型。一个用户不一定对所有物品评高分,而被 评高分的物品通常不仅源自单一用户等情况。因 h_pf(u) P(r)(U.I.V,(Rleev,(P(r)hev) welV-1.v] 此,本文选择LDA主题模型对用户历史动作特征 (2) 进行训练,进而挖掘出用户潜在高效用因子与物 式中:U表示用户集合;I为物品集合;R为用户 品被靶向概率因子,LDA描述文档的生成概率为) u对物品i的具体评分值;Pr,)为编号u的用户对 P(wld)=>P(=ld)-P(wE) (1) 每个评分值预测可能评价的概率值;V为评分区 间最大值。由式(2)可知,核心是Pr,)数值的预 式中:P(wd为文档d已知的情况下词w出现的 测,下面将通过LDA模型对P(,)值进行预测。 条件概率;Pd为文档d已知的情况下主题z出 受启发于LDA模型在文本挖掘中加入主题
网信息的爆炸式增长,带来信息过载问题的同 时,大量信息背后隐藏着用户潜在行为因子,而 传统推荐算法包括业界运用成熟的协同过滤算 法 [3] ,并没有考虑挖掘用户的潜在行为过程。 文献[4-5]运用边缘化去噪自编码的深度学习 方法学习出一种高效潜在表征方法,没有将用户 潜在行为用于深度学习建模中;文献[6]将用户的 点击行为与转化率联系在一起构建了动态集体矩 阵分解模型,有效利用了用户的显性点击行为而 没有关注用户隐性行为;文献[7]提出了一种基于 本体论与时序模式挖掘的混合推荐算法以此来提 高 TopN 推荐质量;文献[8-9]采用概率矩阵分解 技术,将用户评分信息和社交网络信息整合,挖 掘出额外信息可以很好地解决预测精度低的问 题,未考虑到用户兴趣因子情况;文献[10]使用物 品协变量和物品标签等个性化物品潜在的主题, 提出了随机变分贝叶斯 (SVB) 框架和一种协变量 为导向的多异性监督主题模型 (CGHSTM);文献 [11]考虑到用户对物品各个属性面的偏好,利用 LDA 模型挖掘用户 K 个属性面提出了一种 SACF 算法;文献[12]为了提高推荐多样性,将用户的主 题模型和应用的主题模型与 MF 相结合的 LDA_MF 模型融合提出了一种混合推荐算法。上述几个模 型有效缓解了可扩展性问题,提高了推荐多样 性,而未考虑兴趣因子以及高效用因子等用户潜 在行为因素。 综上,为有效挖掘用户兴趣偏好,本文考虑到 用户的潜在行为过程,即用户评分和物品选择两 个阶段。通过分析用户历史行为数据,采用用户 topic 模型进行训练,挖掘出用户潜在高效用因子 和物品被靶向概率因子,提出了一种加权用户潜 在高效用因子的两阶段混合推荐算法。 1 算法描述 1.1 用户 topic 模型 考虑到一个用户不可能只对一种物品感兴 趣,一种物品通常有多重属性,不仅归属于单一 类型。一个用户不一定对所有物品评高分,而被 评高分的物品通常不仅源自单一用户等情况。因 此,本文选择 LDA 主题模型对用户历史动作特征 进行训练,进而挖掘出用户潜在高效用因子与物 品被靶向概率因子,LDA 描述文档的生成概率为[13] P(w|d ) = ∑ z P(z|d )· P(w|z) (1) P(w|d) d w P(z|d) d z 式中: 为文档 已知的情况下词 出现的 条件概率; 为文档 已知的情况下主题 出 P(w|z) z w user → interest → item user → utility → 现的条件概率; 表示在主题 下选择词 的条件概率。本文将 LDA 融入到 Htp_Uf 算法中 主要考虑 2 种因子潜在高效用因子和物品被靶向 概率因子,即 和 value,详细流程如图 1 所示。 user user interest 1 interest N item value … … utility 1 utility N (a) 物品被靶向概率因子 (b) 用户潜在高效用因子 图 1 两种因子流程图 Fig. 1 Flowchart of two factors 图 1 中, user 表示用户, interest 表示用户兴趣 主题,item 表示选择的物品,utility 表示效用,value 表示用户评分值。其中,图 1(a) 表示物品被靶向 概率因子,图 1(b) 表示用户潜在高效用因子。 1.2 用户潜在高效用因子模型 本文认为用户选择物品后并决定对该物品评 分之前还要有一个动作,即衡量评分后这个物品 会给用户自身带来多少潜在效用。然后根据这个 效用再结合该物品是否符合用户兴趣选择物品给 出具体评分值。 定义 1 用户潜在高效用因子。在推荐系统 中,用户在花销时间成本的条件下对物品进行评 分时,不仅会考虑物品是否符合自己的兴趣,还 会考虑评分给自身带来的效用,即用户满意度。 显然效用直接决定用户评分值。而本文将这种效 用定义为用户潜在效用因子 (latent utility factor, LUF)。为避免抽取单个效用因子造成的偏置现 象,本文抽取其中两个高概率因子进行累加,累 加的结果称为用户潜在高效用因子 (latent high utility factor,LHUF)。综上,可根据用户的历史评 分行为来预测用户的潜在高效用因子。用户潜在 高效用因子数学范式为 h_pf(u) ∆ = ∑u v∈[V−1,V] P(rv) ← (U,I,V,{Ru,i}i∈I,u∈U ,{P(rv)}v∈V ) (2) U I Ru,i u i P(rv) u V P(rv) P(rv) 式中: 表示用户集合; 为物品集合; 为用户 对物品 的具体评分值; 为编号 的用户对 每个评分值预测可能评价的概率值; 为评分区 间最大值。由式 (2) 可知,核心是 数值的预 测,下面将通过 LDA 模型对 值进行预测。 受启发于 LDA 模型在文本挖掘中加入主题 第 3 期 张旭,等:加权高效用因子的两阶段混合推荐算法 ·519·
·520· 智能系统学报 第14卷 维度,在推荐系统用户-评分值二分关联关系中 A LUF 加入效用维度,则变为用户、效用、评分值三分关 PLDA= P(r) (7) ve[V-1.V] 联关系。相应的用户打分值概率为 P(user,value)LDA P(valueluser)= P(r)=>p(utilityluser).p(valuelutility)= P(benefitsluser).P(valuelbenefits) (3) (8) benefits 式中v为评分区间最大值。 式中:P(benefitsluser)表示用户user选择效用为 1.3物品被靶向概率因子模型 benefits的概率;P(valuebenefits)表示在效用为 根据用户的历史行为预测用户对每个物品感 benefits的情况下用户user评分为value的概率。 兴趣的概率。 在上述过程中,一个观测数据(valueluser)的 生成过程解释为用户user根据效用评价具体分数 定义2物品被靶向概率因子。每个用户不 为value的过程。 可能对所有物品都有过评分行为,为挖掘用户潜 该过程为由已知隐含变量参数,生成观测数 在兴趣,根据用户历史数据预测用户对每个物品 据的过程,为了充分挖掘这些信息,本文采用LDA 进行评价的概率,本文将此概率定义为物品被靶 模型训练数据。在LDA模型中的训练方法有变 向概率因子。 分法(varialtional inference)和Gibbs抽样法(gibbs 物品被靶向概率因子数学范式为 sampling)等,本文采用Gibbs抽样法。Gibbs用 I_Tf(u)(U.I.P..eue) (9) 户效用抽样算法详细描述如下。 式中:U表示用户集合;I表示物品集合;P表示 1)随机初始化:为所有用户评分行为中的具 预测用户“对物品i进行评价的概率。借鉴于上 体评分值随机分配一个初始的效用。 节潜在高效用因子抽取,推导P的计算范式,如 2)重新扫描观测数据,对其中的每个评分过 式(10(12): 程进行记录,基于式(4)利用观测数据中的其他 P(=i) PTE.<>+μ PFi<>+业 行为信息,估计其条件概率,重新采样该评分值 ∑PTk.a>+Mμ∑PFb+nW 的效用。同时更新模型参数。 (10) SV+8 P(o=1)o SWE.ag+刀 营SVa+7,68Sw,4a+m C=P(lu)= PTe.u>+u ∑g1PTta>+Mp (11) (4) π=P(i)= PFi为不考虑用户“对具体评分值 分记录产品被抽样为兴趣因子z的个数;P℉表 为时的动作。 示产品j被抽样为兴趣因子:的次数;表 3)重复执行上述采样过程直到Gibbs抽样 示不考虑用户“对产品i的评分行为;μ和山分别 收敛。 为(和τ的超参数。综上,通过模型训练可以计 4)统计Gibbs抽样收敛后的效用-分共存概 算物品被靶向概率因子,即 率矩阵,利用式(5)和式(6)计算LDA模型的 P.a=∑PeoP)= (13) 参数。 SVi+6 入o=P(σu)= (5) 1.4两种因子的融合模型 sV+T丙 根据定义1、2分别计算出用户潜在高效用因 =1 子与物品被靶向概率因子。用户是否评高分不仅 Ws=P(E)= SWs+刀 (6) 取决于被推荐物品与兴趣吻合度,更取决于被推 ∑SWj+nm 荐物品给用户带来满足程度,即用户潜在高效 式中:6和n分别为1和w的超参数。 用。因此,本文认为用户根据兴趣选择高概率物 综上,预测用户user根据效用utility评价评 品进行评分且具有高效用因子的情况下预测物品 分值为value的概率记为PoA,见式(T)和式(8): 评分,推荐效果会更好
维度,在推荐系统用户−评分值二分关联关系中 加入效用维度,则变为用户、效用、评分值三分关 联关系。相应的用户打分值概率为 Pˆ ∑ (user,value)LDA = P(value|user ) = benefits P(benefits|user )· P(value|benefits) (3) P(benefits|user )P(value|benefits) 式中: 表示用户 user 选择效用为 benefits 的概率; 表示在效用为 benefits 的情况下用户 user 评分为 value 的概率。 在上述过程中,一个观测数据 (value|user ) 的 生成过程解释为用户 user 根据效用评价具体分数 为 value 的过程。 该过程为由已知隐含变量参数,生成观测数 据的过程,为了充分挖掘这些信息,本文采用 LDA 模型训练数据。在 LDA 模型中的训练方法有变 分法 (varialtional inference) 和 Gibbs 抽样法 (gibbs sampling)[14]等,本文采用 Gibbs 抽样法。Gibbs 用 户效用抽样算法详细描述如下。 1) 随机初始化:为所有用户评分行为中的具 体评分值随机分配一个初始的效用。 2) 重新扫描观测数据,对其中的每个评分过 程进行记录,基于式 (4) 利用观测数据中的其他 行为信息,估计其条件概率,重新采样该评分值 的效用。同时更新模型参数。 P(σuξ =σ| σ ¬ , ξ) ∝ SVuσ,¬+δ ∑Tp k=1 SVuk,¬+Tpδ · SWσξ,¬+η ∑n j=1 SWσj,¬+nη (4) σuξ u ξ SVuσ u σ SWσj j σ ¬ u ξ 式中: 为用户 给出的评分值为 所对应的效 用; 为用户 所给出的所有评分值被抽样为 效用 的数量; 为评分值 被抽样为效用 的次数; 为不考虑用户 对具体评分值 为 时的动作。 3) 重复执行上述采样过程直到 Gibbs 抽样 收敛。 4) 统计 Gibbs 抽样收敛后的效用−分共存概 率矩阵,利用式 (5) 和式 (6) 计算 LDA 模型的 参数。 λuσ = P(σ|u) = SVuσ +δ ∑Tp k=1 SVuk +Tpδ (5) ωσξ = P(ξ|σ) = SWσξ +η ∑n j=1 SWσj +nη (6) 式中: δ 和 η 分别为 λ 和 ω 的超参数。 ∆ P LUF LDA 综上,预测用户 user 根据效用 utility 评价评 分值为 value 的概率记为 ,见式 (7) 和式 (8): ∆ P LUF LDA = ∑user v∈[V−1,V] P(rv) (7) P(rv) = ∑ utility p(utility|user)· p(value|utility) = ∑Tp σ=1 λuσ·ωσξ (8) 式中 v 为评分区间最大值。 1.3 物品被靶向概率因子模型 根据用户的历史行为预测用户对每个物品感 兴趣的概率。 定义 2 物品被靶向概率因子。每个用户不 可能对所有物品都有过评分行为,为挖掘用户潜 在兴趣,根据用户历史数据预测用户对每个物品 进行评价的概率,本文将此概率定义为物品被靶 向概率因子。 物品被靶向概率因子数学范式为 I_Tf(u) ∆ =(U,I,{Pu,i}u∈U,i∈I) (9) U I Pu,i u i Pu,i 式中: 表示用户集合; 表示物品集合; 表示 预测用户 对物品 进行评价的概率。借鉴于上 节潜在高效用因子抽取,推导 的计算范式,如 式 (10)~(12): P(zui =z| z ¬ ,i) ∝ PTuz,¬+µ ∑M k=1 PTuk,¬+Mµ · PFzi,¬+ψ ∑n j=1 PFzj,¬+nψ (10) ℓuz = P(z|u) = PTuz,¬ +µ ∑M k=1 PTuk,¬ + Mµ (11) τzi = P(i|z) = PFzi,¬ +ψ ∑n j=1 PFzj,¬ +nψ (12) n zui u i PTuz u z PFzj j z ¬ u i µ ψ ℓ τ 式中: 是物品的总数量; 表示用户 对物品 的评分记录对应的兴趣因子; 是用户 的评 分记录产品被抽样为兴趣因子 的个数; 表 示产品 被抽样为兴趣因子 的次数; 表 示不考虑用户 对产品 的评分行为; 和 分别 为 和 的超参数。综上,通过模型训练可以计 算物品被靶向概率因子,即 Pu,i = ∑ z P(z|u)· P(i|z) = ∑M z=1 ℓuz ·τzi (13) 1.4 两种因子的融合模型 根据定义 1、2 分别计算出用户潜在高效用因 子与物品被靶向概率因子。用户是否评高分不仅 取决于被推荐物品与兴趣吻合度,更取决于被推 荐物品给用户带来满足程度,即用户潜在高效 用。因此,本文认为用户根据兴趣选择高概率物 品进行评分且具有高效用因子的情况下预测物品 评分,推荐效果会更好。 ·520· 智 能 系 统 学 报 第 14 卷
第3期 张旭,等:加权高效用因子的两阶段混合推荐算法 ·521· 算法时间复杂度分析如下:由式(7)知,用户 2.2实验评价标准 潜在高效用因子采用topic模型抽样收敛后所获 推荐算法的评价标准总体上来说一般有两 得的值为PDa,假设进行一次Gibbs抽样作为一 种:一种是与顺序无关的评价标准,例如均方根 个操作单位,记为,总计执行M次,则算法时间 误差、平均绝对误差、K-Ca吲等;另一种是与顺 复杂度为O(M×t)。同理,由式(13)知,物品被靶 序相关的评价标准,例如归一化累计折损增益 向概率因子通过采样所获得的值为P,倘若进行 (normalized discounted cumulative gain,NDCG 一次Gibbs抽样作为一个单位操作,记为2,总计 本文分别采用1-call(K=1时)和NDCG作为实验 执行N次,则算法时间复杂度为ON×2)。故两 评价标准。具体描述为:K-Call表示TopN推荐结 种因子线性相加之后,算法时间复杂度为O(M×11+ 果中至少含有K个相关产品的用户所占有的比 N×2)。算法的时间复杂度并没有呈指数级明显 例。K-Call的公式为 增加。 K-Call@N= 而∑fL1≥ 1 (17) 本文将两种因子进行线性加权融合记为 HRe FP,作为两阶段推荐中的第一阶段。 式中:)表示布尔函数,变量为真时函数取值 LHUF 为1,为假时取值为0。在实际应用K-Call中,通 HRe_FP=ar·PDA+B.Pa (14) 常选择K=1作为评价标准,即1-Cal表示评价推 式中参数a=0.5、B=0.5时取得最优实验结果。 荐算法在TopN推荐中包含至少一个相关产品 1.5两阶段融合推荐 的能力。NDCG评价标准见式(18)(20): 推荐系统的核心问题是给用户推荐他最感兴 0280-1 趣的几个物品,而不仅仅是预测用户对物品的评 DCG@N(u)= log(1+) (18) 分,将评分高的物品推荐给用户。为了更好地挖 IDCG@N(u)=Max(DCG@N(u)) (19) 掘出用户兴趣,重视评分过程,本文将用户评分 NDCG@N= 1 DCG@N(u) (20) 过程分为用户评分和物品选择两个阶段,将兴趣 UDCG@N西 度排序值作为用户推荐的依据更符合推荐算法设 式中:R(u,)是用户“对推荐列表中第i个产品 计的初衷。同时为不显著增加算法的时间复杂 的评分;DCG@N(w是DCG@N(W的最大值;U 度,本文将两阶段线性融合。 是测试集中所有用户集合;N表示推荐列表的 首先采用奇异值分解计算预测评分值m;进 长度。 而将第一阶段计算所得融合因子HRe FP与r乘 2.3实验结果 积作为用户对物品兴趣度排序值,见式(15)、式 本小节主要是将本文提出的Htp Uf算法与 (16): 4种基线算法在两种评价标准下的对比,以及各 fa=μ+b,+bu+qp (15) 个参数选取对Htp_Uf算法的影响。4种基线算 RecOrder Valueu HRe FPXr (16) 法分别为:基于用户的协同过滤推荐(User Based), 式中:μ表示所有物品的平均评分;b.表示第u个 基于物品的协同过滤推荐(Item Based)I刀 用户偏离平均分的程度;b:表示第i个物品偏离 SVD推荐算法1!、主题模型和矩阵分解模型的混 平均分的程度;p.表示第u个用户的主题偏好 合推荐算法(HTMMF)I。 度;g:表示第i个物品的主题属向度。HRe FP表 2.3.1 Htp Uf算法与4种基线算法在NDCG评 示2.4小节中第一阶段值。 价标准下的对比 实验中Htp_Uf算法各参数取值如下:u=0.2, 2实验分析 w=0.1,6=0.2,=0.1。 2.1实验数据集 图2主要是将本文提出的Htp_Uf算法与基 本文实验所用的数据集是Minnesota大学 于用户的协同过滤算法(User_Based,近邻数为 GroupLens小组开发的MovieLens数据集。实验 50),基于物品的协同过滤算法(Item Based),奇 所采用的数据集规模为943个用户对1682部电 异值分解(SVD),以及主题模型和矩阵分解模型 影的10万条评分数据和6040个用户对3900部 的混合算法(HTMMF)在NDCG评价标准下进行 电影的100万条评分数据。 的比较
∆ P LUF LDA t1 M O(M ×t1) Pu,i t2 N O(N ×t2) O(M ×t1+ N ×t2) 算法时间复杂度分析如下:由式 (7) 知,用户 潜在高效用因子采用 topic 模型抽样收敛后所获 得的值为 ,假设进行一次 Gibbs 抽样作为一 个操作单位,记为 ,总计执行 次,则算法时间 复杂度为 。同理,由式 (13) 知,物品被靶 向概率因子通过采样所获得的值为 ,倘若进行 一次 Gibbs 抽样作为一个单位操作,记为 ,总计 执行 次,则算法时间复杂度为 。故两 种因子线性相加之后,算法时间复杂度为 。算法的时间复杂度并没有呈指数级明显 增加。 本文将两种因子进行线性加权融合记 为 HRe_FP,作为两阶段推荐中的第一阶段。 HRe_FP = α· ∆ P LHUF LDA +β · Pu,i (14) 式中参数 α = 0.5、 β = 0.5 时取得最优实验结果。 1.5 两阶段融合推荐 推荐系统的核心问题是给用户推荐他最感兴 趣的几个物品,而不仅仅是预测用户对物品的评 分,将评分高的物品推荐给用户。为了更好地挖 掘出用户兴趣,重视评分过程,本文将用户评分 过程分为用户评分和物品选择两个阶段,将兴趣 度排序值作为用户推荐的依据更符合推荐算法设 计的初衷。同时为不显著增加算法的时间复杂 度,本文将两阶段线性融合。 ∧ rui HRe_FP ∧ rui 首先采用奇异值分解计算预测评分值 ;进 而将第一阶段计算所得融合因子 与 乘 积作为用户对物品兴趣度排序值,见式 (15)、式 (16): ∧ rui = µ+bi +bu + q T i pu (15) RecOrderValueu,i = HRe_FP× ∧ rui (16) µ bu u bi i pu u qi i 式中: 表示所有物品的平均评分; 表示第 个 用户偏离平均分的程度; 表示第 个物品偏离 平均分的程度; 表示第 个用户的主题偏好 度; 表示第 个物品的主题属向度。 HRe_FP 表 示 2.4 小节中第一阶段值。 2 实验分析 2.1 实验数据集 本文实验所用的数据集是 Minnesota 大学 GroupLens 小组开发的 MovieLens 数据集。实验 所采用的数据集规模为 943 个用户对 1 682 部电 影的 10 万条评分数据和 6 040 个用户对 3 900 部 电影的 100 万条评分数据。 2.2 实验评价标准 推荐算法的评价标准总体上来说一般有两 种:一种是与顺序无关的评价标准,例如均方根 误差、平均绝对误差、K-Call[15]等;另一种是与顺 序相关的评价标准,例如归一化累计折损增益 (normalized discounted cumulative gain,NDCG[16] )。 本文分别采用 1-call(K=1 时) 和 NDCG 作为实验 评价标准。具体描述为:K-Call 表示 TopN 推荐结 果中至少含有 K 个相关产品的用户所占有的比 例。K-Call 的公式为 K-Call@N = 1 |U| ∑ u∈U f(|LN(u)| ⩾ K) (17) 式中: f(·) 表示布尔函数,变量为真时函数取值 为 1,为假时取值为 0。在实际应用 K-Call 中,通 常选择 K=1 作为评价标准,即 1-Call 表示评价推 荐算法在 TopN 推荐中包含至少一个相关产品 的能力。NDCG 评价标准见式 (18)~(20): DCG@N(u) = ∑N i=1 2 R(u,i) −1 log(1+i) (18) IDCG@N(u) = Max(DCG@N(u)) (19) NDCG@N = 1 |U| ∑ u∈U DCG@N(u) IDCG@N(u) (20) R(u,i) u i IDCG@N(u) DCG@N(u) U N 式中: 是用户 对推荐列表中第 个产品 的评分; 是 的最大值; 是测试集中所有用户集合; 表示推荐列表的 长度。 2.3 实验结果 本小节主要是将本文提出的 Htp_Uf 算法与 4 种基线算法在两种评价标准下的对比,以及各 个参数选取对 Htp_Uf 算法的影响。4 种基线算 法分别为:基于用户的协同过滤推荐 (User_Based), 基于物品的协同过滤推 荐 (Item_Based)[ 1 7 ] 、 SVD 推荐算法[18] 、主题模型和矩阵分解模型的混 合推荐算法 (HTMMF)[19]。 2.3.1 Htp_Uf 算法与 4 种基线算法在 NDCG 评 价标准下的对比 µ ψ δ η 实验中 Htp_Uf 算法各参数取值如下: =0.2, =0.1, =0.2, =0.1。 图 2 主要是将本文提出的 Htp_Uf 算法与基 于用户的协同过滤算法 (User_Based,近邻数为 50),基于物品的协同过滤算法 (Item_Based),奇 异值分解 (SVD),以及主题模型和矩阵分解模型 的混合算法 (HTMMF) 在 NDCG 评价标准下进行 的比较。 第 3 期 张旭,等:加权高效用因子的两阶段混合推荐算法 ·521·
·522· 智能系统学报 第14卷 0.30 -●-SVD --User Based Item Based呈指数级地提升。综上,Htp Uf算法 -合 Item_Based 在至少推荐一个相关物品的能力上性能更好,也 -x-HTMMF 30.20 ◆-HpUf 验证了该算法的有效性。 二二 -。-SVD -x-HTMMF -▲-User Based -◆-Htp_Uf A-Item Based 0.10 一一一● 0.6 分★ 2 4 68 10 △ N 0.2 图2 Htp Uf与4种基线算法NDCG对比 Fig.2 Diagram comparing performances of Htp_Uf and 6 8 10 four baseline algorithms by NDCG N 图2中,N表示推荐列表长度。对比发现 图3 Htp Uf与4种基线算法1-cal对比图 HpUf算法相比其他4种算法效果更好,特别是 Fig.3 Diagram comparing Htp Uf and four baseline al- 与User Based和Item Based相比,提升效果呈级 gorithms by 1-Call 数增长。其主要原因为:Hp_Uf算法将用户潜在 图4为在MovieLens IM数据集上,Htp_Uf算 高效用因子与物品被靶向因子用于推荐算法第一 法与其他4种算法在NDCG评价标准下效果对比 阶段,不仅预测用户对物品评分的概率,还考虑 图。该数据集包含6040个用户对3900个物品 到用户潜在高效用情况,更适合进行TopN推荐 100万条评分记录,由图4知,Htp_Uf算法在ND- 从而提升推荐算法性能。而HTMMF算法次之, CG评价标准下相比其他4种算法有显著提高。 原因是:HTMMF算法在第一阶段中考虑到用户 -。-SVD -x-HTMMF 对物品评分的概率,而没有考虑到用户潜在高效 -▲-User Based -◆-Htp Uf △Item Based 0.04Γ 用因子情况。 ◆一 由表I中数据知,Htp_Uf算法比Item_Based、 80.03 User Based、SVD、HTMMF这4种算法均有不同 0.02 幅度的提高,HTMMF算法仅次于Htp Uf算法, ==二二三二二 而对比Item Based算法,Htp Uf算法提升效果呈 0.01 指数增长,验证了该算法的有效性。从侧面说明 了Item Based算法不适合TopN推荐,其主要原 0 4 6810 因是:Item Based算法为了给用户推荐与该用户 历史偏好物品相似的物品,而不一定是用户最感 图4Htp_Uf与4种基线算法NDCG对比图 兴趣的物品。 Fig.4 Diagram comparing Htp_Uf and four baseline al- gorithms by NDCG 表1Htp_Uf与4种基线算法NDCG提升率比较 Table 1 Comparison of increasing rates by Htp Uf and 由表2知,Htp Uf算法在不同的推荐列表长 four baseline algorithms by NDCG % 度下,采用1-Cl评价标准,相比其他4种基线算 算法 N=1 N=3 W=5 W=10 法均有不同程度的提高。由表1和表2联合说 Item Based 2919 2359 2288 2042 明,Htp Uf算法在与顺序有关的评价标准下的提 User Based 1214 1015 829 620 升率要明显高于顺序无关下的提升率,符合该算 SVD 121.29 103.38 91.23 86.40 法的设计初衷。 HTMMF 8.14 6.81 6.82 5.87 表2Htp_Uf与4种基线算法1-Cal提升率比较 2.3.2Htp_Uf算法与4种基线算法在1-Call评 Table 2 Comparison of increasing rates for Htp_Uf and four baseline algorithms by 1-Call % 价标准下对比 算法 N=1 =3N=5 N=10 实验中Htp_Uf算法各参数取值为:u=0.2, Item Based 1821 1156 881 529 w=0.1,6=0.5,7=0.01。 User_Based 1041 544 321 171 由图3对比可知,Htp Uf算法在1-Call评价 SVD 125.31 71.67 57.18 33.12 标准下,相比SVD算法至少提高33.12%,相比 HTMMF 5.80 4.04 1.25 1.28 HTMMF算法提高5.8%,相比User Based与
0 2 4 6 8 10 0.10 0.20 0.30 N NDCG SVD User_Based Item_Based HTMMF Htp_Uf 图 2 Htp_Uf 与 4 种基线算法 NDCG 对比 Fig. 2 Diagram comparing performances of Htp_Uf and four baseline algorithms by NDCG 图 2 中 ,N 表示推荐列表长度。对比发现 Htp_Uf 算法相比其他 4 种算法效果更好,特别是 与 User_Based 和 Item_Based 相比,提升效果呈级 数增长。其主要原因为:Htp_Uf 算法将用户潜在 高效用因子与物品被靶向因子用于推荐算法第一 阶段,不仅预测用户对物品评分的概率,还考虑 到用户潜在高效用情况,更适合进行 TopN 推荐, 从而提升推荐算法性能。而 HTMMF 算法次之, 原因是:HTMMF 算法在第一阶段中考虑到用户 对物品评分的概率,而没有考虑到用户潜在高效 用因子情况。 由表 1 中数据知,Htp_Uf 算法比 Item_Based、 User_Based、SVD、HTMMF 这 4 种算法均有不同 幅度的提高, HTMMF 算法仅次于 Htp_Uf 算法, 而对比 Item_Based 算法,Htp_Uf 算法提升效果呈 指数增长,验证了该算法的有效性。从侧面说明 了 Item_Based 算法不适合 TopN 推荐,其主要原 因是:Item_Based 算法为了给用户推荐与该用户 历史偏好物品相似的物品,而不一定是用户最感 兴趣的物品。 表 1 Htp_Uf 与 4 种基线算法 NDCG 提升率比较 Table 1 Comparison of increasing rates by Htp_Uf and four baseline algorithms by NDCG % 算法 N=1 N=3 N=5 N=10 Item_Based 2 919 2 359 2 288 2 042 User_Based 1 214 1 015 829 620 SVD 121.29 103.38 91.23 86.40 HTMMF 8.14 6.81 6.82 5.87 2.3.2 Htp_Uf 算法与 4 种基线算法在 1-Call 评 价标准下对比 µ ψ δ η 实验中 Htp_Uf 算法各参数取值为: =0.2, =0.1, =0.5, =0.01。 由图 3 对比可知,Htp_Uf 算法在 1-Call 评价 标准下,相比 SVD 算法至少提高 33.12%,相比 HTMMF 算法提高 5.8%,相比 User_Based 与 Item_Based 呈指数级地提升。综上,Htp_Uf 算法 在至少推荐一个相关物品的能力上性能更好,也 验证了该算法的有效性。 0 2 4 6 8 10 0.2 0.4 0.6 N 1-Call SVD User_Based Item_Based HTMMF Htp_Uf 图 3 Htp_Uf 与 4 种基线算法 1-call 对比图 Fig. 3 Diagram comparing Htp_Uf and four baseline algorithms by 1-Call 图 4 为在 MovieLens 1M 数据集上,Htp_Uf 算 法与其他 4 种算法在 NDCG 评价标准下效果对比 图。该数据集包含 6 040 个用户对 3 900 个物品 100 万条评分记录,由图 4 知,Htp_Uf 算法在 NDCG 评价标准下相比其他 4 种算法有显著提高。 0 2 4 6 8 10 0.01 0.02 0.03 0.04 N NDCG SVD User_Based Item_Based HTMMF Htp_Uf 图 4 Htp_Uf 与 4 种基线算法 NDCG 对比图 Fig. 4 Diagram comparing Htp_Uf and four baseline algorithms by NDCG 由表 2 知,Htp_Uf 算法在不同的推荐列表长 度下,采用 1-Call 评价标准,相比其他 4 种基线算 法均有不同程度的提高。由表 1 和表 2 联合说 明,Htp_Uf 算法在与顺序有关的评价标准下的提 升率要明显高于顺序无关下的提升率,符合该算 法的设计初衷。 表 2 Htp_Uf 与 4 种基线算法 1-Call 提升率比较 Table 2 Comparison of increasing rates for Htp_Uf and four baseline algorithms by 1-Call % 算法 N=1 N=3 N=5 N=10 Item_Based 1 821 1 156 881 529 User_Based 1 041 544 321 171 SVD 125.31 71.67 57.18 33.12 HTMMF 5.80 4.04 1.25 1.28 ·522· 智 能 系 统 学 报 第 14 卷
第3期 张旭,等:加权高效用因子的两阶段混合推荐算法 ·523· 2.3.3参数山对HpUf算法的影响 到用户对物品感兴趣但不一定评高分的情况,本 固定参数=0.2,6=0.2,=0.1时,检验参数山 文将用户评分过程分为用户评分和选择产品两个 的变化对Htp Uf算法的影响。 阶段。将用户评分行为中抽象出用户潜在高效用 由图5知,参数山从0.1开始,以步长为0.1 因子和物品被靶向概率因子,并且将这两种因子 递增至0.9。纵向分析,随着推荐列表长度的增 加权作为两阶段推荐的第一阶段,采用奇异值分 加,NDCG值递减,反之亦然,即NDCG值的大小 解因子模型来预测具体评分值作为第二阶段,将 与列表长度成反比。横向分析,当推荐列表长度 两阶段融合形成一种加权高效用因子的两阶段混 为1,山为01时,NDCG值最高,山为0.6时次之。 合推荐算法,实验结果表明该算法提高了TopN 当推荐列表长度为3、5、10,山从0.1增加到 推荐质量。 0.5时,NDCG值呈递减趋势,即NDCG值的大小 本文提出的两阶段混合推荐算法在挖掘高效 与参数山大小成反比。因此,不论推荐列表长度 用因子和靶向物品概率因子计算方面,都不同程 为多少,参数山取值为01最好。 度地受到用户历史评分矩阵数据缺失的影响,也 存在用户冷启动,物品冷启动,数据稀疏性等问 0.26 -▲-NDCG@I-●-NDCG@5 902✉ -△NDCG@3-×-NDCG@10 题,这些问题将是我们未来研究工作的重点。 A 20.2 - 参考文献: 0.20 a众△公6 [1]WEIMER M,KARATZOGLOU A,LE Q V,et al.COFIR- 0.18 ANK maximum margin matrix factorization for collaborat- 0.16 ive ranking[C]//Proceedings of the 20th International Con- 0 0.20.40.60.81.0 ference on Neural Information Processing Systems.Van- couver,British Columbia,Canada:Curran Associates Inc., 图5参数也在NDCG标准下对Htp_Uf的影响 2007:1593-1600. Fig.5 Influence of parameter variation to model of [2]LIU NN,ZHAO Min,YANG Qiang.Probabilistic latent Htp_Uf by NDCG preference analysis for collaborative filtering[Cl/Proceed- 2.3.4参数μ对HpUf算法的影响 ings of the 18th ACM Conference on Information and 固定参数山=0.2,6=0.2,=0.1时,检验参数μ Knowledge Management.Hong Kong,China:ACM,2009: 的变化对Htp_Uf算法的影响。 759-766. 由图6知,当推荐列表长度为1时,为使ND- [3]BREESE J S.HECKERMAN D.KADIE C.Empirical CG值最高,=0.1为最佳选择。当推荐列表长度 analysis of predictive algorithms for collaborative filtering[C 分别为3、5、10时,NDCG值呈先增后减的趋势; Proceedings of the 14th Conference on Uncertainty in Arti- 当推荐列表长度为3、5时,=0.2最优;当推荐列 ficial Intelligence.Madison,Wisconsin:Morgan 表长度为10时,0.3最佳。 Kaufmann Publishers Inc.,1998:43-52 0.26 -▲-NDCG@I --NDCG@5 [4]LI Sheng,KAWALE J,FU Yun.Deep collaborative filter- -A-NDCG@3-关-NDCG@10 ing via marginalized denoising auto-encoder[Cl//Proceed- 0.24 A ings of the 24th ACM International on Conference on In- 02 formation and Knowledge Management.Melbourne,Aus- L00心A合仓△ tralia:ACM,2015:811-820 0.20 。0--0--。-0 [5]KASSAK O.KOMPAN M.BIELIKOVA M.Personal- 0.18 ized hybrid recommendation for group of users:Top-N X一× multimedia recommender[J].Information processing and 0.16 0.2 0.40.60.8 1.0 management,2016,52(3:459-477 [6]LI Sheng,KAWALE J,FU Yun.Predicting user behavior 图6参数u在NDCG标准下对Htp Uf的影响 in display advertising via dynamic collective matrix factor- Fig.6 Influence of u parameter variation on NDCG's ization[C]//Proceedings of the 38th International ACM model of Htp Uf SIGIR Conference on Research and Development in In- 3结束语 formation.Santiago,Chile:ACM,2015:875-878. [7]TARUS J K,NIU Zhendong,YOUSIF A.A hybrid know- 受经济学领域中效用函数的启发,同时考虑 ledge-based recommender system for e-learning based on
2.3.3 参数 ψ 对 Htp_Uf 算法的影响 固定参数 µ =0.2,δ =0.2,η =0.1 时,检验参数 ψ 的变化对 Htp_Uf 算法的影响。 ψ ψ ψ ψ ψ ψ 由图 5 知,参数 从 0.1 开始,以步长为 0.1 递增至 0.9。纵向分析,随着推荐列表长度的增 加,NDCG 值递减,反之亦然,即 NDCG 值的大小 与列表长度成反比。横向分析,当推荐列表长度 为 1, 为 0.1 时,NDCG 值最高, 为 0.6 时次之。 当推荐列表长度 为 3、 5、 10, 从 0.1 增 加 到 0.5 时,NDCG 值呈递减趋势,即 NDCG 值的大小 与参数 大小成反比。因此,不论推荐列表长度 为多少,参数 取值为 0.1 最好。 0 0.2 0.4 0.6 0.8 1.0 0.16 0.18 0.20 0.22 0.24 0.26 ψ NDCG NDCG@1 NDCG@3 NDCG@5 NDCG@10 图 5 参数 ψ 在 NDCG 标准下对 Htp_Uf 的影响 Fig. 5 Influence of ψ parameter variation to model of Htp_Uf by NDCG 2.3.4 参数 µ 对 Htp_Uf 算法的影响 固定参数 ψ =0.2,δ =0.2,η =0.1 时,检验参数 µ 的变化对 Htp_Uf 算法的影响。 µ µ µ 由图 6 知,当推荐列表长度为 1 时,为使 NDCG 值最高, =0.1 为最佳选择。当推荐列表长度 分别为 3、5、10 时,NDCG 值呈先增后减的趋势; 当推荐列表长度为 3、5 时, =0.2 最优;当推荐列 表长度为 10 时, =0.3 最佳。 0 0.2 0.4 0.6 0.8 1.0 0.16 0.18 0.20 0.22 0.24 0.26 μ NDCG NDCG@1 NDCG@3 NDCG@5 NDCG@10 图 6 参数 µ 在 NDCG 标准下对 Htp_Uf 的影响 Fig. 6 Influence of µ parameter variation on NDCG’s model of Htp_Uf 3 结束语 受经济学领域中效用函数的启发,同时考虑 到用户对物品感兴趣但不一定评高分的情况,本 文将用户评分过程分为用户评分和选择产品两个 阶段。将用户评分行为中抽象出用户潜在高效用 因子和物品被靶向概率因子,并且将这两种因子 加权作为两阶段推荐的第一阶段,采用奇异值分 解因子模型来预测具体评分值作为第二阶段,将 两阶段融合形成一种加权高效用因子的两阶段混 合推荐算法,实验结果表明该算法提高了 TopN 推荐质量。 本文提出的两阶段混合推荐算法在挖掘高效 用因子和靶向物品概率因子计算方面,都不同程 度地受到用户历史评分矩阵数据缺失的影响,也 存在用户冷启动,物品冷启动,数据稀疏性等问 题,这些问题将是我们未来研究工作的重点。 参考文献: WEIMER M, KARATZOGLOU A, LE Q V, et al. COFIRANK maximum margin matrix factorization for collaborative ranking[C]//Proceedings of the 20th International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada: Curran Associates Inc., 2007: 1593–1600. [1] LIU N N, ZHAO Min, YANG Qiang. Probabilistic latent preference analysis for collaborative filtering[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management. Hong Kong, China: ACM, 2009: 759–766. [2] BREESE J S, HECKERMAN D, KADIE C. Empirical analysis of predictive algorithms for collaborative filtering[C]// Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence. Madison, Wisconsin: Morgan Kaufmann Publishers Inc., 1998: 43–52. [3] LI Sheng, KAWALE J, FU Yun. Deep collaborative filtering via marginalized denoising auto-encoder[C]//Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. Melbourne, Australia: ACM, 2015: 811–820. [4] KAŠŠÁK O, KOMPAN M, BIELIKOVÁ M. Personalized hybrid recommendation for group of users: Top-N multimedia recommender[J]. Information processing and management, 2016, 52(3): 459–477. [5] LI Sheng, KAWALE J, FU Yun. Predicting user behavior in display advertising via dynamic collective matrix factorization[C]//Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information. Santiago, Chile: ACM, 2015: 875–878. [6] TARUS J K, NIU Zhendong, YOUSIF A. A hybrid knowledge-based recommender system for e-learning based on [7] 第 3 期 张旭,等:加权高效用因子的两阶段混合推荐算法 ·523·
·524· 智能系统学报 第14卷 ontology and sequential pattern mining[J].Future genera- [16]JARVELIN K,KEKALAINEN K.Cumulated gain-based tion computer systems,2017,72:37-48. evaluation of IR techniques[J].ACM transactions on in- [8]KOREN Y.BELL R.VOLINSKY C.Matrix factorization formation systems (TOIS),2002,20(4):422-446. techniques for recommender systems[J].Computer,2009, [17]LINDEN G.SMITH B,YORK J.Amazon.com recom- 42(8):30-37. mendations:item-to-item collaborative filtering[J].IEEE [9]MA Hao,ZHOU Dengyong,LIU Chao,et al.Recommend- internet computing,2003,7(1):76-80. er systems with social regularization[C]//Proceedings of [18]SYMEONIDIS P.Content-based dimensionality reduc- the 4th ACM International Conference on Web Search and tion for recommender systems[M]//PREISACH C, Data Mining.Hong Kong,China:ACM,2011:287-296. BURKHARDT H,SCHMIDT-THIEME L,et al.Data [10]ANSARI A,LI Yang,ZHANG J Z.Probabilistic topic Analysis,Machine Learning and Applications.Berlin, model for hybrid recommender systems:a stochastic vari- Heidelberg:Springer,2008:619-626. ational Bayesian approach[D].New York:Columbia [19]ZHAO Xiangyu,NIU Zhendong,CHEN Wei,et al.A hy- Business School,2017. brid approach of topic model and matrix factorization [11]彭敏,席俊杰,代心媛,等.基于情感分析和LDA主题 based on two-step recommendation framework[J].Journ- 模型的协同过滤推荐算法[】.中文信息学报,2017, al of intelligent information systems,2015,44(3):335- 31(2):194203 353. PENG Min,XI Junjie,DAI Xinyuan,et al.Collaborative 作者简介: filtering recommendation based on sentiment analysis and 张旭,男,1991年生,硕土研究 LDA topic model[J].Journal of Chinese information pro- 生,主要研究方向为智能信息处理、推 cessing,2017,31(2):194-203. 荐系统。 [12]黄璐,林川杰,何军,等.融合主题模型和协同过滤的多 样化移动应用推荐.软件学报,2017,28(3):708-720. HUANG Lu,LIN Chuanjie,HE Jun,et al.Diversified mobile app recommendation combining topic model and collaborative filtering[J].Journal of software,2017,28(3): 孙福振,男,1978年生,副教授, 708-720. 博士,主要研究方向为信息检索与数 [13]BLEI D M.NG A Y.JORDAN M I,et al.Latent dirich- 据挖掘、推荐系统、话题检测与热点跟 踪。授权国家发明专利6项。发表学 let allocation[J].Journal of machine learning research, 术论文30余篇。 2003,3(4/5):993-1022. [14]GRIFFITHS TL,STEYVERS M.Finding scientific top- ics[J].Proceedings of the national academy of sciences of the United States of America,2004,101(S1):5228-5235 方春,女,1981年生,讲师,博士, [15]SHI Yue,KARATZOGLOU A,BALTRUNAS L,et al. 主要研究方向为智能计算、模式识别、 生物医学研究。发表学术论文10余篇。 CLiMF:learning to maximize reciprocal rank with collab- orative less-is-more filtering[C]//Proceedings of the 6th ACM conference on recommender systems.Dublin,Ire- land:ACM2012:139-146
ontology and sequential pattern mining[J]. Future generation computer systems, 2017, 72: 37–48. KOREN Y, BELL R, VOLINSKY C. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8): 30–37. [8] MA Hao, ZHOU Dengyong, LIU Chao, et al. Recommender systems with social regularization[C]//Proceedings of the 4th ACM International Conference on Web Search and Data Mining. Hong Kong, China: ACM, 2011: 287–296. [9] ANSARI A, LI Yang, ZHANG J Z. Probabilistic topic model for hybrid recommender systems: a stochastic variational Bayesian approach[D]. New York: Columbia Business School, 2017. [10] 彭敏, 席俊杰, 代心媛, 等. 基于情感分析和 LDA 主题 模型的协同过滤推荐算法[J]. 中文信息学报, 2017, 31(2): 194–203. PENG Min, XI Junjie, DAI Xinyuan, et al. Collaborative filtering recommendation based on sentiment analysis and LDA topic model[J]. Journal of Chinese information processing, 2017, 31(2): 194–203. [11] 黄璐, 林川杰, 何军, 等. 融合主题模型和协同过滤的多 样化移动应用推荐[J]. 软件学报, 2017, 28(3): 708–720. HUANG Lu, LIN Chuanjie, HE Jun, et al. Diversified mobile app recommendation combining topic model and collaborative filtering[J]. Journal of software, 2017, 28(3): 708–720. [12] BLEI D M, NG A Y, JORDAN M I, et al. Latent dirichlet allocation[J]. Journal of machine learning research, 2003, 3(4/5): 993–1022. [13] GRIFFITHS T L, STEYVERS M. Finding scientific topics[J]. Proceedings of the national academy of sciences of the United States of America, 2004, 101(S1): 5228–5235. [14] SHI Yue, KARATZOGLOU A, BALTRUNAS L, et al. CLiMF: learning to maximize reciprocal rank with collaborative less-is-more filtering[C]//Proceedings of the 6th ACM conference on recommender systems. Dublin, Ireland: ACM, 2012: 139–146. [15] JÄRVELIN K, KEKÄLÄINEN K. Cumulated gain-based evaluation of IR techniques[J]. ACM transactions on information systems (TOIS), 2002, 20(4): 422–446. [16] LINDEN G, SMITH B, YORK J. Amazon. com recommendations: item-to-item collaborative filtering[J]. IEEE internet computing, 2003, 7(1): 76–80. [17] SYMEONIDIS P. Content-based dimensionality reduction for recommender systems[M]//PREISACH C, BURKHARDT H, SCHMIDT-THIEME L, et al. Data Analysis, Machine Learning and Applications. Berlin, Heidelberg: Springer, 2008: 619–626. [18] ZHAO Xiangyu, NIU Zhendong, CHEN Wei, et al. A hybrid approach of topic model and matrix factorization based on two-step recommendation framework[J]. Journal of intelligent information systems, 2015, 44(3): 335– 353. [19] 作者简介: 张旭,男,1991 年生,硕士研究 生,主要研究方向为智能信息处理、推 荐系统。 孙福振,男,1978 年生,副教授, 博士,主要研究方向为信息检索与数 据挖掘、推荐系统、话题检测与热点跟 踪。授权国家发明专利 6 项。发表学 术论文 30 余篇。 方春,女,1981 年生,讲师,博士, 主要研究方向为智能计算、模式识别、 生物医学研究。发表学术论文 10 余篇。 ·524· 智 能 系 统 学 报 第 14 卷