【机器学习】加权高效用因子的两阶段混合推荐算法

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：3.84MB

第14卷第3期智能系统学报 Vol.14 No.3 2019年5月 CAAI Transactions on Intelligent Systems May 2019 D0:10.11992/tis.201710028 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20180425.1001.006html 加权高效用因子的两阶段混合推荐算法张旭，孙福振，方春 (山东理工大学计算机科学与技术学院，山东淄博255049) 摘要：传统协同过滤算法大多是围绕如何降低评分误差展开研究，未涉及用户评分过程。本文考虑到用户评分动机和用户本身评分倾向的情况，将用户评分过程分为用户评分和物品选择两个阶段，从预测用户兴趣概率和用户效用角度出发，采用潜在狄利克雷分布模型LD)挖掘出用户潜在高效用因子和物品被靶向概率因子，进而将两种因子加权融合作为第一阶段：第二阶段采用奇异值分解预测用户评分值并根据该评分值选择物品。综上，本文提出一种加权高效用因子的两阶段混合推荐算法(hybrid recommendation algorithm based on two- phase weighted high utility factor,.Htp_UD。在MovieLens数据集上，实验结果表明，该算法在归一化累计折损增益(NDCG)和1-Cl两种评价标准下优于其他4种推荐算法，能够有效提高推荐质量。关键词：两阶段；高效用因子；靶向因子；主题模型；用户兴趣；混合推荐：用户效用；评分倾向中图分类号：TP311 文献标志码：A文章编号：1673-4785(2019)03-0518-07 中文引用格式：张旭，孙福振，方春.加权高效用因子的两阶段混合推荐算法J.智能系统学报，2019,14(3)：518-524. 英文引用格式：ZHANG Xu,SUN Fuzhen,.FANG Chun.Two-phase weighted high-utility factor-based hybrid recommendation al-. gorithmJ].CAAI transactions on intelligent systems,2019,14(3):518-524. Two-phase weighted high-utility factor-based hybrid recommendation algorithm ZHANG Xu,SUN Fuzhen,FANG Chun (College of Computer Science and Technology,Shandong University of Technology,Zibo 255049,China) Abstract:The traditional collaborative filtering algorithm focuses on methods for reducing the rating error,but it does not involve a user rating process.In this paper,we divide the user rating process into two phases,i.e.,user rating and item selection,and take into account user-rating motivation and user-rating tendency.From the perspectives of predict- ing a user's interest probability and user utility,we adopt a latent dirichlet allocation(LDA)to mine a user latent high- utility factor and an article-targeted probabilistic factor,and then weight and fuse these two factors in the first phase.In the second phase,we use singular value decomposition to predict a user rating value,which we then use in user recom- mendation lists.Our main contribution is our proposal of a two-phase weighted high-utility factor-based hybrid recom- mendation algorithm,which we abbreviate as Htp_Uf.We compare the effectiveness of the Htp_Uf algorithm with that of others using the MovieLens dataset.The results show that the performance of the proposed algorithm is superior to that of four other recommendation algorithms in terms of two evaluation criteria,namely,the normalized discounted cu- mulative gain and 1-call,which can effectively improve the quality of the recommendation. Keywords:two phases;high-utility factor,targeted factor,topic model;user interest,hybrid recommendation;user util- ity;user rating tendency 推荐系统的核心是推荐算法，根据算法的学习目的不同，主要分为评分预测推荐算法和排序收稿日期：2017-10-31.网络出版日期：2018-04-25. 预测推荐算法两大类。文献[1-2]研究指出，排序基金项目：国家自然科学基金项目(61602280)：山东省自然科学基金项目(ZR2014FQ028), 预测更符合TopN推荐的思想，排序预测比评分通信作者：孙福振.E-mail:sunfuzhen@sdut..edu.cn. 预测能更好地为用户进行TopN推荐。随着互联

DOI: 10.11992/tis.201710028 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180425.1001.006.html 加权高效用因子的两阶段混合推荐算法张旭，孙福振，方春（山东理工大学计算机科学与技术学院，山东淄博 255049）摘要：传统协同过滤算法大多是围绕如何降低评分误差展开研究，未涉及用户评分过程。本文考虑到用户评分动机和用户本身评分倾向的情况，将用户评分过程分为用户评分和物品选择两个阶段，从预测用户兴趣概率和用户效用角度出发，采用潜在狄利克雷分布模型 (LDA) 挖掘出用户潜在高效用因子和物品被靶向概率因子，进而将两种因子加权融合作为第一阶段；第二阶段采用奇异值分解预测用户评分值并根据该评分值选择物品。综上，本文提出一种加权高效用因子的两阶段混合推荐算法 (hybrid recommendation algorithm based on twophase weighted high utility factor，Htp_Uf)。在 MovieLens 数据集上，实验结果表明，该算法在归一化累计折损增益 (NDCG) 和 1-Call 两种评价标准下优于其他 4 种推荐算法，能够有效提高推荐质量。关键词：两阶段；高效用因子；靶向因子；主题模型；用户兴趣；混合推荐；用户效用；评分倾向中图分类号：TP311 文献标志码：A 文章编号：1673−4785(2019)03−0518−07 中文引用格式：张旭, 孙福振, 方春. 加权高效用因子的两阶段混合推荐算法[J]. 智能系统学报, 2019, 14(3): 518–524. 英文引用格式：ZHANG Xu, SUN Fuzhen, FANG Chun. Two-phase weighted high-utility factor-based hybrid recommendation algorithm[J]. CAAI transactions on intelligent systems, 2019, 14(3): 518–524. Two-phase weighted high-utility factor-based hybrid recommendation algorithm ZHANG Xu，SUN Fuzhen，FANG Chun (College of Computer Science and Technology, Shandong University of Technology, Zibo 255049, China) Abstract: The traditional collaborative filtering algorithm focuses on methods for reducing the rating error, but it does not involve a user rating process. In this paper, we divide the user rating process into two phases, i.e., user rating and item selection, and take into account user-rating motivation and user-rating tendency. From the perspectives of predicting a user’s interest probability and user utility, we adopt a latent dirichlet allocation (LDA) to mine a user latent highutility factor and an article-targeted probabilistic factor, and then weight and fuse these two factors in the first phase. In the second phase, we use singular value decomposition to predict a user rating value, which we then use in user recommendation lists. Our main contribution is our proposal of a two-phase weighted high-utility factor-based hybrid recommendation algorithm, which we abbreviate as Htp_Uf. We compare the effectiveness of the Htp_Uf algorithm with that of others using the MovieLens dataset. The results show that the performance of the proposed algorithm is superior to that of four other recommendation algorithms in terms of two evaluation criteria, namely, the normalized discounted cumulative gain and 1-call, which can effectively improve the quality of the recommendation. Keywords: two phases; high-utility factor; targeted factor; topic model; user interest; hybrid recommendation; user utility; user rating tendency 推荐系统的核心是推荐算法，根据算法的学习目的不同，主要分为评分预测推荐算法和排序预测推荐算法两大类。文献[1-2]研究指出，排序预测更符合 TopN 推荐的思想，排序预测比评分预测能更好地为用户进行 TopN 推荐。随着互联收稿日期：2017−10−31. 网络出版日期：2018−04−25. 基金项目：国家自然科学基金项目 (61602280)；山东省自然科学基金项目 (ZR2014FQ028). 通信作者：孙福振. E-mail：sunfuzhen@sdut.edu.cn. 第 14 卷第 3 期智能系统学报 Vol.14 No.3 2019 年 5 月 CAAI Transactions on Intelligent Systems May 2019

第3期张旭，等：加权高效用因子的两阶段混合推荐算法 ·519· 网信息的爆炸式增长，带来信息过载问题的同现的条件概率；P(w)表示在主题z下选择词w 时，大量信息背后隐藏着用户潜在行为因子，而的条件概率。本文将LDA融入到Htp Uf算法中传统推荐算法包括业界运用成熟的协同过滤算主要考虑2种因子潜在高效用因子和物品被靶向法)，并没有考虑挖掘用户的潜在行为过程。概率因子，即user→interest→item和user→utility→ 文献[45]运用边缘化去噪自编码的深度学习 value,详细流程如图1所示。方法学习出一种高效潜在表征方法，没有将用户 user user 潜在行为用于深度学习建模中；文献[6]将用户的点击行为与转化率联系在一起构建了动态集体矩阵分解模型，有效利用了用户的显性点击行为而 interest 1 interest N utility 1 utility N 没有关注用户隐性行为：文献[]提出了一种基于本体论与时序模式挖掘的混合推荐算法以此来提高TopN推荐质量；文献[8-9]采用概率矩阵分解 item value 技术，将用户评分信息和社交网络信息整合，挖 (a)物品被靶向概率因子 (b)用户潜在高效用因子掘出额外信息可以很好地解决预测精度低的问图1两种因子流程图题，未考虑到用户兴趣因子情况；文献[10]使用物 Fig.1 Flowchart of two factors 品协变量和物品标签等个性化物品潜在的主题，图l中，user表示用户，interest表示用户兴趣提出了随机变分贝叶斯(SVB)框架和一种协变量主题，item表示选择的物品，utility表示效用，value 为导向的多异性监督主题模型(CGHSTM);文献表示用户评分值。其中，图1(a)表示物品被靶向 [11]考虑到用户对物品各个属性面的偏好，利用概率因子，图1(b)表示用户潜在高效用因子。 LDA模型挖掘用户K个属性面提出了一种SACF 1.2用户潜在高效用因子模型算法；文献[12]为了提高推荐多样性，将用户的主本文认为用户选择物品后并决定对该物品评题模型和应用的主题模型与M相结合的LDA MF 分之前还要有一个动作，即衡量评分后这个物品模型融合提出了一种混合推荐算法。上述几个模会给用户自身带来多少潜在效用。然后根据这个型有效缓解了可扩展性问题，提高了推荐多样效用再结合该物品是否符合用户兴趣选择物品给性，而未考虑兴趣因子以及高效用因子等用户潜出具体评分值。在行为因素。定义1用户潜在高效用因子。在推荐系统综上，为有效挖掘用户兴趣偏好，本文考虑到中，用户在花销时间成本的条件下对物品进行评用户的潜在行为过程，即用户评分和物品选择两分时，不仅会考虑物品是否符合自己的兴趣，还个阶段。通过分析用户历史行为数据，采用用户会考虑评分给自身带来的效用，即用户满意度。 topic模型进行训练，挖掘出用户潜在高效用因子显然效用直接决定用户评分值。而本文将这种效和物品被靶向概率因子，提出了一种加权用户潜用定义为用户潜在效用因子(latent utility factor, 在高效用因子的两阶段混合推荐算法。 LUF)。为避免抽取单个效用因子造成的偏置现 1算法描述象，本文抽取其中两个高概率因子进行累加，累加的结果称为用户潜在高效用因子(latent high 1.1用户topic模型 utility factor,.LHUF)。综上，可根据用户的历史评考虑到一个用户不可能只对一种物品感兴分行为来预测用户的潜在高效用因子。用户潜在趣，一种物品通常有多重属性，不仅归属于单一高效用因子数学范式为类型。一个用户不一定对所有物品评高分，而被评高分的物品通常不仅源自单一用户等情况。因 h_pf(u) P(r)(U.I.V,(Rleev,(P(r)hev) welV-1.v] 此，本文选择LDA主题模型对用户历史动作特征 (2) 进行训练，进而挖掘出用户潜在高效用因子与物式中：U表示用户集合；I为物品集合；R为用户品被靶向概率因子，LDA描述文档的生成概率为) u对物品i的具体评分值；Pr,)为编号u的用户对 P(wld)=>P(=ld)-P(wE) (1) 每个评分值预测可能评价的概率值；V为评分区间最大值。由式(2)可知，核心是Pr,)数值的预式中：P(wd为文档d已知的情况下词w出现的测，下面将通过LDA模型对P(,)值进行预测。条件概率；Pd为文档d已知的情况下主题z出受启发于LDA模型在文本挖掘中加入主题

网信息的爆炸式增长，带来信息过载问题的同时，大量信息背后隐藏着用户潜在行为因子，而传统推荐算法包括业界运用成熟的协同过滤算法 [3] ，并没有考虑挖掘用户的潜在行为过程。文献[4-5]运用边缘化去噪自编码的深度学习方法学习出一种高效潜在表征方法，没有将用户潜在行为用于深度学习建模中；文献[6]将用户的点击行为与转化率联系在一起构建了动态集体矩阵分解模型，有效利用了用户的显性点击行为而没有关注用户隐性行为；文献[7]提出了一种基于本体论与时序模式挖掘的混合推荐算法以此来提高 TopN 推荐质量；文献[8-9]采用概率矩阵分解技术，将用户评分信息和社交网络信息整合，挖掘出额外信息可以很好地解决预测精度低的问题，未考虑到用户兴趣因子情况；文献[10]使用物品协变量和物品标签等个性化物品潜在的主题，提出了随机变分贝叶斯 (SVB) 框架和一种协变量为导向的多异性监督主题模型 (CGHSTM)；文献 [11]考虑到用户对物品各个属性面的偏好，利用 LDA 模型挖掘用户 K 个属性面提出了一种 SACF 算法；文献[12]为了提高推荐多样性，将用户的主题模型和应用的主题模型与 MF 相结合的 LDA_MF 模型融合提出了一种混合推荐算法。上述几个模型有效缓解了可扩展性问题，提高了推荐多样性，而未考虑兴趣因子以及高效用因子等用户潜在行为因素。综上，为有效挖掘用户兴趣偏好，本文考虑到用户的潜在行为过程，即用户评分和物品选择两个阶段。通过分析用户历史行为数据，采用用户 topic 模型进行训练，挖掘出用户潜在高效用因子和物品被靶向概率因子，提出了一种加权用户潜在高效用因子的两阶段混合推荐算法。 1 算法描述 1.1 用户 topic 模型考虑到一个用户不可能只对一种物品感兴趣，一种物品通常有多重属性，不仅归属于单一类型。一个用户不一定对所有物品评高分，而被评高分的物品通常不仅源自单一用户等情况。因此，本文选择 LDA 主题模型对用户历史动作特征进行训练，进而挖掘出用户潜在高效用因子与物品被靶向概率因子，LDA 描述文档的生成概率为[13] P(w|d ) = ∑ z P(z|d )· P(w|z) (1) P(w|d) d w P(z|d) d z 式中：为文档已知的情况下词出现的条件概率；为文档已知的情况下主题出 P(w|z) z w user → interest → item user → utility → 现的条件概率；表示在主题下选择词的条件概率。本文将 LDA 融入到 Htp_Uf 算法中主要考虑 2 种因子潜在高效用因子和物品被靶向概率因子，即和 value，详细流程如图 1 所示。 user user interest 1 interest N item value … … utility 1 utility N (a) 物品被靶向概率因子 (b) 用户潜在高效用因子图 1 两种因子流程图 Fig. 1 Flowchart of two factors 图 1 中， user 表示用户， interest 表示用户兴趣主题，item 表示选择的物品，utility 表示效用，value 表示用户评分值。其中，图 1(a) 表示物品被靶向概率因子，图 1(b) 表示用户潜在高效用因子。 1.2 用户潜在高效用因子模型本文认为用户选择物品后并决定对该物品评分之前还要有一个动作，即衡量评分后这个物品会给用户自身带来多少潜在效用。然后根据这个效用再结合该物品是否符合用户兴趣选择物品给出具体评分值。定义 1 用户潜在高效用因子。在推荐系统中，用户在花销时间成本的条件下对物品进行评分时，不仅会考虑物品是否符合自己的兴趣，还会考虑评分给自身带来的效用，即用户满意度。显然效用直接决定用户评分值。而本文将这种效用定义为用户潜在效用因子 (latent utility factor， LUF)。为避免抽取单个效用因子造成的偏置现象，本文抽取其中两个高概率因子进行累加，累加的结果称为用户潜在高效用因子 (latent high utility factor，LHUF)。综上，可根据用户的历史评分行为来预测用户的潜在高效用因子。用户潜在高效用因子数学范式为 h_pf(u) ∆ = ∑u v∈[V−1,V] P(rv) ← (U,I,V,{Ru,i}i∈I,u∈U ,{P(rv)}v∈V ) (2) U I Ru,i u i P(rv) u V P(rv) P(rv) 式中：表示用户集合；为物品集合；为用户对物品的具体评分值；为编号的用户对每个评分值预测可能评价的概率值；为评分区间最大值。由式 (2) 可知，核心是数值的预测，下面将通过 LDA 模型对值进行预测。受启发于 LDA 模型在文本挖掘中加入主题第 3 期张旭，等：加权高效用因子的两阶段混合推荐算法 ·519·

·520· 智能系统学报第14卷维度，在推荐系统用户-评分值二分关联关系中 A LUF 加入效用维度，则变为用户、效用、评分值三分关 PLDA= P(r) (7) ve[V-1.V] 联关系。相应的用户打分值概率为 P(user,value)LDA P(valueluser)= P(r)=>p(utilityluser).p(valuelutility)= P(benefitsluser).P(valuelbenefits) (3) (8) benefits 式中v为评分区间最大值。式中：P(benefitsluser)表示用户user选择效用为 1.3物品被靶向概率因子模型 benefits的概率；P(valuebenefits)表示在效用为根据用户的历史行为预测用户对每个物品感 benefits的情况下用户user评分为value的概率。兴趣的概率。在上述过程中，一个观测数据(valueluser)的生成过程解释为用户user根据效用评价具体分数定义2物品被靶向概率因子。每个用户不为value的过程。可能对所有物品都有过评分行为，为挖掘用户潜该过程为由已知隐含变量参数，生成观测数在兴趣，根据用户历史数据预测用户对每个物品据的过程，为了充分挖掘这些信息，本文采用LDA 进行评价的概率，本文将此概率定义为物品被靶模型训练数据。在LDA模型中的训练方法有变向概率因子。分法(varialtional inference)和Gibbs抽样法(gibbs 物品被靶向概率因子数学范式为 sampling)等，本文采用Gibbs抽样法。Gibbs用 I_Tf(u)(U.I.P..eue) (9) 户效用抽样算法详细描述如下。式中：U表示用户集合；I表示物品集合；P表示 1)随机初始化：为所有用户评分行为中的具预测用户“对物品i进行评价的概率。借鉴于上体评分值随机分配一个初始的效用。节潜在高效用因子抽取，推导P的计算范式，如 2)重新扫描观测数据，对其中的每个评分过式(10(12)：程进行记录，基于式(4)利用观测数据中的其他 P(=i) PTE.<>+μ PFi<>+业行为信息，估计其条件概率，重新采样该评分值 ∑PTk.a>+Mμ∑PFb+nW 的效用。同时更新模型参数。 (10) SV+8 P(o=1)o SWE.ag+刀营SVa+7,68Sw,4a+m C=P(lu)= PTe.u>+u ∑g1PTta>+Mp (11) (4) π=P(i)= PFi为不考虑用户“对具体评分值分记录产品被抽样为兴趣因子z的个数；P℉表为时的动作。示产品j被抽样为兴趣因子：的次数；表 3)重复执行上述采样过程直到Gibbs抽样示不考虑用户“对产品i的评分行为；μ和山分别收敛。为（和τ的超参数。综上，通过模型训练可以计 4)统计Gibbs抽样收敛后的效用-分共存概算物品被靶向概率因子，即率矩阵，利用式(5)和式(6)计算LDA模型的 P.a=∑PeoP)= (13) 参数。 SVi+6 入o=P(σu)= (5) 1.4两种因子的融合模型 sV+T丙根据定义1、2分别计算出用户潜在高效用因 =1 子与物品被靶向概率因子。用户是否评高分不仅 Ws=P(E)= SWs+刀 (6) 取决于被推荐物品与兴趣吻合度，更取决于被推 ∑SWj+nm 荐物品给用户带来满足程度，即用户潜在高效式中：6和n分别为1和w的超参数。用。因此，本文认为用户根据兴趣选择高概率物综上，预测用户user根据效用utility评价评品进行评分且具有高效用因子的情况下预测物品分值为value的概率记为PoA,见式(T)和式(8)：评分，推荐效果会更好

维度，在推荐系统用户−评分值二分关联关系中加入效用维度，则变为用户、效用、评分值三分关联关系。相应的用户打分值概率为 Pˆ ∑ (user,value)LDA = P(value|user ) = benefits P(benefits|user )· P(value|benefits) (3) P(benefits|user )P(value|benefits) 式中：表示用户 user 选择效用为 benefits 的概率；表示在效用为 benefits 的情况下用户 user 评分为 value 的概率。在上述过程中，一个观测数据 (value|user ) 的生成过程解释为用户 user 根据效用评价具体分数为 value 的过程。该过程为由已知隐含变量参数，生成观测数据的过程，为了充分挖掘这些信息，本文采用 LDA 模型训练数据。在 LDA 模型中的训练方法有变分法 (varialtional inference) 和 Gibbs 抽样法 (gibbs sampling)[14]等，本文采用 Gibbs 抽样法。Gibbs 用户效用抽样算法详细描述如下。 1) 随机初始化：为所有用户评分行为中的具体评分值随机分配一个初始的效用。 2) 重新扫描观测数据，对其中的每个评分过程进行记录，基于式 (4) 利用观测数据中的其他行为信息，估计其条件概率，重新采样该评分值的效用。同时更新模型参数。 P(σuξ =σ| σ ¬ , ξ) ∝ SVuσ,¬+δ ∑Tp k=1 SVuk,¬+Tpδ · SWσξ,¬+η ∑n j=1 SWσj,¬+nη (4) σuξ u ξ SVuσ u σ SWσj j σ ¬ u ξ 式中：为用户给出的评分值为所对应的效用；为用户所给出的所有评分值被抽样为效用的数量；为评分值被抽样为效用的次数；为不考虑用户对具体评分值为时的动作。 3) 重复执行上述采样过程直到 Gibbs 抽样收敛。 4) 统计 Gibbs 抽样收敛后的效用−分共存概率矩阵，利用式 (5) 和式 (6) 计算 LDA 模型的参数。 λuσ = P(σ|u) = SVuσ +δ ∑Tp k=1 SVuk +Tpδ (5) ωσξ = P(ξ|σ) = SWσξ +η ∑n j=1 SWσj +nη (6) 式中： δ 和 η 分别为 λ 和 ω 的超参数。 ∆ P LUF LDA 综上，预测用户 user 根据效用 utility 评价评分值为 value 的概率记为，见式 (7) 和式 (8)： ∆ P LUF LDA = ∑user v∈[V−1,V] P(rv) (7) P(rv) = ∑ utility p(utility|user)· p(value|utility) = ∑Tp σ=1 λuσ·ωσξ (8) 式中 v 为评分区间最大值。 1.3 物品被靶向概率因子模型根据用户的历史行为预测用户对每个物品感兴趣的概率。定义 2 物品被靶向概率因子。每个用户不可能对所有物品都有过评分行为，为挖掘用户潜在兴趣，根据用户历史数据预测用户对每个物品进行评价的概率，本文将此概率定义为物品被靶向概率因子。物品被靶向概率因子数学范式为 I_Tf(u) ∆ =(U,I,{Pu,i}u∈U,i∈I) (9) U I Pu,i u i Pu,i 式中：表示用户集合；表示物品集合；表示预测用户对物品进行评价的概率。借鉴于上节潜在高效用因子抽取，推导的计算范式，如式 (10)~(12): P(zui =z| z ¬ ,i) ∝ PTuz,¬+µ ∑M k=1 PTuk,¬+Mµ · PFzi,¬+ψ ∑n j=1 PFzj,¬+nψ (10) ℓuz = P(z|u) = PTuz,¬ +µ ∑M k=1 PTuk,¬ + Mµ (11) τzi = P(i|z) = PFzi,¬ +ψ ∑n j=1 PFzj,¬ +nψ (12) n zui u i PTuz u z PFzj j z ¬ u i µ ψ ℓ τ 式中：是物品的总数量；表示用户对物品的评分记录对应的兴趣因子；是用户的评分记录产品被抽样为兴趣因子的个数；表示产品被抽样为兴趣因子的次数；表示不考虑用户对产品的评分行为；和分别为和的超参数。综上，通过模型训练可以计算物品被靶向概率因子，即 Pu,i = ∑ z P(z|u)· P(i|z) = ∑M z=1 ℓuz ·τzi (13) 1.4 两种因子的融合模型根据定义 1、2 分别计算出用户潜在高效用因子与物品被靶向概率因子。用户是否评高分不仅取决于被推荐物品与兴趣吻合度，更取决于被推荐物品给用户带来满足程度，即用户潜在高效用。因此，本文认为用户根据兴趣选择高概率物品进行评分且具有高效用因子的情况下预测物品评分，推荐效果会更好。 ·520· 智能系统学报第 14 卷

第3期张旭，等：加权高效用因子的两阶段混合推荐算法 ·521· 算法时间复杂度分析如下：由式(7)知，用户 2.2实验评价标准潜在高效用因子采用topic模型抽样收敛后所获推荐算法的评价标准总体上来说一般有两得的值为PDa,假设进行一次Gibbs抽样作为一种：一种是与顺序无关的评价标准，例如均方根个操作单位，记为，总计执行M次，则算法时间误差、平均绝对误差、K-Ca吲等；另一种是与顺复杂度为O(M×t)。同理，由式(13)知，物品被靶序相关的评价标准，例如归一化累计折损增益向概率因子通过采样所获得的值为P,倘若进行 (normalized discounted cumulative gain,NDCG 一次Gibbs抽样作为一个单位操作，记为2，总计本文分别采用1-call(K=1时)和NDCG作为实验执行N次，则算法时间复杂度为ON×2)。故两评价标准。具体描述为：K-Call表示TopN推荐结种因子线性相加之后，算法时间复杂度为O(M×11+ 果中至少含有K个相关产品的用户所占有的比 N×2)。算法的时间复杂度并没有呈指数级明显例。K-Call的公式为增加。 K-Call@N= 而∑fL1≥ 1 (17) 本文将两种因子进行线性加权融合记为 HRe FP,作为两阶段推荐中的第一阶段。式中：)表示布尔函数，变量为真时函数取值 LHUF 为1，为假时取值为0。在实际应用K-Call中，通 HRe_FP=ar·PDA+B.Pa (14) 常选择K=1作为评价标准，即1-Cal表示评价推式中参数a=0.5、B=0.5时取得最优实验结果。荐算法在TopN推荐中包含至少一个相关产品 1.5两阶段融合推荐的能力。NDCG评价标准见式(18)(20)：推荐系统的核心问题是给用户推荐他最感兴 0280-1 趣的几个物品，而不仅仅是预测用户对物品的评 DCG@N(u)= log(1+) (18) 分，将评分高的物品推荐给用户。为了更好地挖 IDCG@N(u)=Max(DCG@N(u)) (19) 掘出用户兴趣，重视评分过程，本文将用户评分 NDCG@N= 1 DCG@N(u) (20) 过程分为用户评分和物品选择两个阶段，将兴趣 UDCG@N西度排序值作为用户推荐的依据更符合推荐算法设式中：R(u,)是用户“对推荐列表中第i个产品计的初衷。同时为不显著增加算法的时间复杂的评分；DCG@N(w是DCG@N(W的最大值；U 度，本文将两阶段线性融合。是测试集中所有用户集合；N表示推荐列表的首先采用奇异值分解计算预测评分值m;进长度。而将第一阶段计算所得融合因子HRe FP与r乘 2.3实验结果积作为用户对物品兴趣度排序值，见式(15)、式本小节主要是将本文提出的Htp Uf算法与 (16): 4种基线算法在两种评价标准下的对比，以及各 fa=μ+b,+bu+qp (15) 个参数选取对Htp_Uf算法的影响。4种基线算 RecOrder Valueu HRe FPXr (16) 法分别为：基于用户的协同过滤推荐(User Based), 式中：μ表示所有物品的平均评分；b.表示第u个基于物品的协同过滤推荐(Item Based)I刀用户偏离平均分的程度；b:表示第i个物品偏离 SVD推荐算法1！、主题模型和矩阵分解模型的混平均分的程度；p.表示第u个用户的主题偏好合推荐算法(HTMMF)I。度；g:表示第i个物品的主题属向度。HRe FP表 2.3.1 Htp Uf算法与4种基线算法在NDCG评示2.4小节中第一阶段值。价标准下的对比实验中Htp_Uf算法各参数取值如下：u=0.2, 2实验分析 w=0.1,6=0.2,=0.1。 2.1实验数据集图2主要是将本文提出的Htp_Uf算法与基本文实验所用的数据集是Minnesota大学于用户的协同过滤算法(User_Based,近邻数为 GroupLens小组开发的MovieLens数据集。实验 50),基于物品的协同过滤算法(Item Based),奇所采用的数据集规模为943个用户对1682部电异值分解(SVD),以及主题模型和矩阵分解模型影的10万条评分数据和6040个用户对3900部的混合算法(HTMMF)在NDCG评价标准下进行电影的100万条评分数据。的比较

∆ P LUF LDA t1 M O(M ×t1) Pu,i t2 N O(N ×t2) O(M ×t1+ N ×t2) 算法时间复杂度分析如下：由式 (7) 知，用户潜在高效用因子采用 topic 模型抽样收敛后所获得的值为，假设进行一次 Gibbs 抽样作为一个操作单位，记为，总计执行次，则算法时间复杂度为。同理，由式 (13) 知，物品被靶向概率因子通过采样所获得的值为，倘若进行一次 Gibbs 抽样作为一个单位操作，记为，总计执行次，则算法时间复杂度为。故两种因子线性相加之后，算法时间复杂度为。算法的时间复杂度并没有呈指数级明显增加。本文将两种因子进行线性加权融合记为 HRe_FP，作为两阶段推荐中的第一阶段。 HRe_FP = α· ∆ P LHUF LDA +β · Pu,i (14) 式中参数 α = 0.5、 β = 0.5 时取得最优实验结果。 1.5 两阶段融合推荐推荐系统的核心问题是给用户推荐他最感兴趣的几个物品，而不仅仅是预测用户对物品的评分，将评分高的物品推荐给用户。为了更好地挖掘出用户兴趣，重视评分过程，本文将用户评分过程分为用户评分和物品选择两个阶段，将兴趣度排序值作为用户推荐的依据更符合推荐算法设计的初衷。同时为不显著增加算法的时间复杂度，本文将两阶段线性融合。 ∧ rui HRe_FP ∧ rui 首先采用奇异值分解计算预测评分值；进而将第一阶段计算所得融合因子与乘积作为用户对物品兴趣度排序值，见式 (15)、式 (16)： ∧ rui = µ+bi +bu + q T i pu (15) RecOrderValueu,i = HRe_FP× ∧ rui (16) µ bu u bi i pu u qi i 式中：表示所有物品的平均评分；表示第个用户偏离平均分的程度；表示第个物品偏离平均分的程度；表示第个用户的主题偏好度；表示第个物品的主题属向度。 HRe_FP 表示 2.4 小节中第一阶段值。 2 实验分析 2.1 实验数据集本文实验所用的数据集是 Minnesota 大学 GroupLens 小组开发的 MovieLens 数据集。实验所采用的数据集规模为 943 个用户对 1 682 部电影的 10 万条评分数据和 6 040 个用户对 3 900 部电影的 100 万条评分数据。 2.2 实验评价标准推荐算法的评价标准总体上来说一般有两种：一种是与顺序无关的评价标准，例如均方根误差、平均绝对误差、K-Call[15]等；另一种是与顺序相关的评价标准，例如归一化累计折损增益 (normalized discounted cumulative gain，NDCG[16] )。本文分别采用 1-call(K=1 时) 和 NDCG 作为实验评价标准。具体描述为：K-Call 表示 TopN 推荐结果中至少含有 K 个相关产品的用户所占有的比例。K-Call 的公式为 K-Call@N = 1 |U| ∑ u∈U f(|LN(u)| ⩾ K) (17) 式中： f(·) 表示布尔函数，变量为真时函数取值为 1，为假时取值为 0。在实际应用 K-Call 中，通常选择 K=1 作为评价标准，即 1-Call 表示评价推荐算法在 TopN 推荐中包含至少一个相关产品的能力。NDCG 评价标准见式 (18)~(20)： DCG@N(u) = ∑N i=1 2 R(u,i) −1 log(1+i) (18) IDCG@N(u) = Max(DCG@N(u)) (19) NDCG@N = 1 |U| ∑ u∈U DCG@N(u) IDCG@N(u) (20) R(u,i) u i IDCG@N(u) DCG@N(u) U N 式中：是用户对推荐列表中第个产品的评分；是的最大值；是测试集中所有用户集合；表示推荐列表的长度。 2.3 实验结果本小节主要是将本文提出的 Htp_Uf 算法与 4 种基线算法在两种评价标准下的对比，以及各个参数选取对 Htp_Uf 算法的影响。4 种基线算法分别为：基于用户的协同过滤推荐 (User_Based)，基于物品的协同过滤推荐 (Item_Based)[ 1 7 ] 、 SVD 推荐算法[18] 、主题模型和矩阵分解模型的混合推荐算法 (HTMMF)[19]。 2.3.1 Htp_Uf 算法与 4 种基线算法在 NDCG 评价标准下的对比 µ ψ δ η 实验中 Htp_Uf 算法各参数取值如下： =0.2， =0.1， =0.2， =0.1。图 2 主要是将本文提出的 Htp_Uf 算法与基于用户的协同过滤算法 (User_Based，近邻数为 50)，基于物品的协同过滤算法 (Item_Based)，奇异值分解 (SVD)，以及主题模型和矩阵分解模型的混合算法 (HTMMF) 在 NDCG 评价标准下进行的比较。第 3 期张旭，等：加权高效用因子的两阶段混合推荐算法 ·521·

·522· 智能系统学报第14卷 0.30 -●-SVD --User Based Item Based呈指数级地提升。综上，Htp Uf算法 -合 Item_Based 在至少推荐一个相关物品的能力上性能更好，也 -x-HTMMF 30.20 ◆-HpUf 验证了该算法的有效性。二二 -。-SVD -x-HTMMF -▲-User Based -◆-Htp_Uf A-Item Based 0.10 一一一● 0.6 分★ 2 4 68 10 △ N 0.2 图2 Htp Uf与4种基线算法NDCG对比 Fig.2 Diagram comparing performances of Htp_Uf and 6 8 10 four baseline algorithms by NDCG N 图2中，N表示推荐列表长度。对比发现图3 Htp Uf与4种基线算法1-cal对比图 HpUf算法相比其他4种算法效果更好，特别是 Fig.3 Diagram comparing Htp Uf and four baseline al- 与User Based和Item Based相比，提升效果呈级 gorithms by 1-Call 数增长。其主要原因为：Hp_Uf算法将用户潜在图4为在MovieLens IM数据集上，Htp_Uf算高效用因子与物品被靶向因子用于推荐算法第一法与其他4种算法在NDCG评价标准下效果对比阶段，不仅预测用户对物品评分的概率，还考虑图。该数据集包含6040个用户对3900个物品到用户潜在高效用情况，更适合进行TopN推荐 100万条评分记录，由图4知，Htp_Uf算法在ND- 从而提升推荐算法性能。而HTMMF算法次之， CG评价标准下相比其他4种算法有显著提高。原因是：HTMMF算法在第一阶段中考虑到用户 -。-SVD -x-HTMMF 对物品评分的概率，而没有考虑到用户潜在高效 -▲-User Based -◆-Htp Uf △Item Based 0.04Γ 用因子情况。 ◆一由表I中数据知，Htp_Uf算法比Item_Based、 80.03 User Based、SVD、HTMMF这4种算法均有不同 0.02 幅度的提高，HTMMF算法仅次于Htp Uf算法， ==二二三二二而对比Item Based算法，Htp Uf算法提升效果呈 0.01 指数增长，验证了该算法的有效性。从侧面说明了Item Based算法不适合TopN推荐，其主要原 0 4 6810 因是：Item Based算法为了给用户推荐与该用户历史偏好物品相似的物品，而不一定是用户最感图4Htp_Uf与4种基线算法NDCG对比图兴趣的物品。 Fig.4 Diagram comparing Htp_Uf and four baseline al- gorithms by NDCG 表1Htp_Uf与4种基线算法NDCG提升率比较 Table 1 Comparison of increasing rates by Htp Uf and 由表2知，Htp Uf算法在不同的推荐列表长 four baseline algorithms by NDCG % 度下，采用1-Cl评价标准，相比其他4种基线算算法 N=1 N=3 W=5 W=10 法均有不同程度的提高。由表1和表2联合说 Item Based 2919 2359 2288 2042 明，Htp Uf算法在与顺序有关的评价标准下的提 User Based 1214 1015 829 620 升率要明显高于顺序无关下的提升率，符合该算 SVD 121.29 103.38 91.23 86.40 法的设计初衷。 HTMMF 8.14 6.81 6.82 5.87 表2Htp_Uf与4种基线算法1-Cal提升率比较 2.3.2Htp_Uf算法与4种基线算法在1-Call评 Table 2 Comparison of increasing rates for Htp_Uf and four baseline algorithms by 1-Call % 价标准下对比算法 N=1 =3N=5 N=10 实验中Htp_Uf算法各参数取值为：u=0.2, Item Based 1821 1156 881 529 w=0.1,6=0.5,7=0.01。 User_Based 1041 544 321 171 由图3对比可知，Htp Uf算法在1-Call评价 SVD 125.31 71.67 57.18 33.12 标准下，相比SVD算法至少提高33.12%，相比 HTMMF 5.80 4.04 1.25 1.28 HTMMF算法提高5.8%，相比User Based与

0 2 4 6 8 10 0.10 0.20 0.30 N NDCG SVD User_Based Item_Based HTMMF Htp_Uf 图 2 Htp_Uf 与 4 种基线算法 NDCG 对比 Fig. 2 Diagram comparing performances of Htp_Uf and four baseline algorithms by NDCG 图 2 中，N 表示推荐列表长度。对比发现 Htp_Uf 算法相比其他 4 种算法效果更好，特别是与 User_Based 和 Item_Based 相比，提升效果呈级数增长。其主要原因为：Htp_Uf 算法将用户潜在高效用因子与物品被靶向因子用于推荐算法第一阶段，不仅预测用户对物品评分的概率，还考虑到用户潜在高效用情况，更适合进行 TopN 推荐，从而提升推荐算法性能。而 HTMMF 算法次之，原因是：HTMMF 算法在第一阶段中考虑到用户对物品评分的概率，而没有考虑到用户潜在高效用因子情况。由表 1 中数据知，Htp_Uf 算法比 Item_Based、 User_Based、SVD、HTMMF 这 4 种算法均有不同幅度的提高， HTMMF 算法仅次于 Htp_Uf 算法，而对比 Item_Based 算法，Htp_Uf 算法提升效果呈指数增长，验证了该算法的有效性。从侧面说明了 Item_Based 算法不适合 TopN 推荐，其主要原因是：Item_Based 算法为了给用户推荐与该用户历史偏好物品相似的物品，而不一定是用户最感兴趣的物品。表 1 Htp_Uf 与 4 种基线算法 NDCG 提升率比较 Table 1 Comparison of increasing rates by Htp_Uf and four baseline algorithms by NDCG % 算法 N=1 N=3 N=5 N=10 Item_Based 2 919 2 359 2 288 2 042 User_Based 1 214 1 015 829 620 SVD 121.29 103.38 91.23 86.40 HTMMF 8.14 6.81 6.82 5.87 2.3.2 Htp_Uf 算法与 4 种基线算法在 1-Call 评价标准下对比 µ ψ δ η 实验中 Htp_Uf 算法各参数取值为： =0.2， =0.1， =0.5， =0.01。由图 3 对比可知，Htp_Uf 算法在 1-Call 评价标准下，相比 SVD 算法至少提高 33.12%，相比 HTMMF 算法提高 5.8%，相比 User_Based 与 Item_Based 呈指数级地提升。综上，Htp_Uf 算法在至少推荐一个相关物品的能力上性能更好，也验证了该算法的有效性。 0 2 4 6 8 10 0.2 0.4 0.6 N 1-Call SVD User_Based Item_Based HTMMF Htp_Uf 图 3 Htp_Uf 与 4 种基线算法 1-call 对比图 Fig. 3 Diagram comparing Htp_Uf and four baseline algorithms by 1-Call 图 4 为在 MovieLens 1M 数据集上，Htp_Uf 算法与其他 4 种算法在 NDCG 评价标准下效果对比图。该数据集包含 6 040 个用户对 3 900 个物品 100 万条评分记录，由图 4 知，Htp_Uf 算法在 NDCG 评价标准下相比其他 4 种算法有显著提高。 0 2 4 6 8 10 0.01 0.02 0.03 0.04 N NDCG SVD User_Based Item_Based HTMMF Htp_Uf 图 4 Htp_Uf 与 4 种基线算法 NDCG 对比图 Fig. 4 Diagram comparing Htp_Uf and four baseline algorithms by NDCG 由表 2 知，Htp_Uf 算法在不同的推荐列表长度下，采用 1-Call 评价标准，相比其他 4 种基线算法均有不同程度的提高。由表 1 和表 2 联合说明，Htp_Uf 算法在与顺序有关的评价标准下的提升率要明显高于顺序无关下的提升率，符合该算法的设计初衷。表 2 Htp_Uf 与 4 种基线算法 1-Call 提升率比较 Table 2 Comparison of increasing rates for Htp_Uf and four baseline algorithms by 1-Call % 算法 N=1 N=3 N=5 N=10 Item_Based 1 821 1 156 881 529 User_Based 1 041 544 321 171 SVD 125.31 71.67 57.18 33.12 HTMMF 5.80 4.04 1.25 1.28 ·522· 智能系统学报第 14 卷

第3期张旭，等：加权高效用因子的两阶段混合推荐算法 ·523· 2.3.3参数山对HpUf算法的影响到用户对物品感兴趣但不一定评高分的情况，本固定参数=0.2,6=0.2，=0.1时，检验参数山文将用户评分过程分为用户评分和选择产品两个的变化对Htp Uf算法的影响。阶段。将用户评分行为中抽象出用户潜在高效用由图5知，参数山从0.1开始，以步长为0.1 因子和物品被靶向概率因子，并且将这两种因子递增至0.9。纵向分析，随着推荐列表长度的增加权作为两阶段推荐的第一阶段，采用奇异值分加，NDCG值递减，反之亦然，即NDCG值的大小解因子模型来预测具体评分值作为第二阶段，将与列表长度成反比。横向分析，当推荐列表长度两阶段融合形成一种加权高效用因子的两阶段混为1，山为01时，NDCG值最高，山为0.6时次之。合推荐算法，实验结果表明该算法提高了TopN 当推荐列表长度为3、5、10，山从0.1增加到推荐质量。 0.5时，NDCG值呈递减趋势，即NDCG值的大小本文提出的两阶段混合推荐算法在挖掘高效与参数山大小成反比。因此，不论推荐列表长度用因子和靶向物品概率因子计算方面，都不同程为多少，参数山取值为01最好。度地受到用户历史评分矩阵数据缺失的影响，也存在用户冷启动，物品冷启动，数据稀疏性等问 0.26 -▲-NDCG@I-●-NDCG@5 902✉ -△NDCG@3-×-NDCG@10 题，这些问题将是我们未来研究工作的重点。 A 20.2 - 参考文献： 0.20 a众△公6 [1]WEIMER M,KARATZOGLOU A,LE Q V,et al.COFIR- 0.18 ANK maximum margin matrix factorization for collaborat- 0.16 ive ranking[C]//Proceedings of the 20th International Con- 0 0.20.40.60.81.0 ference on Neural Information Processing Systems.Van- couver,British Columbia,Canada:Curran Associates Inc., 图5参数也在NDCG标准下对Htp_Uf的影响 2007:1593-1600. Fig.5 Influence of parameter variation to model of [2]LIU NN,ZHAO Min,YANG Qiang.Probabilistic latent Htp_Uf by NDCG preference analysis for collaborative filtering[Cl/Proceed- 2.3.4参数μ对HpUf算法的影响 ings of the 18th ACM Conference on Information and 固定参数山=0.2,6=0.2，=0.1时，检验参数μ Knowledge Management.Hong Kong,China:ACM,2009: 的变化对Htp_Uf算法的影响。 759-766. 由图6知，当推荐列表长度为1时，为使ND- [3]BREESE J S.HECKERMAN D.KADIE C.Empirical CG值最高，=0.1为最佳选择。当推荐列表长度 analysis of predictive algorithms for collaborative filtering[C 分别为3、5、10时，NDCG值呈先增后减的趋势； Proceedings of the 14th Conference on Uncertainty in Arti- 当推荐列表长度为3、5时，=0.2最优；当推荐列 ficial Intelligence.Madison,Wisconsin:Morgan 表长度为10时，0.3最佳。 Kaufmann Publishers Inc.,1998:43-52 0.26 -▲-NDCG@I --NDCG@5 [4]LI Sheng,KAWALE J,FU Yun.Deep collaborative filter- -A-NDCG@3-关-NDCG@10 ing via marginalized denoising auto-encoder[Cl//Proceed- 0.24 A ings of the 24th ACM International on Conference on In- 02 formation and Knowledge Management.Melbourne,Aus- L00心A合仓△ tralia:ACM,2015:811-820 0.20 。0--0--。-0 [5]KASSAK O.KOMPAN M.BIELIKOVA M.Personal- 0.18 ized hybrid recommendation for group of users:Top-N X一× multimedia recommender[J].Information processing and 0.16 0.2 0.40.60.8 1.0 management,2016,52(3:459-477 [6]LI Sheng,KAWALE J,FU Yun.Predicting user behavior 图6参数u在NDCG标准下对Htp Uf的影响 in display advertising via dynamic collective matrix factor- Fig.6 Influence of u parameter variation on NDCG's ization[C]//Proceedings of the 38th International ACM model of Htp Uf SIGIR Conference on Research and Development in In- 3结束语 formation.Santiago,Chile:ACM,2015:875-878. [7]TARUS J K,NIU Zhendong,YOUSIF A.A hybrid know- 受经济学领域中效用函数的启发，同时考虑 ledge-based recommender system for e-learning based on

2.3.3 参数 ψ 对 Htp_Uf 算法的影响固定参数 µ =0.2，δ =0.2，η =0.1 时，检验参数 ψ 的变化对 Htp_Uf 算法的影响。 ψ ψ ψ ψ ψ ψ 由图 5 知，参数从 0.1 开始，以步长为 0.1 递增至 0.9。纵向分析，随着推荐列表长度的增加，NDCG 值递减，反之亦然，即 NDCG 值的大小与列表长度成反比。横向分析，当推荐列表长度为 1, 为 0.1 时，NDCG 值最高，为 0.6 时次之。当推荐列表长度为 3、 5、 10，从 0.1 增加到 0.5 时，NDCG 值呈递减趋势，即 NDCG 值的大小与参数大小成反比。因此，不论推荐列表长度为多少，参数取值为 0.1 最好。 0 0.2 0.4 0.6 0.8 1.0 0.16 0.18 0.20 0.22 0.24 0.26 ψ NDCG NDCG@1 NDCG@3 NDCG@5 NDCG@10 图 5 参数 ψ 在 NDCG 标准下对 Htp_Uf 的影响 Fig. 5 Influence of ψ parameter variation to model of Htp_Uf by NDCG 2.3.4 参数 µ 对 Htp_Uf 算法的影响固定参数 ψ =0.2，δ =0.2，η =0.1 时，检验参数 µ 的变化对 Htp_Uf 算法的影响。 µ µ µ 由图 6 知，当推荐列表长度为 1 时，为使 NDCG 值最高， =0.1 为最佳选择。当推荐列表长度分别为 3、5、10 时，NDCG 值呈先增后减的趋势；当推荐列表长度为 3、5 时， =0.2 最优；当推荐列表长度为 10 时， =0.3 最佳。 0 0.2 0.4 0.6 0.8 1.0 0.16 0.18 0.20 0.22 0.24 0.26 μ NDCG NDCG@1 NDCG@3 NDCG@5 NDCG@10 图 6 参数 µ 在 NDCG 标准下对 Htp_Uf 的影响 Fig. 6 Influence of µ parameter variation on NDCG’s model of Htp_Uf 3 结束语受经济学领域中效用函数的启发，同时考虑到用户对物品感兴趣但不一定评高分的情况，本文将用户评分过程分为用户评分和选择产品两个阶段。将用户评分行为中抽象出用户潜在高效用因子和物品被靶向概率因子，并且将这两种因子加权作为两阶段推荐的第一阶段，采用奇异值分解因子模型来预测具体评分值作为第二阶段，将两阶段融合形成一种加权高效用因子的两阶段混合推荐算法，实验结果表明该算法提高了 TopN 推荐质量。本文提出的两阶段混合推荐算法在挖掘高效用因子和靶向物品概率因子计算方面，都不同程度地受到用户历史评分矩阵数据缺失的影响，也存在用户冷启动，物品冷启动，数据稀疏性等问题，这些问题将是我们未来研究工作的重点。参考文献： WEIMER M, KARATZOGLOU A, LE Q V, et al. COFIRANK maximum margin matrix factorization for collaborative ranking[C]//Proceedings of the 20th International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada: Curran Associates Inc., 2007: 1593–1600. [1] LIU N N, ZHAO Min, YANG Qiang. Probabilistic latent preference analysis for collaborative filtering[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management. Hong Kong, China: ACM, 2009: 759–766. [2] BREESE J S, HECKERMAN D, KADIE C. Empirical analysis of predictive algorithms for collaborative filtering[C]// Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence. Madison, Wisconsin: Morgan Kaufmann Publishers Inc., 1998: 43–52. [3] LI Sheng, KAWALE J, FU Yun. Deep collaborative filtering via marginalized denoising auto-encoder[C]//Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. Melbourne, Australia: ACM, 2015: 811–820. [4] KAŠŠÁK O, KOMPAN M, BIELIKOVÁ M. Personalized hybrid recommendation for group of users: Top-N multimedia recommender[J]. Information processing and management, 2016, 52(3): 459–477. [5] LI Sheng, KAWALE J, FU Yun. Predicting user behavior in display advertising via dynamic collective matrix factorization[C]//Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information. Santiago, Chile: ACM, 2015: 875–878. [6] TARUS J K, NIU Zhendong, YOUSIF A. A hybrid knowledge-based recommender system for e-learning based on [7] 第 3 期张旭，等：加权高效用因子的两阶段混合推荐算法 ·523·

·524· 智能系统学报第14卷 ontology and sequential pattern mining[J].Future genera- [16]JARVELIN K,KEKALAINEN K.Cumulated gain-based tion computer systems,2017,72:37-48. evaluation of IR techniques[J].ACM transactions on in- [8]KOREN Y.BELL R.VOLINSKY C.Matrix factorization formation systems (TOIS),2002,20(4):422-446. techniques for recommender systems[J].Computer,2009, [17]LINDEN G.SMITH B,YORK J.Amazon.com recom- 42(8):30-37. mendations:item-to-item collaborative filtering[J].IEEE [9]MA Hao,ZHOU Dengyong,LIU Chao,et al.Recommend- internet computing,2003,7(1):76-80. er systems with social regularization[C]//Proceedings of [18]SYMEONIDIS P.Content-based dimensionality reduc- the 4th ACM International Conference on Web Search and tion for recommender systems[M]//PREISACH C, Data Mining.Hong Kong,China:ACM,2011:287-296. BURKHARDT H,SCHMIDT-THIEME L,et al.Data [10]ANSARI A,LI Yang,ZHANG J Z.Probabilistic topic Analysis,Machine Learning and Applications.Berlin, model for hybrid recommender systems:a stochastic vari- Heidelberg:Springer,2008:619-626. ational Bayesian approach[D].New York:Columbia [19]ZHAO Xiangyu,NIU Zhendong,CHEN Wei,et al.A hy- Business School,2017. brid approach of topic model and matrix factorization [11]彭敏，席俊杰，代心媛，等.基于情感分析和LDA主题 based on two-step recommendation framework[J].Journ- 模型的协同过滤推荐算法[】.中文信息学报，2017， al of intelligent information systems,2015,44(3):335- 31(2):194203 353. PENG Min,XI Junjie,DAI Xinyuan,et al.Collaborative 作者简介： filtering recommendation based on sentiment analysis and 张旭，男，1991年生，硕土研究 LDA topic model[J].Journal of Chinese information pro- 生，主要研究方向为智能信息处理、推 cessing,2017,31(2):194-203. 荐系统。 [12]黄璐，林川杰，何军，等.融合主题模型和协同过滤的多样化移动应用推荐.软件学报，2017,28(3)：708-720. HUANG Lu,LIN Chuanjie,HE Jun,et al.Diversified mobile app recommendation combining topic model and collaborative filtering[J].Journal of software,2017,28(3): 孙福振，男，1978年生，副教授， 708-720. 博士，主要研究方向为信息检索与数 [13]BLEI D M.NG A Y.JORDAN M I,et al.Latent dirich- 据挖掘、推荐系统、话题检测与热点跟踪。授权国家发明专利6项。发表学 let allocation[J].Journal of machine learning research, 术论文30余篇。 2003,3(4/5):993-1022. [14]GRIFFITHS TL,STEYVERS M.Finding scientific top- ics[J].Proceedings of the national academy of sciences of the United States of America,2004,101(S1):5228-5235 方春，女，1981年生，讲师，博士， [15]SHI Yue,KARATZOGLOU A,BALTRUNAS L,et al. 主要研究方向为智能计算、模式识别、生物医学研究。发表学术论文10余篇。 CLiMF:learning to maximize reciprocal rank with collab- orative less-is-more filtering[C]//Proceedings of the 6th ACM conference on recommender systems.Dublin,Ire- land:ACM2012:139-146

ontology and sequential pattern mining[J]. Future generation computer systems, 2017, 72: 37–48. KOREN Y, BELL R, VOLINSKY C. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8): 30–37. [8] MA Hao, ZHOU Dengyong, LIU Chao, et al. Recommender systems with social regularization[C]//Proceedings of the 4th ACM International Conference on Web Search and Data Mining. Hong Kong, China: ACM, 2011: 287–296. [9] ANSARI A, LI Yang, ZHANG J Z. Probabilistic topic model for hybrid recommender systems: a stochastic variational Bayesian approach[D]. New York: Columbia Business School, 2017. [10] 彭敏, 席俊杰, 代心媛, 等. 基于情感分析和 LDA 主题模型的协同过滤推荐算法[J]. 中文信息学报, 2017, 31(2): 194–203. PENG Min, XI Junjie, DAI Xinyuan, et al. Collaborative filtering recommendation based on sentiment analysis and LDA topic model[J]. Journal of Chinese information processing, 2017, 31(2): 194–203. [11] 黄璐, 林川杰, 何军, 等. 融合主题模型和协同过滤的多样化移动应用推荐[J]. 软件学报, 2017, 28(3): 708–720. HUANG Lu, LIN Chuanjie, HE Jun, et al. Diversified mobile app recommendation combining topic model and collaborative filtering[J]. Journal of software, 2017, 28(3): 708–720. [12] BLEI D M, NG A Y, JORDAN M I, et al. Latent dirichlet allocation[J]. Journal of machine learning research, 2003, 3(4/5): 993–1022. [13] GRIFFITHS T L, STEYVERS M. Finding scientific topics[J]. Proceedings of the national academy of sciences of the United States of America, 2004, 101(S1): 5228–5235. [14] SHI Yue, KARATZOGLOU A, BALTRUNAS L, et al. CLiMF: learning to maximize reciprocal rank with collaborative less-is-more filtering[C]//Proceedings of the 6th ACM conference on recommender systems. Dublin, Ireland: ACM, 2012: 139–146. [15] JÄRVELIN K, KEKÄLÄINEN K. Cumulated gain-based evaluation of IR techniques[J]. ACM transactions on information systems (TOIS), 2002, 20(4): 422–446. [16] LINDEN G, SMITH B, YORK J. Amazon. com recommendations: item-to-item collaborative filtering[J]. IEEE internet computing, 2003, 7(1): 76–80. [17] SYMEONIDIS P. Content-based dimensionality reduction for recommender systems[M]//PREISACH C, BURKHARDT H, SCHMIDT-THIEME L, et al. Data Analysis, Machine Learning and Applications. Berlin, Heidelberg: Springer, 2008: 619–626. [18] ZHAO Xiangyu, NIU Zhendong, CHEN Wei, et al. A hybrid approach of topic model and matrix factorization based on two-step recommendation framework[J]. Journal of intelligent information systems, 2015, 44(3): 335– 353. [19] 作者简介：张旭，男，1991 年生，硕士研究生，主要研究方向为智能信息处理、推荐系统。孙福振，男，1978 年生，副教授，博士，主要研究方向为信息检索与数据挖掘、推荐系统、话题检测与热点跟踪。授权国家发明专利 6 项。发表学术论文 30 余篇。方春，女，1981 年生，讲师，博士，主要研究方向为智能计算、模式识别、生物医学研究。发表学术论文 10 余篇。 ·524· 智能系统学报第 14 卷

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录