第13卷第2期 智能系统学报 Vol.13 No.2 2018年4月 CAAI Transactions on Intelligent Systems Apr.2018 D0:10.11992/tis.201701002 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20170703.1601.004.html 个性化信息推荐方法研究 姜信景,齐小刚,刘立芳 (西安电子科技大学数学与统计学院.陕西西安710071) 摘要:随着信息技术和互联网的发展,人们进入了信息过量且愈发碎片化的时代。当前,个性化信息推送是用户获 取网络信息的有效渠道。由于信息的更新速度快和用户兴趣更新等问题,传统的推荐算法很少关注甚至忽略上述因 素,造成最终的推荐结果欠佳。为了给用户更好的个性化推荐服务,论文首次引入截取因子,提出了组合推荐算法 (C算法)。该算法的实质是将截取因子引入到基于内容的推荐算法与基于用户的协同过滤算法中,进而生成混合推 荐算法。在推荐列表中,CR算法产生的推荐结果由两部分组成:一部分由混合推荐算法生成,另一部分由基于用户 的协同过滤算法生成。根据信息的发布时间,决定该信息由哪类算法产生推荐:当浏览时间与当前时间的间隔不大 于某个值时,采用混合推荐算法:否则,直接采用基于用户的协同过滤算法。基于真实数据的实验结果表明,C℉算法 优于同类算法。 关键词:网络信息:截取因子;信息推送:基于内容的推荐;基于内容相似的协同过滤:基于行为相似的协同过滤:混合 推荐;组合推荐 中图分类号:TP18:029文献标志码:A文章编号:1673-4785(2018)02-0189-07 中文引用格式:姜信景,齐小刚,刘立芳.个性化信息推荐方法研究J.智能系统学报,2018,13(2):189-195. 英文引用格式:JIANG Xinjing,.QI Xiaogang,LIU Lifang..Research on the recommendation method of personalized informationJ CAAI transactions on intelligent systems,2018,13(2):189-195. Research on the recommendation method of personalized information JIANG Xinjing,QI Xiaogang,LIU Lifang (School of mathematics and statistics,Xi dian University,Xi'an 710071,China) Abstract:It's an excessively informational and more fragmented era that is contributed to the development of informa- tion technology and the Internet.At present,personalized recommendation is a relatively effective way to help users gain various network information.Recommendations may not be ideal as the traditional algorithms rarely focus on the fast speed of information updating and change of users interests.We propose a combined recommendation algorithm by introducing an interception factor and calls it the CR algorithm.The core idea of it is to introduce the interception factor to the content-based recommendation algorithm and user-based collaborative filtering algorithm.The mixed recom- mendation consists of the content-based recommendation algorithm and user-based collaborative filtering algorithm.Re- commending results of CR algorithm are divided into the outcomes produced by mixed recommendation algorithm and the user-based collaborative filtering algorithm.It is the publishing time of information that decides which algorithm should be chosen to produce recommendations:the mixed recommendation algorithm is selected when the difference between browsing time and message publishing time does not exceed some threshold,or directly chooses the user-based collaborative filtering.Simulation results based on real data show the algorithm we proposed is superior to other exist- ing algorithms. Keywords:network information;interception factor;information push;content-based recommendation;behavior-based similarity collaborative filtering;content-based similarity collaborative filtering;mixed recommendation;combined re- commendation 收稿日期:2017-01-04.网络出版日期:2017-07-02 随着互联网的迅速发展,海量的网络信息大大 基金项目:国家自然科学基金项目(61572435,61472305):陕西省 自然科学基金项目(2015JZ002,2015JM6311):浙江省自 超过用户的想象。面对如此浩瀚的信息,用户如何 然科学基金项目(LZ16F02000I):宁波市自然科学基金 从中能够阅读到满足其需求的信息是迫待解决的关 项目(2016A610035). 通信作者:齐小刚.E-mai:xgqi@xidian.edu.cn. 键问题。个性化信息推荐主要处理消息和用户的匹
DOI: 10.11992/tis.201701002 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20170703.1601.004.html 个性化信息推荐方法研究 姜信景,齐小刚,刘立芳 (西安电子科技大学 数学与统计学院,陕西 西安 710071) 摘 要:随着信息技术和互联网的发展,人们进入了信息过量且愈发碎片化的时代。当前,个性化信息推送是用户获 取网络信息的有效渠道。由于信息的更新速度快和用户兴趣更新等问题,传统的推荐算法很少关注甚至忽略上述因 素,造成最终的推荐结果欠佳。为了给用户更好的个性化推荐服务,论文首次引入截取因子,提出了组合推荐算法 (CR 算法)。该算法的实质是将截取因子引入到基于内容的推荐算法与基于用户的协同过滤算法中,进而生成混合推 荐算法。在推荐列表中,CR 算法产生的推荐结果由两部分组成:一部分由混合推荐算法生成,另一部分由基于用户 的协同过滤算法生成。根据信息的发布时间,决定该信息由哪类算法产生推荐:当浏览时间与当前时间的间隔不大 于某个值时,采用混合推荐算法;否则,直接采用基于用户的协同过滤算法。基于真实数据的实验结果表明,CR 算法 优于同类算法。 关键词:网络信息;截取因子;信息推送;基于内容的推荐;基于内容相似的协同过滤;基于行为相似的协同过滤;混合 推荐;组合推荐 中图分类号:TP18; O29 文献标志码:A 文章编号:1673−4785(2018)02−0189−07 中文引用格式:姜信景, 齐小刚, 刘立芳. 个性化信息推荐方法研究[J]. 智能系统学报, 2018, 13(2): 189–195. 英文引用格式:JIANG Xinjing, QI Xiaogang, LIU Lifang. Research on the recommendation method of personalized information[J]. CAAI transactions on intelligent systems, 2018, 13(2): 189–195. Research on the recommendation method of personalized information JIANG Xinjing,QI Xiaogang,LIU Lifang (School of mathematics and statistics, Xi dian University, Xi’an 710071, China) Abstract: It’s an excessively informational and more fragmented era that is contributed to the development of information technology and the Internet. At present, personalized recommendation is a relatively effective way to help users gain various network information. Recommendations may not be ideal as the traditional algorithms rarely focus on the fast speed of information updating and change of users interests. We propose a combined recommendation algorithm by introducing an interception factor and calls it the CR algorithm. The core idea of it is to introduce the interception factor to the content-based recommendation algorithm and user-based collaborative filtering algorithm. The mixed recommendation consists of the content-based recommendation algorithm and user-based collaborative filtering algorithm. Recommending results of CR algorithm are divided into the outcomes produced by mixed recommendation algorithm and the user-based collaborative filtering algorithm. It is the publishing time of information that decides which algorithm should be chosen to produce recommendations: the mixed recommendation algorithm is selected when the difference between browsing time and message publishing time does not exceed some threshold, or directly chooses the user-based collaborative filtering. Simulation results based on real data show the algorithm we proposed is superior to other existing algorithms. Keywords: network information; interception factor; information push; content-based recommendation; behavior-based similarity collaborative filtering; content-based similarity collaborative filtering; mixed recommendation; combined recommendation 随着互联网的迅速发展,海量的网络信息大大 超过用户的想象。面对如此浩瀚的信息,用户如何 从中能够阅读到满足其需求的信息是迫待解决的关 键问题。个性化信息推荐主要处理消息和用户的匹 收稿日期:2017−01−04. 网络出版日期:2017−07−02. 基金项目:国家自然科学基金项目 (61572435, 61472305);陕西省 自然科学基金项目 (2015JZ002, 2015JM6311);浙江省自 然科学基金项目 (LZ16F020001);宁波市自然科学基金 项目 (2016A610035). 通信作者:齐小刚. E-mail:xgqi@xidian.edu.cn. 第 13 卷第 2 期 智 能 系 统 学 报 Vol.13 No.2 2018 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2018
·190· 智能系统学报 第13卷 配问题,即对于一个信息而言,通过个性化推荐算 1个性化推荐方法 法能够从众多用户中找到需要了解它的用户集:对 于用户而言,通过个性化信息推荐能够从众多的网 1.1问题定义 络消息中快速地发现其需求的信息集。目前,针对 定义1主要特征词:设F=(f,,…,f)为信息 信息的推荐方法主要包括:基于内容的推荐)、基 集,我们把表示信息内容的词称为主要特征词,把 于知识的推荐4、协同过滤推荐6-刀、混合推荐.以 有序序列K=(k,k2,…,k)称为主要特征词序列,其 及其他推荐01。 中k,k2,…,k表示主要特征词,1表示主要特征词的 基于内容的信息推荐算法是根据对用户的历 数目。 史行为分析进行建立用户模型,并向用户推荐与其 定义2用户现存配置文件:对于任何用户,把 模型比较匹配的信息。该推荐算法的核心就是挖掘 其阅读过的信息生成的文件称为用户现存配置文 用户的历史行为数据,找到与其相似的信息进行推 件,并将用户现存配置文件表示成向量形式 荐,所以基于内容的推荐算法能够准确捕获用户的 UCF=(wC,wC,…,wc,…,wC),其中wC,表示在用户 兴趣,能够为其推荐新出现的信息。但是,由于用 现存配置文件中主要特征词k的权重。 户的兴趣随着时间快速变化,以及该方法仅仅推荐 定义3用户当前兴趣配置文件:对于用户, 与其模型比较匹配的信息,所以该方法在获取用户 把其最新阅读过的s个信息生成的文件称为用户的 的潜在兴趣以及推荐列表多样性方面存在不足。基 当前兴趣配置文件,并将用户的当前兴趣配置文件 于知识的推荐算法5,16是针对特定领域建立规则, 表示为UCF=(wcw,wcr2,…,wcr,…wcr),其中wCr 利用基于实例和规则的推理,实现对用户推荐。比 表示在用户的当前兴趣文件中主要特征词k的权重。 如,效用知识是指一个项目为何满足某一特定用户 定义4用户潜在配置文件:对于任何用户,利 的知识,其既能产生推荐也可以解释产生该推荐的 用协同过滤的方法预测主要特征词的权重,进而获 原因。该方法的优点是把用户的需求直接映射到产 得用户潜在配置文件,其能够被表示为向量形式 品上以及考虑非产品属性,但是其缺点为知识难以 获得并且推荐是静态的。协同过滤推荐算法B6刀是 UMF=(wm1,wm2,…,wm,…,wm),其中wm表示在 推荐系统中最基本的算法,其包括基于用户的协同 用户潜在配置文件中主要特征词k的权重。 过滤算法和基于物品的协同过滤算法。基于用户的 定义5用户混合配置文件:对于任何用户,融 协同过滤算法的思想是根据目标用户的历史行为找 合上述的用户当前兴趣配置文件和用户潜在配置文 到与其相似的用户,然后将它们比较喜欢的但目标 件,获得其用户混合配置文件,其能够被表示成向 用户没有发现的东西推荐给目标用户。基于物品的 量形式UBF=(wb1,wb2,…,wb,…,wb),其中wb,表 协同过滤的思想与其类似。该方法的优点在于不需 示在用户混合配置文件中主要特征词k的权重。 要领域知识、推荐多样性好以及可以挖掘用户的潜 通过上面对一些概念的定义,下面给出论文的 在兴趣,但是其缺点包括存在冷启动问题、系统开 设计思路,如图1所示。 始时推荐质量差、可扩展性差以及质量取决于历史 基于用户行 数据集等。 为的协同过滤 由于信息的实时性与用户兴趣的不固定性,在 历史行 基于内容 基于用户 为日志 的推荐 内容的协 上述推荐方法的启发下,论文提出了组合推荐算法 同过滤 一CR算法。该算法的基本思想是:首先是对目 现存用户配置文 件和用户当前兴 潜在用户 标用户历史行为日志进行发掘处理,根据基于内容 消息集 趣配置文件 配置文件 的推荐算法生成用户的现存配置文件与当前兴趣配 推荐列表2 置文件:然后,由基于用户行为的协同过滤算法与 推荐列表 混合用户 配置文件 基于用户内容的协同过滤算法共同生成用户的潜在 推荐列表1 配置文件:紧接着由现存用户配置文件与潜在配置 文件共同产生用户的混合配置文件;最后根据信息 图1方案框架 集中信息的发布时间决定其有哪种方法产生推荐。 Fig.1 Scheme framework 当信息发布时间与当前时间的差小于某个阈值时, 1.2 现存用户配置文件 采用混合推荐算法;当消息发布时间与当前时间 由于信息时效性强与用户的浏览兴趣并不是永 的差不小于上述阈值时,采用基于用户的协同过滤 久的,而是跟随社会流行和热点话题变化而变化, 算法。 所以在进行信息推荐时需要考虑到用户的兴趣偏好
配问题,即对于一个信息而言,通过个性化推荐算 法能够从众多用户中找到需要了解它的用户集;对 于用户而言,通过个性化信息推荐能够从众多的网 络消息中快速地发现其需求的信息集。目前,针对 信息的推荐方法主要包括:基于内容的推荐[1-3] 、基 于知识的推荐[4-5] 、协同过滤推荐[6-7] 、混合推荐[7-9]以 及其他推荐[10-15]。 基于内容的信息推荐算法[1]是根据对用户的历 史行为分析进行建立用户模型,并向用户推荐与其 模型比较匹配的信息。该推荐算法的核心就是挖掘 用户的历史行为数据,找到与其相似的信息进行推 荐,所以基于内容的推荐算法能够准确捕获用户的 兴趣,能够为其推荐新出现的信息。但是,由于用 户的兴趣随着时间快速变化,以及该方法仅仅推荐 与其模型比较匹配的信息,所以该方法在获取用户 的潜在兴趣以及推荐列表多样性方面存在不足。基 于知识的推荐算法[5, 16]是针对特定领域建立规则, 利用基于实例和规则的推理,实现对用户推荐。比 如,效用知识是指一个项目为何满足某一特定用户 的知识,其既能产生推荐也可以解释产生该推荐的 原因。该方法的优点是把用户的需求直接映射到产 品上以及考虑非产品属性,但是其缺点为知识难以 获得并且推荐是静态的。协同过滤推荐算法[2, 6–7]是 推荐系统中最基本的算法,其包括基于用户的协同 过滤算法和基于物品的协同过滤算法。基于用户的 协同过滤算法的思想是根据目标用户的历史行为找 到与其相似的用户,然后将它们比较喜欢的但目标 用户没有发现的东西推荐给目标用户。基于物品的 协同过滤的思想与其类似。该方法的优点在于不需 要领域知识、推荐多样性好以及可以挖掘用户的潜 在兴趣,但是其缺点包括存在冷启动问题、系统开 始时推荐质量差、可扩展性差以及质量取决于历史 数据集等。 由于信息的实时性与用户兴趣的不固定性,在 上述推荐方法的启发下,论文提出了组合推荐算法 ——CR 算法。该算法的基本思想是:首先是对目 标用户历史行为日志进行发掘处理,根据基于内容 的推荐算法生成用户的现存配置文件与当前兴趣配 置文件;然后,由基于用户行为的协同过滤算法与 基于用户内容的协同过滤算法共同生成用户的潜在 配置文件;紧接着由现存用户配置文件与潜在配置 文件共同产生用户的混合配置文件;最后根据信息 集中信息的发布时间决定其有哪种方法产生推荐。 当信息发布时间与当前时间的差小于某个阈值时, 采用混合推荐算法;当消息发布时间与当前时间 的差不小于上述阈值时,采用基于用户的协同过滤 算法。 1 个性化推荐方法 1.1 问题定义 F = (f1, f2,··· , fn) K = (k1, k2,··· , kl) k1, k2,··· , kl 定义 1 主要特征词:设 为信息 集,我们把表示信息内容的词称为主要特征词,把 有序序列 称为主要特征词序列,其 中 表示主要特征词,l 表示主要特征词的 数目。 UCF = (wc1,wc2,··· ,wci ,··· ,wcl) wci ki 定义 2 用户现存配置文件:对于任何用户,把 其阅读过的信息生成的文件称为用户现存配置文 件,并将用户现存配置文件表示成向量形式 ,其中 表示在用户 现存配置文件中主要特征词 的权重。 u s u u UCFus = (wcu s1,wcu s2,··· ,wcu s i ,···wcu s l) wcu s i u ki 定义 3 用户当前兴趣配置文件:对于用户 , 把其最新阅读过的 个信息生成的文件称为用户 的 当前兴趣配置文件,并将用户 的当前兴趣配置文件 表示为 ,其中 表示在用户 的当前兴趣文件中主要特征词 的权重。 UMF = (wm1,wm2,··· ,wmi ,··· ,wml) wmi ki 定义 4 用户潜在配置文件:对于任何用户,利 用协同过滤的方法预测主要特征词的权重,进而获 得用户潜在配置文件,其能够被表示为向量形式 ,其中 表示在 用户潜在配置文件中主要特征词 的权重。 UBF = (wb1,wb2,··· ,wbi ,··· ,wbl) wbi ki 定义 5 用户混合配置文件:对于任何用户,融 合上述的用户当前兴趣配置文件和用户潜在配置文 件,获得其用户混合配置文件,其能够被表示成向 量形式 ,其中 表 示在用户混合配置文件中主要特征词 的权重。 通过上面对一些概念的定义,下面给出论文的 设计思路,如图 1 所示。 ञ㵸ࢲ ͦᬑᔃ ⣜ႄ⩔ᝣ䙹㒚᪳ Тস⩔ᝣᑿڠݹ 䋏䙹㒚᪳Т ⒈⩔ᝣ 䙹㒚᪳Т ⌣ऴ⩔ᝣ 䙹㒚᪳Т ᣔ㡼݃㶔 ⊴ᖛ䯲 ദκ⩔ᝣ ࡻ⮰ქڱ स䓳␐ ദκڱქ ⮰ᣔ㡼 ᣔ㡼݃㶔1 ᣔ㡼݃㶔2 ദκ⩔ᝣ㵸 ͦ⮰ࡻस䓳␐ 图 1 方案框架 Fig. 1 Scheme framework 1.2 现存用户配置文件 由于信息时效性强与用户的浏览兴趣并不是永 久的,而是跟随社会流行和热点话题变化而变化, 所以在进行信息推荐时需要考虑到用户的兴趣偏好 ·190· 智 能 系 统 学 报 第 13 卷
第2期 姜信景,等:个性化信息推荐方法研究 ·191· 变化。为此,论文引进截取因子、时间因子以及对 10) WCj=i WCurj+Waij 用户的历史数据进行处理。 11) end for 1.2.1向量空间模型 12) end for 给定信息集F=(f,f,…,f。…,f)和主要特征 13) for each fii F do 词序列K=(k1,k,…,k,…,),能够被表示为向量 14) if s==n then 空间模型f=(w1,w2,…w),其中w表示特征词k在 15) WCui=Wuij 信息f中的权重。=0表示k不在中出现。论文 16) else 利用TF-DF1方法对文本信息进行处理。计算 17) %的公式如下: :=1+al-t-i 18) wij=tf(i,j)xlog[1+n/n(j)]/maxOther(i,j)(1) WwCu=μ*WwCw+W 19) end if 式中:tf亿,)是出现在f中的k,的数目,n()表示出现 20)end for k,的信息数量,max Other(亿)是出现在f的其他特征 词的最大数目。可以看出,信息集F可以表示成一 输出UCF,UCF 个权重矩阵。 1.3潜在配置文件 12.2用户现存配置文件、时间因子以及用户当 由于用户的浏览兴趣并不是永久的,是跟随社 前兴趣配置文件 会流行和热点话题变化而变化,所以推荐信息的列 鉴于用户的兴趣会随着时间的变化而快速变 表不应该仅仅包括用户现存兴趣,也应该包括用户 化,而且用户的浏览兴趣往往和刚刚浏览过的前几 的潜在兴趣。考虑到信息的特殊性,本文利用同时 条信息有很大的关联。所以论文在处理文本信息时 考虑行为相似和内容相似的基于用户的协同过滤方 首先对用户已阅读消息的浏览时间进行升序排序, 法来寻找目标用户的相似用户和潜在兴趣。 进而生成现存用户配置文件UC℉,然后选取最后浏 1.3.1混合相似性的计算 览的s个信息用于生成用户的当前兴趣配置文件 由于信息的特殊性,基于信息的协同过滤应考 UC℉s。设用户已阅读的按浏览时间降序排列的信 虑:行为相似simAct(u,)和内容相似simCon(u,)的 息集表示为F。=(fa,f2,…,fa,…,fm),所以最新浏 计算。 览的s个信息集合为Fa={fa,fa,…,fm,t,是用户 给定信息集F和F,用户u的当前兴趣文件 阅读信息fm的时间。时间因子能够被定义为 UCFs=(wCrl,wCr2,,wCi,…wC),用户v的现存 *1=1/(1+al+1-tD (2) 配置文件UCF,=(wc,wc2,…,wc)。则用户u与用 式中:a是时间衰减参数,通过实验确定;F.、F是 户v的行为相似和内容相似的计算如下: F的子集。所以F。、F也可以表示为一个权重矩 simAct (u,v)=FnFl/VIFslx IFl (3) 阵。获得用户的现存配置文件UCF和当前兴趣配 simCon(u,v)=(CUF-CUFT)/CUFl ICUF,I (4) 置文件UC℉的过程如算法1。 根据式(3)和(4),混合相似度计算公式如下: 算法1 sim(u,v)=Bx simAct(u,v)+(1-B)x simCon(u,v)(5) 输入FnF用户u阅读消息F.的时间,a: 式中:系数B∈[0,1],通过实验来决定。获得u和 1)UCF。=(wcl,wc2,…,wca,UCFs=(wcw1, v相似性的过程如算法2。 wce2,…,WCD) 算法2 2)for eachk,∈Kdo 输入Fa、F、UCFw和UCF,系数B: 3) WC=0,WCi=0 1)numSimNews =0,innerPro =0,norm =0, 4)end for norm,=0 其中,对用户浏览的信息集从最早阅读的消息 2)for each f∈F.sdo 开始,依次到最新阅读的信息进行下述5)~13)的 3) for each fi∈F,do 操作。 4) if fu fuj then 5) for each f∈Fsdo 5) numSimNews 1+numSimNews 6) ifi==s then 6) end if 7) WCj Widj 7) end for 8) else 8)end for 1 9) Hi=I+alt-t- 9) simAct(u,v)=numSimNews/sqrt(len(F)*
变化。为此,论文引进截取因子、时间因子以及对 用户的历史数据进行处理。 1.2.1 向量空间模型 F = (f1, f2,··· , fi ,··· , fn) K = (k1, k2,··· , ki ,··· , kl) fi = (wi1,wi2,···wil) wi j kj fi wi j = 0 kj fi TF−IDF wi j 给定信息集 和主要特征 词序列 ,fi 能够被表示为向量 空间模型 ,其中 表示特征词 在 信息 中的权重。 表示 不在 中出现。论文 利用 [ 1 7 ]方法对文本信息进行处理。计算 的公式如下: wi j = t f (i, j)×log[ 1+n/n(j) ] /maxOther(i, j) (1) t f (i, j) fi kj n(j) kj maxOther(i, j) fi 式中: 是出现在 中的 的数目, 表示出现 的信息数量, 是出现在 的其他特征 词的最大数目。可以看出,信息集 F 可以表示成一 个权重矩阵。 1.2.2 用户现存配置文件、时间因子以及用户当 前兴趣配置文件 UCF u UCFus u Fu = ( fu1, fu2,··· , fui,··· , funu ) Fus = { fu1, fu2,··· , funus } ti u fui 鉴于用户的兴趣会随着时间的变化而快速变 化,而且用户的浏览兴趣往往和刚刚浏览过的前几 条信息有很大的关联。所以论文在处理文本信息时 首先对用户已阅读消息的浏览时间进行升序排序, 进而生成现存用户配置文件 ,然后选取最后浏 览的 s 个信息用于生成用户 的当前兴趣配置文件 。设用户 已阅读的按浏览时间降序排列的信 息集表示为 ,所以最新浏 览的 s 个信息集合为 , 是用户 阅读信息 的时间。时间因子能够被定义为 ui+1 = 1/ (1+α|tt+1 −ti |) (2) α Fu、Fus F Fu、Fus u UCF UCFus 式中: 是时间衰减参数,通过实验确定; 是 的子集。所以 也可以表示为一个权重矩 阵。获得用户 的现存配置文件 和当前兴趣配 置文件 的过程如算法 1。 算法 1 输入 Fu , Fus, 用户 u 阅读消息 Fui 的时间 ti,α; UCFu = (wcu1,wcu2,··· ,wcul) UCFus = (wcu s1, wcu s2,··· ,wcu s l) 1) , 2) for each kj ∈ K do wcu j = 0 wcu s 3) , j = 0 4) end for 其中,对用户浏览的信息集从最早阅读的消息 开始,依次到最新阅读的信息进行下述 5)~13) 的 操作。 5) for each fui ∈ Fus do 6) if i == s then wcu s 7) j = wui j 8) else µi = 1 1+α|ti −ti−1| 9) wcu s j = µi ∗wcu s 10) j +wui j 11) end for 12) end for 13) for each fui ∈ Fu do 14) s == nu if then 15) wcui=wui j 16) else µi = 1 1+α|ti −ti−1| 17) 18) wcu j=µ ∗wcu j +wui j 19) end if 20) end for 输出 UCFu,UCFus。 1.3 潜在配置文件 由于用户的浏览兴趣并不是永久的,是跟随社 会流行和热点话题变化而变化,所以推荐信息的列 表不应该仅仅包括用户现存兴趣,也应该包括用户 的潜在兴趣。考虑到信息的特殊性,本文利用同时 考虑行为相似和内容相似的基于用户的协同过滤方 法来寻找目标用户的相似用户和潜在兴趣。 1.3.1 混合相似性的计算 simAct(u, v) simCon(u, v) 由于信息的特殊性,基于信息的协同过滤应考 虑:行为相似 和内容相似 的 计算。 Fus Fv u UCFus = (wcu s1,wcu s2,··· ,wcu s i ,···wcu s l) v UCFv = (wcv1,wcv2,··· ,wcvl) u v 给定信息集 和 ,用户 的当前兴趣文件 ,用户 的现存 配置文件 。则用户 与用 户 的行为相似和内容相似的计算如下: simAct(u, v) = |Fus ∩ Fv | / √ |Fus|×|Fu| (3) simCon(u, v) = ( CUFus ·CUFT v ) / √ |CUFus|×|CUFv | (4) 根据式 (3) 和 (4),混合相似度计算公式如下: sim(u, v) = β×simAct(u, v)+(1−β)×simCon(u, v) (5) 式中:系数 β ∈ [0,1] ,通过实验来决定。获得 u 和 v 相似性的过程如算法 2。 算法 2 输入 Fus、Fv、UCFus 和 UCFV,系数 β; numSimNews = 0 innerPro = 0 normu = 0 normv = 0 1) , , , 2) for each fui ∈ Fus do 3) for each fu j ∈ Fv do 4) fui = fu j if then 5) numSimNews = 1+numSimNews 6) end if 7) end for 8) end for 9 ) simAct(u, v) = numSimNews/sqrt(len(Fu) ∗ 第 2 期 姜信景,等:个性化信息推荐方法研究 ·191·
·192· 智能系统学报 第13卷 len(F,)) 算法4 10)for each weE UCF,do 输入UMF.=(wma,wma,…,wmu),UMF.= 11) innerPro innerPro+wcej*wcv (wcal,wC2,…,cmd),y 12) normus norm+wcj Wc 1)UBF =(wbal,wb.2..wb) 13) normy norm,wcvi*wcv 2)for eachk∈Kdo 14) end for 3)wb=0 15)simCon(u,v)=innerPro/(sqrt(norm)*sqrt 4) wbj=ywcj+(1-y)wmaj (norm,)) 5)end for 16)sim(u,v)=B*simAct(u,v)+(1-B)*simCon(u,v) 输出UBF 输出用户u和v的相似性sim(u,v)o 1.5推荐结果的生成 1.3.2潜在用户配置文件和相似用户文件的生成 由于信息的时效性和用户兴趣不固定等问题, 目标用户和其他用户的相似性通过算法2计 在推荐列表中,信息由两部分组成:1、2。 算。选择相似性最大的h个用户构造相似用户文 1,部分由混合配置文件生成,即通过添加时间 件。然后通过加权计算获得目标用户的潜在用户 因子ε来限定消息是否采用混合推荐方法:当消息 配置文件UMF。 的发布时间与当前时间的时间间隔小于ε1,若满足, 给定相似用户集U={w1,2,…,},用户,的现 则该文件采用混合推荐方法,否则将不采用。详细 存配置文件UCFw=(wCwl,wcm2,…,wC),用户u和用 过程如下: 户的相似性为sim(u,)。利用式(6)计算在 设用户u的BUFn=(wbui,wba,…wbd),新闻 MUF中的k的权重。获得潜在用户配置文件的过程 do=(wd1,wd2,…wd),信息do的发布时间为o,当前时 如算法3。 间tu,阈值8、82。首先检查 wm=∑w sim(u/∑ sim(u,va) (6) tcr-io≤Ei (8) 算法3 若不等式(8)成立,则检查 输入Uu={y1,y2,…,yal,EU sim(u,,UCFi d·BUFT≥82 (9) 若式(9)成立,则将信息do放入l中。 1)sumSim=0,UMf.=(wm1,wm2,…,wmw) 2)for eachk∈Kdo 2部分直接由基于内容相似和行为相似的协同 过滤算法生成。详细过程如下: wmij=0 4)end for 设用户u的相似用户集U。={1,2,…,},用户 u和用户v,的相似性为sim(u,y)。对于信息do,设该信 5)for each vU.do 6) sumSim=sumSim+sim(u,va) 息在用户的相似用户集上的权重为w,w…, 7)end for wn,那么信息d相对于用户u的权重为 8)for each viU.do "6=∑A·sme) (10) 9 for each k;EK do 选出相对于用户的权重较大的消息放入2部分。 10) wmj =wmj+wcnj*sim(u,v)/sumSim 11) end for 2实验和分析 12)end for 实验数据来源于财新网站2014年3月份的一 输出UMFo 万个用户的所有浏览记录。每个浏览记录由用户编 1.4用户混合配置文件的生成 号、新闻编号、浏览时间、新闻标题、新闻内容以及 用户混合配置文件UBF能够在获得目标用户 发表时间组成。从数据集中抽取阅读超过25条的 的当前兴趣配置文件UC℉,和潜在配置文件UMF后, 新闻用户作为训练集。令包含在网站给定的测试集 通过对UCF,UMF上的每个主要特征词加权得到。 中的训练集用户作为测试集,其中测试集中的用户 设用户的UCFs=(wc1,wcr2,…,wc以,UMF.=(wmut, 只有一个测试记录。论文采用F值、召回率(recall山)、 wm2,…,wma,UBF。=(wbui,wb2,…,wbd)。利用式 准确率(precision)和多样性(Diversity)作为评价指 (7)计算wbajo 标。F值的定义为 wbu=Ywcj+(1-y)wm (7) 1 式中:y∈0,],其值通过实验确定。获得用户的混 F=1/reacll+1/precision (11) 合用户配置文件UBF过程如算法4。 式中recall和precision的定义如下:
len(Fv)) wcu s 10) for each j ∈ UCFus do innerPro = innerPro+wcu s 11) j ∗wcv j normus = normu +wcu s j ∗wcu s 12) j 13) normv = normv +wcv j ∗wcv j 14) end for simCon(u, v) = innerPro/(sqrt(normus) ∗ sqrt (normv)) 15) 16) sim(u, v)=β∗simAct(u, v)+(1−β)∗simCon(u, v) 输出 用户 u 和 v 的相似性 sim(u, v)。 1.3.2 潜在用户配置文件和相似用户文件的生成 u h u UMF 目标用户 和其他用户的相似性通过算法 2 计 算。选择相似性最大的 个用户构造相似用户文 件。然后通过加权计算获得目标用户 的潜在用户 配置文件 。 Uu = {v1, v2,··· , vh} vi UCFvi = ( wcvi1,wcvi2,··· ,wcvil ) u vi sim(u, vi) MUFu kj 给定相似用户集 ,用户 的现 存配置文件 ,用户 和用 户 的相似性为 。利用 式 ( 6 ) 计算在 中的 的权重。获得潜在用户配置文件的过程 如算法 3。 wmu j = ∑ vi j [ wcvi j ×sim(u, vi) / ∑ va∈Uu sim(u, va) ] (6) 算法 3 输入 Uu = {v1, v2,··· , vh},vi ∈ Uu,sim(u, vi),UCFvi; 1) sumSim = 0,UMFu = (wmu1,wmu2,··· ,wmul) 2) for each kj ∈ K do 3) wmi j = 0 4) end for 5) for each va ∈ Uu do 6) sumSim = sumSim+sim(u, va) 7) end for 8) for each vi ∈ Uu do 9) for each kj ∈ K do wmu j = wmu j +wcvi 10) j ∗ sim(u, vi) /sumSim 11) end for 12) end for 输出 UMFu。 1.4 用户混合配置文件的生成 u UCFus =(wcu s1,wcu s2,···,wcu s l) UMFu =(wmu1, wmu2,··· ,wmul) UBFu = (wbu1,wbu2,··· ,wbul) wbu j 用户混合配置文件 UBF 能够在获得目标用户 的当前兴趣配置文件 UCFs 和潜在配置文件 UMF 后, 通过对 UCF,UMF 上的每个主要特征词加权得到。 设用户 的 , , 。利用式 (7) 计算 。 wbu j = γwcu s j +(1−γ)wmu j (7) γ ∈ [0,1] u UBFu 式中: ,其值通过实验确定。获得用户 的混 合用户配置文件 过程如算法 4。 算法 4 UMFu = (wmu1,wmu2,··· ,wmul) UMFu = (wcu1,wcu2,··· , cmul) 输 入 , ,γ 1) UBFu = (wbu1,wbu2,··· ,wbul) 2) for each ki ∈ K do 3) wbu j = 0 4) wbu j = γwcu j +(1−γ)wmu j 5) end for 输出 UBFu。 1.5 推荐结果的生成 l1、l2 由于信息的时效性和用户兴趣不固定等问题, 在推荐列表中,信息由两部分组成: 。 l1 ε1 ε1 部分由混合配置文件生成,即通过添加时间 因子 来限定消息是否采用混合推荐方法:当消息 的发布时间与当前时间的时间间隔小于 ,若满足, 则该文件采用混合推荐方法,否则将不采用。详细 过程如下: u BUFu = (wbu1,wbu2,···wbul) d0 = (wd1,wd2,···wdl) d0 t0 tcur ε1 ε2 设用户 的 ,新闻 ,信息 的发布时间为 ,当前时 间 ,阈值 、 。首先检查 tcur −t0 ⩽ ε1 (8) 若不等式 (8) 成立,则检查 d0 ·BUFT u ⩾ ε2 (9) 若式 (9) 成立,则将信息 d0放入 l1中。 l2部分直接由基于内容相似和行为相似的协同 过滤算法生成。详细过程如下: u Uu = {v1, v2,··· , vh} u vi sim(u, vi) d0 u { wv1 d0 ,wv2d0 ,··· , wvhd0 } d0 u 设用户 的相似用户集 ,用户 和用户 的相似性为 。对于信息 ,设该信 息在用户 的相似用户集上的权重为 ,那么信息 相对于用户 的权重为 wud0 = ∑h j=1 wvjd0 ∗ sim( u, vj ) (10) 选出相对于用户u的权重较大的消息放入 l2部分。 2 实验和分析 F (recall) ( precision) ( Diversity) F 实验数据来源于财新网站 2014 年 3 月份的一 万个用户的所有浏览记录。每个浏览记录由用户编 号、新闻编号、浏览时间、新闻标题、新闻内容以及 发表时间组成。从数据集中抽取阅读超过 25 条的 新闻用户作为训练集。令包含在网站给定的测试集 中的训练集用户作为测试集,其中测试集中的用户 只有一个测试记录。论文采用 值、召回率 、 准确率 和多样性 作为评价指 标。 值的定义为 F = 1 1/reacll+1/precision (11) 式中 recall 和 precision 的定义如下: ·192· 智 能 系 统 学 报 第 13 卷
第2期 姜信景,等:个性化信息推荐方法研究 ·193· 0.50 recall ∑%evhit(u:) (12) 。CR ∑meuT(u) 0.45 ICFBBS -ICFCBS 0.40 ◆MR 式中:U为数据集中用户的集合,hit()表示推荐给 0.35 。CEBBS CFCBS 用户4的新闻中,确实在测试集中被该用户浏览的 0.30 ◆CBR 个数。T()为测试集中用户4:真正浏览的新闻的 菱025 0.20 数目。 0.15 0.10 precision= ∑4 ehit(:) (13) ∑4euL() 0.05 0.00 式中:hit(w)的定义同上,L()表示用户w,的新闻推 3 4 678910 推荐新闻的数目 荐列表的长度。在进行实验时,对于消息f6=(wo, wm,…,waw),若k,在f6中出现的频率排在前10,则wa= 图2F值比较 1,否则w=0。设s=5,a=106,y=0.5,81=3600, Fig.2 Comparison of F 8=0.5。 0.75 首先验证B的取值,由于测试集中每个用户只 0.70 0.65 有一个测试记录,所以用F值不能获得好的效果。 0.60 0.55 因此,在实验仿真中,论文采用recall。表1是推荐 0.50 列表长度为20时,recall-与B的关系。 E0.45 表1 recall与B的关系 Table 1 香a8 ◆CR ICFBBS Relationship between recall and B 0.25 量HCFCBS 0.20 -◆MR B recall B recall 0.15 ◆CFBBS ◆+CFCBS 0.0 0.607 0.5 0.778 0.10- CBR 0.05 0.1 0.657 0.6 0.0 0.788 1 3 4567 8910 推荐新闻的数目 0.2 0.723 0.7 0.791 0.3 0.745 0.8 0.791 图3 召回率比较 Fig.3 Comparison of recall 0.4 0.776 0.9 0.807 0.50 CR 通过实验数据显示,当B=0.9时,recall最好。 0.45 ICEBBS 接着验证F值、recall和precision。 0.40 0.35 ◆-CFBBS 在图2中,随着推荐列表长度的增加,上述 -CFCBS 0.30 CBR 6种方法除CBR(基于内容的推荐算法)外,F值都 菱025 逐渐减少。在相同的推荐列表长度的情况下。 0.20 0.15 CR(组合推荐)的F值最大,除个别点,ICFBBS(改 0.10- 进的基于行为相似的协同过滤)、ICFCBS(改进的基 0.05 于内容相似的协同过滤)、MR(混合推荐)、 0.00 1 2345678910 CFBBS(基于行为相似的协同过滤)、CFCBS(基于内 推荐新闻的数目 容相似的协同过滤)依次减少。CBR的F值最小。 图4精确度比较 图3为recall指标随推荐列表长度变化的情况。随 Fig.4 Comparison of precision 着推荐列表长度的增加,6种方法的recall值都逐渐 多样性Diversity描述了推荐列表中物品两两之 增加。在相同推荐列表长度的情况下,除个别点, 间的差异性。所以多样性和相似性是对应的,假设 CR、ICFBBS、ICFCBS、MR、CFBBS、CFCBS以及 sim(,)e[0,1]为消息i和j之间的相似度,用户的 CBR的recall值依次减少。图4为precision指标随 推荐列表R()的多样性定义如式(14): 推荐列表长度变化的情况。随着推荐列表长度增 ∑ijER()i+jS(i力 加,6种方法值都逐渐减少。在相同列表长度的情 Diversity=1-0.5IR(u)(R(-1) (14) 况下,除个别点,CR、ICFBBS、ICFCBS、MR、CF 而推荐系统的整体多样性可以定义为所有用户推荐 BBS、CFCBS以及CBR的Precision值依次减少。 列表多样性的平均值如式(15):
recall = ∑ ui∈U hit(ui) ∑ ui∈U T (ui) (12) U hit(ui) ui T (ui) ui 式中: 为数据集中用户的集合, 表示推荐给 用户 的新闻中,确实在测试集中被该用户浏览的 个数。 为测试集中用户 真正浏览的新闻的 数目。 precision = ∑ ui∈U hit(ui) ∑ ui∈U L(ui) (13) hit(ui) L(ui) ui f0 = (w01, w02,··· ,w0l) ki f0 w0i = w0i = 0 s = 5 α = 10−6 γ = 0.5 ε1 = 3 600 ε2 = 0.5 式中: 的定义同上, 表示用户 的新闻推 荐列表的长度。在进行实验时,对于消息 ,若 在 中出现的频率排在前 10,则 1,否则 。设 , , , , 。 β F recall recall β 首先验证 的取值,由于测试集中每个用户只 有一个测试记录,所以用 值不能获得好的效果。 因此,在实验仿真中,论文采用 。表 1 是推荐 列表长度为 20 时, 与 的关系。 表 1 recall 与 β 的关系 Table 1 Relationship between recall and β β recall β recall 0.0 0.607 0.5 0.778 0.1 0.657 0.6 0.788 0.2 0.723 0.7 0.791 0.3 0.745 0.8 0.791 0.4 0.776 0.9 0.807 β = 0.9 F 通过实验数据显示,当 时,recall 最好。 接着验证 值、recall 和 precision。 在图 2 中,随着推荐列表长度的增加,上述 6 种方法除 CBR(基于内容的推荐算法) 外,F 值都 逐渐减少。在相同的推荐列表长度的情况下。 CR(组合推荐) 的 F 值最大,除个别点,ICFBBS(改 进的基于行为相似的协同过滤)、ICFCBS(改进的基 于内容相似的协同过滤 ) 、 MR( 混合推荐 ) 、 CFBBS(基于行为相似的协同过滤)、CFCBS(基于内 容相似的协同过滤) 依次减少。CBR 的 F 值最小。 图 3 为 recall指标随推荐列表长度变化的情况。随 着推荐列表长度的增加,6 种方法的 recall 值都逐渐 增加。在相同推荐列表长度的情况下,除个别点, CR、ICFBBS、ICFCBS、MR、CFBBS、CFCBS 以及 CBR 的 recall值依次减少。图 4 为 precision 指标随 推荐列表长度变化的情况。随着推荐列表长度增 加,6 种方法值都逐渐减少。在相同列表长度的情 况下,除个别点,CR、ICFBBS、ICFCBS、MR、CFBBS、CFCBS 以及 CBR 的 Precision 值依次减少。 0.50 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00 Fը 1 2 3 4 5 6 7 8 9 10 ᣔ㡼䬧⮰Ⱊ CR ICFBBS ICFCBS MR CFBBS CFCBS CBR 图 2 F 值比较 Fig. 2 Comparison of F 0.75 0.70 0.65 0.60 0.55 0.50 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00 ఊघ⢳/recall CR ICFBBS ICFCBS MR CFBBS CFCBS CBR 1 2 3 4 5 6 7 8 9 10 ᣔ㡼䬧⮰Ⱊ 图 3 召回率比较 Fig. 3 Comparison of recall 0.50 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00 Fը 1 2 3 4 5 6 7 8 9 10 ᣔ㡼䬧⮰Ⱊ CR ICFBBS ICFCBS MR CFBBS CFCBS CBR 图 4 精确度比较 Fig. 4 Comparison of precision Diversity sim(i, j) ∈ [0,1] u R(u) 多样性 描述了推荐列表中物品两两之 间的差异性。所以多样性和相似性是对应的,假设 为消息 i 和 j 之间的相似度,用户 的 推荐列表 的多样性定义如式 (14): Diversity = 1− ∑ i, j∈R(u),i,j s(i, j) 0.5|R(u)|(|R(u)|−1) (14) 而推荐系统的整体多样性可以定义为所有用户推荐 列表多样性的平均值如式 (15): 第 2 期 姜信景,等:个性化信息推荐方法研究 ·193·
·194· 智能系统学报 第13卷 Diversity= Diversity(R(m) LI Jiashan.Research and implementation of text clustering (15) for personalized news recommandation system[D].Beijing: 图5是上述7种方法在不同推荐长度下多样性。 Beijing University of Posts and Telecommunications,2013. 从图中可以看出,CBR算法是通过对用户先前消息 [2]项亮.推荐系统实践M.北京:人民邮电出版社,2012, 的内容进行分析,然后推荐与其内容相似的消息, [3]BALABANOVIC M,SHOHAM Y.Fab:content-based, 所以在推荐列表中的消息内容相似性特别高,进而 collaborative recommendation[J].Communications of the 多样性很差。ICFBBS、ICFCBS、CFBBS、CFCBS ACM,1997,40(3):66-72 是目标用户通过找到与其行为相似或者内容相似的 [4]MANDL M,FELFERNIG A,TEPPAN E.et al.Consumer 用户集,给目标用户推荐用户集中浏览最多的消 decision making in knowledge-based recommendation[J]. 息,所以多样性比CBR好。CR是混合推荐和直接 Journal of intelligent information systems,2011,37(1): 1-22 基于用户的协同过滤算法的组合,所以多样性比 [5]LI Xiaohui,MURATA T.A knowledge-based recommenda- CBR好,比ICFBBS、ICFCBS、CFBBS、CFCBS差。 tion model utilizing formal concept analysis and association MR推荐的消息是与用户的兴趣模型相似度较高的 [C]//Proceedings of the 2nd International Conference on 消息,所以多样性与CBR相似。 Computer and Automation Engineering.Singapore,2010: 0.7 221-226. ICFBBS 0.6 ICFCBS [6]GARCIN F,ZHOU Kai,FALTINGS B,et al.Personalized news recommendation based on collaborative filtering[C]/ 0.5 CBR Proceedings of the 2012 IEEE/WIC/ACM International 0.4 Joint Conferences on Web Intelligence and Intelligent Agent Technology.Washington,DC,USA:IEEE,2012:437-441. [7]DARVISHY A,IBRAHIM H,MUSTAPHA A,et al.New attributes for neighborhood-based collaborative filtering in 0.1 news recommendation[J].Journal of emerging technologies 0.0 in web intelligence,2015,7(1):13-19. 10 15 20 推荐新闻的数目 [8]YANG Wu,TANG Rui,LU Ling.A fused method for news recommendation[C]//Proceedings of the 2016 International 图5多样性比较 Conference on Big Data and Smart Computing(BigComp). Fig.5 Comparison of diversity Hong Kong,China,2016:341-344. 此外,C℉方法在进行推荐时,由于对消息的分 [9]LU Zhonggi,DOU Zhicheng,LIAN Jianxun,et al.Content- 类推荐,所以推荐所用的时间远远小于基于内容的 based collaborative filtering for news topic recommenda- 算法和用户的协同过滤混合推荐算法。 tion[C]/Proceedings of the 29th AAAI Conference on Arti- 3结束语 ficial Intelligence.Austin,Texas,USA,2015:217-223 [10]LIU Y,BAO L,GAO L.Trust-based new recommenda- 本文首先介绍了个性化信息推荐的传统方法, tion algorithm of collaborative filtering combination[J].In- 对基于内容推荐算法和基于协同过滤算法进行了简 formation Japan,.2013,16(7):4555-4576. 单说明。针对信息的特点,本文提出了组合推荐算 [11]WANG Jingjin,LIN Kunhui,LI Jia.A collaborative filter- 法(CR算法)。针对该算法设计实验并分析了实验 ing recommendation algorithm based on user clustering 结果。数据显示CR方法显著优于其他同类方法。 and slope one scheme[C]//Proceedings of the 2013 8th In- 但是随着信息属性和用户权限的细分,通用的推 ternational Conference on Computer Science Education 荐算法已不适应某些特殊的信息领域,下一步,可 (ICCSE).Colombo,Sri Lanka,2013:1473-1476 以试着通过改造上述算法的结构进行比较精准的 [12]CAPELLE M,FRASINCAR F,MOERLAND M,et al.Se- 推荐。 mantics-based news recommendation[J]//Proceedings of 参考文献: the 2nd International Conference on Web Intelligence, Mining and Semantics.Craiova,Romania,2012:27 [1]李佳珊.个性化新闻推荐引擎中新闻分组聚类技术的研 [13]CUI Limeng,SHI Yong.A Method based on one-class 究与实现D].北京:北京邮电大学,2013. SVM for news recommendation[J].Procedia computer sci-
Diversity = 1 |U| ∑ u∈U Diversity(R(u)) (15) 图 5 是上述 7 种方法在不同推荐长度下多样性。 从图中可以看出,CBR 算法是通过对用户先前消息 的内容进行分析,然后推荐与其内容相似的消息, 所以在推荐列表中的消息内容相似性特别高,进而 多样性很差。ICFBBS、ICFCBS、CFBBS、CFCBS 是目标用户通过找到与其行为相似或者内容相似的 用户集,给目标用户推荐用户集中浏览最多的消 息,所以多样性比 CBR 好。CR 是混合推荐和直接 基于用户的协同过滤算法的组合,所以多样性比 CBR 好,比 ICFBBS、ICFCBS、CFBBS、CFCBS 差。 MR 推荐的消息是与用户的兴趣模型相似度较高的 消息,所以多样性与 CBR 相似。 CR ICFBBS ICFCBS MR CFBBS CFCBS CBR 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 ๆᵣᕓ 5 10 15 20 ᣔ㡼䬧⮰Ⱊ 图 5 多样性比较 Fig. 5 Comparison of diversity 此外,CR 方法在进行推荐时,由于对消息的分 类推荐,所以推荐所用的时间远远小于基于内容的 算法和用户的协同过滤混合推荐算法。 3 结束语 本文首先介绍了个性化信息推荐的传统方法, 对基于内容推荐算法和基于协同过滤算法进行了简 单说明。针对信息的特点,本文提出了组合推荐算 法 (CR 算法)。针对该算法设计实验并分析了实验 结果。数据显示 CR 方法显著优于其他同类方法。 但是随着信息属性和用户权限的细分,通用的推 荐算法已不适应某些特殊的信息领域,下一步,可 以试着通过改造上述算法的结构进行比较精准的 推荐。 参考文献: 李佳珊. 个性化新闻推荐引擎中新闻分组聚类技术的研 究与实现[D]. 北京: 北京邮电大学, 2013. [1] LI Jiashan. Research and implementation of text clustering for personalized news recommandation system[D]. Beijing: Beijing University of Posts and Telecommunications, 2013. [2] 项亮. 推荐系统实践[M]. 北京: 人民邮电出版社, 2012. BALABANOVIĆ M, SHOHAM Y. Fab: content-based, collaborative recommendation[J]. Communications of the ACM, 1997, 40(3): 66–72. [3] MANDL M, FELFERNIG A, TEPPAN E, et al. Consumer decision making in knowledge-based recommendation[J]. Journal of intelligent information systems, 2011, 37(1): 1–22. [4] LI Xiaohui, MURATA T. A knowledge-based recommendation model utilizing formal concept analysis and association [C]//Proceedings of the 2nd International Conference on Computer and Automation Engineering. Singapore, 2010: 221–226. [5] GARCIN F, ZHOU Kai, FALTINGS B, et al. Personalized news recommendation based on collaborative filtering[C]// Proceedings of the 2012 IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technology. Washington, DC, USA: IEEE, 2012: 437–441. [6] DARVISHY A, IBRAHIM H, MUSTAPHA A, et al. New attributes for neighborhood-based collaborative filtering in news recommendation[J]. Journal of emerging technologies in web intelligence, 2015, 7(1): 13–19. [7] YANG Wu, TANG Rui, LU Ling. A fused method for news recommendation[C]//Proceedings of the 2016 International Conference on Big Data and Smart Computing (BigComp). Hong Kong, China, 2016: 341–344. [8] LU Zhongqi, DOU Zhicheng, LIAN Jianxun, et al. Contentbased collaborative filtering for news topic recommendation[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence. Austin, Texas, USA, 2015: 217–223. [9] LIU Y, BAO L, GAO L. Trust-based new recommendation algorithm of collaborative filtering combination[J]. Information Japan, 2013, 16(7): 4555–4576. [10] WANG Jingjin, LIN Kunhui, LI Jia. A collaborative filtering recommendation algorithm based on user clustering and slope one scheme[C]//Proceedings of the 2013 8th International Conference on Computer Science & Education (ICCSE). Colombo, Sri Lanka, 2013: 1473–1476. [11] CAPELLE M, FRASINCAR F, MOERLAND M, et al. Semantics-based news recommendation[J]//Proceedings of the 2nd International Conference on Web Intelligence, Mining and Semantics. Craiova, Romania, 2012: 27. [12] CUI Limeng, SHI Yong. A Method based on one-class SVM for news recommendation[J]. Procedia computer sci- [13] ·194· 智 能 系 统 学 报 第 13 卷
第2期 姜信景,等:个性化信息推荐方法研究 ·195· ence,2014,31:281-290 作者简介: [14]REN Rui,ZHANG Lingling,CUI Limeng,et al.Personal- 姜信景,男,1988年生,硕士研究 ized financial news recommendation algorithm based on 生,主要研究方向为个性化信息推荐。 ontology[J].Procedia computer science,2015,55:843- 851 [15]LOMMATZSCH A,KENTER T,DE VRIES A P,et al. Real-time news recommendation using context-aware en- sembles[M]//DE RIJKE M.Advances in Information Re- 齐小刚,男,1973年生,教授,博 trieval.Cham,Germany:Springer,2014. 导,博土,主要研究方向为系统建模与 [16杨博,赵鹏飞.推荐算法综述).山西大学学报:自然科 故障诊断。 学版,2011,343):337-350. YANG Bo,ZHAO Pengfei.Review of the art of recom- mendation algorithms[J].Journal of Shanxi university:nat- ural science edition,2011,34(3):337-350. 刘立芳,女,1972年生.教授,博 [1刀路永和,李焰锋.改进TF一DF算法的文本特征项权值 土,主要研究方向为数据处理与智能 计算方法U.图书情报工作,2013,57(3):90-95. 计算。 LU Yonghe,LI Yanfeng.Improvement of text feature weighting method based on TF-IDF algorithm[J].Library and information service,2013,57(3):90-95
ence, 2014, 31: 281–290. REN Rui, ZHANG Lingling, CUI Limeng, et al. Personalized financial news recommendation algorithm based on ontology[J]. Procedia computer science, 2015, 55: 843– 851. [14] LOMMATZSCH A, KENTER T, DE VRIES A P, et al. Real-time news recommendation using context-aware ensembles[M]//DE RIJKE M. Advances in Information Retrieval. Cham, Germany: Springer, 2014. [15] 杨博, 赵鹏飞. 推荐算法综述[J]. 山西大学学报: 自然科 学版, 2011, 34(3): 337–350. YANG Bo, ZHAO Pengfei. Review of the art of recommendation algorithms[J]. Journal of Shanxi university: natural science edition, 2011, 34(3): 337–350. [16] 路永和, 李焰锋. 改进 TF—IDF 算法的文本特征项权值 计算方法[J]. 图书情报工作, 2013, 57(3): 90–95. LU Yonghe, LI Yanfeng. Improvement of text feature weighting method based on TF-IDF algorithm[J]. Library and information service, 2013, 57(3): 90–95. [17] 作者简介: 姜信景,男,1988 年生,硕士研究 生,主要研究方向为个性化信息推荐。 齐小刚,男,1973 年生,教授,博 导,博士,主要研究方向为系统建模与 故障诊断。 刘立芳,女,1972 年生,教授,博 士,主要研究方向为数据处理与智能 计算。 第 2 期 姜信景,等:个性化信息推荐方法研究 ·195·