第15卷第6期 智能系统学报 Vol.15 No.6 2020年11月 CAAI Transactions on Intelligent Systems Nov.2020 D0L:10.11992tis.201710024 融合用户特征优化聚类的协同过滤算法 梁丽君,李业刚,张娜娜,张晓,王栋 (山东理工大学计算机科学与技术学院,山东淄博255049) 摘要:针对推荐系统领域中应用最广泛的协同过滤推荐算法仍伴随着数据稀疏性、冷启动和扩展性问题,基 于用户冷启动和扩展性问题,提出了基于改进聚类的PCEDS(pearson correlation coefficient and euclidean distance similarity)协同过滤推荐算法。首先针对用户属性特征,采用优化的K-means聚类算法对其聚类,然后结合基于 信任度的用户属性特征相似度模型和用户偏好相似度模型,形成一种新颖的PCEDS相似度模型,对聚类结果 建立预测模型。实验结果表明:提出的PCEDS算法比传统的协同过滤推荐算法在均方根误差(RMSE)上降低 5%左右,并且推荐准确率(precision)和召回率(recal)均有明显提高,缓解了冷启动问题,同时聚类技术可以节 省系统内存计算空间,从而提高了推荐效率。 关键词:推荐系统:协同过滤;冷启动:扩展性:优化聚类;信任度;用户属性特征:用户偏好 中图分类号:TP311文献标志码:A文章编号:1673-4785(2020)06-1091-06 中文引用格式:梁丽君,李业刚,张娜娜,等.融合用户特征优化聚类的协同过滤算法J引.智能系统学报,2020,15(6): 1091-1096. 英文引用格式:LIANG Lijun,,LI Yegang,.ZHANG Na'na,et al.Collaborative filtering algorithm combining user features and pref- erences in optimized clustering J].CAAI transactions on intelligent systems,2020,15(6):1091-1096. Collaborative filtering algorithm combining user features and preferences in optimized clustering LIANG Lijun,LI Yegang,ZHANG Na'na,ZHANG Xiao,WANG Dong (College of Computer Science and Technology,Shandong University of Technology,Zibo 255049,China) Abstract:The collaborative filtering recommendation algorithm in the field of recommendation systems is still accom- panied by the data sparsity,cold start,and scalability problems.To solve the cold start and scalability problems,we pro- pose a PCEDS(pearson correlation coefficient and euclidean distance)collaborative filtering recommendation algorithm based on optimized clustering.First,the optimized K-means clustering algorithm is used to cluster the attributes of users. Then,based on the trust-based similarity model of user attribute features and the similarity model of user preference,a novel PCEDS similarity model is established to create a prediction model for the clustering results.The experimental results indicate that,compared with the traditional collaborative filtering recommendation algorithm,the proposed PCEDS collaborative filtering recommendation algorithm reduces the root mean square error by approximately 5%,sig- nificantly improves the recommendation precision and recall,and solves the cold start problem.Simultaneously,the clustering technology can save the memory space of the recommendation system,thereby improving its efficiency. Keywords:recommendation system;collaborative filtering;cold start,scalability;optimization clustering;trust degree; user attribute;user preference 随着互联网和移动技术的飞速发展,现在越 导致了信息超载问题。当用户搜索其感兴趣的信 来越多的人拥有智能手机、平板电脑和其他的智 息时,会花费大量的时间和精力去过滤掉无用的 能终端,这使得生产信息的速度呈爆炸式增长, 信息,然而结果往往得不到用户的满意,于是个 性化推荐技术应时而生。个性化推荐技术是指利 收稿日期:2017-10-29 基金项目:国家自然科学基金项目(61671064). 用用户某种兴趣点和购买特点,向用户推荐感兴 通信作者:李业刚.E-mail:liyegang@sdut.edu.cn 趣的内容,是缓和信息超载问题的有效途径。在
DOI: 10.11992/tis.201710024 融合用户特征优化聚类的协同过滤算法 梁丽君,李业刚,张娜娜,张晓,王栋 (山东理工大学 计算机科学与技术学院,山东 淄博 255049) 摘 要:针对推荐系统领域中应用最广泛的协同过滤推荐算法仍伴随着数据稀疏性、冷启动和扩展性问题,基 于用户冷启动和扩展性问题,提出了基于改进聚类的 PCEDS(pearson correlation coefficient and euclidean distance similarity) 协同过滤推荐算法。首先针对用户属性特征,采用优化的 K-means 聚类算法对其聚类,然后结合基于 信任度的用户属性特征相似度模型和用户偏好相似度模型,形成一种新颖的 PCEDS 相似度模型,对聚类结果 建立预测模型。实验结果表明:提出的 PCEDS 算法比传统的协同过滤推荐算法在均方根误差 (RMSE) 上降低 5% 左右,并且推荐准确率 (precision) 和召回率 (recall) 均有明显提高,缓解了冷启动问题,同时聚类技术可以节 省系统内存计算空间,从而提高了推荐效率。 关键词:推荐系统;协同过滤;冷启动;扩展性;优化聚类;信任度;用户属性特征;用户偏好 中图分类号:TP311 文献标志码:A 文章编号:1673−4785(2020)06−1091−06 中文引用格式:梁丽君, 李业刚, 张娜娜, 等. 融合用户特征优化聚类的协同过滤算法 [J]. 智能系统学报, 2020, 15(6): 1091–1096. 英文引用格式:LIANG Lijun, LI Yegang, ZHANG Na’na, et al. Collaborative filtering algorithm combining user features and preferences in optimized clustering[J]. CAAI transactions on intelligent systems, 2020, 15(6): 1091–1096. Collaborative filtering algorithm combining user features and preferences in optimized clustering LIANG Lijun,LI Yegang,ZHANG Na’na,ZHANG Xiao,WANG Dong (College of Computer Science and Technology, Shandong University of Technology, Zibo 255049, China) Abstract: The collaborative filtering recommendation algorithm in the field of recommendation systems is still accompanied by the data sparsity, cold start, and scalability problems. To solve the cold start and scalability problems, we propose a PCEDS(pearson correlation coefficient and euclidean distance) collaborative filtering recommendation algorithm based on optimized clustering. First, the optimized K-means clustering algorithm is used to cluster the attributes of users. Then, based on the trust-based similarity model of user attribute features and the similarity model of user preference, a novel PCEDS similarity model is established to create a prediction model for the clustering results. The experimental results indicate that, compared with the traditional collaborative filtering recommendation algorithm, the proposed PCEDS collaborative filtering recommendation algorithm reduces the root mean square error by approximately 5%, significantly improves the recommendation precision and recall, and solves the cold start problem. Simultaneously, the clustering technology can save the memory space of the recommendation system, thereby improving its efficiency. Keywords: recommendation system; collaborative filtering; cold start; scalability; optimization clustering; trust degree; user attribute; user preference 随着互联网和移动技术的飞速发展,现在越 来越多的人拥有智能手机、平板电脑和其他的智 能终端,这使得生产信息的速度呈爆炸式增长, 导致了信息超载问题。当用户搜索其感兴趣的信 息时,会花费大量的时间和精力去过滤掉无用的 信息,然而结果往往得不到用户的满意,于是个 性化推荐技术应时而生。个性化推荐技术是指利 用用户某种兴趣点和购买特点,向用户推荐感兴 趣的内容,是缓和信息超载问题的有效途径。在 收稿日期:2017−10−29. 基金项目:国家自然科学基金项目 (61671064). 通信作者:李业刚. E-mail:liyegang@sdut.edu.cn. 第 15 卷第 6 期 智 能 系 统 学 报 Vol.15 No.6 2020 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2020
·1092· 智能系统学报 第15卷 个性化推荐技术中协同过滤推荐(collaborative 聚类结果有一定的影响。为了降低初始聚类中心 filtering,CF)技术是最成熟也是应用最广泛的一种 对聚类结果的影响,本文在使用K-means聚类算 技术,简单来说,协同过滤是根据某兴趣相投、拥 法时,对初始聚类中心的选取进行了优化。年 有相似用户群体的喜好来预测用户感兴趣的信 龄、性别、职业作为用户特有的特征,本文在对用 息,并将其推荐给目标用户。但是由于对象和商 户属性特征进行K-means聚类时,初始聚类中心 品数的快速增长,协同过滤推荐技术出现了冷启 即K值的选取,依据用户特有特征(年龄、性别、 动、可扩展性、数据稀疏性问题。 职业)进行K的选取,本文根据年龄段的划分,可 为了改善协同过滤推荐算法,一些研究者基 以分为7个阶段,即K值为7。 于上述问题从不同角度出发对其进行研究,针对 首先将出现次数最多的,即具有高活跃度的 数据稀疏性问题,文献[3]提出了一种数据挖掘 属性特征的用户群作为选取对象,因为选取聚类 算法对稀疏矩阵进行填充,并引入相似性计算因 中心时是根据年龄段进行划分选取的,本文将划 子计算用户相似性。文献[4]利用降维技术,对 分的7个年龄段分别用数字0、1、2、3、4、5、6来 高维稀疏数据在分布式平台下采用矩阵分解算法 表示,然后在每个年龄段中选取活跃度高的性别 进行预处理,降低数据稀疏性。 属性(男、女,本文用数字0、1代表),根据年龄、 针对传统协同过滤推荐技术的冷启动问题, 性别再选取每个年龄段中职业活跃度高的用户 文献[5]提出了扩展的基于概率论分类的朴素贝 本文将21种职业归属为4大类,分别用数字0、 叶斯的混合推荐算法,文献[6-8]提出了基于用户 1、2、3来表示,这样在每个年龄段中依次选取, 本身特有的信息进行聚类的C℉算法,这些算法 结果如表1所示。 的提出都有效缓解了用户冷启动问题,从而提升 表1初始聚类中心 了推荐的响应速度。 Table 1 Initial clustering center 针对传统协同过滤推荐技术的可扩展性问 年龄 性别 职业 题,面对日益增多的用户,数据量的急剧增加,算 0 0 3 法的可扩展性问题成为制约推荐系统的重要因 1 0 素。文献[9]提出了基于传统的SVD协同过滤算 2 0 1 法,但是这种矩阵分解算法有一定的代价。 0 在上述方法的启发下,本文提出了一种新颖 4 0 的相似度模型(PCEDS),PCEDS是将用户属性特 5 0 6 0 征和用户偏好相融合的一种相似度模型。首先根 据用户属性特征进行聚类,聚类采用优化的K- 处理数据的算法如下: means算法,即CF-act(m对用户进行聚类,然后根 输入用户特征信息表CUser 据聚类后的目标用户采用一种新颖的PCEDS推 输出用数字代表的用户特征信息表NCUser 荐模型为目标用户产生推荐。 CUser表中选取n个用户,记为U={p1, P2,…,pn} 1基于用户活跃度(CF-act)聚类 对所有的p∈U 聚类10是指在物理或抽象对象的集合里, 90,=0,j0: 将相类似的对象分类成多个类的过程,这些对象 if q<3, 在同一类中彼此相似,在不同类中相异。但是, ifp.[1∈{0-17八18-2425-34l35-44l45-4950 传统的C℉算法经常是基于用户对商品的评分数 5556-} 据进行聚类,而忽视了用户特有的一些特征属 then int sign:={01123415116) 性,从而会出现一种对目标用户推荐一些完全不 else if p.D+l]e{男I女} 感兴趣的信息的尴尬情况,这在很大程度上影响 then int sign:=(01) 了推荐的准确性。在现实中,每个用户都有其个 else ifp.什2]e{某一职业类} 人特征,本文将依据用户的性别、年龄、职业等属 then int sign:=(011213) 性特征进行聚类,认为拥有相似年龄、性别、职业 q+;t+;j升+: 的用户其偏好和消费行为也可能相似。 end if K-means是聚类方法1211中最常用的一种算 end if 法。在K-means算法中,初始聚类中心的选取对 end
个性化推荐技术[1] 中协同过滤推荐 (collaborative filtering, CF)技术是最成熟也是应用最广泛的一种 技术,简单来说,协同过滤是根据某兴趣相投、拥 有相似用户群体的喜好来预测用户感兴趣的信 息,并将其推荐给目标用户。但是由于对象和商 品数的快速增长,协同过滤推荐技术出现了冷启 动、可扩展性、数据稀疏性问题[2]。 为了改善协同过滤推荐算法,一些研究者基 于上述问题从不同角度出发对其进行研究,针对 数据稀疏性问题,文献 [3] 提出了一种数据挖掘 算法对稀疏矩阵进行填充,并引入相似性计算因 子计算用户相似性。文献 [4] 利用降维技术,对 高维稀疏数据在分布式平台下采用矩阵分解算法 进行预处理,降低数据稀疏性。 针对传统协同过滤推荐技术的冷启动问题, 文献 [5] 提出了扩展的基于概率论分类的朴素贝 叶斯的混合推荐算法,文献 [6-8] 提出了基于用户 本身特有的信息进行聚类的 CF 算法,这些算法 的提出都有效缓解了用户冷启动问题,从而提升 了推荐的响应速度。 针对传统协同过滤推荐技术的可扩展性问 题,面对日益增多的用户,数据量的急剧增加,算 法的可扩展性问题成为制约推荐系统的重要因 素。文献 [9] 提出了基于传统的 SVD 协同过滤算 法,但是这种矩阵分解算法有一定的代价。 在上述方法的启发下,本文提出了一种新颖 的相似度模型 (PCEDS),PCEDS 是将用户属性特 征和用户偏好相融合的一种相似度模型。首先根 据用户属性特征进行聚类,聚类采用优化的 Kmeans 算法,即 CF-act(u) 对用户进行聚类,然后根 据聚类后的目标用户采用一种新颖的 PCEDS 推 荐模型为目标用户产生推荐。 1 基于用户活跃度 (CF-act) 聚类 聚类[10-11] 是指在物理或抽象对象的集合里, 将相类似的对象分类成多个类的过程,这些对象 在同一类中彼此相似,在不同类中相异。但是, 传统的 CF 算法经常是基于用户对商品的评分数 据进行聚类,而忽视了用户特有的一些特征属 性,从而会出现一种对目标用户推荐一些完全不 感兴趣的信息的尴尬情况,这在很大程度上影响 了推荐的准确性。在现实中,每个用户都有其个 人特征,本文将依据用户的性别、年龄、职业等属 性特征进行聚类,认为拥有相似年龄、性别、职业 的用户其偏好和消费行为也可能相似。 K-means 是聚类方法[12-13] 中最常用的一种算 法。在 K-means 算法中,初始聚类中心的选取对 聚类结果有一定的影响。为了降低初始聚类中心 对聚类结果的影响,本文在使用 K-means 聚类算 法时,对初始聚类中心的选取进行了优化。年 龄、性别、职业作为用户特有的特征,本文在对用 户属性特征进行 K-means 聚类时,初始聚类中心 即 K 值的选取,依据用户特有特征 (年龄、性别、 职业) 进行 K 的选取,本文根据年龄段的划分,可 以分为 7 个阶段,即 K 值为 7。 首先将出现次数最多的,即具有高活跃度的 属性特征的用户群作为选取对象,因为选取聚类 中心时是根据年龄段进行划分选取的,本文将划 分的 7 个年龄段分别用数字 0、1、2、3、4、5、6 来 表示,然后在每个年龄段中选取活跃度高的性别 属性 (男、女,本文用数字 0、1 代表),根据年龄、 性别再选取每个年龄段中职业活跃度高的用户, 本文将 21 种职业归属为 4 大类,分别用数字 0、 1、2、3 来表示,这样在每个年龄段中依次选取, 结果如表 1 所示。 表 1 初始聚类中心 Table 1 Initial clustering center 年龄 性别 职业 0 0 3 1 0 3 2 0 1 3 0 1 4 0 1 5 0 1 6 0 3 处理数据的算法如下: 输入 用户特征信息表 CUser 输出 用数字代表的用户特征信息表 NCUser CUse r 表中选 取 n 个用户,记 为 U = { p 1 , p2,…,pn} 对所有的 pi∈U q=0,i=0,j=0; if q<3; if pi [j]∈{0−17||18−24||25−34||35−44||45−49||50− 55||56−} then int sign:={0||1||2||3||4||5||6} else if pi [j+1]∈{男|女} then int sign:={0||1} else if pi [j+2]∈{某一职业类} then int sign:={0||1||2||3} q++;i++;j++; end if end if end ·1092· 智 能 系 统 学 报 第 15 卷
第6期 梁丽君,等:融合用户特征优化聚类的协同过滤算法 ·1093· 根据表1选取的基于属性特征活跃度的初始 式中”、r,分别表示用户u和用户v的属性特征 聚类中心,再根据用户偏好活跃度选取属于每行 向量。欧几里德相似度值越大说明d越小,即距 聚类中心的用户D集合,然后基于用户偏好活跃 离越相近,则用户之间的相似度越大。但是在计 度的用户D集合再选取评分活跃度高的用户作 算用户之间的相似度时是大范围的相似性,这样 为初始聚类中心,最终K值的选取如图1所示。 计算出来的相似度具有一定的误差,所以本文提 Original centers: 出了加权的欧几里德相似度模型。如果2个用 [880.0,0.0,0.0,3.0 「393.0.1.0.0.0.3.01 户之间性别特征相同、在同一年龄段及职业相 「537.0,2.0,0.0,1.01 似,则这2个用户的偏好也相似,即用户之间的 650.0.3.0.0.0,1.01 [406.0.4.0,0.0,1.0 信任度。信任度是指用户之间相同个数的属性 524.0,5.0,0.0,1.0 [481.0,6.0,0.0,3.0 特征与属性特征总和之间的比例。公式如下: 图1基于用户话跃度的K值 CDu,)=C生 ct, Fig.1 K value based on user activity 式中:相同属性特征个数用©t,表示;属性特征个 根据图1选取的初始聚类中心,利用用户特 数总和用ct,表示。加权用户之间的属性特征信 征属性数据集对用户进行K-means聚类,算法具 任度与欧几里德相似度,新的相似度模型即 体步骤如下: CEDS模型如下: 输入NCUser(用户特征信息表)、Rating(评 sim(u,v)cEDs=ct 1 分表)、K; 输出k个聚类簇。 1+√∑G- 从NCUser表中选取n个用户,记为U={u, 用户偏好相似度模型(PCC),本文在依据用 户评分数据计算偏好相似性时,是在目标用户所 山2,“,un} initialize K,flag A=(a,a,,a) 在的聚类中计算相似度,这样很大程度上减少了 选取活跃度高的用户特征向量作为K个初始 计算的时间复杂度,能更好地实现实时推荐。用 聚类中心,flag B={b,b2,…b} 户偏好相似度模型(PCC)为 Repeat ∑c。-元0c-) For all uEU sim(u,v)Pcc= For all b∈B ∑u-ium- b,∈max sim(ub,) 2.21 融合的2种相似度模型 For all a∈A 基于用户属性特征的加权相似度模型是根 For all u EU 据用户特征数据集采用加权后的EDS算法计算 Until K no change 用户相似度,当用户评分少或有新用户登录时, back 使用该模型可以缓解用户冷启动的问题。本文 因此,在聚类簇中搜索最近邻居为目标用户 在计算用户相似度时是在目标用户所在的聚类 产生推荐,降低了推荐时间的复杂度。 簇中进行的,减少了目标用户最近邻的搜索时 2融合的相似度模型 间,协同过滤的可扩展性问题有所改善。将2种 相似度模型进行加权提出了PCEDS模型。公式为 2.1基于加权用户属性特征和用户偏好的相似 sim(u,v)PCEDS =x PCC+(1-)xCDxEDS 度模型 线性加权后的模型简称为PCEDS模型,综合 在计算用户之间的相似性时,如果仅参考用 考虑了用户本身的特征属性和用户偏好相似性,实 户的评分数据通常具有片面性,例如当用户第一 验表明,提出的PCEDS模型在推荐质量上有所提高。 次登录时,因为没有评分数据,而导致推荐不准 确或无法为新用户产生推荐的现象,即冷启动问 3实验结果与分析 题。对于冷启动问题,本文在计算用户之间属性 3.1 PCEDS模型的RMSE结果 特征相似度时,采用欧几里德相似度算法,其公 MovieLens数据集是做推荐系统最有权威的 式如下: 数据集,是一个涉及电影评分的真实数据集,由 sim(u,v)EDs = 美国Minnesota大学提供。本文实验采用的是 1+V∑.-, MovieLens100K数据集,评分数据的最高分为5
根据表 1 选取的基于属性特征活跃度的初始 聚类中心,再根据用户偏好活跃度选取属于每行 聚类中心的用户 ID 集合,然后基于用户偏好活跃 度的用户 ID 集合再选取评分活跃度高的用户作 为初始聚类中心,最终 K 值的选取如图 1 所示。 Original centers: [880.0, 0.0, 0.0, 3.0] [393.0, 1.0, 0.0, 3.0] [537.0, 2.0, 0.0, 1.0] [650.0, 3.0, 0.0, 1.0] [406.0, 4.0, 0.0, 1.0] [524.0, 5.0, 0.0, 1.0] [481.0, 6.0, 0.0, 3.0] 图 1 基于用户活跃度的 K 值 Fig. 1 K value based on user activity 根据图 1 选取的初始聚类中心,利用用户特 征属性数据集对用户进行 K-means 聚类,算法具 体步骤如下: 输入 NCUser(用户特征信息表)、Rating(评 分表)、K; 输出 k 个聚类簇。 从 NCUser 表中选取 n 个用户,记为 U={u1, u2,…,un} initialize K, flag A={a1 , a2 , …, ak} 选取活跃度高的用户特征向量作为 K 个初始 聚类中心,flag B={b1 ,b2 ,…bk} Repeat For all ui∈U For all bj∈B bj∈max sim(ui ,bj ) For all ai∈A For all uj∈U Until K no change back 因此,在聚类簇中搜索最近邻居为目标用户 产生推荐,降低了推荐时间的复杂度。 2 融合的相似度模型 2.1 基于加权用户属性特征和用户偏好的相似 度模型 在计算用户之间的相似性时,如果仅参考用 户的评分数据通常具有片面性,例如当用户第一 次登录时,因为没有评分数据,而导致推荐不准 确或无法为新用户产生推荐的现象,即冷启动问 题。对于冷启动问题,本文在计算用户之间属性 特征相似度时,采用欧几里德相似度算法[14] ,其公 式如下: sim(u, v) EDS = 1 1+ √∑ (ru −rv) 2 式中 ru、rv 分别表示用户 u 和用户 v 的属性特征 向量。欧几里德相似度值越大说明 d 越小,即距 离越相近,则用户之间的相似度越大。但是在计 算用户之间的相似度时是大范围的相似性,这样 计算出来的相似度具有一定的误差,所以本文提 出了加权的欧几里德相似度模型。如果 2 个用 户之间性别特征相同、在同一年龄段及职业相 似,则这 2 个用户的偏好也相似,即用户之间的 信任度。信任度是指用户之间相同个数的属性 特征与属性特征总和之间的比例。公式如下: CD(u, v) = cti ctt 式中:相同属性特征个数用 cti 表示;属性特征个 数总和用 ctt 表示。加权用户之间的属性特征信 任度与欧几里德相似度,新的相似度模型 即 CEDS 模型如下: sim(u, v) CEDS = cti ctt 1 1+ √∑ (ru −rv) 2 用户偏好相似度模型 (PCC),本文在依据用 户评分数据计算偏好相似性时,是在目标用户所 在的聚类中计算相似度,这样很大程度上减少了 计算的时间复杂度,能更好地实现实时推荐。用 户偏好相似度模型 (PCC) 为 sim(u, v) PCC = ∑ i∈Iuv (rui −ru) (rvi −rv) √∑ i∈Iuv (rui −ru) 2 (rvi −rv) 2 2.2 融合的 2 种相似度模型 基于用户属性特征的加权相似度模型是根 据用户特征数据集采用加权后的 EDS 算法计算 用户相似度,当用户评分少或有新用户登录时, 使用该模型可以缓解用户冷启动的问题。本文 在计算用户相似度时是在目标用户所在的聚类 簇中进行的,减少了目标用户最近邻的搜索时 间,协同过滤的可扩展性问题有所改善。将 2 种 相似度模型进行加权提出了 PCEDS 模型。公式为 sim(u, v) PCEDS = λ×PCC+(1−λ)×CD×EDS 线性加权后的模型简称为 PCEDS 模型,综合 考虑了用户本身的特征属性和用户偏好相似性,实 验表明,提出的 PCEDS 模型在推荐质量上有所提高。 3 实验结果与分析 3.1 PCEDS 模型的 RMSE 结果 MovieLens 数据集是做推荐系统最有权威的 数据集,是一个涉及电影评分的真实数据集,由 美国 Minnesota 大学提供。本文实验采用的是 MovieLens 100 K 数据集,评分数据的最高分为 5, 第 6 期 梁丽君,等:融合用户特征优化聚类的协同过滤算法 ·1093·
·1094· 智能系统学报 第15卷 最低分为1,评分的高低代表用户的喜欢程度。 所以参数λ取0.9时PCEDS模型产生的推荐质量 在对用户进行聚类和CEDS模型计算相似度时采 最好。 用的都是用户属性特征数据集,属性特征信息包 1.0 括4个组:用户ID、年龄、性别、职业,其中职业 包括21种职业类型。PCC模型计算相似度时采 用的是Rating数据集,其信息包括用户ID、项目 D、评分。 0.4 在计算用户偏好相似度时,将用户-项目评分 0 02 0.40.60.81.0 数据集分为训练集和测试集,其中80%为训练 集,20%为测试集。衡量协同过滤推荐质量的指 图31变化对PCEDS模型的RMSE影响 标有均方根误差(mean absolute error,.RMSE)、准 Fig.3 Effect of change on RMSE of PCEDS model 确率、召回率等。 3.3相融合的加权相似度模型(PCEDS)与PCC 均方根误差(RMSE)为 模型的precision/recall的比较 用户一物品评分记录在最终的推荐列表中出 N ∑p-g 现的比例用准确率表示,最终的推荐列表中包含 RMSE= i=l 用户-物品评分记录的比例用召回率描述。实验 通过准确率/召回率评测推荐算法的精度: 式中:P,表示预测的用户评分集合,q,表示用户评 分集合。本文实验将PCEDS模型与传统的Pear- ∑R(T(ul son模型、Tanimoto模型以及Euclide模型进行了 Precision ∑R RMSE比较。4种模型在RMSE评价标准上的效 果如图2所示。 ∑R)nTol Recall= 1.0 +PCEDS Pearson ∑rol 0.8 ◆Euclide -女Tanimoto 式中:Precision表示准确率;Recall表示召回率。 对用户u推荐N个物品(记为R(w),T(m)表示用 0.61 户u在测试集上喜欢的物品集合。PCEDS模型 与Pearson模型准确率/召回率的比较如图4、5所示。 0.15 0.2 +-Pe 解 20 30 0.10 邻居数 图2 PCEDS模型与Pearson、Euclide模型以及Tan- imoto模型的RMSE 0.05 15 20 2530 4045 Fig.2 RMSE comparison between PCEDS,Pearson,Euc- 推荐列表长度 lide and Tanimoto model 图4准确率比较 从图2分析得出,本文提出的PCEDS模型比 Fig.4 Comparison of precision 传统的Pearson、Euclide以及Tanimoto模型的 0.25 +Pearson RMSE都要低,所以本文提出的PCEDS模型不仅 PCEDS 缓解了用户冷启动问题,对用户产生的推荐质量 0.20 也有所提高。 ▣0.15 3.2参数1对PCEDS模型的影响 0.10 为了检验权重参数对PCEDS模型的影响,选 取1的最佳值,将50作为本实验用户的邻居数 0.0 15 20 253035 4045 量,观察随着λ的增长,融合后的相似度模型的均 推荐列表长度 方根误差的变化,如图3所示。 图5召回率比较 由图3可知,当均方根误差最小时,1取0.9, Fig.5 Comparison of recall
最低分为 1,评分的高低代表用户的喜欢程度。 在对用户进行聚类和 CEDS 模型计算相似度时采 用的都是用户属性特征数据集,属性特征信息包 括 4 个组:用户 ID、年龄、性别、职业,其中职业 包括 21 种职业类型。PCC 模型计算相似度时采 用的是 Rating 数据集,其信息包括用户 ID、项目 ID、评分。 在计算用户偏好相似度时,将用户−项目评分 数据集分为训练集和测试集,其中 80% 为训练 集,20% 为测试集。衡量协同过滤推荐质量的指 标有均方根误差 (mean absolute error,RMSE)、准 确率、召回率等。 均方根误差 (RMSE) 为 RMSE= vuuuuut∑N i=1 (pi −qi) 2 N 式中:pi 表示预测的用户评分集合,qi 表示用户评 分集合。本文实验将 PCEDS 模型与传统的 Pearson 模型、Tanimoto 模型以及 Euclide 模型进行了 RMSE 比较。4 种模型在 RMSE 评价标准上的效 果如图 2 所示。 10 20 30 40 50 PCEDS Pearson Euclide Tanimoto 邻居数 0 0.2 0.4 0.6 0.8 1.0 RMSE 图 2 PCEDS 模型与 Pearson、Euclide 模型以及 Tanimoto 模型的 RMSE Fig. 2 RMSE comparison between PCEDS、Pearson、Euclide and Tanimoto model 从图 2 分析得出,本文提出的 PCEDS 模型比 传统的 Pearson、Euclide 以及 Tanimoto 模型的 RMSE 都要低,所以本文提出的 PCEDS 模型不仅 缓解了用户冷启动问题,对用户产生的推荐质量 也有所提高。 3.2 参数 λ 对 PCEDS 模型的影响 为了检验权重参数对 PCEDS 模型的影响,选 取 λ 的最佳值,将 50 作为本实验用户的邻居数 量,观察随着 λ 的增长,融合后的相似度模型的均 方根误差的变化,如图 3 所示。 由图 3 可知,当均方根误差最小时,λ 取 0.9, 所以参数 λ 取 0.9 时 PCEDS 模型产生的推荐质量 最好。 0 0.2 0.4 0.6 0.8 1.0 RMSE λ 0.4 0.6 0.8 1.0 图 3 λ 变化对 PCEDS 模型的 RMSE 影响 Fig. 3 Effect of change on RMSE of PCEDS model 3.3 相融合的加权相似度模型 (PCEDS) 与 PCC 模型的 precision/recall 的比较 用户−物品评分记录在最终的推荐列表中出 现的比例用准确率表示,最终的推荐列表中包含 用户−物品评分记录的比例用召回率描述。实验 通过准确率/召回率评测推荐算法的精度: Precision = ∑ u |R(u)∩T(u)| ∑ u |R(u)| Recall = ∑ u |R(u)∩T(u)| ∑ u |T(u)| 式中:Precision 表示准确率;Recall 表示召回率。 对用户 u 推荐 N 个物品 (记为 R(u)),T(u) 表示用 户 u 在测试集上喜欢的物品集合。PCEDS 模型 与 Pearson 模型准确率/召回率的比较如图 4、5 所示。 15 20 25 30 35 40 45 推荐列表长度 准确率 Pearson PCEDS 0.05 0.10 0.15 图 4 准确率比较 Fig. 4 Comparison of precision 15 20 25 30 35 40 45 推荐列表长度 召回率 Pearson PCEDS 0.05 0.10 0.15 0.20 0.25 图 5 召回率比较 Fig. 5 Comparison of recall ·1094· 智 能 系 统 学 报 第 15 卷
第6期 梁丽君,等:融合用户特征优化聚类的协同过滤算法 ·1095· 由图4和图5可知,随着横坐标的变换, mendation algorithm combing item features and trust rela- PCEDS模型的准确率、召回率与PCC模型相比 tionship of mobile users[J].Journal of software,2014, 均有提高。 25(8):1817-1830. [7]LIU Haifeng.HU Zheng,MIAN A,et al.A new user simil- 4结束语 arity model to improve the accuracy of collaborative filter- ing[J].Knowledge-based systems,2014,56:156-166. 本文根据用户的属性特征采用优化的K [8]韦素云,肖静静,业宁,基于联合聚类平滑的协同过滤算 means算法首先对用户进行聚类,聚类中心是基 法[.计算机研究与发展,2013,50(S2):163-169. 于用户活跃度选取的,比传统的随机选取的聚类 WEI Suyun,XIAO Jingjing,YE Ning.Collaborative filter- 中心更有代表性,聚类的结果会更合理,并且缓 ing algorithm based on co-clustering smoothing[J].Journ- 解了协同过滤推荐系统的可扩展性问题。 al of computer research and development,2013,50(S2): PCEDS模型具有融合了用户本身的属性特征信 163-169. 息和用户偏好信息的相似度计算的优点,在计算 [9]LEE DD,SEUNG H S.Learning the parts of objects by 用户属性特征相似度时是基于属性特征信任度的 non-negative matrix factorization[J].Nature,1999, 相似度,提高了传统的相似度算法,根据相似度 401(6755):788-791 选取的目标用户最近邻居更准确。PCEDS相似 [10]ELKAHKY A M,SONG Yang,HE Xiaodong.A multi- 度算法缓解了因用户评分数据少或新用户登录时 view deep learning approach for cross domain user mod- 导致的用户冷启动问题。 eling in recommendation systems[Cl//Proceedings of the 24th International Conference on World Wide Web 参考文献: Florence,Italy,2015:278-288. [11]陈克寒,韩盼盼,吴健.基于用户聚类的异构社交网络 [1]王国霞,刘贺平.个性化推荐系统综述U.计算机工程与 推荐算法[.计算机学报,2013,36(2):349-359 应用,2012,48(7:66-76 CHEN Kehan,HAN Panpan,WU Jian.User clustering WANG Guoxia,LIU Heping.Survey of personalized re- based social network recommendation[J].Chinese journ- commendation system[J.Computer engineering and ap- al of computers,.2013,36(2):349-359. plications..2012,48(7):66-76. [12]张顺龙,库涛,周浩.针对多聚类中心大数据集的加速 [2]Jamali M,Ester M.A transitivity aware matrix factoriza- K-means聚类算法.计算机应用研究,2016,33(2: tion model for recommendation in social networks[Cl//Pro- 413-416. ceedings of the Twenty-Second International Joint Confer- ZHANG Shunlong,KU Tao,ZHOU Hao.Accelerate K- ence on Artificial Intelligence.Barcelona,Spain,2011: means for multi-center clustering of big datasets[J].Ap- 2644-2649. plication research of computers,2016,33(2):413-416. [3]WEI Jian,HE Jianhua,CHEN Kai,et al.Collaborative fil- [13]贾洪杰,丁世飞,史忠植.求解大规模谱聚类的近似加 tering and deep learning based recommendation system for 权核K-means算法[J].软件学报,2015,26(11): cold start items[J].Expert systems with applications,2017, 2836-2846 69:29-39 JIA Hongjie,DING Shifei,SHI Zhongzhi.Approximate [4]AGGARWAL CC.An introduction to data mining[M]// weighted kernel K-means for large-scale spectral cluster- AGGARWAL CC.Data Mining:the Textbook.Cham: ing[J].Journal of software,2015,26(11):2836-2846. Springer,2015:1-26. [14]DRAISMA J.HOROBET E,OTTAVIANI G,et al.The [S]孙天吴,黎安能,李明,等.基于Hadoop分布式改进聚类 Euclidean distance degree of an algebraic variety[J]. 协同过滤推荐算法研究[.计算机工程与应用,2015, Foundations of computational mathematics,2016,16(1): 51(15):124128 99-149. SUN Tianhao,LI Anneng,LI Ming,et al.Study on distrib- uted improved clustering collaborative filtering algorithm 作者简介: based on Hadoop[J].Computer engineering and applica- 梁丽君,硕士研究生,主要研究方 向为个性化推荐系统。 tions,2015,51(15):124128. [6]胡勋,孟祥武,张玉洁,等.一种融合项目特征和移动用 户信任关系的推荐算法[].软件学报,2014,25(8): 1817-1830 HU Xun,MENG Xiangwu,ZHANG Yujie,et al.Recom-
由 图 4 和 图 5 可知,随着横坐标的变换, PCEDS 模型的准确率、召回率与 PCC 模型相比 均有提高。 4 结束语 本文根据用户的属性特征采用优化的 Kmeans 算法首先对用户进行聚类,聚类中心是基 于用户活跃度选取的,比传统的随机选取的聚类 中心更有代表性,聚类的结果会更合理,并且缓 解了协同过滤推荐系统的可扩展性问题。 PCEDS 模型具有融合了用户本身的属性特征信 息和用户偏好信息的相似度计算的优点,在计算 用户属性特征相似度时是基于属性特征信任度的 相似度,提高了传统的相似度算法,根据相似度 选取的目标用户最近邻居更准确。PCEDS 相似 度算法缓解了因用户评分数据少或新用户登录时 导致的用户冷启动问题。 参考文献: 王国霞, 刘贺平. 个性化推荐系统综述 [J]. 计算机工程与 应用, 2012, 48(7): 66–76. WANG Guoxia, LIU Heping. Survey of personalized recommendation system[J]. Computer engineering and applications, 2012, 48(7): 66–76. [1] Jamali M, Ester M. A transitivity aware matrix factorization model for recommendation in social networks[C]//Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence. Barcelona, Spain,2011: 2644–2649. [2] WEI Jian, HE Jianhua, CHEN Kai, et al. Collaborative filtering and deep learning based recommendation system for cold start items[J]. Expert systems with applications, 2017, 69: 29–39. [3] AGGARWAL C C. An introduction to data mining[M]// AGGARWAL C C. Data Mining: the Textbook. Cham: Springer, 2015: 1–26. [4] 孙天昊, 黎安能, 李明, 等. 基于 Hadoop 分布式改进聚类 协同过滤推荐算法研究 [J]. 计算机工程与应用, 2015, 51(15): 124–128. SUN Tianhao, LI Anneng, LI Ming, et al. Study on distributed improved clustering collaborative filtering algorithm based on Hadoop[J]. Computer engineering and applications, 2015, 51(15): 124–128. [5] 胡勋, 孟祥武, 张玉洁, 等. 一种融合项目特征和移动用 户信任关系的推荐算法 [J]. 软件学报, 2014, 25(8): 1817–1830. HU Xun, MENG Xiangwu, ZHANG Yujie, et al. Recom- [6] mendation algorithm combing item features and trust relationship of mobile users[J]. Journal of software, 2014, 25(8): 1817–1830. LIU Haifeng, HU Zheng, MIAN A, et al. A new user similarity model to improve the accuracy of collaborative filtering[J]. Knowledge-based systems, 2014, 56: 156–166. [7] 韦素云, 肖静静, 业宁. 基于联合聚类平滑的协同过滤算 法 [J]. 计算机研究与发展, 2013, 50(S2): 163–169. WEI Suyun, XIAO Jingjing, YE Ning. Collaborative filtering algorithm based on co-clustering smoothing[J]. Journal of computer research and development, 2013, 50(S2): 163–169. [8] LEE D D, SEUNG H S. Learning the parts of objects by non-negative matrix factorization[J]. Nature, 1999, 401(6755): 788–791. [9] ELKAHKY A M, SONG Yang, HE Xiaodong. A multiview deep learning approach for cross domain user modeling in recommendation systems[C]//Proceedings of the 24th International Conference on World Wide Web. Florence, Italy, 2015: 278-288. [10] 陈克寒, 韩盼盼, 吴健. 基于用户聚类的异构社交网络 推荐算法 [J]. 计算机学报, 2013, 36(2): 349–359. CHEN Kehan, HAN Panpan, WU Jian. User clustering based social network recommendation[J]. Chinese journal of computers, 2013, 36(2): 349–359. [11] 张顺龙, 库涛, 周浩. 针对多聚类中心大数据集的加速 K-means 聚类算法 [J]. 计算机应用研究, 2016, 33(2): 413–416. ZHANG Shunlong, KU Tao, ZHOU Hao. Accelerate Kmeans for multi-center clustering of big datasets[J]. Application research of computers, 2016, 33(2): 413–416. [12] 贾洪杰, 丁世飞, 史忠植. 求解大规模谱聚类的近似加 权核 K-means 算法 [J]. 软件学报, 2015, 26(11): 2836–2846. JIA Hongjie, DING Shifei, SHI Zhongzhi. Approximate weighted kernel K-means for large-scale spectral clustering[J]. Journal of software, 2015, 26(11): 2836–2846. [13] DRAISMA J, HOROBET E, OTTAVIANI G, et al. The Euclidean distance degree of an algebraic variety[J]. Foundations of computational mathematics, 2016, 16(1): 99–149. [14] 作者简介: 梁丽君,硕士研究生,主要研究方 向为个性化推荐系统。 第 6 期 梁丽君,等:融合用户特征优化聚类的协同过滤算法 ·1095·
·1096· 智能系统学报 第15卷 李业刚,副教授,博士,中文信息 张娜娜,硕士研究生,主要研究方 学会会员,主要研究方向为语言信息 向为自然语言处理。 处理、机器学习、机器翻译、社交网络 和跨语言信息检索。申请发明专利多 项,发表学术论文10余篇。 2021年第六届认知系统和信息处理国际会议论文征集通知 2021年8月20一-23日,由中国人工智能学会主办,清华大学、姑苏实验室、CAAI认知系统与信息处理 专委会、CAA认知计算与系统专委会承办的“2021第六届认知系统和信息处理国际会议”(ICCSIP2021)将 在苏州召开。大会主题为认知启发的智能与智能材料(Cognitive inspired intelligence and intelligent materials)。 会议旨在汇聚来自不同专业领域的专家,共同探讨认知系统和智能信息处理领域的最新进展,并展示新 的研究成果和未来发展前景。本次会议由南京清湛人工智能研究院、中科融合感知智能研究院、中国电子 信息产业发展研究院,Science in China Series F:Information Sciences、IET认知计算与系统、国家自然科学基金 委员会提供技术支持。 征集主题 欢迎从多学科角度发表原创论文,主题领域包括,但不限于: Cognitive Systems Information Processing Cognitive sciences and technology Information presentation and metrics Visual cognition and computation Multi-modal information interaction and fusion Auditory cognitive processing Big data and intelligent information processing Innovative cognitive computing model Neural cognitive computation and leaming Cognitive metrics Visual information processing Tactile cognition and computation Tactile information processing Cognitive psychology Brain-computer interface Cognitive robotics Bio informatics and applications Cognitive radio Multi-modal cognitive mechanism for dexterous operation Cognitive radars Extreme leaming/other leaming machines and applications Smart Materials 此外,ICCSIP2021方案委员会还在会议的技术范围内征集特别会议的建议。特别会议将由国际公认的 专家组织,目的是汇聚研究人员,讨论特别的重点课题。提交给特别会议的论文将接受同行评审,评审标准 与投稿论文相同。有兴趣组织特别会议的研究人员被邀请向ICCSIP2021提交正式提案。特别会议提案应 包括会议名称、范围和动机的简要描述、组织者的姓名、联系信息和简要的个人简历。 论文投稿 请作者在投稿截止日期前通过在线投稿系统提交长篇论文(最多15页)。同时邀请潜在的组织者征集 5篇以上主题一致的论文,组成专题会议。提交的论文意味着该论文是原创的,且未提交过审稿,或在其他 地方未受版权保护,如被录用,将由一名作者发表。所有提交的论文将由该领域的专家根据原创性、重要 性、质量和清晰度等标准进行评审。被录用的论文作者将有机会对论文进行修改,并考虑评委的意见和建 议。在ICCSIP2021上发表的论文将发表在EI索引的论文集上,部分入选的顶级论文将被收录在一些 SCI索引期刊的特刊上。 重要日期: 论文截止日期:2021年7月1日 录用通知时间:2021年8月1日 参会登记时间:2021年8月21日 信息查询 http://iccsip2021.caai.cn/iccsip2021@163.com
李业刚,副教授,博士,中文信息 学会会员,主要研究方向为语言信息 处理、机器学习、机器翻译、社交网络 和跨语言信息检索。申请发明专利多 项,发表学术论文 10 余篇。 张娜娜,硕士研究生,主要研究方 向为自然语言处理。 2021 年第六届认知系统和信息处理国际会议论文征集通知 2021 年 8 月 20—23 日,由中国人工智能学会主办,清华大学、姑苏实验室、CAAI 认知系统与信息处理 专委会、CAA 认知计算与系统专委会承办的“2021 第六届认知系统和信息处理国际会议”(ICCSIP 2021)将 在苏州召开。大会主题为认知启发的智能与智能材料(Cognitive inspired intelligence and intelligent materials)。 会议旨在汇聚来自不同专业领域的专家,共同探讨认知系统和智能信息处理领域的最新进展,并展示新 的研究成果和未来发展前景。本次会议由南京清湛人工智能研究院、中科融合感知智能研究院、中国电子 信息产业发展研究院,Science in China Series F:Information Sciences、IET 认知计算与系统、国家自然科学基金 委员会提供技术支持。 征集主题 欢迎从多学科角度发表原创论文,主题领域包括,但不限于: 此外,ICCSIP 2021 方案委员会还在会议的技术范围内征集特别会议的建议。特别会议将由国际公认的 专家组织,目的是汇聚研究人员,讨论特别的重点课题。提交给特别会议的论文将接受同行评审,评审标准 与投稿论文相同。有兴趣组织特别会议的研究人员被邀请向 ICCSIP 2021 提交正式提案。特别会议提案应 包括会议名称、范围和动机的简要描述、组织者的姓名、联系信息和简要的个人简历。 论文投稿 请作者在投稿截止日期前通过在线投稿系统提交长篇论文(最多 15 页)。同时邀请潜在的组织者征集 5 篇以上主题一致的论文,组成专题会议。提交的论文意味着该论文是原创的,且未提交过审稿,或在其他 地方未受版权保护,如被录用,将由一名作者发表。所有提交的论文将由该领域的专家根据原创性、重要 性、质量和清晰度等标准进行评审。被录用的论文作者将有机会对论文进行修改,并考虑评委的意见和建 议。在 ICCSIP 2021 上发表的论文将发表在 EI 索引的论文集上,部分入选的顶级论文将被收录在一些 SCI 索引期刊的特刊上。 重要日期: 论文截止日期:2021 年 7 月 1 日 录用通知时间:2021 年 8 月 1 日 参会登记时间:2021 年 8 月 21 日 信息查询: http://iccsip2021.caai.cn/iccsip2021@163.com ·1096· 智 能 系 统 学 报 第 15 卷