正在加载图片...
·750· 智能系统学报 第14卷 法(GWCF)和基于用户的协同过滤推荐算法 5.0 (BSCF)进行对比实验。从图9中可以看出,随着 1000000 4.5 ◆-100000 近邻用户个数Top-K的增加,两条曲线均呈下降 40 ■线性 趋势,GWCF曲线明显低于BSCF曲线。实验结 果表明:GWCF算法在降低评分预测误差方面是 ◆ ◆ 有效的。 2.0 1.5 0.33 -◆BSCF 0.32 1.0 152.02.53.03.54.04.55.0 -◆-GWCF worker节点数量/个 0.31 图11加速比示意图 030 Fig.11 Speed-up ratio graph 0.29 从图11中可以看出,随着节点个数的增加, 一◆◆ 0.28 加速比呈现上升趋势,100万数据集更逼近线性 加速比。实验结果表明,并行协同过滤推荐算法 051015202530354045 Top-K 在大规模数据集的情况下有较好的可扩展性。 图9图游走效果图 6结束语 Fig.9 Random Walk Effect Graph 图10中生成推荐列表时推荐项目数为10,随 本文针对协同过滤推荐算法中的数据稀疏性 着近邻用户个数Top-K的增加,两条曲线呈上升 问题和可扩展性问题进行研究。针对稀疏性问 趋势,GWCF准确率曲线趋势更明显并且高于BSCF 题,在基于用户的协同过滤推荐算法的基础上, 曲线。实验结果表明,在一般情况下,GWCF比 首先为传统的皮尔逊相关相似度引人交占比系数 BSCF拥有更高的推荐准确率。 来计算用户的直接相似度,其次提出一种基于图 0.200 游走方法来计算用户间接相似度,并重建相似度 ·-GWCF 0.175 -BSCF 矩阵和进行推荐。针对可扩展性问题,在Spark 0.150 平台上实现本文方法的并行化。通过在Movielens 鲸0.125 --◆“- 美o100 数据集和IPTV数据集上进行实验,先后验证了 0.075 加入交占比系数和基于图游走的方法在提高推荐 0.050 准确度上的有效性,以及本文方法的可扩展性。 0.025 实验结果表明,本文的方法在提高推荐准确度上 0.00 0510 1520 253035 是有效的,并且在大规模数据上拥有较好的可扩 Top-K 展性。 图10准确率对比图 Fig.10 Accuracy comparison chart 参考文献: 5.3基于图游走的并行协同过滤推荐算法可扩 [1]黄立威,江碧涛,吕守业,等基于深度学习的推荐系统研 展性实验 究综述J计算机学报,2018.41(7):1619-1647. HUANG Liwei,LIU Yanbo,LI Deyi.Deep learning based 为了验证基于图游走的并行协同过滤推荐算 recommender systems[J].Chinese journal of computers 法的可扩展性,使用Movielens-lM和Movielens- 2018.41(07:1619-1647. I00k数据集在Spark平台进行实验。其中IM数 [2]孙光福,吴乐,刘淇,等.基于时序行为的协同过滤推荐 算法.软件学报,2013,24(11):2721-2733 据集包含6040个用户和3952个项目,共计 SUN Guangfu,WU Le,LIU Qi,et al.Recommendations 100万条评分记录;100k数据集包含943用户, based on collaborative filtering by exploiting sequential be- 1682项目,共10万条评分记录。实验在Spark集 haviors[J].Journal of software,2013,24(11):2721-2733. [3]许智宏,蒋新字,董永峰,等.一种基于Spark的改进协同 群上实现,集群环境包括6个节点,一个Mas- 过滤算法研究[).计算机应用与软件,2017,34(5): ter节点,5个worker节点,每个节点的配置相同, 247-254.278. 且处在同一个局域网内,操作系统为CentOs6.5, XU Zhihong,JIANG Xinyu,DONG Yongfeng,et al.An CPU为E5-2620v4,核心频率2.10GHz,节点内存 improved collaborative filtering algorithm based on Spark[J].Computer applications and software,2017,34(5): 32GB。加速比结果如图11。 247-254.278.法 (GW_CF) 和基于用户的协同过滤推荐算法 (BSCF) 进行对比实验。从图 9 中可以看出,随着 近邻用户个数 Top-K 的增加,两条曲线均呈下降 趋势,GW_CF 曲线明显低于 BSCF 曲线。实验结 果表明:GW_CF 算法在降低评分预测误差方面是 有效的。 0.32 0.33 0.31 0.30 0.29 0.28 MAE 0 5 10 15 20 25 30 35 40 45 Top−K BSCF GW_CF 图 9 图游走效果图 Fig. 9 Random Walk Effect Graph 图 10 中生成推荐列表时推荐项目数为 10,随 着近邻用户个数 Top-K 的增加,两条曲线呈上升 趋势,GW_CF 准确率曲线趋势更明显并且高于 BSCF 曲线。实验结果表明,在一般情况下,GW_CF 比 BSCF 拥有更高的推荐准确率。 0.200 0.175 0.150 0.125 0.100 0.075 0.050 0.025 0.000 准确率 0 10 15 20 25 30 35 5 Top−K GW_CF BSCF 图 10 准确率对比图 Fig. 10 Accuracy comparison chart 5.3 基于图游走的并行协同过滤推荐算法可扩 展性实验 为了验证基于图游走的并行协同过滤推荐算 法的可扩展性,使用 Movielens-1M 和 Movielens- 100k 数据集在 Spark 平台进行实验。其中 1M 数 据集包含 6 040 个用户和 3 952 个项目,共计 100 万条评分记录;100k 数据集包含 943 用户, 1 682 项目,共 10 万条评分记录。实验在 Spark 集 群上实现,集群环境包括 6 个节点,一个 Mas￾ter 节点,5 个 worker 节点,每个节点的配置相同, 且处在同一个局域网内,操作系统为 CentOs6.5, CPU 为 E5-2620 v4,核心频率 2.10 GHz,节点内存 32 GB。加速比结果如图 11。 5.0 4.5 4.0 3.0 2.0 3.5 2.5 1.5 加速比 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 worker 节点数量/个 1 000 000 100 000 线性 图 11 加速比示意图 Fig. 11 Speed-up ratio graph 从图 11 中可以看出,随着节点个数的增加, 加速比呈现上升趋势,100 万数据集更逼近线性 加速比。实验结果表明,并行协同过滤推荐算法 在大规模数据集的情况下有较好的可扩展性。 6 结束语 本文针对协同过滤推荐算法中的数据稀疏性 问题和可扩展性问题进行研究。针对稀疏性问 题,在基于用户的协同过滤推荐算法的基础上, 首先为传统的皮尔逊相关相似度引入交占比系数 来计算用户的直接相似度,其次提出一种基于图 游走方法来计算用户间接相似度,并重建相似度 矩阵和进行推荐。针对可扩展性问题,在 Spark 平台上实现本文方法的并行化。通过在 Movielens 数据集和 IPTV 数据集上进行实验,先后验证了 加入交占比系数和基于图游走的方法在提高推荐 准确度上的有效性,以及本文方法的可扩展性。 实验结果表明,本文的方法在提高推荐准确度上 是有效的,并且在大规模数据上拥有较好的可扩 展性。 参考文献: 黄立威,江碧涛,吕守业,等.基于深度学习的推荐系统研 究综述 [J].计算机学报,2018,41(7):1619-1647. HUANG Liwei, LIU Yanbo, LI Deyi. Deep learning based recommender systems[J].Chinese journal of computers. 2018,41(07):1619-1647. [1] 孙光福, 吴乐, 刘淇, 等. 基于时序行为的协同过滤推荐 算法 [J]. 软件学报, 2013, 24(11): 2721–2733. SUN Guangfu, WU Le, LIU Qi, et al. Recommendations based on collaborative filtering by exploiting sequential be￾haviors[J]. Journal of software, 2013, 24(11): 2721–2733. [2] 许智宏, 蒋新宇, 董永峰, 等. 一种基于 Spark 的改进协同 过滤算法研究 [J]. 计算机应用与软件, 2017, 34(5): 247–254, 278. XU Zhihong, JIANG Xinyu, DONG Yongfeng, et al. An improved collaborative filtering algorithm based on Spark[J]. Computer applications and software, 2017, 34(5): 247–254, 278. [3] ·750· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有