正在加载图片...
·784· 智能系统学报 第14卷 也是协同过滤,将用户的兴趣映射到具体的主 450 ◆K=10 题,进而进行推荐。 425 ■-K=20 ▲K=40 3)文献[11]提出的USG推荐算法,该算法的 400 X-K=80 米-K=160 核心思想还是协同过滤,线性框融合用户偏好、 375 社交影响和地理影响这3种因子。 4)User-Content Topic Model(UCTM)模型和 325 User-Region Topic Model(URTM)模型,这两 300 种模型可看作UCRTM模型的子模型。当 275 document=O时,此时模型忽略兴趣点介绍文档的内 250 40 60 80 容信息,UCRTM模型退化为URTM模型。当 迭代次数 Leem=0时,此时模型忽略兴趣点所处区域的主题 图3困惑度在不同隐含主题下的变化情况 信息,UCRTM模型退化为UCTM模型。 Fig.3 The perplexity changes in the number of different 3.3实验结果 hidden themes 该模型有9个超参数需要设置,对于主题模 400 ◆-R=5 型来说,超参数的值对最后的输出结果影响不 -R=10 375 ★-R=20 大,但是会影响模型的收敛速度,这里设置α、 ×-R=30 350 米-R=40 aa、ar、ar为0.1,Be、B为0.05,所有n的值为 0.01。 325 1)UCRTM模型为概率产生式模型,本文使 300 用困惑度(Perplexity)作为评价标准,对本模型的 275 预测能力进行评估,判断测试集Dtest中兴趣点生 250 成的不确定性,Perplexity的值越小,表示模型生 0 20 40 60 80 迭代次数 成兴趣点的性能越好。Perplexity的计算式为 D 图4困惑度随不同隐含区域下的变化情况 log(p(la) Fig.4 The perplexity changes in the number of different =l Perplexity(Des)=exp (18) hidden region Dest 2)其次比较了各种算法的推荐准确率,因为 式中p(1)由式(15)或(16)得出。由于本模型中 用户的签到具有地域聚集性,本文将测试集分为 包含了两个隐含变量(主题数K和区域数R),为 两类:用户的本地活动测试集、用户的外地活动 了分析这两个变量对模型生成能力的影响,首先 测试集。对豆瓣数据集和Foursquare数据集进行 固定隐含区域数,来观察Perplexity随不同主题数 了分析。图5~8分别给出了6种算法在两种数据 的变化情况。 集下的top-N推荐准确率,推荐列表的长度N在 从图3可以看出,当区域个数固定为R=30 220变化。 时,对于不同的主题数,Perplexity均随着迭代次 0.45 -◆IKNN 数的增加不断减小,当迭代次数达到40次后, 0.40--CKNN Perplexity趋于收敛。而且Perplexity还随着主题 0.35+USG 数K的增大不断减小,当主题数增加到一定程度 0.30 X-UCTM 米-URTM 后,Perplexity不会持续下降,反而会有一些回 0.25 UCRTM 升。如当K=160时,Perplexity的值相比于K=80 0.20 0.15 时反而增大了,这也在一定程度上说明,合适的 0.10 主题数K可以提高模型的推荐效果。同理固定 0.05 主题数K=8O,来观察隐含区域数R对Perplex- 0 ty的影响。如图4所示,区域数与主题数的变化 2468101214161820 情况类似,当R=30时,可以得到最小的Perplex- 图5豆瓣数据集外地活动的推荐准确率比较 ty值。因此本实验中主题数K设置为80,而区域 Fig.5 Comparison of recommended accuracy out of town 数R为30。 for Douban dataset也是协同过滤,将用户的兴趣映射到具体的主 题,进而进行推荐。 3) 文献 [11] 提出的 USG 推荐算法,该算法的 核心思想还是协同过滤,线性框融合用户偏好、 社交影响和地理影响这 3 种因子。 λl,document λl,region 4) User-Content Topic Model(UCTM) 模型和 User-Region Topic Model (URTM) 模型,这两 种模型可看 作 UCRT M 模型的子模型。当 =0 时,此时模型忽略兴趣点介绍文档的内 容信息,UCRTM 模型退化为 URTM 模型。当 =0 时,此时模型忽略兴趣点所处区域的主题 信息,UCRTM 模型退化为 UCTM 模型。 3.3 实验结果 αu αd αur αr βw βl η 该模型有 9 个超参数需要设置,对于主题模 型来说,超参数的值对最后的输出结果影响不 大,但是会影响模型的收敛速度,这里设置 、 、 、 为 0.1, 、 为 0.05, 所有 的值为 0.01。 1) UCRTM 模型为概率产生式模型,本文使 用困惑度 (Perplexity) 作为评价标准, 对本模型的 预测能力进行评估,判断测试集 Dtest 中兴趣点生 成的不确定性,Perplexity 的值越小,表示模型生 成兴趣点的性能越好。Perplexity 的计算式为 Perplexity(Dtest) = exp    − D∑test d=1 log(p(ld)) |Dtest|    (18) K R 式中 p(ld ) 由式 (15) 或 (16) 得出。由于本模型中 包含了两个隐含变量 (主题数 和区域数 ),为 了分析这两个变量对模型生成能力的影响,首先 固定隐含区域数,来观察 Perplexity 随不同主题数 的变化情况。 从图 3 可以看出,当区域个数固定为 R=30 时,对于不同的主题数,Perplexity 均随着迭代次 数的增加不断减小,当迭代次数达到 40 次后, Perplexity 趋于收敛。而且 Perplexity 还随着主题 数 K 的增大不断减小,当主题数增加到一定程度 后 ,Perplexity 不会持续下降,反而会有一些回 升。如当 K=160 时, Perplexity 的值相比于 K=80 时反而增大了,这也在一定程度上说明,合适的 主题数 K 可以提高模型的推荐效果。同理固定 主题数 K=80,来观察隐含区域数 R 对 Perplex￾ity 的影响。如图 4 所示,区域数与主题数的变化 情况类似,当 R=30 时,可以得到最小的 Perplex￾ity 值。因此本实验中主题数 K 设置为 80,而区域 数 R 为 30。 250 275 300 325 350 375 400 425 450 困惑度 10 20 40 60 80 迭代次数 K = 10 K = 20 K = 40 K = 80 K = 160 图 3 困惑度在不同隐含主题下的变化情况 Fig. 3 The perplexity changes in the number of different hidden themes 250 275 300 325 350 375 400 困惑度 10 20 40 60 80 迭代次数 R = 5 R = 10 R = 20 R = 30 R = 40 图 4 困惑度随不同隐含区域下的变化情况 Fig. 4 The perplexity changes in the number of different hidden region 2) 其次比较了各种算法的推荐准确率,因为 用户的签到具有地域聚集性,本文将测试集分为 两类:用户的本地活动测试集、用户的外地活动 测试集。对豆瓣数据集和 Foursquare数据集进行 了分析。图 5~8 分别给出了 6 种算法在两种数据 集下的 top-N 推荐准确率,推荐列表的长度 N 在 2~20 变化。 0 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 2 4 6 8 10 12 14 16 18 20 查全率 N IKNN CKNN USG UCTM URTM UCRTM 图 5 豆瓣数据集外地活动的推荐准确率比较 Fig. 5 Comparison of recommended accuracy out of town for Douban dataset ·784· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有