正在加载图片...
第3期 雷震,等:基于影响力控制的热传导算法 ·331· 以控制度数大的用户喜欢的度数大的物品对目标用 输入用户对该景点的整体评分,;用户对该 户推荐的影响。THC算法如下: 景点的风景评分s;用户对该景点的趣味评分s:用 输入用户-物品对数据集T,推荐物品个数 户对该景点的性价比评分s。;用户对该景点的评论 L,目标用户u: 信息C; 输出top-L个物品。 输出tue,用户喜爱该景点:false,用户不喜欢 1)目标用户喜欢的物品被激活,被赋值热 该景点。 量1: 1)利用ICTCLAS对C进行分词,去掉停用词, 2)热量按式(2)的传播方式从物品传到用户: 利用词性标注来去掉中性词: 3)热量按式(2)的传播方式从用户传到物品: 2)对C中的其余词,判断其是否是情感词: 4)物品按照其上面的热量按降序排序后,推荐 3)对每一个否定词0:,找出与其最近的情感词 给目标用户utop-L个物品。 并且将其情感值从s变成-5: 4旅游评价中的用户态度判断算法 4)对每一个程度副词,找出与其最近的情感词 并且用程度副词对应的系数α乘以情感词的情 在推荐领域,有时仅凭一个单独的评分并不足 感值; 以确定用户是否真的喜欢当前物品。以旅游领域为 5)利用如下公式计算评论C的情感极性值: 例,如图2所示,某用户对某景点的整体评分为3, 可以认为该用户喜欢该景点。但是,进一步观察发 s.-axs. i=1 现:用户对当前景点的景色评分为4,对景点的趣味 式中,S。与S.分别代表评论C与情感词w:的情感 性、性价比的评分均为1。这说明用户对这个景点 值;m是评论中的词语个数; 也有不满意的地方。用户对景点的态度也会体现在 6)计算所有评分的均值S。: 其对该景点的评论中。图2给出的评论中出现了 (s:+5g+s:+sn) ‘马达声吵死了’,‘大杀(煞)风景'及·没有想象中 S。= 4 的轻舟已过万重山的感觉'等文字。从评论中可以 7)如果S,≥3且S。≥0,返回true;否则返回 看出用户对这次旅游的体验并不满意。 falseo 感色:4愿:1信价批:1 258出n日 5实验与结果 在兴H情同头上相的,冠果发玩系肌的的是汽的,马达声珍死了,限个物垃机的,大风显未来姓往几十两,阻 家也修完成任野一样,定行时指上挡下,京日一个件左右收钱走人,德吃了个快餐一样.设有想像中轻马已过万重山的画 5.1数据集 桂林是全国乃至世界知名的旅游目的地。本文 从http://www.ctrip.com上抓取了关于桂林市旅游 的数据来验证提出的算法。数据包含了用户对景点 图2用户对景点评价和评论实例 的评分和评论,评分包含了4个方面:用户对景点的 Fig.2 An example of a user's evaluation and comment 整体评分、用户对景点的景色评分、用户对景点的趣 on a scenery spot 味性评分以及用户对景点的性价比评分(如图2)。 因此本文设计了确定用户是否喜欢某景点的算 本文采集了包含18151个用户对143个景点的18 法,即旅游评价中的用户态度判断算法。设计理由 304条评分及评论记录。为了有效验证算法,对数 如下:如果用户真的喜欢当前景点,那么该用户对当 据集进行了预处理。删除评价景点数量少于2条的 前景点的各项评分应该都比较高,则所有评分的均 用户,删除没有用户评分的景点,再利用旅游评价中 值也应该比较大。因此,计算各项评分的均值s。,让 的用户态度判断算法计算用户是否喜欢某景点。数 均值大小作为判断用户是否喜欢该景点的依据之 据集包含1164个用户对143个景点的5672条评 一。另外,如果用户真的喜欢当前景点,该用户对当 分及评论信息。 前景点评论的情感一定会是非负向的。算法中,评 为了对提出算法的有效性进行更可靠的验证, 论的情感极性计算方法采用文献[20]中的情感提 本文还使用了电影评分的数据集[2进行对比实验。 取算法。以图2为例,通过分析可知,根据整体评分 删除对电影评分数目少于2条的用户,删除没有用 会认为用户喜欢该景点,但用态度判断算法可以确 户评分的电影,最终得到370个用户对578部电影 定该用户对该景点并不是很满意,因为s。<3且评论 的9331条评分记录。 的情感极性为负。使用旅游评价中的用户态度判断 每组实验中,数据集被分为2部分,其中随机挑 算法能较为准确地判断用户是否喜欢某景点。用户 选出用户-物品二部网络中20%的边作为测试集, 态度判断算法如下。 其余80%的边为训练集[。每组实验都重复50以控制度数大的用户喜欢的度数大的物品对目标用 户推荐的影响。 THC 算法如下: 输入 用户-物品对数据集 T,推荐物品个数 L,目标用户 u; 输出 top⁃L 个物品。 1) 目标用户 u 喜欢的物品被激活,被赋值热 量 1; 2)热量按式(2)的传播方式从物品传到用户; 3)热量按式(2)的传播方式从用户传到物品; 4)物品按照其上面的热量按降序排序后,推荐 给目标用户 u top⁃L 个物品。 4 旅游评价中的用户态度判断算法 在推荐领域,有时仅凭一个单独的评分并不足 以确定用户是否真的喜欢当前物品。 以旅游领域为 例,如图 2 所示,某用户对某景点的整体评分为 3, 可以认为该用户喜欢该景点。 但是,进一步观察发 现:用户对当前景点的景色评分为 4,对景点的趣味 性、性价比的评分均为 1。 这说明用户对这个景点 也有不满意的地方。 用户对景点的态度也会体现在 其对该景点的评论中。 图 2 给出的评论中出现了 ‘马达声吵死了’,‘大杀(煞)风景’及‘没有想象中 的轻舟已过万重山的感觉’等文字。 从评论中可以 看出用户对这次旅游的体验并不满意。 图 2 用户对景点评价和评论实例 Fig.2 An example of a user􀆳s evaluation and comment on a scenery spot 因此本文设计了确定用户是否喜欢某景点的算 法,即旅游评价中的用户态度判断算法。 设计理由 如下:如果用户真的喜欢当前景点,那么该用户对当 前景点的各项评分应该都比较高,则所有评分的均 值也应该比较大。 因此,计算各项评分的均值 sa ,让 均值大小作为判断用户是否喜欢该景点的依据之 一。 另外,如果用户真的喜欢当前景点,该用户对当 前景点评论的情感一定会是非负向的。 算法中,评 论的情感极性计算方法采用文献[20] 中的情感提 取算法。 以图 2 为例,通过分析可知,根据整体评分 会认为用户喜欢该景点,但用态度判断算法可以确 定该用户对该景点并不是很满意,因为 sa<3 且评论 的情感极性为负。 使用旅游评价中的用户态度判断 算法能较为准确地判断用户是否喜欢某景点。 用户 态度判断算法如下。 输入 用户对该景点的整体评分 st; 用户对该 景点的风景评分 sg;用户对该景点的趣味评分 si;用 户对该景点的性价比评分 sp ;用户对该景点的评论 信息 C; 输出 true,用户喜爱该景点;false,用户不喜欢 该景点。 1)利用 ICTCLAS 对 C 进行分词,去掉停用词, 利用词性标注来去掉中性词; 2)对 C 中的其余词,判断其是否是情感词; 3)对每一个否定词 wi,找出与其最近的情感词 并且将其情感值从 swi+1变成-swi+1 ; 4)对每一个程度副词,找出与其最近的情感词 并且用程度副词对应的系数 α 乘以情感词的情 感值; 5)利用如下公式计算评论 C 的情感极性值; Sc = ∑ m i = 1 α × Swi 式中,Sc 与 Swi分别代表评论 C 与情感词 wi 的情感 值; m 是评论中的词语个数; 6)计算所有评分的均值 Sa : Sa = st + sg + si + sp ( ) 4 7) 如果 Sa ≥3 且 Sc ≥0,返回 true;否则返回 false。 5 实验与结果 5.1 数据集 桂林是全国乃至世界知名的旅游目的地。 本文 从 http: / / www.ctrip.com 上抓取了关于桂林市旅游 的数据来验证提出的算法。 数据包含了用户对景点 的评分和评论,评分包含了 4 个方面:用户对景点的 整体评分、用户对景点的景色评分、用户对景点的趣 味性评分以及用户对景点的性价比评分(如图 2)。 本文采集了包含 18 151 个用户对 143 个景点的 18 304 条评分及评论记录。 为了有效验证算法,对数 据集进行了预处理。 删除评价景点数量少于 2 条的 用户,删除没有用户评分的景点,再利用旅游评价中 的用户态度判断算法计算用户是否喜欢某景点。 数 据集包含 1 164 个用户对 143 个景点的 5 672 条评 分及评论信息。 为了对提出算法的有效性进行更可靠的验证, 本文还使用了电影评分的数据集[21] 进行对比实验。 删除对电影评分数目少于 2 条的用户,删除没有用 户评分的电影,最终得到 370 个用户对 578 部电影 的 9 331 条评分记录。 每组实验中,数据集被分为 2 部分,其中随机挑 选出用户-物品二部网络中 20%的边作为测试集, 其余 80% 的边为训练集[5] 。 每组实验都重复 50 第 3 期 雷震,等:基于影响力控制的热传导算法 ·331·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有