以控制度数大的用户喜欢的度数大的物品对目标用户推荐的影响。ＴＨＣ算法

正在加载图片...

第3期雷震，等：基于影响力控制的热传导算法 ·331· 以控制度数大的用户喜欢的度数大的物品对目标用输入用户对该景点的整体评分，；用户对该户推荐的影响。THC算法如下：景点的风景评分s;用户对该景点的趣味评分s:用输入用户-物品对数据集T,推荐物品个数户对该景点的性价比评分s。;用户对该景点的评论 L,目标用户u: 信息C; 输出top-L个物品。输出tue,用户喜爱该景点：false,用户不喜欢 1)目标用户喜欢的物品被激活，被赋值热该景点。量1： 1)利用ICTCLAS对C进行分词，去掉停用词， 2)热量按式(2)的传播方式从物品传到用户：利用词性标注来去掉中性词： 3)热量按式(2)的传播方式从用户传到物品： 2)对C中的其余词，判断其是否是情感词： 4)物品按照其上面的热量按降序排序后，推荐 3)对每一个否定词0：，找出与其最近的情感词给目标用户utop-L个物品。并且将其情感值从s变成-5： 4旅游评价中的用户态度判断算法 4)对每一个程度副词，找出与其最近的情感词并且用程度副词对应的系数α乘以情感词的情在推荐领域，有时仅凭一个单独的评分并不足感值；以确定用户是否真的喜欢当前物品。以旅游领域为 5)利用如下公式计算评论C的情感极性值：例，如图2所示，某用户对某景点的整体评分为3，可以认为该用户喜欢该景点。但是，进一步观察发 s.-axs. i=1 现：用户对当前景点的景色评分为4，对景点的趣味式中，S。与S.分别代表评论C与情感词w:的情感性、性价比的评分均为1。这说明用户对这个景点值；m是评论中的词语个数；也有不满意的地方。用户对景点的态度也会体现在 6)计算所有评分的均值S。: 其对该景点的评论中。图2给出的评论中出现了 (s:+5g+s:+sn) ‘马达声吵死了’，‘大杀（煞）风景'及·没有想象中 S。= 4 的轻舟已过万重山的感觉'等文字。从评论中可以 7)如果S,≥3且S。≥0，返回true;否则返回看出用户对这次旅游的体验并不满意。 falseo 感色：4愿：1信价批：1 258出n日 5实验与结果在兴H情同头上相的，冠果发玩系肌的的是汽的，马达声珍死了，限个物垃机的，大风显未来姓往几十两，阻家也修完成任野一样，定行时指上挡下，京日一个件左右收钱走人，德吃了个快餐一样.设有想像中轻马已过万重山的画 5.1数据集桂林是全国乃至世界知名的旅游目的地。本文从http://www.ctrip.com上抓取了关于桂林市旅游的数据来验证提出的算法。数据包含了用户对景点图2用户对景点评价和评论实例的评分和评论，评分包含了4个方面：用户对景点的 Fig.2 An example of a user's evaluation and comment 整体评分、用户对景点的景色评分、用户对景点的趣 on a scenery spot 味性评分以及用户对景点的性价比评分（如图2）。因此本文设计了确定用户是否喜欢某景点的算本文采集了包含18151个用户对143个景点的18 法，即旅游评价中的用户态度判断算法。设计理由 304条评分及评论记录。为了有效验证算法，对数如下：如果用户真的喜欢当前景点，那么该用户对当据集进行了预处理。删除评价景点数量少于2条的前景点的各项评分应该都比较高，则所有评分的均用户，删除没有用户评分的景点，再利用旅游评价中值也应该比较大。因此，计算各项评分的均值s。,让的用户态度判断算法计算用户是否喜欢某景点。数均值大小作为判断用户是否喜欢该景点的依据之据集包含1164个用户对143个景点的5672条评一。另外，如果用户真的喜欢当前景点，该用户对当分及评论信息。前景点评论的情感一定会是非负向的。算法中，评为了对提出算法的有效性进行更可靠的验证，论的情感极性计算方法采用文献[20]中的情感提本文还使用了电影评分的数据集[2进行对比实验。取算法。以图2为例，通过分析可知，根据整体评分删除对电影评分数目少于2条的用户，删除没有用会认为用户喜欢该景点，但用态度判断算法可以确户评分的电影，最终得到370个用户对578部电影定该用户对该景点并不是很满意，因为s。<3且评论的9331条评分记录。的情感极性为负。使用旅游评价中的用户态度判断每组实验中，数据集被分为2部分，其中随机挑算法能较为准确地判断用户是否喜欢某景点。用户选出用户-物品二部网络中20%的边作为测试集，态度判断算法如下。其余80%的边为训练集[。每组实验都重复50以控制度数大的用户喜欢的度数大的物品对目标用户推荐的影响。ＴＨＣ算法如下：输入用户－物品对数据集Ｔ，推荐物品个数Ｌ，目标用户ｕ；输出ｔｏｐ⁃Ｌ个物品。１）目标用户ｕ喜欢的物品被激活，被赋值热量１；２）热量按式（２）的传播方式从物品传到用户；３）热量按式（２）的传播方式从用户传到物品；４）物品按照其上面的热量按降序排序后，推荐给目标用户ｕｔｏｐ⁃Ｌ个物品。４旅游评价中的用户态度判断算法在推荐领域，有时仅凭一个单独的评分并不足以确定用户是否真的喜欢当前物品。以旅游领域为例，如图２所示，某用户对某景点的整体评分为３，可以认为该用户喜欢该景点。但是，进一步观察发现：用户对当前景点的景色评分为４，对景点的趣味性、性价比的评分均为１。这说明用户对这个景点也有不满意的地方。用户对景点的态度也会体现在其对该景点的评论中。图２给出的评论中出现了 ‘马达声吵死了’，‘大杀（煞）风景’及‘没有想象中的轻舟已过万重山的感觉’等文字。从评论中可以看出用户对这次旅游的体验并不满意。图２用户对景点评价和评论实例Ｆｉｇ．２Ａｎｅｘａｍｐｌｅｏｆａｕｓｅｒ􀆳ｓｅｖａｌｕａｔｉｏｎａｎｄｃｏｍｍｅｎｔｏｎａｓｃｅｎｅｒｙｓｐｏｔ因此本文设计了确定用户是否喜欢某景点的算法，即旅游评价中的用户态度判断算法。设计理由如下：如果用户真的喜欢当前景点，那么该用户对当前景点的各项评分应该都比较高，则所有评分的均值也应该比较大。因此，计算各项评分的均值ｓａ，让均值大小作为判断用户是否喜欢该景点的依据之一。另外，如果用户真的喜欢当前景点，该用户对当前景点评论的情感一定会是非负向的。算法中，评论的情感极性计算方法采用文献［２０］中的情感提取算法。以图２为例，通过分析可知，根据整体评分会认为用户喜欢该景点，但用态度判断算法可以确定该用户对该景点并不是很满意，因为ｓａ＜３且评论的情感极性为负。使用旅游评价中的用户态度判断算法能较为准确地判断用户是否喜欢某景点。用户态度判断算法如下。输入用户对该景点的整体评分ｓｔ；用户对该景点的风景评分ｓｇ；用户对该景点的趣味评分ｓｉ；用户对该景点的性价比评分ｓｐ；用户对该景点的评论信息Ｃ；输出ｔｒｕｅ，用户喜爱该景点；ｆａｌｓｅ，用户不喜欢该景点。１）利用ＩＣＴＣＬＡＳ对Ｃ进行分词，去掉停用词，利用词性标注来去掉中性词；２）对Ｃ中的其余词，判断其是否是情感词；３）对每一个否定词ｗｉ，找出与其最近的情感词并且将其情感值从ｓｗｉ＋１变成－ｓｗｉ＋１；４）对每一个程度副词，找出与其最近的情感词并且用程度副词对应的系数 α 乘以情感词的情感值；５）利用如下公式计算评论Ｃ的情感极性值；Ｓｃ＝ ∑ ｍｉ＝１ α × Ｓｗｉ式中，Ｓｃ与Ｓｗｉ分别代表评论Ｃ与情感词ｗｉ的情感值；ｍ是评论中的词语个数；６）计算所有评分的均值Ｓａ：Ｓａ＝ｓｔ＋ｓｇ＋ｓｉ＋ｓｐ ( ) ４７）如果Ｓａ ≥３且Ｓｃ ≥０，返回ｔｒｕｅ；否则返回ｆａｌｓｅ。５实验与结果５．１数据集桂林是全国乃至世界知名的旅游目的地。本文从ｈｔｔｐ：／／ｗｗｗ．ｃｔｒｉｐ．ｃｏｍ上抓取了关于桂林市旅游的数据来验证提出的算法。数据包含了用户对景点的评分和评论，评分包含了４个方面：用户对景点的整体评分、用户对景点的景色评分、用户对景点的趣味性评分以及用户对景点的性价比评分（如图２）。本文采集了包含１８１５１个用户对１４３个景点的１８３０４条评分及评论记录。为了有效验证算法，对数据集进行了预处理。删除评价景点数量少于２条的用户，删除没有用户评分的景点，再利用旅游评价中的用户态度判断算法计算用户是否喜欢某景点。数据集包含１１６４个用户对１４３个景点的５６７２条评分及评论信息。为了对提出算法的有效性进行更可靠的验证，本文还使用了电影评分的数据集［２１］进行对比实验。删除对电影评分数目少于２条的用户，删除没有用户评分的电影，最终得到３７０个用户对５７８部电影的９３３１条评分记录。每组实验中，数据集被分为２部分，其中随机挑选出用户－物品二部网络中２０％的边作为测试集，其余８０％的边为训练集［５］。每组实验都重复５０第３期雷震，等：基于影响力控制的热传导算法 ·３３１·

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】基于影响力控制的热传导算法编辑部