正在加载图片...
第2期 鲍维克,等:面向推荐系统的分期序列自注意力网络 ·357· GRU层的输出仅存在于最后的GRU,且为用户的 系对,一个用户下item之间的偏序关系形成偏序 序列性偏好表示w∈R。 矩阵,遍历用户集建立预测排序矩阵,BPR方法 注意力层:前面由自注意力层、GRU层得到 对预测排序矩阵分解生成用户矩阵和item矩阵, 了长期/一般偏好toa和序列性偏好u。需要注 用户矩阵和item矩阵相乘可以得到用户对每个 意的是,反馈数据中往往存在非严格顺序相关 item偏好程度。利用BPR方法生成低偏好程度 性,会对GU层的结果产生影响。因此,u 的负样本集,大小与正样本集等同,参与训练。 需要联合uoa、Lat参与注意力机制进行动态赋 模型的Loss函数定义如下: 权,由于GRU层输入的短期反馈数据的顺序相关 gmm∑-hc(化-t 性强弱会影响注意力机制赋予的权重,进而 (16) 准确表达了序列性偏好。同时由于联合了L, Io.P+aleaIP+aloal 从结构上赋予了相对重要的短期反馈数据更高的 式中:D表示用户、正样本、负样本构造的训练 权重。用户的长期/一般偏好表示g、用户的序 集;s表示用户u对正样本候选itemj的偏好得 列性偏好表示u、用户短期反馈数据序列Lan 分;sk表示用户u对负样本候选itemk的偏好得 这三项联合为Xop=[uons,Lh,uq],Xep∈RMxd 分;()表示sigmoid函数。第一个加号后的3项 其中M=La+2为Xmp的长度。Xoap输入注 为正则项,o.表示embedding层的权重参数;oA 意力层最终得到了用户的综合偏好的表示 表示自注意力层和注意力层的权重参数;O表示GRU u即。注意力层模型的公式化表示如下: 层的权重参数,入、4、入为对应的正则项系数。 hcomP =ReLU(XOMPWA+BA) (12) 3实验分析 式中:Wa∈R和bA∈R为注意力层的权重参 数,这里”+”表示XPWa的每一行都和ba相 3.1实验概述 加,由式(11)得到了homPERMxd,he即为Xp的 数据集:本文选择Tmall数据集9和Gowalla 非线性表示: 数据集2o为模型进行训练和测试,其中Tmall数 aomp=softmax(uomhcom (13) 据集是在中国最大电商平台Tmall.com场景下的 式中:wog作为注意力层的上下文向量(context 用户行为日志数据集,Gowalla数据集是在社交签 vector),使用softmax函数联合hp计算得到了 到类应用Gowalla场景下的用户行为日志数据集。 Xop的注意力权重向量aop∈Rw1: 在实验过程中,仅考虑7个月内在两个数据 ucomp=(omPTXcomp 集上生成的数据,并将1天内的用户反馈数据视 (14) 由式(14)得到的注意力权重向量a即对 为表示短期反馈数据序列。 Xp加权求和,最终得到了用户u的综合偏好的 评价指标:选择召回率(Recall)和AUC作为 表示noap∈R1d。 评价指标。召回率表示为用户推荐偏好程度排序 2.3模型的参数学习 前N项的样本为预测的正样本,计算被正确预测 的正样本在原始正样本集中比例;而AUC衡量了 由模型的前向传递得到了用户综合偏好的表 示u卿,现在用内积方法如式(15)所示,表示 模型对样本正确排名的能力。 uomp和候选itemv3∈Lad的相似度,以表示用户 方法对比:与其他先进模型在Tmall数据集 u对候选item,的偏好得分sa: 和GowalIa数据集上的表现为对比681-412以 =ucomp.V3j (15) 其他文献在Tmall数据集和Gowalla数据集上给 在隐反馈的推荐系统场景中,用户往往没有 出的实验数据,或在Tmall数据集和Gowalla数据 对item的具体评分,而只是交互记录。这种情况 集复现的结果为准),以验证模型的有效性:1)BPR 下,推荐系统只有正样本而缺乏负样本,模型的 是一种基于矩阵分解的方法,BPR方法对user- 训练效果会因此受到影响。 item偏序关系矩阵分解得到user矩阵和item矩 可以简单地将与用户没有交互记录的item作 阵,user矩阵×item矩阵得到用户对每个item偏好 为用户的负样本,从而构造负样本集。而模型只 程度,依据偏好程度排序得到推荐列表;2)FOSSIL 需要和正样本集差不多大的负样本集,这种做法 利用马尔科夫链估计用户的短期和长期偏好; 会造成负样本集庞大,且负样本集的质量低下。 3)HRM对用户偏好进行层次表示,捕获用户的长 BPR方法是一种基于矩阵分解的方法,一 期/一般偏好和短期偏好;4)FPMC通过矩阵分 对用户交互与未交互的两个item项构成偏序关 解、马尔科夫链提取序列信息,以估计用户偏好,u seq ∈ R 1×d GRU 层的输出仅存在于最后的 GRU,且为用户的 序列性偏好表示 。 u long u seq u seq u seq u long L short u u seq L short u u long u seq L short u X comp u = [u long , L short u ,u seq] X comp u ∈ R M×d M = L short u +2 X comp u X comp u u u comp 注意力层:前面由自注意力层、GRU 层得到 了长期/一般偏好 和序列性偏好 。需要注 意的是,反馈数据中往往存在非严格顺序相关 性,会对 GRU 层的结果 产生影响。因此, 需要联合 、 参与注意力机制进行动态赋 权,由于 GRU 层输入的短期反馈数据的顺序相关 性强弱会影响注意力机制赋予 的权重,进而 准确表达了序列性偏好。同时由于联合了 , 从结构上赋予了相对重要的短期反馈数据更高的 权重。用户的长期/一般偏好表示 、用户的序 列性偏好表示 、用户短期反馈数据序列 这三项联合为 , 其中 为 的长度。 输入注 意力层最终得到了用户 的综合偏好的表示 。注意力层模型的公式化表示如下: h comp u = ReLU(X comp u WA + bA) (12) WA ∈ R d×d bA ∈ R 1×d ”+” X comp u WA bA h comp u ∈ R M×d h comp u X comp u 式中: 和 为注意力层的权重参 数,这里 表示 的每一行都和 相 加,由式 (11) 得到了 , 为 的 非线性表示: α comp u = softmax(( u long)T h comp u ) (13) u long h comp u X comp u α comp u ∈ R M×1 式中: 作为注意力层的上下文向量 (context vector),使用 softmax 函数联合 计算得到了 的注意力权重向量 : u comp = (α comp u ) TX comp u (14) α comp u X comp u u u comp ∈ R 1×d 由式 (14) 得到的注意力权重向量 对 加权求和,最终得到了用户 的综合偏好的 表示 。 2.3 模型的参数学习 u comp u comp v3 j ∈ L cand u u v3 j s j u 由模型的前向传递得到了用户综合偏好的表 示 ,现在用内积方法如式 (15) 所示,表示 和候选 item 的相似度,以表示用户 对候选 item 的偏好得分 : s j u = u comp · v3 j (15) 在隐反馈的推荐系统场景中,用户往往没有 对 item 的具体评分,而只是交互记录。这种情况 下,推荐系统只有正样本而缺乏负样本,模型的 训练效果会因此受到影响[17]。 可以简单地将与用户没有交互记录的 item 作 为用户的负样本,从而构造负样本集。而模型只 需要和正样本集差不多大的负样本集,这种做法 会造成负样本集庞大,且负样本集的质量低下。 BPR 方法[18] 是一种基于矩阵分解的方法,一 对用户交互与未交互的两个 item 项构成偏序关 系对,一个用户下 item 之间的偏序关系形成偏序 矩阵,遍历用户集建立预测排序矩阵,BPR 方法 对预测排序矩阵分解生成用户矩阵和 item 矩阵, 用户矩阵和 item 矩阵相乘可以得到用户对每个 item 偏好程度。利用 BPR 方法生成低偏好程度 的负样本集,大小与正样本集等同,参与训练。 模型的 Loss 函数定义如下: arg min Θ ∑ {u, j,k}∈D −lnσ ( s j u − s ′ u k ) + λe∥Θe∥ 2 +λA∥ΘA∥ 2 +λseq Θseq 2 (16) D s j u u s ′ u k u σ(·) Θe ΘA Θseq λe λA λseq 式中: 表示用户、正样本、负样本构造的训练 集; 表示用户 对正样本候选 item j 的偏好得 分; 表示用户 对负样本候选 item k 的偏好得 分; 表示 sigmoid 函数。第一个加号后的 3 项 为正则项, 表示 embedding 层的权重参数; 表示自注意力层和注意力层的权重参数; 表示GRU 层的权重参数, 、 、 为对应的正则项系数。 3 实验分析 3.1 实验概述 数据集:本文选择 Tmall 数据集[19] 和 Gowalla 数据集[20] 为模型进行训练和测试,其中 Tmall 数 据集是在中国最大电商平台 Tmall.com场景下的 用户行为日志数据集,Gowalla 数据集是在社交签 到类应用 Gowalla 场景下的用户行为日志数据集。 在实验过程中,仅考虑 7 个月内在两个数据 集上生成的数据,并将 1 天内的用户反馈数据视 为表示短期反馈数据序列。 评价指标:选择召回率 (Recall) 和 AUC 作为 评价指标。召回率表示为用户推荐偏好程度排序 前 N 项的样本为预测的正样本,计算被正确预测 的正样本在原始正样本集中比例;而 AUC 衡量了 模型对样本正确排名的能力。 方法对比:与其他先进模型在 Tmall 数据集 和 Gowalla 数据集上的表现为对比[6, 8, 13-14, 18, 21] (以 其他文献在 Tmall 数据集和 Gowalla 数据集上给 出的实验数据,或在 Tmall 数据集和 Gowalla 数据 集复现的结果为准),以验证模型的有效性:1) BPR 是一种基于矩阵分解的方法,BPR 方法对 user￾item 偏序关系矩阵分解得到 user 矩阵和 item 矩 阵,user 矩阵×item 矩阵得到用户对每个 item 偏好 程度,依据偏好程度排序得到推荐列表;2) FOSSIL 利用马尔科夫链估计用户的短期和长期偏好; 3) HRM 对用户偏好进行层次表示,捕获用户的长 期/一般偏好和短期偏好;4) FPMC 通过矩阵分 解、马尔科夫链提取序列信息,以估计用户偏好, 第 2 期 鲍维克,等:面向推荐系统的分期序列自注意力网络 ·357·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有