第16卷第2期 智能系统学报 Vol.16 No.2 2021年3月 CAAI Transactions on Intelligent Systems Mar.2021 D0:10.11992/tis.202005028 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.TP.20201104.1455.006.html 面向推荐系统的分期序列自注意力网络 鲍维克,袁春2 (1.清华大学计算机科学与技术系,北京100084;2.清华大学深圳国际研究生院,广东深圳518000) 摘要:在推荐系统中,为了充分表达用户反馈数据内部的相互依赖和序列性,准确提取用户的长期/一般偏 好、应对数据的动态性,本文提出了一种分期序列自注意力网络(Iong-term&short--term sequential self-attention network,LSSSAN)进行序列推荐。模型采用自注意力机制和GRU捕捉了用户反馈数据之间的相互依赖和序列 性:模型采用注意力机制为不同反馈数据赋予不同权重以动态捕捉重点信息,同时考虑了上下文的动态性:模 型基于用户的长期反馈数据,准确表达了用户的长期/一般偏好。该模型在两个数据集上进行训练和测试,结 果表明该模型的推荐效果整体优于之前的相关工作。 关键词:推荐系统:序列推荐:注意力机制:动态赋权;自注意力机制:序列依赖关系;门控循环单元:序列性偏好 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2021)02-0353-09 中文引用格式:鲍维克,袁春.面向推荐系统的分期序列自注意力网络.智能系统学报,2021,16(2):353-361. 英文引用格式:BAO Weike,YUAN Chun.Recommendation system with long-term and short--term sequential self-attention net- work[JI.CAAI transactions on intelligent systems,2021,16(2):353-361. Recommendation system with long-term and short-term sequential self-attention network BAO Weike',YUAN Chun' (1.Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China;2.Shenzhen International Gradu- ate School,Tsinghua University,Shenzhen 518000,China) Abstract:To fully express the internal interdependence,user interaction data sequentiality,and long-term or general preferences and deal with the dynamics of data,this paper proposes the long-term and short-term sequential self-atten- tion network(LSSAN)for sequential recommendation in the recommendation system,and the LSSSAN model.This model uses self-attention and a GRU to capture the dependence and sequentiality among the user's data.Moreover,the model uses Attention Net to combine user characteristics and the candidate item set for recommendation as context for capturing the dynamics of the recommendation task.The model accurately expresses the general preferences of users based on their long-term interaction data.We train and test the LSSSAN on two data sets,and its effect is generally bet- ter than that of the previous work. Keywords:recommendation system;sequence recommendation;attention model;dynamic weighting;self-attention model;sequence dependence;GRU;sequential preference 随着互联网的普及,互联网应用的用户数量 互联网公司在庞大的用户数据之上采用智能推荐 空前增长,阿里巴巴集团公布截至2019年12月 算法提高产品的可用性和用户体验。然而经典的 31日的季度业绩显示四,其中国零售市场移动月 推荐算法往往存在一些问题:1)对于用户反馈 活跃用户达8.24亿,创12个季度以来新高。诸多 (user-item interactions)数据表现出的相互依赖和 序列性分析不足;2)对反馈数据和上下文的动态 收稿日期:2020-05-21.网络出版日期:2020-11-05. 通信作者:袁春.E-mail:yuanc(@sz.tsinghua.edu.cn. 性应对不足;3)模型往往固定表达了用户的长期/
DOI: 10.11992/tis.202005028 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20201104.1455.006.html 面向推荐系统的分期序列自注意力网络 鲍维克1 ,袁春2 (1. 清华大学 计算机科学与技术系,北京 100084; 2. 清华大学 深圳国际研究生院,广东 深圳 518000) 摘 要:在推荐系统中,为了充分表达用户反馈数据内部的相互依赖和序列性,准确提取用户的长期/一般偏 好、应对数据的动态性,本文提出了一种分期序列自注意力网络 (long-term & short-term sequential self-attention network,LSSSAN) 进行序列推荐。模型采用自注意力机制和 GRU 捕捉了用户反馈数据之间的相互依赖和序列 性;模型采用注意力机制为不同反馈数据赋予不同权重以动态捕捉重点信息,同时考虑了上下文的动态性;模 型基于用户的长期反馈数据,准确表达了用户的长期/一般偏好。该模型在两个数据集上进行训练和测试,结 果表明该模型的推荐效果整体优于之前的相关工作。 关键词:推荐系统;序列推荐;注意力机制;动态赋权;自注意力机制;序列依赖关系;门控循环单元;序列性偏好 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)02−0353−09 中文引用格式:鲍维克, 袁春. 面向推荐系统的分期序列自注意力网络 [J]. 智能系统学报, 2021, 16(2): 353–361. 英文引用格式:BAO Weike, YUAN Chun. Recommendation system with long-term and short-term sequential self-attention network[J]. CAAI transactions on intelligent systems, 2021, 16(2): 353–361. Recommendation system with long-term and short-term sequential self-attention network BAO Weike1 ,YUAN Chun2 (1. Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China; 2. Shenzhen International Graduate School, Tsinghua University, Shenzhen 518000, China) Abstract: To fully express the internal interdependence, user interaction data sequentiality, and long-term or general preferences and deal with the dynamics of data, this paper proposes the long-term and short-term sequential self-attention network (LSSAN) for sequential recommendation in the recommendation system, and the LSSSAN model. This model uses self-attention and a GRU to capture the dependence and sequentiality among the user’s data. Moreover, the model uses Attention Net to combine user characteristics and the candidate item set for recommendation as context for capturing the dynamics of the recommendation task. The model accurately expresses the general preferences of users based on their long-term interaction data. We train and test the LSSSAN on two data sets, and its effect is generally better than that of the previous work. Keywords: recommendation system; sequence recommendation; attention model; dynamic weighting; self-attention model; sequence dependence; GRU; sequential preference 随着互联网的普及,互联网应用的用户数量 空前增长,阿里巴巴集团公布截至 2019 年 12 月 31 日的季度业绩显示[1] ,其中国零售市场移动月 活跃用户达 8.24 亿,创 12 个季度以来新高。诸多 互联网公司在庞大的用户数据之上采用智能推荐 算法提高产品的可用性和用户体验。然而经典的 推荐算法往往存在一些问题:1) 对于用户反馈 (user-item interactions) 数据表现出的相互依赖和 序列性分析不足;2) 对反馈数据和上下文的动态 性应对不足;3) 模型往往固定表达了用户的长期/ 收稿日期:2020−05−21. 网络出版日期:2020−11−05. 通信作者:袁春. E-mail:yuanc@sz.tsinghua.edu.cn. 第 16 卷第 2 期 智 能 系 统 学 报 Vol.16 No.2 2021 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2021
·354· 智能系统学报 第16卷 一般偏好,而非基于反馈数据对长期/一般偏好进 图l中,item表示推荐系统中的项(item可以 行表达。 为商品、视频等),一个用户的反馈数据记录由多 为此,本文提出了一种面向推荐系统的分期 个item组成,Model表示推荐模型,推荐系统的任 序列自注意力网络(long-term&short-term sequen- 务是将合适的item推荐给用户。w表示用户u的 tial self-attention network,LSSSAN)。“分期"表示 特征表示;L表示用户u的用户反馈数据序列, 将用户的反馈数据分为长期和短期,用户的长期 由多个item组成,∈L.为用户u的用户反馈数 反馈数据反映了用户的长期/一般偏好,用户的短 据序列Lm中的一项;肾∈Ld表示可能被推荐的 期反馈数据反映了用户的短期偏好和序列性偏 候选item集合Lamd中的某一候选item;推荐系统 好;注意力(attention)机制,可以为不同的数据赋 基于以上内容,计算用户u的综合偏好表示oap, 予不同的权重,帮助模型动态捕捉数据中重要的 并通过op计算用户u对候选item,的偏好得 信息,自注意力(self-attention)机制在此基础上, 分,得分越高说明用户u越倾向于选择候选item 可以有效地捕捉长序列数据之间的相互依赖。本 通过以上过程,计算用户u对候选item集 模型中,自注意力机制从用户长期反馈数据提取 Ld中各item的偏好得分,最终得到推荐给用户 用户的长期/一般偏好,GRU(gate recurrent unit)从 u的item集合。 用户短期反馈数据的提取用户的序列性偏好,最 1.2相关工作 后由以上所得综合用户短期反馈数据表现出的短 传统的推荐系统如基于内容推荐和协同过滤 期偏好参与注意力机制,得到了用户的综合偏 推荐,均是以静态方式对用户反馈数据进行建 好。总体来讲,本文模型的亮点如下: 模,对用户反馈数据的信息提取不够充分。而序 1)采用注意力机制为不同的反馈数据赋予不 列推荐模型将用户反馈数据视为序列,考虑了用 同的权重以动态捕捉重点信息,同时也考虑了不 户反馈数据的序列性和相互依赖,进而准确估计 同用户和不同item候选集对推荐结果的动态影响; 了用户的偏好4。 2)自注意力机制捕捉了长期反馈数据之间的 在序列推荐模型中,用户反馈数据序列由较 长期相互依赖,准确地表达了用户的长期/一般偏 长的用户反馈数据组成,使得用户反馈数据序列 好,而非基于用户特征固定地表达长期/一般偏好: 具有更复杂的依赖特性。对于用户反馈数据序列 3)GRU捕捉了短期反馈数据的序列性并参 的处理,其中两个主要的难点回是: 与注意力机制赋权,GU层输入数据的顺序相关 1)学习高阶顺序依赖 性的强弱会影响注意力机制赋予序列性表示的权 高阶顺序依赖在用户反馈数据序列中普遍存 重,进而准确表达了用户的序列性偏好: 在,低阶依赖的可以用马尔科夫模型或因子分 4)在数据集上实验的评价指标整体优于主流 解机刀解决,高阶顺序依赖由于反馈数据的多级 的推荐算法。 级联,模型往往难以表达。针对此问题,目前主 1研究背景 要的两种方案:高阶马尔科夫链模型⑧和RNN(re current neural network)模型。但是,高阶马尔可 1.1推荐系统的一般任务 夫链模型因参数数量随阶数呈指数增长,其分析 通常来说,推荐系统的一般模型可以用以下 的历史状态有限;而单一的RNN模型难以处理具 形式表达,如图1所示。 有非严格顺序相关性的用户反馈数据序列。 偏好得分s 2)学习长期顺序依赖 Output 长期顺序依赖指序列中彼此远离的用户反馈 数据之间的依赖性。文献[9-10]分别使用LSTM 综合偏好表示唧 (long short-term memory)GRU(gate recurrent 推荐模型 候选item jv unit)来解决这个问题。但是,单一的RNN模型依 Embedding 赖于序列中相邻项的强相关性,对于弱相互依赖 稀疏输入 性和非严格顺序相关性的数据处理表现不佳。文 用户反馈数据序列 献[11]通过利用混合模型的优势,将具有不同时 L。 间范围的多个子模型组合在一起,以捕获短期和 图1推荐系统一般模型的结构 长期依赖关系。而注意力机制考虑了用户反馈数 Fig.1 Structure of general recommendation system model 据之间的联系却不依赖于数据的相邻关系,阿里
一般偏好,而非基于反馈数据对长期/一般偏好进 行表达。 为此,本文提出了一种面向推荐系统的分期 序列自注意力网络 (long-term & short-term sequential self-attention network,LSSSAN)。“分期”表示 将用户的反馈数据分为长期和短期,用户的长期 反馈数据反映了用户的长期/一般偏好,用户的短 期反馈数据反映了用户的短期偏好和序列性偏 好;注意力 (attention) 机制,可以为不同的数据赋 予不同的权重,帮助模型动态捕捉数据中重要的 信息,自注意力 (self-attention) 机制在此基础上, 可以有效地捕捉长序列数据之间的相互依赖。本 模型中,自注意力机制从用户长期反馈数据提取 用户的长期/一般偏好,GRU(gate recurrent unit) 从 用户短期反馈数据的提取用户的序列性偏好,最 后由以上所得综合用户短期反馈数据表现出的短 期偏好参与注意力机制,得到了用户的综合偏 好。总体来讲,本文模型的亮点如下: 1) 采用注意力机制为不同的反馈数据赋予不 同的权重以动态捕捉重点信息,同时也考虑了不 同用户和不同 item 候选集对推荐结果的动态影响; 2) 自注意力机制捕捉了长期反馈数据之间的 长期相互依赖,准确地表达了用户的长期/一般偏 好,而非基于用户特征固定地表达长期/一般偏好; 3) GRU 捕捉了短期反馈数据的序列性并参 与注意力机制赋权,GRU 层输入数据的顺序相关 性的强弱会影响注意力机制赋予序列性表示的权 重,进而准确表达了用户的序列性偏好; 4) 在数据集上实验的评价指标整体优于主流 的推荐算法。 1 研究背景 1.1 推荐系统的一般任务 通常来说,推荐系统的一般模型可以用以下 形式表达,如图 1 所示。 综合偏好表示 u comp 偏好得分su j Output Embedding 稀疏输入 用户反馈数据序列 Lu user u item 1 item 2 item m 候选 item j v3j u 推荐模型 … … 图 1 推荐系统一般模型的结构 Fig. 1 Structure of general recommendation system model u u Lu u v u j ∈ Lu u Lu v u 3 j ∈ L cand u L cand u u u comp u comp u v u 3 j u v u 3 j 图 1 中,item 表示推荐系统中的项 (item 可以 为商品、视频等),一个用户的反馈数据记录由多 个 item 组成,Model 表示推荐模型,推荐系统的任 务是将合适的 item 推荐给用户。 表示用户 的 特征表示; 表示用户 的用户反馈数据序列, 由多个 item 组成, 为用户 的用户反馈数 据序列 中的一项; 表示可能被推荐的 候选 item 集合 中的某一候选 item;推荐系统 基于以上内容,计算用户 的综合偏好表示 , 并通过 计算用户 对候选 item 的偏好得 分,得分越高说明用户 越倾向于选择候选 item 。 u L cand u u 通过以上过程,计算用户 对候选 item 集 中各 item 的偏好得分,最终得到推荐给用户 的 item 集合。 1.2 相关工作 传统的推荐系统如基于内容推荐和协同过滤 推荐,均是以静态方式对用户反馈数据进行建 模,对用户反馈数据的信息提取不够充分。而序 列推荐模型将用户反馈数据视为序列,考虑了用 户反馈数据的序列性和相互依赖,进而准确估计 了用户的偏好[2-4]。 在序列推荐模型中,用户反馈数据序列由较 长的用户反馈数据组成,使得用户反馈数据序列 具有更复杂的依赖特性。对于用户反馈数据序列 的处理,其中两个主要的难点[2] 是: 1) 学习高阶顺序依赖 高阶顺序依赖在用户反馈数据序列中普遍存 在,低阶依赖的可以用马尔科夫模型[5] 或因子分 解机[6-7] 解决,高阶顺序依赖由于反馈数据的多级 级联,模型往往难以表达。针对此问题,目前主 要的两种方案:高阶马尔科夫链模型[8] 和 RNN(recurrent neural network) 模型[9]。但是,高阶马尔可 夫链模型因参数数量随阶数呈指数增长,其分析 的历史状态有限;而单一的 RNN 模型难以处理具 有非严格顺序相关性的用户反馈数据序列。 2) 学习长期顺序依赖 长期顺序依赖指序列中彼此远离的用户反馈 数据之间的依赖性。文献 [9-10] 分别使用 LSTM (long short-term memory) 和 GRU(gate recurrent unit) 来解决这个问题。但是,单一的 RNN 模型依 赖于序列中相邻项的强相关性,对于弱相互依赖 性和非严格顺序相关性的数据处理表现不佳。文 献 [11] 通过利用混合模型的优势,将具有不同时 间范围的多个子模型组合在一起,以捕获短期和 长期依赖关系。而注意力机制考虑了用户反馈数 据之间的联系却不依赖于数据的相邻关系,阿里 ·354· 智 能 系 统 学 报 第 16 卷
第2期 鲍维克,等:面向推荐系统的分期序列自注意力网络 ·355· Deep Interest NetworkNext Item Recommenda- 反映了用户的长期/一般偏好,短期用户反馈数据 tion with Self-Attention Sequential Recommender Lt反映了用户近期的短期偏好和序列性偏好。 System Based on Hierarchical Attention Networks4 举例来说,用户A是个运动爱好者,平时喜欢购 等,通过注意力机制,模型能够计算出用户反馈 买一些运动设备,有一天,用户A由于手机损坏 数据的相对权重以动态捕捉重点信息,进而准确 购买了手机和手机保护膜。此时如果基于用户 估计了用户的偏好表示。 A的长期/一般偏好,推荐系统会更偏向于给用户 A推荐运动相关的item,而如果基于用户A的短 2分期序列自注意力网络 期偏好,推荐系统则会偏向于给用户A推荐手机 本文提出了一种分期序列自注意力网络(log 相关的item,考虑到用户A短期购买日志(先后购 term short-term sequential self-attention network, 买手机和手机保护膜)的序列性,推荐系统则可 LSSSAN)进行序列推荐。 能会向用户A推荐手机保护壳。 2.1问题表述 LSSSAN基于以上内容,估计用户的综合偏 在基于LSSSAN的推荐系统中:u表示用户u 好,并利用用户“的综合偏好计算用户u对候选 的特征表示;L.表示用户u的用户反馈数据序 项item的偏好得分,得分越高说明用户u越 列,如用户点击、购买的item序列;∈L.表示用 倾向于选择候选项item。 户u的用户反馈数据序列L.中的一项item;L 2.2模型结构 表示可能被推荐的候选item集合;,∈Ld表示 在序列推荐的场景中,用户偏好往往有以下 候选item集合Ld中的一项。 的特点:1)用户反馈数据往往是长序列,用户反 文献[6,9]表明短期反馈数据对推荐结果有 馈数据存在着复杂的相互依赖关系;2)短期用 着重要影响,结合长期和短期反馈数据能够准确 户反馈数据和其表达的序列性,影响推荐结果 反映用户的综合偏好;文献[14]的工作利用用户 的重要因素;3)相同的item,在不同的候选 长期反馈数据充分表达了用户的长期/一般偏好, item集合或不同的用户下,对于推荐结果有不同 并结合短期反馈数据表达的短期偏好准确估计了 的影响;4)在考虑不同的item对于结果的影响 用户的综合偏好。基于此,本文将用户反馈数据 时,应对不同的item赋予不同的权重以动态捕 L.划分为用户长期反馈数据Ls和用户短期反 捉重点信息。 馈数据L((在本文的实验环节,将一天内的反馈 基于此,本文设计了LSSSAN模型,网络结构 数据为短期反馈数据)。长期用户反馈数据L 如图2所示。 候选itemjv 来Output-偏好得分s 综合偏好表示即■ 注意力权重向量即一 注意力层:提取综合偏好 Context 序列性偏好表示。 长期偏好表示一 GRUGRUGRU 自注意力层:提取长期偏好 GRU层 Embedding 提取序列性偏好 … ■… 稀疏输入 user u 2 item m 电aem 2 aem ---……候选item列表 用户的长期反馈数据序列用户的短期反馈数据序列 Lang Lon 图2分期序列自注意力网络的结构 Fig.2 Structure of LSSSAN Embedding层:对用户、可能被推荐的候选 制,可以为不同的用户反馈数据赋予不同的权 item集合、用户反馈数据的特征的稀疏表示进行 重,以动态捕捉重点信息,反映了不同的用户反 embed,.转化为稠密的embedding表示。 馈数据对推荐结果影响的差异性。自注意力机制 自注意力层:在推荐系统中,应用注意力机 是一种特殊的注意力机制,由于在机器翻译领域
Deep Interest Network[12] 、Next Item Recommendation with Self-Attention[13] 、Sequential Recommender System Based on Hierarchical Attention Networks [14] 等,通过注意力机制,模型能够计算出用户反馈 数据的相对权重以动态捕捉重点信息,进而准确 估计了用户的偏好表示。 2 分期序列自注意力网络 本文提出了一种分期序列自注意力网络 (longterm & short-term sequential self-attention network, LSSSAN) 进行序列推荐。 2.1 问题表述 u u Lu u v u j ∈ Lu u Lu L cand u v u 3 j ∈ L cand u L cand u 在基于 LSSSAN 的推荐系统中: 表示用户 的特征表示; 表示用户 的用户反馈数据序 列,如用户点击、购买的 item 序列; 表示用 户 的用户反馈数据序列 中的一项 item; 表示可能被推荐的候选 item 集合; 表示 候选 item 集合 中的一项。 Lu L long u L short u L long u 文献 [6, 9] 表明短期反馈数据对推荐结果有 着重要影响,结合长期和短期反馈数据能够准确 反映用户的综合偏好;文献 [14] 的工作利用用户 长期反馈数据充分表达了用户的长期/一般偏好, 并结合短期反馈数据表达的短期偏好准确估计了 用户的综合偏好。基于此,本文将用户反馈数据 划分为用户长期反馈数据 和用户短期反 馈数据 (在本文的实验环节,将一天内的反馈 数据为短期反馈数据)。长期用户反馈数据 L short u 反映了用户的长期/一般偏好,短期用户反馈数据 反映了用户近期的短期偏好和序列性偏好。 举例来说,用户 A 是个运动爱好者,平时喜欢购 买一些运动设备,有一天,用户 A 由于手机损坏, 购买了手机和手机保护膜。此时如果基于用户 A 的长期/一般偏好,推荐系统会更偏向于给用户 A 推荐运动相关的 item,而如果基于用户 A 的短 期偏好,推荐系统则会偏向于给用户 A 推荐手机 相关的 item,考虑到用户 A 短期购买日志 (先后购 买手机和手机保护膜) 的序列性,推荐系统则可 能会向用户 A 推荐手机保护壳。 u u v cand 3 j u v cand 3 j LSSSAN 基于以上内容,估计用户的综合偏 好,并利用用户 的综合偏好计算用户 对候选 项 item 的偏好得分,得分越高说明用户 越 倾向于选择候选项 item 。 2.2 模型结构 在序列推荐的场景中,用户偏好往往有以下 的特点:1) 用户反馈数据往往是长序列,用户反 馈数据存在着复杂的相互依赖关系;2) 短期用 户反馈数据和其表达的序列性,影响推荐结果 的重要因素; 3 ) 相 同 的 item,在不同的候 选 item 集合或不同的用户下,对于推荐结果有不同 的影响;4) 在考虑不同的 item 对于结果的影响 时,应对不同的 item 赋予不同的权重以动态捕 捉重点信息。 基于此,本文设计了 LSSSAN 模型,网络结构 如图 2 所示。 候选 item j v3j u 综合偏好表示 u comp 长期偏好表示 u long Context Output 注意力权重向量 α comp u 注意力层: 提取综合偏好 自注意力层: 提取长期偏好 Embedding 稀疏输入 序列性偏好表示 u seq GRU GRU GRU … … … … item 1 item 2 item … m item t+1 item t+2 item t+n GRU 层: 提取序列性偏好 list L user u 候选 item 列表 Lu cand 用户的长期反馈数据序列 Lu long 用户的短期反馈数据序列 Lu short 偏好得分su j 图 2 分期序列自注意力网络的结构 Fig. 2 Structure of LSSSAN Embedding 层:对用户、可能被推荐的候选 item 集合、用户反馈数据的特征的稀疏表示进行 embed,转化为稠密的 embedding 表示。 自注意力层:在推荐系统中,应用注意力机 制,可以为不同的用户反馈数据赋予不同的权 重,以动态捕捉重点信息,反映了不同的用户反 馈数据对推荐结果影响的差异性。自注意力机制 是一种特殊的注意力机制,由于在机器翻译领域 第 2 期 鲍维克,等:面向推荐系统的分期序列自注意力网络 ·355·
·356· 智能系统学报 第16卷 的成功表现,自注意力机制逐渐走入研究者们的 式(I)和(2)中的,We∈Rd=Wx∈Rd分别 视野。自注意力机制在动态赋权的同时,捕捉 为Query和Key非线性表示层的权重参数, 了用户反馈数据之间的相互依赖,并且自注意力 ReLU(~在本模型中表示Leaky_ReLU激励函数, 机制在长序列的数据上表现出色。文献[13]的工 Q和K分别表示Query和Key的非线性表示。 作将自注意力机制应用于从用户短期反馈数据上 Leaky_ReLU是ReLU的变体,解决了ReLU函数 提取用户的短期偏好,但这项工作忽视了用户长 进入负区间后,导致神经元不学习的问题。 期反馈数据在序列推荐中的作用,同时自注意力 Rlon=softmax OKT 机制对短期反馈数据的序列性分析不足。基于 (3) va 此,本文考虑将自注意力机制应用于用户长期反 式中:RnERNXN为Q和K的关联矩阵表示,并 馈数据,结合用户和候选item集作为上下文,得 作为自注意力层的注意力矩阵。V用以缩放点 到用户长期/一般偏好的表示。 积,使得softmax函数的梯度不容易因为d过大 本模型的自注意力层以候选item集合L。 的embedding平均表示IeR(其中R表示实数 而趋近于零。 集)、用户u的embedding表示u∈R、用户长期 Ylons Rlons Ylong (4) 反馈序列LS ER为输入(其中Lo|表示用 式中Rs作为注意力矩阵和联合向量X相乘得 户长期反馈序列的item序列长度,d表示embed: 到了加权输出Xas∈Rxd。 ding维度,也是全局的维度参数),输出用户长期/ 一般偏好的表示o。自注意力层模型的结构如 (5) 图3所示。 式中,对Xas聚合(如sum、max,这里采用均值), 长期偏好表示og 聚合 得到了用户长期/一般偏好的表示ams∈R。 注意力矩阵R GRU(gate recurrent unit)层:与利用自注意力 Softmax 层提取用户长期反馈数据之间的相互依赖不同, Value Scale&Mask 用户短期反馈数据的重点是提取用户短期反馈数 据中的序列性偏好。GRU是RNN的一种,解决 了长期记忆和反向传播中的梯度等问题,且易于 计算161。模型将用户短期反馈数据Lhr输入 非线性层 非线性层 GRU,计算得到短期反馈数据表现出用户的序列 Embedding 性偏好表示u。模型GRU层的公式化表示如下: 稀疏输人■51■m2… j=(W:[h1,v2) (6) 候选item列表用户的长期反馈数据序列 r=o(W,h-1,2) (7) Lins h,=tanh(W:rj*h1.v2) (8) 图3自注意力层的结构 Fig.3 Structure of self-attention net hj=(1-zj)*h+zj*hj (9) 图3中X=[l,u,Lo]表示I、u、Lo的联合 yj=(W.hj) (10) 向量。Xae∈Rwd,其中N=|Za|+2为Xs的长 u=y (11) 度。1、u作为上下文和L联合,动态地表示了 式中:”2,∈Lt为用户短期反馈数据序列中的第 长期信息,即相同的用户反馈数据,在不同的候 j项;h,表示GRU网络中第j个单元的hidden 选item集或用户的情况下,会对推荐结果产生不 state;or和tanh()分别表示Sigmoid激活函数和 同影响。图3中Query、Key、Value表示注意力机 制中的查询、索引、需被注意力机制加权的数 tanh激活函数。式(6)中,z为update gate项且W 据。在本文的自注意力模型中,Q=K=V=Xh 为update gate权重;式(T)中,r)为reset gate项且 即Query、Key、Value均表示Xa。自注意力层模 W,为reset gate权重;式(8)中,h;为hidden state 型的公式化表达如下: 的重置项且W:为其权重;式(1O)中,y,表示GU 网络中第广个单元的输出,W。为输出权重;式 '=ReLU(XlmEW) (1) (I1)中,L表示用户短期反馈数据序列Lm的 K'=ReLU(XMEWx) (2) 长度,表示最后的GRU的输出,即模型的
的成功表现,自注意力机制逐渐走入研究者们的 视野[15]。自注意力机制在动态赋权的同时,捕捉 了用户反馈数据之间的相互依赖,并且自注意力 机制在长序列的数据上表现出色。文献 [13] 的工 作将自注意力机制应用于从用户短期反馈数据上 提取用户的短期偏好,但这项工作忽视了用户长 期反馈数据在序列推荐中的作用,同时自注意力 机制对短期反馈数据的序列性分析不足。基于 此,本文考虑将自注意力机制应用于用户长期反 馈数据,结合用户和候选 item 集作为上下文,得 到用户长期/一般偏好的表示。 L cand u l ∈ R 1×d R u u ∈ R 1×d L long u ∈ R|L long u |×d L long u d u long 本模型的自注意力层以候选 item 集合 的 embedding 平均表示 (其中 表示实数 集)、用户 的 embedding 表示 、用户长期 反馈序列 为输入 (其中 表示用 户长期反馈序列的 item 序列长度, 表示 embedding 维度,也是全局的维度参数),输出用户长期/ 一般偏好的表示 。自注意力层模型的结构如 图 3 所示。 Q′ K′ 非线性层 非线性层 候选 item 列表 Lu cand 用户的长期反馈数据序列 Lu long list L user u item 1 item 2 item m Embedding 稀疏输入 Query Key Xu long Softmax Value Scale&Mask … … … Xu ′long 聚合 长期偏好表示 u long 注意力矩阵 R long u … … 图 3 自注意力层的结构 Fig. 3 Structure of self-attention net X long u = [l,u, L long u ] l u L long u X long u ∈ R N×d N = L long u +2 X long u l u L long u Q = K = V = X long u X long u 图 3 中 表示 、 、 的联合 向量。 ,其中 为 的长 度。 、 作为上下文和 联合,动态地表示了 长期信息,即相同的用户反馈数据,在不同的候 选 item 集或用户的情况下,会对推荐结果产生不 同影响。图 3 中 Query、Key、Value 表示注意力机 制中的查询、索引、需被注意力机制加权的数 据。在本文的自注意力模型中, 即 Query、Key、Value 均表示 。自注意力层模 型的公式化表达如下: Q ′ = ReLU( X long u WQ ) (1) K ′ = ReLU( X long u WK ) (2) WQ ∈ R d×d = WK ∈ R d×d ReLU(·) Q ′ K ′ 式 (1) 和 (2) 中的, 分别 为 Quer y 和 K e y 非线性表示层的权重参数, 在本模型中表示 Leaky_ReLU 激励函数, 和 分别表示 Query 和 Key 的非线性表示。 Leaky_ReLU 是 ReLU 的变体,解决了 ReLU 函数 进入负区间后,导致神经元不学习的问题。 R long u = softmax( Q ′K ′T √ d ) (3) R long u ∈ R N×N Q ′ K ′ √ d d 式中: 为 和 的关联矩阵表示,并 作为自注意力层的注意力矩阵。 用以缩放点 积,使得 softmax 函数的梯度不容易因为 过大 而趋近于零。 X ′long u = R long u X long u (4) R long u X long u X ′long u ∈ R N×d 式中 作为注意力矩阵和联合向量 相乘得 到了加权输出 。 u long = 1 N ∑N j=1 X ′ u jlong (5) X ′long u u long ∈ R 1×d 式中,对 聚合 (如 sum、max,这里采用均值), 得到了用户长期/一般偏好的表示 。 L short u u seq GRU(gate recurrent unit) 层:与利用自注意力 层提取用户长期反馈数据之间的相互依赖不同, 用户短期反馈数据的重点是提取用户短期反馈数 据中的序列性偏好。GRU 是 RNN 的一种,解决 了长期记忆和反向传播中的梯度等问题,且易于 计算[ 1 6 ]。模型将用户短期反馈数据 输入 GRU,计算得到短期反馈数据表现出用户的序列 性偏好表示 。模型 GRU 层的公式化表示如下: zj = σ ( Wz [ hj−1, v2 j ]) (6) rj = σ ( Wr [ hj−1, v2 j ]) (7) h˜ j = tanh( Wh˜ [ rj∗hj−1 , v2 j ]) (8) hj = ( 1− zj ) ∗ hj−1 + zj ∗ h˜ j (9) yj = σ ( Wohj ) (10) u seq = y|Lshort u | (11) v2 j ∈ L short u hj σ(·) tanh(·) zj Wz rj Wr h˜ j Wh˜ yj Wo L short u L short u y|Lshort u | 式中: 为用户短期反馈数据序列中的第 j 项 ; 表示 GRU 网络中第 j 个单元的 hidden state; 和 分别表示 Sigmoid 激活函数和 tanh 激活函数。式 (6) 中, 为 update gate 项且 为 update gate 权重;式 (7) 中, 为 reset gate 项且 为 reset gate 权重;式 (8) 中, 为 hidden state 的重置项且 为其权重;式 (10) 中, 表示 GRU 网络中第 j 个单元的输出, 为输出权重;式 (11) 中, 表示用户短期反馈数据序列 的 长度, 表示最后的 GRU 的输出,即模型的 ·356· 智 能 系 统 学 报 第 16 卷
第2期 鲍维克,等:面向推荐系统的分期序列自注意力网络 ·357· GRU层的输出仅存在于最后的GRU,且为用户的 系对,一个用户下item之间的偏序关系形成偏序 序列性偏好表示w∈R。 矩阵,遍历用户集建立预测排序矩阵,BPR方法 注意力层:前面由自注意力层、GRU层得到 对预测排序矩阵分解生成用户矩阵和item矩阵, 了长期/一般偏好toa和序列性偏好u。需要注 用户矩阵和item矩阵相乘可以得到用户对每个 意的是,反馈数据中往往存在非严格顺序相关 item偏好程度。利用BPR方法生成低偏好程度 性,会对GU层的结果产生影响。因此,u 的负样本集,大小与正样本集等同,参与训练。 需要联合uoa、Lat参与注意力机制进行动态赋 模型的Loss函数定义如下: 权,由于GRU层输入的短期反馈数据的顺序相关 gmm∑-hc(化-t 性强弱会影响注意力机制赋予的权重,进而 (16) 准确表达了序列性偏好。同时由于联合了L, Io.P+aleaIP+aloal 从结构上赋予了相对重要的短期反馈数据更高的 式中:D表示用户、正样本、负样本构造的训练 权重。用户的长期/一般偏好表示g、用户的序 集;s表示用户u对正样本候选itemj的偏好得 列性偏好表示u、用户短期反馈数据序列Lan 分;sk表示用户u对负样本候选itemk的偏好得 这三项联合为Xop=[uons,Lh,uq],Xep∈RMxd 分;()表示sigmoid函数。第一个加号后的3项 其中M=La+2为Xmp的长度。Xoap输入注 为正则项,o.表示embedding层的权重参数;oA 意力层最终得到了用户的综合偏好的表示 表示自注意力层和注意力层的权重参数;O表示GRU u即。注意力层模型的公式化表示如下: 层的权重参数,入、4、入为对应的正则项系数。 hcomP =ReLU(XOMPWA+BA) (12) 3实验分析 式中:Wa∈R和bA∈R为注意力层的权重参 数,这里”+”表示XPWa的每一行都和ba相 3.1实验概述 加,由式(11)得到了homPERMxd,he即为Xp的 数据集:本文选择Tmall数据集9和Gowalla 非线性表示: 数据集2o为模型进行训练和测试,其中Tmall数 aomp=softmax(uomhcom (13) 据集是在中国最大电商平台Tmall.com场景下的 式中:wog作为注意力层的上下文向量(context 用户行为日志数据集,Gowalla数据集是在社交签 vector),使用softmax函数联合hp计算得到了 到类应用Gowalla场景下的用户行为日志数据集。 Xop的注意力权重向量aop∈Rw1: 在实验过程中,仅考虑7个月内在两个数据 ucomp=(omPTXcomp 集上生成的数据,并将1天内的用户反馈数据视 (14) 由式(14)得到的注意力权重向量a即对 为表示短期反馈数据序列。 Xp加权求和,最终得到了用户u的综合偏好的 评价指标:选择召回率(Recall)和AUC作为 表示noap∈R1d。 评价指标。召回率表示为用户推荐偏好程度排序 2.3模型的参数学习 前N项的样本为预测的正样本,计算被正确预测 的正样本在原始正样本集中比例;而AUC衡量了 由模型的前向传递得到了用户综合偏好的表 示u卿,现在用内积方法如式(15)所示,表示 模型对样本正确排名的能力。 uomp和候选itemv3∈Lad的相似度,以表示用户 方法对比:与其他先进模型在Tmall数据集 u对候选item,的偏好得分sa: 和GowalIa数据集上的表现为对比681-412以 =ucomp.V3j (15) 其他文献在Tmall数据集和Gowalla数据集上给 在隐反馈的推荐系统场景中,用户往往没有 出的实验数据,或在Tmall数据集和Gowalla数据 对item的具体评分,而只是交互记录。这种情况 集复现的结果为准),以验证模型的有效性:1)BPR 下,推荐系统只有正样本而缺乏负样本,模型的 是一种基于矩阵分解的方法,BPR方法对user- 训练效果会因此受到影响。 item偏序关系矩阵分解得到user矩阵和item矩 可以简单地将与用户没有交互记录的item作 阵,user矩阵×item矩阵得到用户对每个item偏好 为用户的负样本,从而构造负样本集。而模型只 程度,依据偏好程度排序得到推荐列表;2)FOSSIL 需要和正样本集差不多大的负样本集,这种做法 利用马尔科夫链估计用户的短期和长期偏好; 会造成负样本集庞大,且负样本集的质量低下。 3)HRM对用户偏好进行层次表示,捕获用户的长 BPR方法是一种基于矩阵分解的方法,一 期/一般偏好和短期偏好;4)FPMC通过矩阵分 对用户交互与未交互的两个item项构成偏序关 解、马尔科夫链提取序列信息,以估计用户偏好
u seq ∈ R 1×d GRU 层的输出仅存在于最后的 GRU,且为用户的 序列性偏好表示 。 u long u seq u seq u seq u long L short u u seq L short u u long u seq L short u X comp u = [u long , L short u ,u seq] X comp u ∈ R M×d M = L short u +2 X comp u X comp u u u comp 注意力层:前面由自注意力层、GRU 层得到 了长期/一般偏好 和序列性偏好 。需要注 意的是,反馈数据中往往存在非严格顺序相关 性,会对 GRU 层的结果 产生影响。因此, 需要联合 、 参与注意力机制进行动态赋 权,由于 GRU 层输入的短期反馈数据的顺序相关 性强弱会影响注意力机制赋予 的权重,进而 准确表达了序列性偏好。同时由于联合了 , 从结构上赋予了相对重要的短期反馈数据更高的 权重。用户的长期/一般偏好表示 、用户的序 列性偏好表示 、用户短期反馈数据序列 这三项联合为 , 其中 为 的长度。 输入注 意力层最终得到了用户 的综合偏好的表示 。注意力层模型的公式化表示如下: h comp u = ReLU(X comp u WA + bA) (12) WA ∈ R d×d bA ∈ R 1×d ”+” X comp u WA bA h comp u ∈ R M×d h comp u X comp u 式中: 和 为注意力层的权重参 数,这里 表示 的每一行都和 相 加,由式 (11) 得到了 , 为 的 非线性表示: α comp u = softmax(( u long)T h comp u ) (13) u long h comp u X comp u α comp u ∈ R M×1 式中: 作为注意力层的上下文向量 (context vector),使用 softmax 函数联合 计算得到了 的注意力权重向量 : u comp = (α comp u ) TX comp u (14) α comp u X comp u u u comp ∈ R 1×d 由式 (14) 得到的注意力权重向量 对 加权求和,最终得到了用户 的综合偏好的 表示 。 2.3 模型的参数学习 u comp u comp v3 j ∈ L cand u u v3 j s j u 由模型的前向传递得到了用户综合偏好的表 示 ,现在用内积方法如式 (15) 所示,表示 和候选 item 的相似度,以表示用户 对候选 item 的偏好得分 : s j u = u comp · v3 j (15) 在隐反馈的推荐系统场景中,用户往往没有 对 item 的具体评分,而只是交互记录。这种情况 下,推荐系统只有正样本而缺乏负样本,模型的 训练效果会因此受到影响[17]。 可以简单地将与用户没有交互记录的 item 作 为用户的负样本,从而构造负样本集。而模型只 需要和正样本集差不多大的负样本集,这种做法 会造成负样本集庞大,且负样本集的质量低下。 BPR 方法[18] 是一种基于矩阵分解的方法,一 对用户交互与未交互的两个 item 项构成偏序关 系对,一个用户下 item 之间的偏序关系形成偏序 矩阵,遍历用户集建立预测排序矩阵,BPR 方法 对预测排序矩阵分解生成用户矩阵和 item 矩阵, 用户矩阵和 item 矩阵相乘可以得到用户对每个 item 偏好程度。利用 BPR 方法生成低偏好程度 的负样本集,大小与正样本集等同,参与训练。 模型的 Loss 函数定义如下: arg min Θ ∑ {u, j,k}∈D −lnσ ( s j u − s ′ u k ) + λe∥Θe∥ 2 +λA∥ΘA∥ 2 +λseq Θseq 2 (16) D s j u u s ′ u k u σ(·) Θe ΘA Θseq λe λA λseq 式中: 表示用户、正样本、负样本构造的训练 集; 表示用户 对正样本候选 item j 的偏好得 分; 表示用户 对负样本候选 item k 的偏好得 分; 表示 sigmoid 函数。第一个加号后的 3 项 为正则项, 表示 embedding 层的权重参数; 表示自注意力层和注意力层的权重参数; 表示GRU 层的权重参数, 、 、 为对应的正则项系数。 3 实验分析 3.1 实验概述 数据集:本文选择 Tmall 数据集[19] 和 Gowalla 数据集[20] 为模型进行训练和测试,其中 Tmall 数 据集是在中国最大电商平台 Tmall.com场景下的 用户行为日志数据集,Gowalla 数据集是在社交签 到类应用 Gowalla 场景下的用户行为日志数据集。 在实验过程中,仅考虑 7 个月内在两个数据 集上生成的数据,并将 1 天内的用户反馈数据视 为表示短期反馈数据序列。 评价指标:选择召回率 (Recall) 和 AUC 作为 评价指标。召回率表示为用户推荐偏好程度排序 前 N 项的样本为预测的正样本,计算被正确预测 的正样本在原始正样本集中比例;而 AUC 衡量了 模型对样本正确排名的能力。 方法对比:与其他先进模型在 Tmall 数据集 和 Gowalla 数据集上的表现为对比[6, 8, 13-14, 18, 21] (以 其他文献在 Tmall 数据集和 Gowalla 数据集上给 出的实验数据,或在 Tmall 数据集和 Gowalla 数据 集复现的结果为准),以验证模型的有效性:1) BPR 是一种基于矩阵分解的方法,BPR 方法对 useritem 偏序关系矩阵分解得到 user 矩阵和 item 矩 阵,user 矩阵×item 矩阵得到用户对每个 item 偏好 程度,依据偏好程度排序得到推荐列表;2) FOSSIL 利用马尔科夫链估计用户的短期和长期偏好; 3) HRM 对用户偏好进行层次表示,捕获用户的长 期/一般偏好和短期偏好;4) FPMC 通过矩阵分 解、马尔科夫链提取序列信息,以估计用户偏好, 第 2 期 鲍维克,等:面向推荐系统的分期序列自注意力网络 ·357·
·358· 智能系统学报 第16卷 最后以线性方式计算得到推荐列表;5)AttRec利 0.80 □BPR 用自注意力机制在分析用户短期反馈数据之间的 0.75 □FOSSIL 相互依赖的同时,动态提取了用户的短期偏好; □HRM 0.70 □FPMC 6)SHAN利用注意力机制对长期和短期反馈数据 □AttRec 0.65 建模,准确表达了用户的长期/一般偏好;7)LS$ ■SHAN ■LSSSAN SAN是本文的模型,利用自注意力机制和上下文 估计长期/一般偏好,利用GU分析短期反馈数 0.55 据表现出的序列性偏好,并综合长期/一般偏好和 0.50 短期反馈数据序列参与注意力机制加权得到用户 0.45 的综合偏好;8)LSSSAN1和LSSSAN2为本模型 消融实验的对照,LSSSAN1表示LSSSAN模型消 0.40 不同方法 去自注意力层后的模型(同时将长期反馈数据接 (a)Tmall上的AUc 入注意力层,自注意力层的上下文向量接入注意 1.00 □BPR 力层),LSSSAN2表示消去GRU层的模型。 □FOSSIL 0.95 3.2方法对比 □HRM 图4和图5展示了以召回率(N为10~60)和 □FPMC 0.90 ☐AttRec AUC为评价指标,各方法在Tmall数据集和 ■SHAN Gowalla数据集上的表现。 05 ■LSSSAN 0.25r BPR +FPMC 0.80 FOSSIL◆AttRec 0.20 ◆HRM ◆SHAN 0.75 -LSSSAN 0.15 0.70 阳 不同方法 (b)Gowalla上的AUC 0.10 图5各方法在Tmall和Gowalla数据集上表现的对比 Fig.5 Performancecomparsion of methods on Tmall and 0.05 Gowalla datasets I)LSSSAN在整体上优于基于自注意力的 20 30 40 50 60 AttRec模型,LSSSAN在Tmall数据集上召回率 (a)Tmall上的召回率 (WN为20)和AUC分别为0.126、0.797,在Gowalla 0.8 上两个指标分别为0.461、0.982。相比AttRec模 BPR +FPMC 0.7 FOSSIL◆AttRec 型,LSSSAN在两个数据集上指标召回率(N为 ◆HRM SHAN 0.6 -LSSSAN 20)分别提升了6.07%和20.49%,在两个数据集 上AUC指标分别提升了10.45%和0.81%。表明 解0.5 相比AttRec模型固定表达用户的长期/一般偏好 0.4 忽视序列性偏好,LSSSAN的Self-Attenion层从长 0.3 期反馈数据中提取了用户的长期/一般偏好、 0.2 GRU层从短期反馈数据中提取了用户的序列性 0.1 偏好、并从结构上赋予了短期反馈更高的权重, 对推荐结果更有利。 0 0 20 30 40.5060 2)LSSSAN在Gowalla数据集上的表现整体 (b)Gowalla上的召回率 优于SHAN模型,在Tmall数据集上的表现与 SHAN模型相比各有优劣。LSSSAN在Gowalla 图4各方法在Tmall和Gowalla数据集上表现的对比 Fig.4 Performance comparsion of methods on Tmall and 数据集上指标召回率(N为20)和AUC分别提升 Gowalla datasets 了1.51%和0.37%,在Tmall数据集上指标AUC
最后以线性方式计算得到推荐列表;5) AttRec 利 用自注意力机制在分析用户短期反馈数据之间的 相互依赖的同时,动态提取了用户的短期偏好; 6) SHAN 利用注意力机制对长期和短期反馈数据 建模,准确表达了用户的长期/一般偏好;7) LSSSAN 是本文的模型,利用自注意力机制和上下文 估计长期/一般偏好,利用 GRU 分析短期反馈数 据表现出的序列性偏好,并综合长期/一般偏好和 短期反馈数据序列参与注意力机制加权得到用户 的综合偏好;8) LSSSAN1 和 LSSSAN2 为本模型 消融实验的对照,LSSSAN1 表示 LSSSAN 模型消 去自注意力层后的模型 (同时将长期反馈数据接 入注意力层,自注意力层的上下文向量接入注意 力层),LSSSAN2 表示消去 GRU 层的模型。 3.2 方法对比 图 4 和图 5 展示了以召回率 (N 为 10~60) 和 AUC 为评价指标,各方法 在 Tmall 数据集 和 Gowalla 数据集上的表现。 BPR FOSSIL HRM FPMC AttRec SHAN LSSSAN BPR FOSSIL HRM FPMC AttRec SHAN LSSSAN 0.25 0.20 0.15 0.10 0.05 0 召回率 召回率 10 20 30 40 50 60 N 10 20 30 40 50 60 N (a) Tmall 上的召回率 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 (b) Gowalla 上的召回率 图 4 各方法在 Tmall 和 Gowalla 数据集上表现的对比 Fig. 4 Performance comparsion of methods on Tmall and Gowalla datasets 0.80 0.75 0.70 0.65 0.60 0.55 0.50 0.45 0.40 AUC 0.95 1.00 0.90 0.85 0.80 0.75 0.70 AUC BPR FOSSIL HRM FPMC AttRec SHAN LSSSAN BPR FOSSIL HRM FPMC AttRec SHAN LSSSAN 不同方法 (a) Tmall 上的 AUC 不同方法 (b) Gowalla 上的 AUC 图 5 各方法在 Tmall 和 Gowalla 数据集上表现的对比 Fig. 5 Performancecomparsion of methods on Tmall and Gowalla datasets 1) LSSSAN 在整体上优于基于自注意力的 AttRec 模型,LSSSAN 在 Tmall 数据集上召回率 (N 为 20) 和 AUC 分别为 0.126、0.797,在 Gowalla 上两个指标分别为 0.461、0.982。相比 AttRec 模 型 ,LSSSAN 在两个数据集上指标召回率 (N 为 20) 分别提升了 6.07% 和 20.49%,在两个数据集 上 AUC 指标分别提升了 10.45% 和 0.81%。表明 相比 AttRec 模型固定表达用户的长期/一般偏好、 忽视序列性偏好,LSSSAN 的 Self-Attenion 层从长 期反馈数据中提取了用户的长期 /一般偏好、 GRU 层从短期反馈数据中提取了用户的序列性 偏好、并从结构上赋予了短期反馈更高的权重, 对推荐结果更有利。 2) LSSSAN 在 Gowalla 数据集上的表现整体 优于 SHAN 模型,在 Tmall 数据集上的表现与 SHAN 模型相比各有优劣。LSSSAN 在 Gowalla 数据集上指标召回率 (N 为 20) 和 AUC 分别提升 了 1.51% 和 0.37%,在 Tmall 数据集上指标 AUC ·358· 智 能 系 统 学 报 第 16 卷
第2期 鲍维克,等:面向推荐系统的分期序列自注意力网络 ·359· 分别提升了1.48%,而在Tmall数据集上指标召回 表1消融实验对照表 率(N为20)落后于SHAN模型14.6%。其原因是 Table 1 Results table of ablation study Gowalla数据集用户反馈数据之间的相互依赖和 数据集 方法 AUC 召回率 顺序相关性比Tmal数据集严格,本文模型相比 LSSSAN 0.797 0.126 SHAN模型利用自注意力机制和GRU着重捕捉 Tmall LSSSANI 0.619 0.092 了用户反馈数据之间的相互依赖和序列性,因此 LSSSAN2 0.790 0.130 在Gowalla上LSSSAN的表现整体优于SHAN模 型,而在Tmall数据集上的表现的稳定性不如 LSSSAN 0.982 0.461 SHAN模型。同时文献[22]也表明,对于相互依 Gowalla LSSSANI 0.811 0.282 赖和序列性强的签到类型数据集,结合GU的模 LSSSAN2 0.979 0.457 型有较好的效果。综上所述,相比SHAN对长期 数据的相互依赖分析不足、忽视序列性偏好, LSSSAN1为LSSSAN消去自注意力层后的 LSSSAN的Self-Attenion层分析了长期数据的相 模型,在两个数据集上表现不佳。相比LSSSAN、 互依赖、GRU层提取了序列性偏好,在推荐结果 LSSSAN1在两个数据集上指标召回率(N为20) 上具有更好的表现。 分别降低了26.98%和38.83%,其原因主要是消 3.3消融实验 去自注意力层后模型缺乏对长期/一般偏好的表 图6和表1展示了消融实验在Tmall和Gowalla 达,也降低了相对重要的短期反馈数据在模型中 数据集上的对照数据。 的权重。 0.20 LSSSAN2为LSSSAN消去GRU层后的模 -LSSSAN LSSSANI 型,LSSSAN2在Gowalla上的两个指标相比LSS- 0.18 LSSSAN2 SAN分别降低了0.87%、0.31%,LSSSAN2在 0.16 Tmall上的AUC相比LSSSAN降低了0.89%,虽 解0.14 然LSSSAN2在Tmall数据集上指标召回率(N为 00.12 20)相比LSSSAN提升了3.17%,但由图6可以观 察到LSSSAN2在Tmall数据集上的整体表现稍 0.10 劣于LSSSAN。以LSSSAN为基准,消去GRU层 0.08 的LSSSAN2在Tmall数据集上的表现优于其在 Gowalla的表现,其原因是Tmall数据集的顺序相 0.06 10 20 30 4050 60 关性和相互依赖性不如Gowalla数据集严格。而 (a)Tmall上的召回率 LSSSAN与LSSSAN2相比,N参数较大时指标召 0.7 回率较稳定,此时对推荐结果而言,GRU层提取 -LSSSAN LSSSANI 序列性偏好的优势会大于GU层受非严格顺序 0.6 ·LSSSAN2 相关性和弱相互依赖性的影响而不稳定的劣势。 当数据集表现出明显的非严格顺序相关性和弱相 0.5 互依赖性时,可以考虑以消去GRU层后的LSS 0.4 SAN作为推荐模型的候选。 至此,消融实验验证了模型的GU层和自注 0.3 意力层发挥的重要作用。 0.2 3.4超参数分析 全局维度参数d反映了模型embedding和表 0.14 10 2030405060 示层的维度,图7反映了在Tmall和Gowalla数据 N (b)Gowalla上的召回率 集上维度参数d对模型效果的影响。可以观察 到,高维度的表示可以更精确地表达用户和item, 图6 LSSSAN在Tmall和Gowalla数据集上的消融实验 对照 并有助于和模型之间的信息交互。在实验中,本 Fig.6 Ablation study of LSSSAN on Tmall and Gowalla 模型权衡计算成本和模型精度,设置维度参数 Datasets d=80
分别提升了 1.48%,而在 Tmall 数据集上指标召回 率 (N 为 20) 落后于 SHAN 模型 14.6%。其原因是 Gowalla 数据集用户反馈数据之间的相互依赖和 顺序相关性比 Tmall 数据集严格,本文模型相比 SHAN 模型利用自注意力机制和 GRU 着重捕捉 了用户反馈数据之间的相互依赖和序列性,因此 在 Gowalla 上 LSSSAN 的表现整体优于 SHAN 模 型,而在 Tmall 数据集上的表现的稳定性不如 SHAN 模型。同时文献 [22] 也表明,对于相互依 赖和序列性强的签到类型数据集,结合 GRU 的模 型有较好的效果。综上所述,相比 SHAN 对长期 数据的相互依赖分析不足、忽视序列性偏好, LSSSAN 的 Self-Attenion 层分析了长期数据的相 互依赖、GRU 层提取了序列性偏好,在推荐结果 上具有更好的表现。 3.3 消融实验 图 6 和表 1 展示了消融实验在 Tmall 和 Gowalla 数据集上的对照数据。 LSSSAN LSSSAN1 LSSSAN2 LSSSAN LSSSAN1 LSSSAN2 0.20 0.18 0.16 0.14 0.12 0.10 0.08 0.06 10 20 30 40 50 60 N 10 20 30 40 50 60 N 召回率 召回率 0.7 0.6 0.5 0.4 0.3 0.2 0.1 (b) Gowalla 上的召回率 (a) Tmall 上的召回率 图 6 LSSSAN 在 Tmall 和 Gowalla 数据集上的消融实验 对照 Fig. 6 Ablation study of LSSSAN on Tmall and Gowalla Datasets 表 1 消融实验对照表 Table 1 Results table of ablation study 数据集 方法 AUC 召回率 Tmall LSSSAN 0.797 0.126 LSSSAN1 0.619 0.092 LSSSAN2 0.790 0.130 Gowalla LSSSAN 0.982 0.461 LSSSAN1 0.811 0.282 LSSSAN2 0.979 0.457 LSSSAN1 为 LSSSAN 消去自注意力层后的 模型,在两个数据集上表现不佳。相比 LSSSAN、 LSSSAN1 在两个数据集上指标召回率 (N 为 20) 分别降低了 26.98% 和 38.83%,其原因主要是消 去自注意力层后模型缺乏对长期/一般偏好的表 达,也降低了相对重要的短期反馈数据在模型中 的权重。 LSSSAN2 为 LSSSAN 消去 GRU 层后的模 型,LSSSAN2 在 Gowalla 上的两个指标相比 LSSSAN 分别降低了 0.87%、0.31%,LSSSAN2 在 Tmall 上的 AUC 相比 LSSSAN 降低了 0.89%,虽 然 LSSSAN2 在 Tmall 数据集上指标召回率 (N 为 20) 相比 LSSSAN 提升了 3.17%,但由图 6 可以观 察到 LSSSAN2 在 Tmall 数据集上的整体表现稍 劣于 LSSSAN。以 LSSSAN 为基准,消去 GRU 层 的 LSSSAN2 在 Tmall 数据集上的表现优于其在 Gowalla 的表现,其原因是 Tmall 数据集的顺序相 关性和相互依赖性不如 Gowalla 数据集严格。而 LSSSAN 与 LSSSAN2 相比,N 参数较大时指标召 回率较稳定,此时对推荐结果而言,GRU 层提取 序列性偏好的优势会大于 GRU 层受非严格顺序 相关性和弱相互依赖性的影响而不稳定的劣势。 当数据集表现出明显的非严格顺序相关性和弱相 互依赖性时,可以考虑以消去 GRU 层后的 LSSSAN 作为推荐模型的候选。 至此,消融实验验证了模型的 GRU 层和自注 意力层发挥的重要作用。 3.4 超参数分析 d d d = 80 全局维度参数 反映了模型 embedding 和表 示层的维度,图 7 反映了在 Tmall 和 Gowalla 数据 集上维度参数 对模型效果的影响。可以观察 到,高维度的表示可以更精确地表达用户和 item, 并有助于和模型之间的信息交互。在实验中,本 模型权衡计算成本和模型精度,设置维度参数 。 第 2 期 鲍维克,等:面向推荐系统的分期序列自注意力网络 ·359·
·360· 智能系统学报 第16卷 0.5 Tmall Rey,USA,2018:108-116 0.4 Le Gowalla [4]KOREN Y.Collaborative filtering with temporal dynam- ics[C]//Proceedings of the 15th ACM SIGKDD Interna- 邓0.2 tional Conference on Knowledge Discovery and Data Min- 0.1 ing.Paris,France,2009:447-456. 0 10 20 30 40 50 维度 [5]GARCIN F,DIMITRAKAKIS C,FALTINGS B.Person- alized news recommendation with context trees[C]//Pro- 图7维度参数对模型的影响 ceedings of the 7th ACM Conference on Recommender Fig.7 Impact of dimension parameter Systems.Hong Kong,China,2013:105-112. 4结束语 [6]RENDLE S.FREUDENTHALER C.SCHMIDT-THIEME L.Factorizing personalized Markov chains for next-basket LSSSAN相比AttRec方法,利用长期反馈数 recommendation[Cl//Proceedings of the 19th International 据对长期/一般偏好进行准确表达,并从结构上赋 Conference on World Wide Web.Raleigh,USA,2010: 予了相对重要的短期反馈数据更高的权重;相比 811-820. SHAN方法,LSSSAN考虑了序列性偏好和长期 [7]HIDASI B.TIKK D.General factorization framework for 数据中的相互依赖关系。 context-aware recommendations[J].Data mining and 本文在Tmall和Gowalla上对LSSSAN进行 knowledge discovery,2016,30(2):342-371 训练和测试,其效果整体优于其他先进的方案。 [8]HE RUINING,MCAULEY J.Fusing similarity models with Markov chains for sparse sequential recommenda- 且由于Gowalla数据集的反馈数据相互依赖性和 tion[C]//Proceedings of the 2016 IEEE 16th International 顺序相关性严格于Tmall数据集,模型在Gowalla Conference on Data Mining.Barcelona,Spain,2016: 上表现优于在Tmal上的表现,表明模型擅长于 191-200 处理相对严格的相互依赖关系和顺序相关性的数 [9]HIDASI B.KARATZOGLOU A,BALTRUNAS L,et al 据,也表明模型可能会因为数据集数据的弱相互 Session-based recommendations with recurrent neural net- 依赖性和弱顺序相关性而出现不稳定的情况。同 works[Cl//Proceedings of the 4th International Conference 时本文通过消融实验验证了模型结构的合理性, on Learning Representations.San Juan,Puerto Rico,2016: 并给出了当数据出现明显的弱相互依赖性和弱顺 1-10. 序相关性时的候选方案。 [10]WU Chaoyuan,AHMED A,BEUTEL A,et al.Recurrent LSSSAN在实际应用上可为众多互联网应用 recommender networks[C]//Proceedings of the 10th ACM 提供推荐模型,尤其在数据具有强相互依赖性和 International Conference on Web Search and Data Min- 顺序相关性的互联网应用上将会保证可靠的性 ing.Cambridge,UK,2017:495-503. [11]TANG Jiaxi,BELLETTI F,JAIN S,et al.Towards neur- 能;未来的工作会考虑在LSSSAN的基础上尝试 采用内存机制以提高性能,并在更多的数据集上 al mixture recommender for long range dependent user sequences[C]//Proceedings of World Wide Web Confer- 测试模型性能。 ence.San Francisco,USA,2019:1782-1793 参考文献: [12]ZHOU Guorui,ZHU Xiaoqiang,SONG Chenru,et al. Deep interest network for click-through rate prediction[Cl/ [1]孙宏超.阿里巴巴发布2020财年第三季度财报:收入增 Proceedings of the 24th ACM SIGKDD International 长38%,年活跃用户达7亿[EB/OL].[2020-02-13] Conference on Knowledge Discovery Data Mining. kuaibao.qq.com/s/20200213A0PEAW00 London,UK,2018:1059-1068. [2]WANG Shoujin,HU Liang,WANG Yan,et al.Sequential [13]ZHANG Shuai,TAY Y,YAO Lina,et al.2019.Next recommender systems:challenges,progress and item recommendation with self-attentive metric prospects[C]//Proceedings of the 28th International Joint learning[C]//Proceedings of the 33rd AAAI Conference Conference on Artificial Intelligence.Macao,China,2019: on Artificial Intelligence.Hawaii,USA,2019:9. 6332-6338 [14]YING Haochao,ZHUANG Fuzhen,ZHANG Fuzheng, [3]XU Chen,XU Hongteng,ZHANG Yongfeng,et al.Se- et al.Sequential recommender system based on hierarch- quential recommendation with user memory ical attention networks[Cl//Proceedings of the 27th Inter- networks[C]//Proceedings of the 11th ACM International national Joint Conference on Artificial Intelligence Conference on Web Search and Data Mining.Marina Del Stockholm.Sweden.2018:3926-3932
Tmall Gowalla 0.5 0.4 0.3 0.2 0.1 召回率 0 20 30 40 50 10 维度 图 7 维度参数对模型的影响 Fig. 7 Impact of dimension parameter 4 结束语 LSSSAN 相比 AttRec 方法,利用长期反馈数 据对长期/一般偏好进行准确表达,并从结构上赋 予了相对重要的短期反馈数据更高的权重;相比 SHAN 方法,LSSSAN 考虑了序列性偏好和长期 数据中的相互依赖关系。 本文在 Tmall 和 Gowalla 上对 LSSSAN 进行 训练和测试,其效果整体优于其他先进的方案。 且由于 Gowalla 数据集的反馈数据相互依赖性和 顺序相关性严格于 Tmall 数据集,模型在 Gowalla 上表现优于在 Tmall 上的表现,表明模型擅长于 处理相对严格的相互依赖关系和顺序相关性的数 据,也表明模型可能会因为数据集数据的弱相互 依赖性和弱顺序相关性而出现不稳定的情况。同 时本文通过消融实验验证了模型结构的合理性, 并给出了当数据出现明显的弱相互依赖性和弱顺 序相关性时的候选方案。 LSSSAN 在实际应用上可为众多互联网应用 提供推荐模型,尤其在数据具有强相互依赖性和 顺序相关性的互联网应用上将会保证可靠的性 能;未来的工作会考虑在 LSSSAN 的基础上尝试 采用内存机制以提高性能,并在更多的数据集上 测试模型性能。 参考文献: 孙宏超. 阿里巴巴发布 2020 财年第三季度财报: 收入增 长 38%, 年活跃用户达 7 亿 [EB/OL]. [2020-02-13]. kuaibao.qq.com/s/20200213A0PEAW00 [1] WANG Shoujin, HU Liang, WANG Yan, et al. Sequential recommender systems: challenges, progress and prospects[C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macao, China, 2019: 6332−6338. [2] XU Chen, XU Hongteng, ZHANG Yongfeng, et al. Sequential recommendation with user memory networks[C]//Proceedings of the 11th ACM International Conference on Web Search and Data Mining. Marina Del [3] Rey, USA, 2018: 108−116. KOREN Y. Collaborative filtering with temporal dynamics[C]//Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Paris, France, 2009: 447−456. [4] GARCIN F, DIMITRAKAKIS C, FALTINGS B. Personalized news recommendation with context trees[C]//Proceedings of the 7th ACM Conference on Recommender Systems. Hong Kong, China, 2013: 105−112. [5] RENDLE S, FREUDENTHALER C, SCHMIDT-THIEME L. Factorizing personalized Markov chains for next-basket recommendation[C]//Proceedings of the 19th International Conference on World Wide Web. Raleigh, USA, 2010: 811−820. [6] HIDASI B, TIKK D. General factorization framework for context-aware recommendations[J]. Data mining and knowledge discovery, 2016, 30(2): 342–371. [7] HE RUINING, MCAULEY J. Fusing similarity models with Markov chains for sparse sequential recommendation[C]//Proceedings of the 2016 IEEE 16th International Conference on Data Mining. Barcelona, Spain, 2016: 191−200. [8] HIDASI B, KARATZOGLOU A, BALTRUNAS L, et al. Session-based recommendations with recurrent neural networks[C]//Proceedings of the 4th International Conference on Learning Representations. San Juan, Puerto Rico, 2016: 1−10. [9] WU Chaoyuan, AHMED A, BEUTEL A, et al. Recurrent recommender networks[C]//Proceedings of the 10th ACM International Conference on Web Search and Data Mining. Cambridge, UK, 2017: 495−503. [10] TANG Jiaxi, BELLETTI F, JAIN S, et al. Towards neural mixture recommender for long range dependent user sequences[C]//Proceedings of World Wide Web Conference. San Francisco, USA, 2019: 1782−1793. [11] ZHOU Guorui, ZHU Xiaoqiang, SONG Chenru, et al. Deep interest network for click-through rate prediction[C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. London, UK, 2018: 1059−1068. [12] ZHANG Shuai, TAY Y, YAO Lina, et al. 2019. Next item recommendation with self-attentive metric learning[C]//Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Hawaii, USA, 2019: 9. [13] YING Haochao, ZHUANG Fuzhen, ZHANG Fuzheng, et al. Sequential recommender system based on hierarchical attention networks[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm, Sweden, 2018: 3926−3932. [14] ·360· 智 能 系 统 学 报 第 16 卷
第2期 鲍维克,等:面向推荐系统的分期序列自注意力网络 ·361· [15]VASWANI A,SHAZEER N,PARMAR N,et al.Atten- [21]WANG Pengfei,GUO Jiafeng,LAN Yanyan,et al. tion is all you need[Cl//Proceedings of the 31st Confer- Learning hierarchical representation model for NextBas- ence on Neural Information Processing Systems.Long ket recommendation[C]//Proceedings of the 38th Interna- Beach,USA,2017:5998-6008. tional ACM SIGIR conference on Research and Develop- [16]CHO K,VAN MERRIENBOER B,GULCEHRE C,et al. ment in Information Retrieval.Santiago,Chile,2015: Learning phrase representations using RNN encoder-de- 403-412 coder for statistical machine translation[C]//Proceedings [22]李全,许新华,刘兴红,等.融合时空感知GU和注意 of 2014 Conference on Empirical Methods in Natural 力的下一个地点推荐[.计算机应用,2020,40(3): Language Processing.Doha,Qatar,2014:1724-1734. 677-682. [17]PAN Rong,ZHOU Yunhong,CAO Bin,et al.One-class LI Quan,XU Xinhua,LIU Xinghong,et al.Next location collaborative filtering[C]//Proceedings of the 2008 8th recommendation based on spatiotemporal-aware GRU IEEE International Conference on Data Mining.Pisa, and attention[J].Journal of computer applications,2020, taly,2008:502-511. [18]RENDLE S.FREUDENTHALER C,GANTNER Z,et al. 40(3:677-682 BPR:Bayesian personalized ranking from implicit feed- 作者简介: back[Cl//Proceedings of the 25th Conference on Uncer- 鲍维克,硕士研究生,主要研究方 tainty in Artificial Intelligence.Montreal,Canada,2009: 向为推荐系统。 452-461 [19]HU Liang,CAO Longbing,WANG Shoujin,et al.Diver- sifying personalized recommendation with user-session context[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence.Melbourne,Aus- tralia.2017:1858-1864. 袁春,副研究员,博土,博士生导 师,EEE高级会员,清华大学-香港中 [20]CHO E.A MYERS S A.LESKOVEC J.Friendship and 文大学媒体科学、技术与系统联合研 mobility:user movement in location-based social net- 究中心常务副主任,主要研究方向为 works[C]//Proceedings of the 17th ACM SIGKDD Inter- 机器学习、计算机视觉。发表学术论 national Conference on Knowledge Discovery and Data 文100余篇。 Mining.San Diego,USA,2011:1082-1090
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach, USA, 2017: 5998−6008. [15] CHO K, VAN MERRIËNBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar, 2014: 1724−1734. [16] PAN Rong, ZHOU Yunhong, CAO Bin, et al. One-class collaborative filtering[C]//Proceedings of the 2008 8th IEEE International Conference on Data Mining. Pisa, Italy, 2008: 502−511. [17] RENDLE S, FREUDENTHALER C, GANTNER Z, et al. BPR: Bayesian personalized ranking from implicit feedback[C]//Proceedings of the 25th Conference on Uncertainty in Artificial Intelligence. Montreal, Canada, 2009: 452−461. [18] HU Liang, CAO Longbing, WANG Shoujin, et al. Diversifying personalized recommendation with user-session context[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne, Australia, 2017: 1858−1864. [19] CHO E, A MYERS S A, LESKOVEC J. Friendship and mobility: user movement in location-based social networks[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego, USA, 2011: 1082−1090. [20] WANG Pengfei, GUO Jiafeng, LAN Yanyan, et al. Learning hierarchical representation model for NextBasket recommendation[C]//Proceedings of the 38th International ACM SIGIR conference on Research and Development in Information Retrieval. Santiago, Chile, 2015: 403−412. [21] 李全, 许新华, 刘兴红, 等. 融合时空感知 GRU 和注意 力的下一个地点推荐 [J]. 计算机应用, 2020, 40(3): 677–682. LI Quan, XU Xinhua, LIU Xinghong, et al. Next location recommendation based on spatiotemporal-aware GRU and attention[J]. Journal of computer applications, 2020, 40(3): 677–682. [22] 作者简介: 鲍维克,硕士研究生,主要研究方 向为推荐系统。 袁春,副研究员,博士,博士生导 师,IEEE 高级会员,清华大学−香港中 文大学媒体科学、技术与系统联合研 究中心常务副主任,主要研究方向为 机器学习、计算机视觉。发表学术论 文 100 余篇。 第 2 期 鲍维克,等:面向推荐系统的分期序列自注意力网络 ·361·