【人工智能基础】面向推荐系统的分期序列自注意力网络

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：3.58MB

第16卷第2期智能系统学报 Vol.16 No.2 2021年3月 CAAI Transactions on Intelligent Systems Mar.2021 D0:10.11992/tis.202005028 网络出版地址：https:/ns.cnki.net/kcms/detail/23.1538.TP.20201104.1455.006.html 面向推荐系统的分期序列自注意力网络鲍维克，袁春2 (1.清华大学计算机科学与技术系，北京100084；2.清华大学深圳国际研究生院，广东深圳518000) 摘要：在推荐系统中，为了充分表达用户反馈数据内部的相互依赖和序列性，准确提取用户的长期/一般偏好、应对数据的动态性，本文提出了一种分期序列自注意力网络(Iong-term&short--term sequential self-attention network,LSSSAN)进行序列推荐。模型采用自注意力机制和GRU捕捉了用户反馈数据之间的相互依赖和序列性：模型采用注意力机制为不同反馈数据赋予不同权重以动态捕捉重点信息，同时考虑了上下文的动态性：模型基于用户的长期反馈数据，准确表达了用户的长期/一般偏好。该模型在两个数据集上进行训练和测试，结果表明该模型的推荐效果整体优于之前的相关工作。关键词：推荐系统：序列推荐：注意力机制：动态赋权；自注意力机制：序列依赖关系；门控循环单元：序列性偏好中图分类号：TP391 文献标志码：A文章编号：1673-4785(2021)02-0353-09 中文引用格式：鲍维克，袁春.面向推荐系统的分期序列自注意力网络.智能系统学报，2021,16(2)：353-361. 英文引用格式：BAO Weike,YUAN Chun.Recommendation system with long-term and short--term sequential self-attention net- work[JI.CAAI transactions on intelligent systems,2021,16(2):353-361. Recommendation system with long-term and short-term sequential self-attention network BAO Weike',YUAN Chun' (1.Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China;2.Shenzhen International Gradu- ate School,Tsinghua University,Shenzhen 518000,China) Abstract:To fully express the internal interdependence,user interaction data sequentiality,and long-term or general preferences and deal with the dynamics of data,this paper proposes the long-term and short-term sequential self-atten- tion network(LSSAN)for sequential recommendation in the recommendation system,and the LSSSAN model.This model uses self-attention and a GRU to capture the dependence and sequentiality among the user's data.Moreover,the model uses Attention Net to combine user characteristics and the candidate item set for recommendation as context for capturing the dynamics of the recommendation task.The model accurately expresses the general preferences of users based on their long-term interaction data.We train and test the LSSSAN on two data sets,and its effect is generally bet- ter than that of the previous work. Keywords:recommendation system;sequence recommendation;attention model;dynamic weighting;self-attention model;sequence dependence;GRU;sequential preference 随着互联网的普及，互联网应用的用户数量互联网公司在庞大的用户数据之上采用智能推荐空前增长，阿里巴巴集团公布截至2019年12月算法提高产品的可用性和用户体验。然而经典的 31日的季度业绩显示四，其中国零售市场移动月推荐算法往往存在一些问题：1)对于用户反馈活跃用户达8.24亿，创12个季度以来新高。诸多 (user-item interactions)数据表现出的相互依赖和序列性分析不足；2)对反馈数据和上下文的动态收稿日期：2020-05-21.网络出版日期：2020-11-05. 通信作者：袁春.E-mail:yuanc(@sz.tsinghua.edu.cn. 性应对不足；3)模型往往固定表达了用户的长期/

DOI: 10.11992/tis.202005028 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20201104.1455.006.html 面向推荐系统的分期序列自注意力网络鲍维克1 ，袁春2 （1. 清华大学计算机科学与技术系，北京 100084; 2. 清华大学深圳国际研究生院，广东深圳 518000）摘要：在推荐系统中，为了充分表达用户反馈数据内部的相互依赖和序列性，准确提取用户的长期/一般偏好、应对数据的动态性，本文提出了一种分期序列自注意力网络 (long-term & short-term sequential self-attention network，LSSSAN) 进行序列推荐。模型采用自注意力机制和 GRU 捕捉了用户反馈数据之间的相互依赖和序列性；模型采用注意力机制为不同反馈数据赋予不同权重以动态捕捉重点信息，同时考虑了上下文的动态性；模型基于用户的长期反馈数据，准确表达了用户的长期/一般偏好。该模型在两个数据集上进行训练和测试，结果表明该模型的推荐效果整体优于之前的相关工作。关键词：推荐系统；序列推荐；注意力机制；动态赋权；自注意力机制；序列依赖关系；门控循环单元；序列性偏好中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2021)02−0353−09 中文引用格式：鲍维克, 袁春. 面向推荐系统的分期序列自注意力网络 [J]. 智能系统学报, 2021, 16(2): 353–361. 英文引用格式：BAO Weike, YUAN Chun. Recommendation system with long-term and short-term sequential self-attention network[J]. CAAI transactions on intelligent systems, 2021, 16(2): 353–361. Recommendation system with long-term and short-term sequential self-attention network BAO Weike1 ，YUAN Chun2 (1. Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China; 2. Shenzhen International Graduate School, Tsinghua University, Shenzhen 518000, China) Abstract: To fully express the internal interdependence, user interaction data sequentiality, and long-term or general preferences and deal with the dynamics of data, this paper proposes the long-term and short-term sequential self-attention network (LSSAN) for sequential recommendation in the recommendation system, and the LSSSAN model. This model uses self-attention and a GRU to capture the dependence and sequentiality among the user’s data. Moreover, the model uses Attention Net to combine user characteristics and the candidate item set for recommendation as context for capturing the dynamics of the recommendation task. The model accurately expresses the general preferences of users based on their long-term interaction data. We train and test the LSSSAN on two data sets, and its effect is generally better than that of the previous work. Keywords: recommendation system; sequence recommendation; attention model; dynamic weighting; self-attention model; sequence dependence; GRU; sequential preference 随着互联网的普及，互联网应用的用户数量空前增长，阿里巴巴集团公布截至 2019 年 12 月 31 日的季度业绩显示[1] ，其中国零售市场移动月活跃用户达 8.24 亿，创 12 个季度以来新高。诸多互联网公司在庞大的用户数据之上采用智能推荐算法提高产品的可用性和用户体验。然而经典的推荐算法往往存在一些问题：1) 对于用户反馈 (user-item interactions) 数据表现出的相互依赖和序列性分析不足；2) 对反馈数据和上下文的动态性应对不足；3) 模型往往固定表达了用户的长期/ 收稿日期：2020−05−21. 网络出版日期：2020−11−05. 通信作者：袁春. E-mail：yuanc@sz.tsinghua.edu.cn. 第 16 卷第 2 期智能系统学报 Vol.16 No.2 2021 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2021

·354· 智能系统学报第16卷一般偏好，而非基于反馈数据对长期/一般偏好进图l中，item表示推荐系统中的项(item可以行表达。为商品、视频等)，一个用户的反馈数据记录由多为此，本文提出了一种面向推荐系统的分期个item组成，Model表示推荐模型，推荐系统的任序列自注意力网络(long-term&short-term sequen- 务是将合适的item推荐给用户。w表示用户u的 tial self-attention network,LSSSAN)。“分期"表示特征表示；L表示用户u的用户反馈数据序列，将用户的反馈数据分为长期和短期，用户的长期由多个item组成，∈L.为用户u的用户反馈数反馈数据反映了用户的长期/一般偏好，用户的短据序列Lm中的一项；肾∈Ld表示可能被推荐的期反馈数据反映了用户的短期偏好和序列性偏候选item集合Lamd中的某一候选item;推荐系统好；注意力(attention)机制，可以为不同的数据赋基于以上内容，计算用户u的综合偏好表示oap, 予不同的权重，帮助模型动态捕捉数据中重要的并通过op计算用户u对候选item,的偏好得信息，自注意力(self-attention)机制在此基础上，分，得分越高说明用户u越倾向于选择候选item 可以有效地捕捉长序列数据之间的相互依赖。本通过以上过程，计算用户u对候选item集模型中，自注意力机制从用户长期反馈数据提取 Ld中各item的偏好得分，最终得到推荐给用户用户的长期/一般偏好，GRU(gate recurrent unit)从 u的item集合。用户短期反馈数据的提取用户的序列性偏好，最 1.2相关工作后由以上所得综合用户短期反馈数据表现出的短传统的推荐系统如基于内容推荐和协同过滤期偏好参与注意力机制，得到了用户的综合偏推荐，均是以静态方式对用户反馈数据进行建好。总体来讲，本文模型的亮点如下：模，对用户反馈数据的信息提取不够充分。而序 1)采用注意力机制为不同的反馈数据赋予不列推荐模型将用户反馈数据视为序列，考虑了用同的权重以动态捕捉重点信息，同时也考虑了不户反馈数据的序列性和相互依赖，进而准确估计同用户和不同item候选集对推荐结果的动态影响；了用户的偏好4。 2)自注意力机制捕捉了长期反馈数据之间的在序列推荐模型中，用户反馈数据序列由较长期相互依赖，准确地表达了用户的长期/一般偏长的用户反馈数据组成，使得用户反馈数据序列好，而非基于用户特征固定地表达长期/一般偏好：具有更复杂的依赖特性。对于用户反馈数据序列 3)GRU捕捉了短期反馈数据的序列性并参的处理，其中两个主要的难点回是：与注意力机制赋权，GU层输入数据的顺序相关 1)学习高阶顺序依赖性的强弱会影响注意力机制赋予序列性表示的权高阶顺序依赖在用户反馈数据序列中普遍存重，进而准确表达了用户的序列性偏好：在，低阶依赖的可以用马尔科夫模型或因子分 4)在数据集上实验的评价指标整体优于主流解机刀解决，高阶顺序依赖由于反馈数据的多级的推荐算法。级联，模型往往难以表达。针对此问题，目前主 1研究背景要的两种方案：高阶马尔科夫链模型⑧和RNN(re current neural network)模型。但是，高阶马尔可 1.1推荐系统的一般任务夫链模型因参数数量随阶数呈指数增长，其分析通常来说，推荐系统的一般模型可以用以下的历史状态有限；而单一的RNN模型难以处理具形式表达，如图1所示。有非严格顺序相关性的用户反馈数据序列。偏好得分s 2)学习长期顺序依赖 Output 长期顺序依赖指序列中彼此远离的用户反馈数据之间的依赖性。文献[9-10]分别使用LSTM 综合偏好表示唧 (long short-term memory)GRU(gate recurrent 推荐模型候选item jv unit)来解决这个问题。但是，单一的RNN模型依 Embedding 赖于序列中相邻项的强相关性，对于弱相互依赖稀疏输入性和非严格顺序相关性的数据处理表现不佳。文用户反馈数据序列献[11]通过利用混合模型的优势，将具有不同时 L。间范围的多个子模型组合在一起，以捕获短期和图1推荐系统一般模型的结构长期依赖关系。而注意力机制考虑了用户反馈数 Fig.1 Structure of general recommendation system model 据之间的联系却不依赖于数据的相邻关系，阿里

一般偏好，而非基于反馈数据对长期/一般偏好进行表达。为此，本文提出了一种面向推荐系统的分期序列自注意力网络 (long-term & short-term sequential self-attention network，LSSSAN)。“分期”表示将用户的反馈数据分为长期和短期，用户的长期反馈数据反映了用户的长期/一般偏好，用户的短期反馈数据反映了用户的短期偏好和序列性偏好；注意力 (attention) 机制，可以为不同的数据赋予不同的权重，帮助模型动态捕捉数据中重要的信息，自注意力 (self-attention) 机制在此基础上，可以有效地捕捉长序列数据之间的相互依赖。本模型中，自注意力机制从用户长期反馈数据提取用户的长期/一般偏好，GRU(gate recurrent unit) 从用户短期反馈数据的提取用户的序列性偏好，最后由以上所得综合用户短期反馈数据表现出的短期偏好参与注意力机制，得到了用户的综合偏好。总体来讲，本文模型的亮点如下： 1) 采用注意力机制为不同的反馈数据赋予不同的权重以动态捕捉重点信息，同时也考虑了不同用户和不同 item 候选集对推荐结果的动态影响； 2) 自注意力机制捕捉了长期反馈数据之间的长期相互依赖，准确地表达了用户的长期/一般偏好，而非基于用户特征固定地表达长期/一般偏好； 3) GRU 捕捉了短期反馈数据的序列性并参与注意力机制赋权，GRU 层输入数据的顺序相关性的强弱会影响注意力机制赋予序列性表示的权重，进而准确表达了用户的序列性偏好； 4) 在数据集上实验的评价指标整体优于主流的推荐算法。 1 研究背景 1.1 推荐系统的一般任务通常来说，推荐系统的一般模型可以用以下形式表达，如图 1 所示。综合偏好表示 u comp 偏好得分su j Output Embedding 稀疏输入用户反馈数据序列 Lu user u item 1 item 2 item m 候选 item j v3j u 推荐模型 … … 图 1 推荐系统一般模型的结构 Fig. 1 Structure of general recommendation system model u u Lu u v u j ∈ Lu u Lu v u 3 j ∈ L cand u L cand u u u comp u comp u v u 3 j u v u 3 j 图 1 中，item 表示推荐系统中的项 (item 可以为商品、视频等)，一个用户的反馈数据记录由多个 item 组成，Model 表示推荐模型，推荐系统的任务是将合适的 item 推荐给用户。表示用户的特征表示；表示用户的用户反馈数据序列，由多个 item 组成，为用户的用户反馈数据序列中的一项；表示可能被推荐的候选 item 集合中的某一候选 item；推荐系统基于以上内容，计算用户的综合偏好表示，并通过计算用户对候选 item 的偏好得分，得分越高说明用户越倾向于选择候选 item 。 u L cand u u 通过以上过程，计算用户对候选 item 集中各 item 的偏好得分，最终得到推荐给用户的 item 集合。 1.2 相关工作传统的推荐系统如基于内容推荐和协同过滤推荐，均是以静态方式对用户反馈数据进行建模，对用户反馈数据的信息提取不够充分。而序列推荐模型将用户反馈数据视为序列，考虑了用户反馈数据的序列性和相互依赖，进而准确估计了用户的偏好[2-4]。在序列推荐模型中，用户反馈数据序列由较长的用户反馈数据组成，使得用户反馈数据序列具有更复杂的依赖特性。对于用户反馈数据序列的处理，其中两个主要的难点[2] 是： 1) 学习高阶顺序依赖高阶顺序依赖在用户反馈数据序列中普遍存在，低阶依赖的可以用马尔科夫模型[5] 或因子分解机[6-7] 解决，高阶顺序依赖由于反馈数据的多级级联，模型往往难以表达。针对此问题，目前主要的两种方案：高阶马尔科夫链模型[8] 和 RNN(recurrent neural network) 模型[9]。但是，高阶马尔可夫链模型因参数数量随阶数呈指数增长，其分析的历史状态有限；而单一的 RNN 模型难以处理具有非严格顺序相关性的用户反馈数据序列。 2) 学习长期顺序依赖长期顺序依赖指序列中彼此远离的用户反馈数据之间的依赖性。文献 [9-10] 分别使用 LSTM (long short-term memory) 和 GRU(gate recurrent unit) 来解决这个问题。但是，单一的 RNN 模型依赖于序列中相邻项的强相关性，对于弱相互依赖性和非严格顺序相关性的数据处理表现不佳。文献 [11] 通过利用混合模型的优势，将具有不同时间范围的多个子模型组合在一起，以捕获短期和长期依赖关系。而注意力机制考虑了用户反馈数据之间的联系却不依赖于数据的相邻关系，阿里 ·354· 智能系统学报第 16 卷

第2期鲍维克，等：面向推荐系统的分期序列自注意力网络 ·355· Deep Interest NetworkNext Item Recommenda- 反映了用户的长期/一般偏好，短期用户反馈数据 tion with Self-Attention Sequential Recommender Lt反映了用户近期的短期偏好和序列性偏好。 System Based on Hierarchical Attention Networks4 举例来说，用户A是个运动爱好者，平时喜欢购等，通过注意力机制，模型能够计算出用户反馈买一些运动设备，有一天，用户A由于手机损坏数据的相对权重以动态捕捉重点信息，进而准确购买了手机和手机保护膜。此时如果基于用户估计了用户的偏好表示。 A的长期/一般偏好，推荐系统会更偏向于给用户 A推荐运动相关的item,而如果基于用户A的短 2分期序列自注意力网络期偏好，推荐系统则会偏向于给用户A推荐手机本文提出了一种分期序列自注意力网络(log 相关的item,考虑到用户A短期购买日志（先后购 term short-term sequential self-attention network, 买手机和手机保护膜)的序列性，推荐系统则可 LSSSAN)进行序列推荐。能会向用户A推荐手机保护壳。 2.1问题表述 LSSSAN基于以上内容，估计用户的综合偏在基于LSSSAN的推荐系统中：u表示用户u 好，并利用用户“的综合偏好计算用户u对候选的特征表示；L.表示用户u的用户反馈数据序项item的偏好得分，得分越高说明用户u越列，如用户点击、购买的item序列；∈L.表示用倾向于选择候选项item。户u的用户反馈数据序列L.中的一项item;L 2.2模型结构表示可能被推荐的候选item集合；，∈Ld表示在序列推荐的场景中，用户偏好往往有以下候选item集合Ld中的一项。的特点：1)用户反馈数据往往是长序列，用户反文献[6,9]表明短期反馈数据对推荐结果有馈数据存在着复杂的相互依赖关系；2)短期用着重要影响，结合长期和短期反馈数据能够准确户反馈数据和其表达的序列性，影响推荐结果反映用户的综合偏好；文献[14]的工作利用用户的重要因素；3)相同的item,在不同的候选长期反馈数据充分表达了用户的长期/一般偏好， item集合或不同的用户下，对于推荐结果有不同并结合短期反馈数据表达的短期偏好准确估计了的影响；4)在考虑不同的item对于结果的影响用户的综合偏好。基于此，本文将用户反馈数据时，应对不同的item赋予不同的权重以动态捕 L.划分为用户长期反馈数据Ls和用户短期反捉重点信息。馈数据L（(在本文的实验环节，将一天内的反馈基于此，本文设计了LSSSAN模型，网络结构数据为短期反馈数据)。长期用户反馈数据L 如图2所示。候选itemjv 来Output-偏好得分s 综合偏好表示即■ 注意力权重向量即一注意力层：提取综合偏好 Context 序列性偏好表示。长期偏好表示一 GRUGRUGRU 自注意力层：提取长期偏好 GRU层 Embedding 提取序列性偏好 … ■… 稀疏输入 user u 2 item m 电aem 2 aem ---……候选item列表用户的长期反馈数据序列用户的短期反馈数据序列 Lang Lon 图2分期序列自注意力网络的结构 Fig.2 Structure of LSSSAN Embedding层：对用户、可能被推荐的候选制，可以为不同的用户反馈数据赋予不同的权 item集合、用户反馈数据的特征的稀疏表示进行重，以动态捕捉重点信息，反映了不同的用户反 embed,.转化为稠密的embedding表示。馈数据对推荐结果影响的差异性。自注意力机制自注意力层：在推荐系统中，应用注意力机是一种特殊的注意力机制，由于在机器翻译领域

Deep Interest Network[12] 、Next Item Recommendation with Self-Attention[13] 、Sequential Recommender System Based on Hierarchical Attention Networks [14] 等，通过注意力机制，模型能够计算出用户反馈数据的相对权重以动态捕捉重点信息，进而准确估计了用户的偏好表示。 2 分期序列自注意力网络本文提出了一种分期序列自注意力网络 (longterm & short-term sequential self-attention network, LSSSAN) 进行序列推荐。 2.1 问题表述 u u Lu u v u j ∈ Lu u Lu L cand u v u 3 j ∈ L cand u L cand u 在基于 LSSSAN 的推荐系统中：表示用户的特征表示；表示用户的用户反馈数据序列，如用户点击、购买的 item 序列；表示用户的用户反馈数据序列中的一项 item；表示可能被推荐的候选 item 集合；表示候选 item 集合中的一项。 Lu L long u L short u L long u 文献 [6, 9] 表明短期反馈数据对推荐结果有着重要影响，结合长期和短期反馈数据能够准确反映用户的综合偏好；文献 [14] 的工作利用用户长期反馈数据充分表达了用户的长期/一般偏好，并结合短期反馈数据表达的短期偏好准确估计了用户的综合偏好。基于此，本文将用户反馈数据划分为用户长期反馈数据和用户短期反馈数据 (在本文的实验环节，将一天内的反馈数据为短期反馈数据)。长期用户反馈数据 L short u 反映了用户的长期/一般偏好，短期用户反馈数据反映了用户近期的短期偏好和序列性偏好。举例来说，用户 A 是个运动爱好者，平时喜欢购买一些运动设备，有一天，用户 A 由于手机损坏，购买了手机和手机保护膜。此时如果基于用户 A 的长期/一般偏好，推荐系统会更偏向于给用户 A 推荐运动相关的 item，而如果基于用户 A 的短期偏好，推荐系统则会偏向于给用户 A 推荐手机相关的 item，考虑到用户 A 短期购买日志 (先后购买手机和手机保护膜) 的序列性，推荐系统则可能会向用户 A 推荐手机保护壳。 u u v cand 3 j u v cand 3 j LSSSAN 基于以上内容，估计用户的综合偏好，并利用用户的综合偏好计算用户对候选项 item 的偏好得分，得分越高说明用户越倾向于选择候选项 item 。 2.2 模型结构在序列推荐的场景中，用户偏好往往有以下的特点：1) 用户反馈数据往往是长序列，用户反馈数据存在着复杂的相互依赖关系；2) 短期用户反馈数据和其表达的序列性，影响推荐结果的重要因素； 3 ) 相同的 item，在不同的候选 item 集合或不同的用户下，对于推荐结果有不同的影响；4) 在考虑不同的 item 对于结果的影响时，应对不同的 item 赋予不同的权重以动态捕捉重点信息。基于此，本文设计了 LSSSAN 模型，网络结构如图 2 所示。候选 item j v3j u 综合偏好表示 u comp 长期偏好表示 u long Context Output 注意力权重向量 α comp u 注意力层: 提取综合偏好自注意力层: 提取长期偏好 Embedding 稀疏输入序列性偏好表示 u seq GRU GRU GRU … … … … item 1 item 2 item … m item t+1 item t+2 item t+n GRU 层: 提取序列性偏好 list L user u 候选 item 列表 Lu cand 用户的长期反馈数据序列 Lu long 用户的短期反馈数据序列 Lu short 偏好得分su j 图 2 分期序列自注意力网络的结构 Fig. 2 Structure of LSSSAN Embedding 层：对用户、可能被推荐的候选 item 集合、用户反馈数据的特征的稀疏表示进行 embed，转化为稠密的 embedding 表示。自注意力层：在推荐系统中，应用注意力机制，可以为不同的用户反馈数据赋予不同的权重，以动态捕捉重点信息，反映了不同的用户反馈数据对推荐结果影响的差异性。自注意力机制是一种特殊的注意力机制，由于在机器翻译领域第 2 期鲍维克，等：面向推荐系统的分期序列自注意力网络 ·355·

·356· 智能系统学报第16卷的成功表现，自注意力机制逐渐走入研究者们的式(I)和(2)中的，We∈Rd=Wx∈Rd分别视野。自注意力机制在动态赋权的同时，捕捉为Query和Key非线性表示层的权重参数，了用户反馈数据之间的相互依赖，并且自注意力 ReLU(~在本模型中表示Leaky_ReLU激励函数，机制在长序列的数据上表现出色。文献[13]的工 Q和K分别表示Query和Key的非线性表示。作将自注意力机制应用于从用户短期反馈数据上 Leaky_ReLU是ReLU的变体，解决了ReLU函数提取用户的短期偏好，但这项工作忽视了用户长进入负区间后，导致神经元不学习的问题。期反馈数据在序列推荐中的作用，同时自注意力 Rlon=softmax OKT 机制对短期反馈数据的序列性分析不足。基于 (3) va 此，本文考虑将自注意力机制应用于用户长期反式中：RnERNXN为Q和K的关联矩阵表示，并馈数据，结合用户和候选item集作为上下文，得作为自注意力层的注意力矩阵。V用以缩放点到用户长期/一般偏好的表示。积，使得softmax函数的梯度不容易因为d过大本模型的自注意力层以候选item集合L。的embedding平均表示IeR(其中R表示实数而趋近于零。集)、用户u的embedding表示u∈R、用户长期 Ylons Rlons Ylong (4) 反馈序列LS ER为输入（其中Lo|表示用式中Rs作为注意力矩阵和联合向量X相乘得户长期反馈序列的item序列长度，d表示embed: 到了加权输出Xas∈Rxd。 ding维度，也是全局的维度参数)，输出用户长期/ 一般偏好的表示o。自注意力层模型的结构如 (5) 图3所示。式中，对Xas聚合（如sum、max,这里采用均值），长期偏好表示og 聚合得到了用户长期/一般偏好的表示ams∈R。注意力矩阵R GRU(gate recurrent unit)层：与利用自注意力 Softmax 层提取用户长期反馈数据之间的相互依赖不同， Value Scale&Mask 用户短期反馈数据的重点是提取用户短期反馈数据中的序列性偏好。GRU是RNN的一种，解决了长期记忆和反向传播中的梯度等问题，且易于计算161。模型将用户短期反馈数据Lhr输入非线性层非线性层 GRU,计算得到短期反馈数据表现出用户的序列 Embedding 性偏好表示u。模型GRU层的公式化表示如下：稀疏输人■51■m2… j=(W:[h1,v2) (6) 候选item列表用户的长期反馈数据序列 r=o(W,h-1,2) (7) Lins h,=tanh(W:rj*h1.v2) (8) 图3自注意力层的结构 Fig.3 Structure of self-attention net hj=(1-zj)*h+zj*hj (9) 图3中X=[l,u,Lo]表示I、u、Lo的联合 yj=(W.hj) (10) 向量。Xae∈Rwd,其中N=|Za|+2为Xs的长 u=y (11) 度。1、u作为上下文和L联合，动态地表示了式中：”2，∈Lt为用户短期反馈数据序列中的第长期信息，即相同的用户反馈数据，在不同的候 j项；h,表示GRU网络中第j个单元的hidden 选item集或用户的情况下，会对推荐结果产生不 state;or和tanh()分别表示Sigmoid激活函数和同影响。图3中Query、Key、Value表示注意力机制中的查询、索引、需被注意力机制加权的数 tanh激活函数。式(6)中，z为update gate项且W 据。在本文的自注意力模型中，Q=K=V=Xh 为update gate权重；式(T)中，r)为reset gate项且即Query、Key、Value均表示Xa。自注意力层模 W,为reset gate权重；式(8)中，h;为hidden state 型的公式化表达如下：的重置项且W:为其权重；式(1O)中，y,表示GU 网络中第广个单元的输出，W。为输出权重；式 '=ReLU(XlmEW) (1) (I1)中，L表示用户短期反馈数据序列Lm的 K'=ReLU(XMEWx) (2) 长度，表示最后的GRU的输出，即模型的

的成功表现，自注意力机制逐渐走入研究者们的视野[15]。自注意力机制在动态赋权的同时，捕捉了用户反馈数据之间的相互依赖，并且自注意力机制在长序列的数据上表现出色。文献 [13] 的工作将自注意力机制应用于从用户短期反馈数据上提取用户的短期偏好，但这项工作忽视了用户长期反馈数据在序列推荐中的作用，同时自注意力机制对短期反馈数据的序列性分析不足。基于此，本文考虑将自注意力机制应用于用户长期反馈数据，结合用户和候选 item 集作为上下文，得到用户长期/一般偏好的表示。 L cand u l ∈ R 1×d R u u ∈ R 1×d L long u ∈ R|L long u |×d L long u d u long 本模型的自注意力层以候选 item 集合的 embedding 平均表示 (其中表示实数集)、用户的 embedding 表示、用户长期反馈序列为输入 (其中表示用户长期反馈序列的 item 序列长度，表示 embedding 维度，也是全局的维度参数)，输出用户长期/ 一般偏好的表示。自注意力层模型的结构如图 3 所示。 Q′ K′ 非线性层非线性层候选 item 列表 Lu cand 用户的长期反馈数据序列 Lu long list L user u item 1 item 2 item m Embedding 稀疏输入 Query Key Xu long Softmax Value Scale&Mask … … … Xu ′long 聚合长期偏好表示 u long 注意力矩阵 R long u … … 图 3 自注意力层的结构 Fig. 3 Structure of self-attention net X long u = [l,u, L long u ] l u L long u X long u ∈ R N×d N = L long u +2 X long u l u L long u Q = K = V = X long u X long u 图 3 中表示、、的联合向量。，其中为的长度。、作为上下文和联合，动态地表示了长期信息，即相同的用户反馈数据，在不同的候选 item 集或用户的情况下，会对推荐结果产生不同影响。图 3 中 Query、Key、Value 表示注意力机制中的查询、索引、需被注意力机制加权的数据。在本文的自注意力模型中，即 Query、Key、Value 均表示。自注意力层模型的公式化表达如下： Q ′ = ReLU( X long u WQ ) (1) K ′ = ReLU( X long u WK ) (2) WQ ∈ R d×d = WK ∈ R d×d ReLU(·) Q ′ K ′ 式 (1) 和 (2) 中的，分别为 Quer y 和 K e y 非线性表示层的权重参数，在本模型中表示 Leaky_ReLU 激励函数, 和分别表示 Query 和 Key 的非线性表示。 Leaky_ReLU 是 ReLU 的变体，解决了 ReLU 函数进入负区间后，导致神经元不学习的问题。 R long u = softmax( Q ′K ′T √ d ) (3) R long u ∈ R N×N Q ′ K ′ √ d d 式中：为和的关联矩阵表示，并作为自注意力层的注意力矩阵。用以缩放点积，使得 softmax 函数的梯度不容易因为过大而趋近于零。 X ′long u = R long u X long u (4) R long u X long u X ′long u ∈ R N×d 式中作为注意力矩阵和联合向量相乘得到了加权输出。 u long = 1 N ∑N j=1 X ′ u jlong (5) X ′long u u long ∈ R 1×d 式中，对聚合 (如 sum、max，这里采用均值)，得到了用户长期/一般偏好的表示。 L short u u seq GRU(gate recurrent unit) 层：与利用自注意力层提取用户长期反馈数据之间的相互依赖不同，用户短期反馈数据的重点是提取用户短期反馈数据中的序列性偏好。GRU 是 RNN 的一种，解决了长期记忆和反向传播中的梯度等问题，且易于计算[ 1 6 ]。模型将用户短期反馈数据输入 GRU，计算得到短期反馈数据表现出用户的序列性偏好表示。模型 GRU 层的公式化表示如下： zj = σ ( Wz [ hj−1, v2 j ]) (6) rj = σ ( Wr [ hj−1, v2 j ]) (7) h˜ j = tanh( Wh˜ [ rj∗hj−1 , v2 j ]) (8) hj = ( 1− zj ) ∗ hj−1 + zj ∗ h˜ j (9) yj = σ ( Wohj ) (10) u seq = y|Lshort u | (11) v2 j ∈ L short u hj σ(·) tanh(·) zj Wz rj Wr h˜ j Wh˜ yj Wo L short u L short u y|Lshort u | 式中：为用户短期反馈数据序列中的第 j 项；表示 GRU 网络中第 j 个单元的 hidden state；和分别表示 Sigmoid 激活函数和 tanh 激活函数。式 (6) 中，为 update gate 项且为 update gate 权重；式 (7) 中，为 reset gate 项且为 reset gate 权重；式 (8) 中，为 hidden state 的重置项且为其权重；式 (10) 中，表示 GRU 网络中第 j 个单元的输出，为输出权重；式 (11) 中，表示用户短期反馈数据序列的长度，表示最后的 GRU 的输出，即模型的 ·356· 智能系统学报第 16 卷

第2期鲍维克，等：面向推荐系统的分期序列自注意力网络 ·357· GRU层的输出仅存在于最后的GRU,且为用户的系对，一个用户下item之间的偏序关系形成偏序序列性偏好表示w∈R。矩阵，遍历用户集建立预测排序矩阵，BPR方法注意力层：前面由自注意力层、GRU层得到对预测排序矩阵分解生成用户矩阵和item矩阵，了长期/一般偏好toa和序列性偏好u。需要注用户矩阵和item矩阵相乘可以得到用户对每个意的是，反馈数据中往往存在非严格顺序相关 item偏好程度。利用BPR方法生成低偏好程度性，会对GU层的结果产生影响。因此，u 的负样本集，大小与正样本集等同，参与训练。需要联合uoa、Lat参与注意力机制进行动态赋模型的Loss函数定义如下：权，由于GRU层输入的短期反馈数据的顺序相关 gmm∑-hc(化-t 性强弱会影响注意力机制赋予的权重，进而 (16) 准确表达了序列性偏好。同时由于联合了L, Io.P+aleaIP+aloal 从结构上赋予了相对重要的短期反馈数据更高的式中：D表示用户、正样本、负样本构造的训练权重。用户的长期/一般偏好表示g、用户的序集；s表示用户u对正样本候选itemj的偏好得列性偏好表示u、用户短期反馈数据序列Lan 分；sk表示用户u对负样本候选itemk的偏好得这三项联合为Xop=[uons,Lh,uq],Xep∈RMxd 分；()表示sigmoid函数。第一个加号后的3项其中M=La+2为Xmp的长度。Xoap输入注为正则项，o.表示embedding层的权重参数；oA 意力层最终得到了用户的综合偏好的表示表示自注意力层和注意力层的权重参数；O表示GRU u即。注意力层模型的公式化表示如下：层的权重参数，入、4、入为对应的正则项系数。 hcomP =ReLU(XOMPWA+BA) (12) 3实验分析式中：Wa∈R和bA∈R为注意力层的权重参数，这里”+”表示XPWa的每一行都和ba相 3.1实验概述加，由式(11)得到了homPERMxd,he即为Xp的数据集：本文选择Tmall数据集9和Gowalla 非线性表示：数据集2o为模型进行训练和测试，其中Tmall数 aomp=softmax(uomhcom (13) 据集是在中国最大电商平台Tmall.com场景下的式中：wog作为注意力层的上下文向量(context 用户行为日志数据集，Gowalla数据集是在社交签 vector),使用softmax函数联合hp计算得到了到类应用Gowalla场景下的用户行为日志数据集。 Xop的注意力权重向量aop∈Rw1: 在实验过程中，仅考虑7个月内在两个数据 ucomp=(omPTXcomp 集上生成的数据，并将1天内的用户反馈数据视 (14) 由式(14)得到的注意力权重向量a即对为表示短期反馈数据序列。 Xp加权求和，最终得到了用户u的综合偏好的评价指标：选择召回率(Recall)和AUC作为表示noap∈R1d。评价指标。召回率表示为用户推荐偏好程度排序 2.3模型的参数学习前N项的样本为预测的正样本，计算被正确预测的正样本在原始正样本集中比例；而AUC衡量了由模型的前向传递得到了用户综合偏好的表示u卿，现在用内积方法如式(15)所示，表示模型对样本正确排名的能力。 uomp和候选itemv3∈Lad的相似度，以表示用户方法对比：与其他先进模型在Tmall数据集 u对候选item,的偏好得分sa: 和GowalIa数据集上的表现为对比681-412以 =ucomp.V3j (15) 其他文献在Tmall数据集和Gowalla数据集上给在隐反馈的推荐系统场景中，用户往往没有出的实验数据，或在Tmall数据集和Gowalla数据对item的具体评分，而只是交互记录。这种情况集复现的结果为准)，以验证模型的有效性：1)BPR 下，推荐系统只有正样本而缺乏负样本，模型的是一种基于矩阵分解的方法，BPR方法对user- 训练效果会因此受到影响。 item偏序关系矩阵分解得到user矩阵和item矩可以简单地将与用户没有交互记录的item作阵，user矩阵×item矩阵得到用户对每个item偏好为用户的负样本，从而构造负样本集。而模型只程度，依据偏好程度排序得到推荐列表；2)FOSSIL 需要和正样本集差不多大的负样本集，这种做法利用马尔科夫链估计用户的短期和长期偏好；会造成负样本集庞大，且负样本集的质量低下。 3)HRM对用户偏好进行层次表示，捕获用户的长 BPR方法是一种基于矩阵分解的方法，一期/一般偏好和短期偏好；4)FPMC通过矩阵分对用户交互与未交互的两个item项构成偏序关解、马尔科夫链提取序列信息，以估计用户偏好

u seq ∈ R 1×d GRU 层的输出仅存在于最后的 GRU，且为用户的序列性偏好表示。 u long u seq u seq u seq u long L short u u seq L short u u long u seq L short u X comp u = [u long , L short u ,u seq] X comp u ∈ R M×d M = L short u +2 X comp u X comp u u u comp 注意力层：前面由自注意力层、GRU 层得到了长期/一般偏好和序列性偏好。需要注意的是，反馈数据中往往存在非严格顺序相关性，会对 GRU 层的结果产生影响。因此，需要联合、参与注意力机制进行动态赋权，由于 GRU 层输入的短期反馈数据的顺序相关性强弱会影响注意力机制赋予的权重，进而准确表达了序列性偏好。同时由于联合了，从结构上赋予了相对重要的短期反馈数据更高的权重。用户的长期/一般偏好表示、用户的序列性偏好表示、用户短期反馈数据序列这三项联合为，其中为的长度。输入注意力层最终得到了用户的综合偏好的表示。注意力层模型的公式化表示如下： h comp u = ReLU(X comp u WA + bA) (12) WA ∈ R d×d bA ∈ R 1×d ”+” X comp u WA bA h comp u ∈ R M×d h comp u X comp u 式中：和为注意力层的权重参数，这里表示的每一行都和相加，由式 (11) 得到了，为的非线性表示： α comp u = softmax(( u long)T h comp u ) (13) u long h comp u X comp u α comp u ∈ R M×1 式中：作为注意力层的上下文向量 (context vector)，使用 softmax 函数联合计算得到了的注意力权重向量： u comp = (α comp u ) TX comp u (14) α comp u X comp u u u comp ∈ R 1×d 由式 (14) 得到的注意力权重向量对加权求和，最终得到了用户的综合偏好的表示。 2.3 模型的参数学习 u comp u comp v3 j ∈ L cand u u v3 j s j u 由模型的前向传递得到了用户综合偏好的表示，现在用内积方法如式 (15) 所示，表示和候选 item 的相似度，以表示用户对候选 item 的偏好得分： s j u = u comp · v3 j (15) 在隐反馈的推荐系统场景中，用户往往没有对 item 的具体评分，而只是交互记录。这种情况下，推荐系统只有正样本而缺乏负样本，模型的训练效果会因此受到影响[17]。可以简单地将与用户没有交互记录的 item 作为用户的负样本，从而构造负样本集。而模型只需要和正样本集差不多大的负样本集，这种做法会造成负样本集庞大，且负样本集的质量低下。 BPR 方法[18] 是一种基于矩阵分解的方法，一对用户交互与未交互的两个 item 项构成偏序关系对，一个用户下 item 之间的偏序关系形成偏序矩阵，遍历用户集建立预测排序矩阵，BPR 方法对预测排序矩阵分解生成用户矩阵和 item 矩阵，用户矩阵和 item 矩阵相乘可以得到用户对每个 item 偏好程度。利用 BPR 方法生成低偏好程度的负样本集，大小与正样本集等同，参与训练。模型的 Loss 函数定义如下： arg min Θ ∑ {u, j,k}∈D −lnσ ( s j u − s ′ u k ) + λe∥Θe∥ 2 +λA∥ΘA∥ 2 +λseq Θseq 2 (16) D s j u u s ′ u k u σ(·) Θe ΘA Θseq λe λA λseq 式中：表示用户、正样本、负样本构造的训练集；表示用户对正样本候选 item j 的偏好得分；表示用户对负样本候选 item k 的偏好得分；表示 sigmoid 函数。第一个加号后的 3 项为正则项，表示 embedding 层的权重参数；表示自注意力层和注意力层的权重参数；表示GRU 层的权重参数，、、为对应的正则项系数。 3 实验分析 3.1 实验概述数据集：本文选择 Tmall 数据集[19] 和 Gowalla 数据集[20] 为模型进行训练和测试，其中 Tmall 数据集是在中国最大电商平台 Tmall.com场景下的用户行为日志数据集，Gowalla 数据集是在社交签到类应用 Gowalla 场景下的用户行为日志数据集。在实验过程中，仅考虑 7 个月内在两个数据集上生成的数据，并将 1 天内的用户反馈数据视为表示短期反馈数据序列。评价指标：选择召回率 (Recall) 和 AUC 作为评价指标。召回率表示为用户推荐偏好程度排序前 N 项的样本为预测的正样本，计算被正确预测的正样本在原始正样本集中比例；而 AUC 衡量了模型对样本正确排名的能力。方法对比：与其他先进模型在 Tmall 数据集和 Gowalla 数据集上的表现为对比[6, 8, 13-14, 18, 21] (以其他文献在 Tmall 数据集和 Gowalla 数据集上给出的实验数据，或在 Tmall 数据集和 Gowalla 数据集复现的结果为准)，以验证模型的有效性：1) BPR 是一种基于矩阵分解的方法，BPR 方法对 useritem 偏序关系矩阵分解得到 user 矩阵和 item 矩阵，user 矩阵×item 矩阵得到用户对每个 item 偏好程度，依据偏好程度排序得到推荐列表；2) FOSSIL 利用马尔科夫链估计用户的短期和长期偏好； 3) HRM 对用户偏好进行层次表示，捕获用户的长期/一般偏好和短期偏好；4) FPMC 通过矩阵分解、马尔科夫链提取序列信息，以估计用户偏好，第 2 期鲍维克，等：面向推荐系统的分期序列自注意力网络 ·357·

·358· 智能系统学报第16卷最后以线性方式计算得到推荐列表；5)AttRec利 0.80 □BPR 用自注意力机制在分析用户短期反馈数据之间的 0.75 □FOSSIL 相互依赖的同时，动态提取了用户的短期偏好； □HRM 0.70 □FPMC 6)SHAN利用注意力机制对长期和短期反馈数据 □AttRec 0.65 建模，准确表达了用户的长期/一般偏好；7)LS$ ■SHAN ■LSSSAN SAN是本文的模型，利用自注意力机制和上下文估计长期/一般偏好，利用GU分析短期反馈数 0.55 据表现出的序列性偏好，并综合长期/一般偏好和 0.50 短期反馈数据序列参与注意力机制加权得到用户 0.45 的综合偏好；8)LSSSAN1和LSSSAN2为本模型消融实验的对照，LSSSAN1表示LSSSAN模型消 0.40 不同方法去自注意力层后的模型（同时将长期反馈数据接 (a)Tmall上的AUc 入注意力层，自注意力层的上下文向量接入注意 1.00 □BPR 力层)，LSSSAN2表示消去GRU层的模型。 □FOSSIL 0.95 3.2方法对比 □HRM 图4和图5展示了以召回率(N为10~60)和 □FPMC 0.90 ☐AttRec AUC为评价指标，各方法在Tmall数据集和 ■SHAN Gowalla数据集上的表现。 05 ■LSSSAN 0.25r BPR +FPMC 0.80 FOSSIL◆AttRec 0.20 ◆HRM ◆SHAN 0.75 -LSSSAN 0.15 0.70 阳不同方法 (b)Gowalla上的AUC 0.10 图5各方法在Tmall和Gowalla数据集上表现的对比 Fig.5 Performancecomparsion of methods on Tmall and 0.05 Gowalla datasets I)LSSSAN在整体上优于基于自注意力的 20 30 40 50 60 AttRec模型，LSSSAN在Tmall数据集上召回率 (a)Tmall上的召回率 (WN为20)和AUC分别为0.126、0.797，在Gowalla 0.8 上两个指标分别为0.461、0.982。相比AttRec模 BPR +FPMC 0.7 FOSSIL◆AttRec 型，LSSSAN在两个数据集上指标召回率(N为 ◆HRM SHAN 0.6 -LSSSAN 20)分别提升了6.07%和20.49%，在两个数据集上AUC指标分别提升了10.45%和0.81%。表明解0.5 相比AttRec模型固定表达用户的长期/一般偏好 0.4 忽视序列性偏好，LSSSAN的Self-Attenion层从长 0.3 期反馈数据中提取了用户的长期/一般偏好、 0.2 GRU层从短期反馈数据中提取了用户的序列性 0.1 偏好、并从结构上赋予了短期反馈更高的权重，对推荐结果更有利。 0 0 20 30 40.5060 2)LSSSAN在Gowalla数据集上的表现整体 (b)Gowalla上的召回率优于SHAN模型，在Tmall数据集上的表现与 SHAN模型相比各有优劣。LSSSAN在Gowalla 图4各方法在Tmall和Gowalla数据集上表现的对比 Fig.4 Performance comparsion of methods on Tmall and 数据集上指标召回率(N为20)和AUC分别提升 Gowalla datasets 了1.51%和0.37%，在Tmall数据集上指标AUC

最后以线性方式计算得到推荐列表；5) AttRec 利用自注意力机制在分析用户短期反馈数据之间的相互依赖的同时，动态提取了用户的短期偏好； 6) SHAN 利用注意力机制对长期和短期反馈数据建模，准确表达了用户的长期/一般偏好；7) LSSSAN 是本文的模型，利用自注意力机制和上下文估计长期/一般偏好，利用 GRU 分析短期反馈数据表现出的序列性偏好，并综合长期/一般偏好和短期反馈数据序列参与注意力机制加权得到用户的综合偏好；8) LSSSAN1 和 LSSSAN2 为本模型消融实验的对照，LSSSAN1 表示 LSSSAN 模型消去自注意力层后的模型 (同时将长期反馈数据接入注意力层，自注意力层的上下文向量接入注意力层)，LSSSAN2 表示消去 GRU 层的模型。 3.2 方法对比图 4 和图 5 展示了以召回率 (N 为 10~60) 和 AUC 为评价指标，各方法在 Tmall 数据集和 Gowalla 数据集上的表现。 BPR FOSSIL HRM FPMC AttRec SHAN LSSSAN BPR FOSSIL HRM FPMC AttRec SHAN LSSSAN 0.25 0.20 0.15 0.10 0.05 0 召回率召回率 10 20 30 40 50 60 N 10 20 30 40 50 60 N (a) Tmall 上的召回率 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 (b) Gowalla 上的召回率图 4 各方法在 Tmall 和 Gowalla 数据集上表现的对比 Fig. 4 Performance comparsion of methods on Tmall and Gowalla datasets 0.80 0.75 0.70 0.65 0.60 0.55 0.50 0.45 0.40 AUC 0.95 1.00 0.90 0.85 0.80 0.75 0.70 AUC BPR FOSSIL HRM FPMC AttRec SHAN LSSSAN BPR FOSSIL HRM FPMC AttRec SHAN LSSSAN 不同方法 (a) Tmall 上的 AUC 不同方法 (b) Gowalla 上的 AUC 图 5 各方法在 Tmall 和 Gowalla 数据集上表现的对比 Fig. 5 Performancecomparsion of methods on Tmall and Gowalla datasets 1) LSSSAN 在整体上优于基于自注意力的 AttRec 模型，LSSSAN 在 Tmall 数据集上召回率 (N 为 20) 和 AUC 分别为 0.126、0.797，在 Gowalla 上两个指标分别为 0.461、0.982。相比 AttRec 模型，LSSSAN 在两个数据集上指标召回率 (N 为 20) 分别提升了 6.07% 和 20.49%，在两个数据集上 AUC 指标分别提升了 10.45% 和 0.81%。表明相比 AttRec 模型固定表达用户的长期/一般偏好、忽视序列性偏好，LSSSAN 的 Self-Attenion 层从长期反馈数据中提取了用户的长期 /一般偏好、 GRU 层从短期反馈数据中提取了用户的序列性偏好、并从结构上赋予了短期反馈更高的权重，对推荐结果更有利。 2) LSSSAN 在 Gowalla 数据集上的表现整体优于 SHAN 模型，在 Tmall 数据集上的表现与 SHAN 模型相比各有优劣。LSSSAN 在 Gowalla 数据集上指标召回率 (N 为 20) 和 AUC 分别提升了 1.51% 和 0.37%，在 Tmall 数据集上指标 AUC ·358· 智能系统学报第 16 卷

第2期鲍维克，等：面向推荐系统的分期序列自注意力网络 ·359· 分别提升了1.48%，而在Tmall数据集上指标召回表1消融实验对照表率(N为20)落后于SHAN模型14.6%。其原因是 Table 1 Results table of ablation study Gowalla数据集用户反馈数据之间的相互依赖和数据集方法 AUC 召回率顺序相关性比Tmal数据集严格，本文模型相比 LSSSAN 0.797 0.126 SHAN模型利用自注意力机制和GRU着重捕捉 Tmall LSSSANI 0.619 0.092 了用户反馈数据之间的相互依赖和序列性，因此 LSSSAN2 0.790 0.130 在Gowalla上LSSSAN的表现整体优于SHAN模型，而在Tmall数据集上的表现的稳定性不如 LSSSAN 0.982 0.461 SHAN模型。同时文献[22]也表明，对于相互依 Gowalla LSSSANI 0.811 0.282 赖和序列性强的签到类型数据集，结合GU的模 LSSSAN2 0.979 0.457 型有较好的效果。综上所述，相比SHAN对长期数据的相互依赖分析不足、忽视序列性偏好， LSSSAN1为LSSSAN消去自注意力层后的 LSSSAN的Self-Attenion层分析了长期数据的相模型，在两个数据集上表现不佳。相比LSSSAN、互依赖、GRU层提取了序列性偏好，在推荐结果 LSSSAN1在两个数据集上指标召回率(N为20) 上具有更好的表现。分别降低了26.98%和38.83%，其原因主要是消 3.3消融实验去自注意力层后模型缺乏对长期/一般偏好的表图6和表1展示了消融实验在Tmall和Gowalla 达，也降低了相对重要的短期反馈数据在模型中数据集上的对照数据。的权重。 0.20 LSSSAN2为LSSSAN消去GRU层后的模 -LSSSAN LSSSANI 型，LSSSAN2在Gowalla上的两个指标相比LSS- 0.18 LSSSAN2 SAN分别降低了0.87%、0.31%，LSSSAN2在 0.16 Tmall上的AUC相比LSSSAN降低了0.89%，虽解0.14 然LSSSAN2在Tmall数据集上指标召回率(N为 00.12 20)相比LSSSAN提升了3.17%，但由图6可以观察到LSSSAN2在Tmall数据集上的整体表现稍 0.10 劣于LSSSAN。以LSSSAN为基准，消去GRU层 0.08 的LSSSAN2在Tmall数据集上的表现优于其在 Gowalla的表现，其原因是Tmall数据集的顺序相 0.06 10 20 30 4050 60 关性和相互依赖性不如Gowalla数据集严格。而 (a)Tmall上的召回率 LSSSAN与LSSSAN2相比，N参数较大时指标召 0.7 回率较稳定，此时对推荐结果而言，GRU层提取 -LSSSAN LSSSANI 序列性偏好的优势会大于GU层受非严格顺序 0.6 ·LSSSAN2 相关性和弱相互依赖性的影响而不稳定的劣势。当数据集表现出明显的非严格顺序相关性和弱相 0.5 互依赖性时，可以考虑以消去GRU层后的LSS 0.4 SAN作为推荐模型的候选。至此，消融实验验证了模型的GU层和自注 0.3 意力层发挥的重要作用。 0.2 3.4超参数分析全局维度参数d反映了模型embedding和表 0.14 10 2030405060 示层的维度，图7反映了在Tmall和Gowalla数据 N (b)Gowalla上的召回率集上维度参数d对模型效果的影响。可以观察到，高维度的表示可以更精确地表达用户和item, 图6 LSSSAN在Tmall和Gowalla数据集上的消融实验对照并有助于和模型之间的信息交互。在实验中，本 Fig.6 Ablation study of LSSSAN on Tmall and Gowalla 模型权衡计算成本和模型精度，设置维度参数 Datasets d=80

分别提升了 1.48%，而在 Tmall 数据集上指标召回率 (N 为 20) 落后于 SHAN 模型 14.6%。其原因是 Gowalla 数据集用户反馈数据之间的相互依赖和顺序相关性比 Tmall 数据集严格，本文模型相比 SHAN 模型利用自注意力机制和 GRU 着重捕捉了用户反馈数据之间的相互依赖和序列性，因此在 Gowalla 上 LSSSAN 的表现整体优于 SHAN 模型，而在 Tmall 数据集上的表现的稳定性不如 SHAN 模型。同时文献 [22] 也表明，对于相互依赖和序列性强的签到类型数据集，结合 GRU 的模型有较好的效果。综上所述，相比 SHAN 对长期数据的相互依赖分析不足、忽视序列性偏好， LSSSAN 的 Self-Attenion 层分析了长期数据的相互依赖、GRU 层提取了序列性偏好，在推荐结果上具有更好的表现。 3.3 消融实验图 6 和表 1 展示了消融实验在 Tmall 和 Gowalla 数据集上的对照数据。 LSSSAN LSSSAN1 LSSSAN2 LSSSAN LSSSAN1 LSSSAN2 0.20 0.18 0.16 0.14 0.12 0.10 0.08 0.06 10 20 30 40 50 60 N 10 20 30 40 50 60 N 召回率召回率 0.7 0.6 0.5 0.4 0.3 0.2 0.1 (b) Gowalla 上的召回率 (a) Tmall 上的召回率图 6 LSSSAN 在 Tmall 和 Gowalla 数据集上的消融实验对照 Fig. 6 Ablation study of LSSSAN on Tmall and Gowalla Datasets 表 1 消融实验对照表 Table 1 Results table of ablation study 数据集方法 AUC 召回率 Tmall LSSSAN 0.797 0.126 LSSSAN1 0.619 0.092 LSSSAN2 0.790 0.130 Gowalla LSSSAN 0.982 0.461 LSSSAN1 0.811 0.282 LSSSAN2 0.979 0.457 LSSSAN1 为 LSSSAN 消去自注意力层后的模型，在两个数据集上表现不佳。相比 LSSSAN、 LSSSAN1 在两个数据集上指标召回率 (N 为 20) 分别降低了 26.98% 和 38.83%，其原因主要是消去自注意力层后模型缺乏对长期/一般偏好的表达，也降低了相对重要的短期反馈数据在模型中的权重。 LSSSAN2 为 LSSSAN 消去 GRU 层后的模型，LSSSAN2 在 Gowalla 上的两个指标相比 LSSSAN 分别降低了 0.87%、0.31%，LSSSAN2 在 Tmall 上的 AUC 相比 LSSSAN 降低了 0.89%，虽然 LSSSAN2 在 Tmall 数据集上指标召回率 (N 为 20) 相比 LSSSAN 提升了 3.17%，但由图 6 可以观察到 LSSSAN2 在 Tmall 数据集上的整体表现稍劣于 LSSSAN。以 LSSSAN 为基准，消去 GRU 层的 LSSSAN2 在 Tmall 数据集上的表现优于其在 Gowalla 的表现，其原因是 Tmall 数据集的顺序相关性和相互依赖性不如 Gowalla 数据集严格。而 LSSSAN 与 LSSSAN2 相比，N 参数较大时指标召回率较稳定，此时对推荐结果而言，GRU 层提取序列性偏好的优势会大于 GRU 层受非严格顺序相关性和弱相互依赖性的影响而不稳定的劣势。当数据集表现出明显的非严格顺序相关性和弱相互依赖性时，可以考虑以消去 GRU 层后的 LSSSAN 作为推荐模型的候选。至此，消融实验验证了模型的 GRU 层和自注意力层发挥的重要作用。 3.4 超参数分析 d d d = 80 全局维度参数反映了模型 embedding 和表示层的维度，图 7 反映了在 Tmall 和 Gowalla 数据集上维度参数对模型效果的影响。可以观察到，高维度的表示可以更精确地表达用户和 item，并有助于和模型之间的信息交互。在实验中，本模型权衡计算成本和模型精度，设置维度参数。第 2 期鲍维克，等：面向推荐系统的分期序列自注意力网络 ·359·

·360· 智能系统学报第16卷 0.5 Tmall Rey,USA,2018:108-116 0.4 Le Gowalla [4]KOREN Y.Collaborative filtering with temporal dynam- ics[C]//Proceedings of the 15th ACM SIGKDD Interna- 邓0.2 tional Conference on Knowledge Discovery and Data Min- 0.1 ing.Paris,France,2009:447-456. 0 10 20 30 40 50 维度 [5]GARCIN F,DIMITRAKAKIS C,FALTINGS B.Person- alized news recommendation with context trees[C]//Pro- 图7维度参数对模型的影响 ceedings of the 7th ACM Conference on Recommender Fig.7 Impact of dimension parameter Systems.Hong Kong,China,2013:105-112. 4结束语 [6]RENDLE S.FREUDENTHALER C.SCHMIDT-THIEME L.Factorizing personalized Markov chains for next-basket LSSSAN相比AttRec方法，利用长期反馈数 recommendation[Cl//Proceedings of the 19th International 据对长期/一般偏好进行准确表达，并从结构上赋 Conference on World Wide Web.Raleigh,USA,2010: 予了相对重要的短期反馈数据更高的权重；相比 811-820. SHAN方法，LSSSAN考虑了序列性偏好和长期 [7]HIDASI B.TIKK D.General factorization framework for 数据中的相互依赖关系。 context-aware recommendations[J].Data mining and 本文在Tmall和Gowalla上对LSSSAN进行 knowledge discovery,2016,30(2):342-371 训练和测试，其效果整体优于其他先进的方案。 [8]HE RUINING,MCAULEY J.Fusing similarity models with Markov chains for sparse sequential recommenda- 且由于Gowalla数据集的反馈数据相互依赖性和 tion[C]//Proceedings of the 2016 IEEE 16th International 顺序相关性严格于Tmall数据集，模型在Gowalla Conference on Data Mining.Barcelona,Spain,2016: 上表现优于在Tmal上的表现，表明模型擅长于 191-200 处理相对严格的相互依赖关系和顺序相关性的数 [9]HIDASI B.KARATZOGLOU A,BALTRUNAS L,et al 据，也表明模型可能会因为数据集数据的弱相互 Session-based recommendations with recurrent neural net- 依赖性和弱顺序相关性而出现不稳定的情况。同 works[Cl//Proceedings of the 4th International Conference 时本文通过消融实验验证了模型结构的合理性， on Learning Representations.San Juan,Puerto Rico,2016: 并给出了当数据出现明显的弱相互依赖性和弱顺 1-10. 序相关性时的候选方案。 [10]WU Chaoyuan,AHMED A,BEUTEL A,et al.Recurrent LSSSAN在实际应用上可为众多互联网应用 recommender networks[C]//Proceedings of the 10th ACM 提供推荐模型，尤其在数据具有强相互依赖性和 International Conference on Web Search and Data Min- 顺序相关性的互联网应用上将会保证可靠的性 ing.Cambridge,UK,2017:495-503. [11]TANG Jiaxi,BELLETTI F,JAIN S,et al.Towards neur- 能；未来的工作会考虑在LSSSAN的基础上尝试采用内存机制以提高性能，并在更多的数据集上 al mixture recommender for long range dependent user sequences[C]//Proceedings of World Wide Web Confer- 测试模型性能。 ence.San Francisco,USA,2019:1782-1793 参考文献： [12]ZHOU Guorui,ZHU Xiaoqiang,SONG Chenru,et al. Deep interest network for click-through rate prediction[Cl/ [1]孙宏超.阿里巴巴发布2020财年第三季度财报：收入增 Proceedings of the 24th ACM SIGKDD International 长38%，年活跃用户达7亿[EB/OL].[2020-02-13] Conference on Knowledge Discovery Data Mining. kuaibao.qq.com/s/20200213A0PEAW00 London,UK,2018:1059-1068. [2]WANG Shoujin,HU Liang,WANG Yan,et al.Sequential [13]ZHANG Shuai,TAY Y,YAO Lina,et al.2019.Next recommender systems:challenges,progress and item recommendation with self-attentive metric prospects[C]//Proceedings of the 28th International Joint learning[C]//Proceedings of the 33rd AAAI Conference Conference on Artificial Intelligence.Macao,China,2019: on Artificial Intelligence.Hawaii,USA,2019:9. 6332-6338 [14]YING Haochao,ZHUANG Fuzhen,ZHANG Fuzheng, [3]XU Chen,XU Hongteng,ZHANG Yongfeng,et al.Se- et al.Sequential recommender system based on hierarch- quential recommendation with user memory ical attention networks[Cl//Proceedings of the 27th Inter- networks[C]//Proceedings of the 11th ACM International national Joint Conference on Artificial Intelligence Conference on Web Search and Data Mining.Marina Del Stockholm.Sweden.2018:3926-3932

Tmall Gowalla 0.5 0.4 0.3 0.2 0.1 召回率 0 20 30 40 50 10 维度图 7 维度参数对模型的影响 Fig. 7 Impact of dimension parameter 4 结束语 LSSSAN 相比 AttRec 方法，利用长期反馈数据对长期/一般偏好进行准确表达，并从结构上赋予了相对重要的短期反馈数据更高的权重；相比 SHAN 方法，LSSSAN 考虑了序列性偏好和长期数据中的相互依赖关系。本文在 Tmall 和 Gowalla 上对 LSSSAN 进行训练和测试，其效果整体优于其他先进的方案。且由于 Gowalla 数据集的反馈数据相互依赖性和顺序相关性严格于 Tmall 数据集，模型在 Gowalla 上表现优于在 Tmall 上的表现，表明模型擅长于处理相对严格的相互依赖关系和顺序相关性的数据，也表明模型可能会因为数据集数据的弱相互依赖性和弱顺序相关性而出现不稳定的情况。同时本文通过消融实验验证了模型结构的合理性，并给出了当数据出现明显的弱相互依赖性和弱顺序相关性时的候选方案。 LSSSAN 在实际应用上可为众多互联网应用提供推荐模型，尤其在数据具有强相互依赖性和顺序相关性的互联网应用上将会保证可靠的性能；未来的工作会考虑在 LSSSAN 的基础上尝试采用内存机制以提高性能，并在更多的数据集上测试模型性能。参考文献：孙宏超. 阿里巴巴发布 2020 财年第三季度财报: 收入增长 38%, 年活跃用户达 7 亿 [EB/OL]. [2020-02-13]. kuaibao.qq.com/s/20200213A0PEAW00 [1] WANG Shoujin, HU Liang, WANG Yan, et al. Sequential recommender systems: challenges, progress and prospects[C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macao, China, 2019: 6332−6338. [2] XU Chen, XU Hongteng, ZHANG Yongfeng, et al. Sequential recommendation with user memory networks[C]//Proceedings of the 11th ACM International Conference on Web Search and Data Mining. Marina Del [3] Rey, USA, 2018: 108−116. KOREN Y. Collaborative filtering with temporal dynamics[C]//Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Paris, France, 2009: 447−456. [4] GARCIN F, DIMITRAKAKIS C, FALTINGS B. Personalized news recommendation with context trees[C]//Proceedings of the 7th ACM Conference on Recommender Systems. Hong Kong, China, 2013: 105−112. [5] RENDLE S, FREUDENTHALER C, SCHMIDT-THIEME L. Factorizing personalized Markov chains for next-basket recommendation[C]//Proceedings of the 19th International Conference on World Wide Web. Raleigh, USA, 2010: 811−820. [6] HIDASI B, TIKK D. General factorization framework for context-aware recommendations[J]. Data mining and knowledge discovery, 2016, 30(2): 342–371. [7] HE RUINING, MCAULEY J. Fusing similarity models with Markov chains for sparse sequential recommendation[C]//Proceedings of the 2016 IEEE 16th International Conference on Data Mining. Barcelona, Spain, 2016: 191−200. [8] HIDASI B, KARATZOGLOU A, BALTRUNAS L, et al. Session-based recommendations with recurrent neural networks[C]//Proceedings of the 4th International Conference on Learning Representations. San Juan, Puerto Rico, 2016: 1−10. [9] WU Chaoyuan, AHMED A, BEUTEL A, et al. Recurrent recommender networks[C]//Proceedings of the 10th ACM International Conference on Web Search and Data Mining. Cambridge, UK, 2017: 495−503. [10] TANG Jiaxi, BELLETTI F, JAIN S, et al. Towards neural mixture recommender for long range dependent user sequences[C]//Proceedings of World Wide Web Conference. San Francisco, USA, 2019: 1782−1793. [11] ZHOU Guorui, ZHU Xiaoqiang, SONG Chenru, et al. Deep interest network for click-through rate prediction[C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. London, UK, 2018: 1059−1068. [12] ZHANG Shuai, TAY Y, YAO Lina, et al. 2019. Next item recommendation with self-attentive metric learning[C]//Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Hawaii, USA, 2019: 9. [13] YING Haochao, ZHUANG Fuzhen, ZHANG Fuzheng, et al. Sequential recommender system based on hierarchical attention networks[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm, Sweden, 2018: 3926−3932. [14] ·360· 智能系统学报第 16 卷

第2期鲍维克，等：面向推荐系统的分期序列自注意力网络 ·361· [15]VASWANI A,SHAZEER N,PARMAR N,et al.Atten- [21]WANG Pengfei,GUO Jiafeng,LAN Yanyan,et al. tion is all you need[Cl//Proceedings of the 31st Confer- Learning hierarchical representation model for NextBas- ence on Neural Information Processing Systems.Long ket recommendation[C]//Proceedings of the 38th Interna- Beach,USA,2017:5998-6008. tional ACM SIGIR conference on Research and Develop- [16]CHO K,VAN MERRIENBOER B,GULCEHRE C,et al. ment in Information Retrieval.Santiago,Chile,2015: Learning phrase representations using RNN encoder-de- 403-412 coder for statistical machine translation[C]//Proceedings [22]李全，许新华，刘兴红，等.融合时空感知GU和注意 of 2014 Conference on Empirical Methods in Natural 力的下一个地点推荐[.计算机应用，2020,40(3)： Language Processing.Doha,Qatar,2014:1724-1734. 677-682. [17]PAN Rong,ZHOU Yunhong,CAO Bin,et al.One-class LI Quan,XU Xinhua,LIU Xinghong,et al.Next location collaborative filtering[C]//Proceedings of the 2008 8th recommendation based on spatiotemporal-aware GRU IEEE International Conference on Data Mining.Pisa, and attention[J].Journal of computer applications,2020, taly,2008:502-511. [18]RENDLE S.FREUDENTHALER C,GANTNER Z,et al. 40(3:677-682 BPR:Bayesian personalized ranking from implicit feed- 作者简介： back[Cl//Proceedings of the 25th Conference on Uncer- 鲍维克，硕士研究生，主要研究方 tainty in Artificial Intelligence.Montreal,Canada,2009: 向为推荐系统。 452-461 [19]HU Liang,CAO Longbing,WANG Shoujin,et al.Diver- sifying personalized recommendation with user-session context[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence.Melbourne,Aus- tralia.2017:1858-1864. 袁春，副研究员，博土，博士生导师，EEE高级会员，清华大学-香港中 [20]CHO E.A MYERS S A.LESKOVEC J.Friendship and 文大学媒体科学、技术与系统联合研 mobility:user movement in location-based social net- 究中心常务副主任，主要研究方向为 works[C]//Proceedings of the 17th ACM SIGKDD Inter- 机器学习、计算机视觉。发表学术论 national Conference on Knowledge Discovery and Data 文100余篇。 Mining.San Diego,USA,2011:1082-1090

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach, USA, 2017: 5998−6008. [15] CHO K, VAN MERRIËNBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar, 2014: 1724−1734. [16] PAN Rong, ZHOU Yunhong, CAO Bin, et al. One-class collaborative filtering[C]//Proceedings of the 2008 8th IEEE International Conference on Data Mining. Pisa, Italy, 2008: 502−511. [17] RENDLE S, FREUDENTHALER C, GANTNER Z, et al. BPR: Bayesian personalized ranking from implicit feedback[C]//Proceedings of the 25th Conference on Uncertainty in Artificial Intelligence. Montreal, Canada, 2009: 452−461. [18] HU Liang, CAO Longbing, WANG Shoujin, et al. Diversifying personalized recommendation with user-session context[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne, Australia, 2017: 1858−1864. [19] CHO E, A MYERS S A, LESKOVEC J. Friendship and mobility: user movement in location-based social networks[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego, USA, 2011: 1082−1090. [20] WANG Pengfei, GUO Jiafeng, LAN Yanyan, et al. Learning hierarchical representation model for NextBasket recommendation[C]//Proceedings of the 38th International ACM SIGIR conference on Research and Development in Information Retrieval. Santiago, Chile, 2015: 403−412. [21] 李全, 许新华, 刘兴红, 等. 融合时空感知 GRU 和注意力的下一个地点推荐 [J]. 计算机应用, 2020, 40(3): 677–682. LI Quan, XU Xinhua, LIU Xinghong, et al. Next location recommendation based on spatiotemporal-aware GRU and attention[J]. Journal of computer applications, 2020, 40(3): 677–682. [22] 作者简介：鲍维克，硕士研究生，主要研究方向为推荐系统。袁春，副研究员，博士，博士生导师，IEEE 高级会员，清华大学−香港中文大学媒体科学、技术与系统联合研究中心常务副主任，主要研究方向为机器学习、计算机视觉。发表学术论文 100 余篇。第 2 期鲍维克，等：面向推荐系统的分期序列自注意力网络 ·361·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录