《工程科学学报》录用稿,htps:/doi.org/10.13374/i,issn2095-9389.2021.03.23.002©北京科技大学2020 工程科学学报 DOI: 基于深度神经网络的点击率预测模型 刘弘历,武森,魏桂英,李新,高晓楠 1)北京科技大学经济管理学院,北京100083 ☒通信作者,E-mail:weigy@manage.ustb.edu.cn 摘要针对现有深度神经网络点击率预测模型在对用户偏好建模时,难以有效且高效地处理用户行为序列的问题, 提出长短期兴趣网络(Long and Short Term Interests Network,LSTIN)模型,充分利角用户历史记录上下文信息和顺 序信息,提升点击率预测精准性和训练效率。使用基于注意力机制的Transformer和激活单元结构完成用户长、短期 兴趣建模,对用户短期兴趣进一步使用RNN、CNN进行处理,最后使用全连接神经网络进行预测。在亚马逊公开 数据集上开展实验,将提出的模型与DeepFM、Deep Interest Network(DN等点击案预测模型对比,结果表明提出的 模型实现了考虑上下文信息和顺序信息的用户历史记录建模,AUC指标为83831%,对比BaseModel相对提升 1.154%,对比DN相对提升0.476%。且因区分用户长、短期兴趣 侯型能够在提升预测精准性的同时保障训练效 率。 关键词点击率预测:长短期兴趣网络:深度神经网络: 注 循环神经网络:卷积神经网络 分类号TP183 A CTR Prediction Model Based on Deep Neural Network LIU Hong-li,WU Sen,WEI Gui-ying,LI Xin,GAO Xiao-nan 1)School of Economics and Management,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:weigy@ tb.edu.cn ABSTRACT The Click-Through-Rate(CTR)prediction task is to estimate the probability that a user will click on an item according to the features of user item and contexts.At present,CTR prediction has become a common and indispensable task in the filed of e-commerce,higher accuracy of CTR prediction results conduce to present more accurate and personalized results for recommendation systems and search engines,so as to increase users'actual CTR of items and bring more economic benefits More and more researchers used Deep Neural Network (DNN)to solve the CTR prediction problem under the background of big data technology in recent years.However,there are few models that can process time series data and fully consider the context information of users'history effectively and efficiently.CTR prediction models based on DNN learn users'interest from their history,but most of the existing models regard interest of a user as a whole,ignoring the differences between long-term and short-term interest.This paper proposes a CTR prediction model named Long and Short Term Interest Network(LSTIN)to make full use of the context information and order information of user history records,in order to improve the accuracy and training efficiency of CTR prediction model.Based on attention mechanism Transformer and activation unit structure are used to model long-term and short-term user interests.The latter is processed by RNN and CNN further.Eventually,a fully-connected neural network is applied for prediction.Different from DeepFM and Deep Interest Network(DIN)in experiments on Amazon public dataset,LSTIN achieves a modeling with context and order 基金项目:国家自然科学基金资助项目(71971025)
工程科学学报 DOI: 基于深度神经网络的点击率预测模型 刘弘历,武 森,魏桂英,李 新,高晓楠1 1) 北京科技大学经济管理学院,北京 100083 通信作者,E-mail: weigy@manage.ustb.edu.cn 摘 要 针对现有深度神经网络点击率预测模型在对用户偏好建模时,难以有效且高效地处理用户行为序列的问题 , 提出长短期兴趣网络(Long and Short Term Interests Network, LSTIN)模型,充分利用用户历史记录上下文信息和顺 序信息,提升点击率预测精准性和训练效率。使用基于注意力机制的 Transformer 和激活单元结构完成用户长、短期 兴趣建模,对用户短期兴趣进一步使用 RNN、CNN 进行处理,最后使用全连接神经网络进行预测。在亚马逊公开 数据集上开展实验,将提出的模型与 DeepFM、Deep Interest Network(DIN)等点击率预测模型对比,结果表明提出的 模型实现了考虑上下文信息和顺序信息的用户历史记录建模, AUC 指标为 85.831%,对比 BaseModel 相对提升 1.154%,对比 DIN 相对提升 0.476%。且因区分用户长、短期兴趣,模型能够在提升预测精准性的同时保障训练效 率。 关键词 点击率预测;长短期兴趣网络;深度神经网络;注意力机制;循环神经网络;卷积神经网络 分类号 TP183 A CTR Prediction Model Based on Deep Neural Network LIU Hong-li, WU Sen, WEI Gui-ying, LI Xin, GAO Xiao-nan 1) School of Economics and Management, University of Science and Technology Beijing, Beijing 100083, China Corresponding author, E-mail: weigy@manage.ustb.edu.cn ABSTRACT The Click-Through-Rate(CTR) prediction task is to estimate the probability that a user will click on an item according to the features of user, item and contexts. At present, CTR prediction has become a common and indispensable task in the filed of e-commerce, higher accuracy of CTR prediction results conduce to present more accurate and personalized results for recommendation systems and search engines, so as to increase users' actual CTR of items and bring more economic benefits. More and more researchers used Deep Neural Network (DNN) to solve the CTR prediction problem under the background of big data technology in recent years. However, there are few models that can process time series data and fully consider the context information of users’ history effectively and efficiently. CTR prediction models based on DNN learn users’ interest from their history, but most of the existing models regard interest of a user as a whole, ignoring the differences between long-term and short-term interest. This paper proposes a CTR prediction model named Long and Short Term Interest Network (LSTIN) to make full use of the context information and order information of user history records, in order to improve the accuracy and training efficiency of CTR prediction model. Based on attention mechanism Transformer and activation unit structure are used to model long-term and short-term user interests. The latter is processed by RNN and CNN further. Eventually, a fully-connected neural network is applied for prediction. Different from DeepFM and Deep Interest Network(DIN) in experiments on Amazon public dataset, LSTIN achieves a modeling with context and order 1基金项目:国家自然科学基金资助项目(71971025) 《工程科学学报》录用稿,https://doi.org/10.13374/j.issn2095-9389.2021.03.23.002 ©北京科技大学 2020 录用稿件,非最终出版稿
information of user history.The AUC of LSTIN is 85.831%,which is 1.154%higher than that of BaseModel and 0.476% higher than that of DIN.Besides,LSTIN achieves distinguishing the long-term and short-term interests of users,which improves the performance and keeps training efficiency of CTR prediction model. KEY WORDS CTR prediction;Long and Short Term Interest Network;Deep Neural Network:Attention Mechanism; RNN:CNN 在信息时代,庞大的数据总量一方面加剧了人工筛选信息的难度,导致信息过载山,另一方面 也为大数据技术的发展提供了基础。随着大数据技术逐步在各个领域展开应用并取得了极佳的效果 ,用大数据技术解决信息过载问题成为学术界和工业界关注的问题之一。推荐系统、搜索引擎等 基于信息检索的应用能够一定程度上解决信息过载问题,点击率(Click-Through-Rate,CTR)预测则 在这类应用中提供支持与保障。CT预测根据用户、项目及上下文的特征,y预测用户点击该项 目的概率,帮助搜索引擎、推荐系统等向用户展示更加个性化、更加精准的内容,公 解决CT℉预测问题的模型可以分为传统机器学习模型和深度学习模型传统机器学习模型中 逻辑回归思路简单、易实现分布式计算,是该领域基础模型。但它作为线性模型,难以捕获高维 非线性特征I。Rendle提出因子分解机Factorization Machine,FM)用以解决特征组合问题,FM监 督学习不同特征的隐因子向量,用内积完成特征交叉,但模型复杂度高, 般只用于2阶特征交叉。 深度神经网络(Deep Neural Network,DNN)可以很好地提取特之间的非线性关系,使用大量数 据完成模型训练,在图像识别、自然语言处理等领域已经得到广泛应痈,将DNN应用于CTR预测 的研究越来越受到关注。基于DNN的CTR预测模型大多基于“嵌入+多层感知机 (Embedding+MLP)”范式。如Zhang等提出FNN(Factorization-machine supported Neural Network)例, 将FM的输出拼接后作为全连接层的输入,每个特征的俄入向量预先采用FM模型训练得到,DNN 训练开销低,收敛速度快。但该模型难以克服FM的水算复杂度限制,同时没有对低阶特征建模。 Qu提出的PNN(Product-based Neural Network⊙模型o使用外积、内积实现特征交叉,在DNN的基 础上使用特征提取层,完成高阶特征组合的同时融入低阶特征,无需进行两阶段训练。Cheng等提 出的Wide&Deep模型将传统的逻辑回归和DN以并行方式组合,充分发挥了逻辑回归模型的拟 合能力和DNN的泛化能力。但上述DNN模型依赖于人工特征工程。Guo等提出的DeepFM模型I 不需要人工特征工程,它令FM与DNN在嵌入层共享,同时学习高低阶特征组合。 以上DNN模型都为推动CTR预测进一步发展做出了重要贡献,但均将用户兴趣视为整体。现 实中用户的兴趣可能随着时间发生变化,如何通过用户历史点击行为探索其兴趣变化趋势,进而准 确预测该用户对待预测项的点击概率,成为一个需要解决的问题。自然语言处理领域广泛使用的 “注意力机制”为解决该问题提供了有益启示。Zhou等提出的DN(Deep Interest Network)模型使 用注意力机制设计激适单元,针对不同待预测项目自适应调整赋予每条历史记录的权重,提升了嵌 入层的表达和感知能力。该模型将注意力机制应用于CT领域的候选项目感知,但该模型在捕捉 用户历史记录向的相对顺序时面临困难,难以关注某一记录的上下文信息。 自然语言处理领域处理词语和句子的方式对提取用户历史点击行为的上下文信息和顺序信息, 建模用户长、短期兴趣两个问题具有重要参考意义。自然语言处理领域的DNN模型中,基于RNN 的模型和基于CNN的模型是两个重要类别。传统RNN模型以序列数据作为输入,节点间按链式结 构串联,但在实际应用中受限于梯度消失。LSTM(Long Short-Term Memory)能够通过门控制在一 定程度上解决梯度消失问题,但其结构复杂,训练所需时间较长。GRU(Gated Recurrent Unit)6 使用更简单的结构取得了与LSTM接近的效果,在自然语言处理等领域被广泛应用。CNN使用卷 积和池化操作,具有很强的语义特征捕捉能力),结构合理的CNN在自然语言处理任务中已经表 现出良好的性能),但CNN偏向关注相邻信息,容易忽略局部与整体信息的关联性。谷歌研究团 队的Vaswani等提出Transformer模型在机器翻译任务中使用自注意力和注意力机制,显著提升了 训练速度的同时取得了更好的效果
information of user history. The AUC of LSTIN is 85.831%, which is 1.154% higher than that of BaseModel and 0.476% higher than that of DIN. Besides, LSTIN achieves distinguishing the long-term and short-term interests of users, which improves the performance and keeps training efficiency of CTR prediction model. KEY WORDS CTR prediction; Long and Short Term Interest Network; Deep Neural Network; Attention Mechanism; RNN; CNN 在信息时代,庞大的数据总量一方面加剧了人工筛选信息的难度,导致信息过载[1],另一方面 也为大数据技术的发展提供了基础。随着大数据技术逐步在各个领域展开应用并取得了极佳的效果 [2],用大数据技术解决信息过载问题成为学术界和工业界关注的问题之一。推荐系统、搜索引擎等 基于信息检索的应用能够一定程度上解决信息过载问题,点击率(Click-Through-Rate, CTR)预测则 在这类应用中提供支持与保障[3]。CTR 预测[4]根据用户、项目及上下文的特征,预测用户点击该项 目的概率,帮助搜索引擎、推荐系统等向用户展示更加个性化、更加精准的内容。 解决 CTR 预测问题的模型可以分为传统机器学习模型和深度学习模型[5]。传统机器学习模型中 逻辑回归[6]思路简单、易实现分布式计算,是该领域基础模型。但它作为线性模型,难以捕获高维 非线性特征[7]。Rendle 提出因子分解机(Factorization Machine, FM)[8]用以解决特征组合问题,FM 监 督学习不同特征的隐因子向量,用内积完成特征交叉,但模型复杂度高,一般只用于 2 阶特征交叉。 深度神经网络(Deep Neural Network, DNN)可以很好地提取特征之间的非线性关系,使用大量数 据完成模型训练,在图像识别、自然语言处理等领域已经得到广泛应用,将 DNN 应用于 CTR 预测 的 研 究 越 来 越 受 到 关 注 。 基 于 DNN 的 CTR 预 测 模 型 大 多 基 于 “ 嵌 入 + 多 层 感 知 机 (Embedding+MLP)”范式。如 Zhang 等提出 FNN(Factorization-machine supported Neural Network)[9], 将 FM 的输出拼接后作为全连接层的输入,每个特征的嵌入向量预先采用 FM 模型训练得到,DNN 训练开销低,收敛速度快。但该模型难以克服 FM 的计算复杂度限制,同时没有对低阶特征建模。 Qu 提出的 PNN(Product-based Neural Networks)模型[10]使用外积、内积实现特征交叉,在 DNN 的基 础上使用特征提取层,完成高阶特征组合的同时融入低阶特征,无需进行两阶段训练。Cheng 等提 出的 Wide&Deep 模型[11]将传统的逻辑回归和 DNN 以并行方式组合,充分发挥了逻辑回归模型的拟 合能力和 DNN 的泛化能力。但上述 DNN 模型依赖于人工特征工程。Guo 等提出的 DeepFM 模型[12] 不需要人工特征工程,它令 FM 与 DNN 在嵌入层共享,同时学习高低阶特征组合。 以上 DNN 模型都为推动 CTR 预测进一步发展做出了重要贡献,但均将用户兴趣视为整体。现 实中用户的兴趣可能随着时间发生变化,如何通过用户历史点击行为探索其兴趣变化趋势,进而准 确预测该用户对待预测项目的点击概率,成为一个需要解决的问题。自然语言处理领域广泛使用的 “注意力机制”为解决该问题提供了有益启示。Zhou 等提出的 DIN(Deep Interest Network)模型[13]使 用注意力机制设计激活单元,针对不同待预测项目自适应调整赋予每条历史记录的权重,提升了嵌 入层的表达和感知能力。该模型将注意力机制应用于 CTR 领域的候选项目感知,但该模型在捕捉 用户历史记录间的相对顺序时面临困难,难以关注某一记录的上下文信息。 自然语言处理领域处理词语和句子的方式对提取用户历史点击行为的上下文信息和顺序信息, 建模用户长、短期兴趣两个问题具有重要参考意义。自然语言处理领域的 DNN 模型中,基于 RNN 的模型和基于 CNN 的模型是两个重要类别。传统 RNN 模型以序列数据作为输入,节点间按链式结 构串联,但在实际应用中受限于梯度消失。LSTM(Long Short-Term Memory)[14]能够通过门控制在一 定程度上解决梯度消失问题[15],但其结构复杂,训练所需时间较长。GRU(Gated Recurrent Unit)[16] 使用更简单的结构取得了与 LSTM 接近的效果,在自然语言处理等领域被广泛应用。CNN 使用卷 积和池化操作,具有很强的语义特征捕捉能力[17],结构合理的 CNN 在自然语言处理任务中已经表 现出良好的性能[18],但 CNN 偏向关注相邻信息,容易忽略局部与整体信息的关联性。谷歌研究团 队的 Vaswani 等提出 Transformer 模型[19]在机器翻译任务中使用自注意力和注意力机制,显著提升了 训练速度的同时取得了更好的效果。 录用稿件,非最终出版稿
本文提出长短期兴趣网络(Long and Short Term Interest Network,.LSTN)点击率预测模型,解决 CT℉预测中基于用户历史记录建模时上下文信息和顺序信息难以高效提取和充分利用的问题,提升 点击率预测精准性,并通过对用户长、短期兴趣分别建模进一步提高训练效率。具体地,首先借鉴 Transformer模型的自注意力机制,提取用户行为上下文信息,并使用基于注意力机制的激活单元结 构建立用户行为与待预测项目之间的关系,构建兴趣提取层。接着,构建信息融合层,将用户历史 行为序列划分为长期和短期,对短期序列中的项目使用GU进一步处理。在亚马逊公开数据集上 开展实验,结果表明LSTN模型与对比模型相比,获得了更准确的点击率预测结果。此外,本文 对比了在短期序列项目处理时使用CNN和GRU的效果,信息融合层使用CNN的LSTN与使用 GRU的LSTN效果相近,训练效率更高。 本文所提出的LSTN模型主要有如下创新点: (1)针对CT℉预测问题设计结构,借鉴自然语言处理领域模型完成序列数据建模,使用激活 单元结构建立用户历史行为与待预测项目的联系。 (2)模型大量使用以注意力机制为基础的并行结构,训练效率较高。 (3)LSTN对同一用户长期和短期序列采用不同处理方式,使模型备分别建模用户长、短期 兴趣的能力。 (4)LSTN在信息融合层可根据需要选用不同方法,具备灵活性和可拓展性。 1相关定义和模型结构 1.1长、短期序列定义 用户历史点击行为能够体现其特征和兴趣。将角仔的历史点击序列定义如下,并在此基础上提 出长、短期序列定义。 (1)历史点击序列 对于某一特定用户,按照时间顺序排列的历史点击项目组成该用户的历史点击序列。其中最近 N个项目定义为历史点击序列的短期部分。 给定共有n条历史点击行为的用户u,记其历史点击序列为hsu,4表示第i条点击行为发生的 时刻,该时刻被点击的项目记作C,则用户历史点击序列可表示为式(I)。选取短期部分长度为 1≤),可以表示为式(2)。 “项自在数据集中即为商品。 C,c2,C,|k-1<k,k∈[2,n} (1) Ccckkeli-1+2i (2) (2)长、短期序列 长期序列:油用户历史点击序列s通过编码器和激活单元结构(即后文中的兴趣提取层)处 理后得到的向量序列hs为长期序列。 短期序列:短期部分5通过编码器和激活单元结构(即后文中的兴趣提取层)处理后得到的 向量序列S,为短期序列。 1.2模型结构 LSTN的模型结构如图1所示,该模型主要由五部分构成,从下至上依次为输入层(Iput Layer)、嵌入层(Embedding Layer)、兴趣提取层(Interests Extraction Layer)、信息融合层 (Information Fusion Layer)、评分层(Scoring Layer)。输入数据自下而上经过输入层映射为独热 编码(one-hot)向量,经过嵌入层映射为低维向量,通过兴趣提取层建模后按点击行为发生时间将序 列划分为长期和短期两部分,分别在信息融合层合并为固定长度的向量用以表示用户的长、短期兴 趣,将这两个向量与表示候选项目的嵌入向量拼接(Concat)后输入评分层,最终输出一个评分
本文提出长短期兴趣网络(Long and Short Term Interest Network, LSTIN)点击率预测模型,解决 CTR 预测中基于用户历史记录建模时上下文信息和顺序信息难以高效提取和充分利用的问题,提升 点击率预测精准性,并通过对用户长、短期兴趣分别建模进一步提高训练效率。具体地,首先借鉴 Transformer 模型的自注意力机制,提取用户行为上下文信息,并使用基于注意力机制的激活单元结 构建立用户行为与待预测项目之间的关系,构建兴趣提取层。接着,构建信息融合层,将用户历史 行为序列划分为长期和短期,对短期序列中的项目使用 GRU 进一步处理。在亚马逊公开数据集上 开展实验,结果表明 LSTIN 模型与对比模型相比,获得了更准确的点击率预测结果。此外,本文 对比了在短期序列项目处理时使用 CNN 和 GRU 的效果,信息融合层使用 CNN 的 LSTIN 与使用 GRU 的 LSTIN 效果相近,训练效率更高。 本文所提出的 LSTIN 模型主要有如下创新点: (1) 针对 CTR 预测问题设计结构,借鉴自然语言处理领域模型完成序列数据建模,使用激活 单元结构建立用户历史行为与待预测项目的联系。 (2) 模型大量使用以注意力机制为基础的并行结构,训练效率较高。 (3) LSTIN 对同一用户长期和短期序列采用不同处理方式,使模型具备分别建模用户长、短期 兴趣的能力。 (4) LSTIN 在信息融合层可根据需要选用不同方法,具备灵活性和可拓展性。 1 相关定义和模型结构 1.1 长、短期序列定义 用户历史点击行为能够体现其特征和兴趣。将用户的历史点击序列定义如下,并在此基础上提 出长、短期序列定义。 (1) 历史点击序列 对于某一特定用户,按照时间顺序排列的历史点击项目组成该用户的历史点击序列。其中最近 N 个项目定义为历史点击序列的短期部分。 给定共有 n 条历史点击行为的用户u ,记其历史点击序列为 hsu , i t 表示第i 条点击行为发生的 时刻,该时刻被点击的项目记作 i t c ,则用户历史点击序列可表示为式(1)。选取短期部分长度为 l l i ( ) ,可以表示为式(2)。“项目”在数据集中即为商品。 1 2 1 { , ,..., | , [2, ]} u t t t k k n t t k n hs c c c (1) 1 2 1 { , ,..., | , [ 2, ]} i l i l i u t t t k k t t k i l i rs c c c (2) (2) 长、短期序列 长期序列:由用户历史点击序列 hsu 通过编码器和激活单元结构(即后文中的兴趣提取层)处 理后得到的向量序列 ' hsu 为长期序列。 短期序列:短期部分 u rs 通过编码器和激活单元结构(即后文中的兴趣提取层)处理后得到的 向量序列 ' u rs 为短期序列。 1.2 模型结构 LSTIN 的模型结构如图 1 所示,该模型主要由五部分构成,从下至上依次为输入层(Input Layer)、嵌入层(Embedding Layer)、兴趣提取层(Interests Extraction Layer)、信息融合层 (Information Fusion Layer)、评分层(Scoring Layer)。输入数据自下而上经过输入层映射为独热 编码(one-hot)向量,经过嵌入层映射为低维向量,通过兴趣提取层建模后按点击行为发生时间将序 列划分为长期和短期两部分,分别在信息融合层合并为固定长度的向量用以表示用户的长、短期兴 趣,将这两个向量与表示候选项目的嵌入向量拼接(Concat)后输入评分层,最终输出一个评分 录用稿件,非最终出版稿
scor肥∈O,)表示预测用户点击候选项目的概率。兴趣提取层和信息融合层是LSTIN模型提取用户 兴趣、组合用户长短期兴趣的核心。 Prediction score Fully-Connected Neural Network Scoring Layer Concat 个 Average Pooling Activation Activation 最终出版稿 CNN/RNN Activation Activation Unit Unit Unit Unit Interests Extraction Layer Short-Temm Series Long-Term Series Encoder Embedding Laye Embeddin hort-Term Part 圆1LSTN模型结构 Fig.1 Structure of LSTIN (1)输入层和嵌入层 特征的选亟对于模型的预测精度会产生显著影响,为验证模型结构的有效性,减少特征工程 的影响,选择项耳D和项目所属类别的ID作为输入,统一使用one-hot编码后通过嵌入层映射到 低维、稠密的向量空间中并进行拼接。以项目D为例, 设该特征有k种取值,其第i项取值的one- hot向量!_d与权重矩阵W哈进行点乘得到嵌入结果,以特征取第3个可能取值为例,其嵌入向量 记为,原理如式(3)所示,d表示希望得到的低维向量维度,O的不同下标只为说明其所在位置。 ..Wid iid=0a·Wa=01,02,1,04,05,,0k]· W2122, =[W31,W32,,3a] (3) Wl Wk2... Wud 用户历史点击序列5表示若干个项目按点击行为发生时间排序后的序列,序列中每个向量均
score{0,1}表示预测用户点击候选项目的概率。兴趣提取层和信息融合层是 LSTIN 模型提取用户 兴趣、组合用户长短期兴趣的核心。 Short-Term Part Long-Term Part ... ... Embedding Encoder Ă Ă Activation Unit Activation Unit Activation Unit Ă Ă Activation Unit Long-Term Series Short-Term Series Average Pooling C N N / R N N Concat Fully-Connected Neural Network Prediction score Scoring Layer Information Fusion Layer Interests Extraction Layer Embedding Layer Input Layer 图 1 LSTIN 模型结构 Fig.1 Structure of LSTIN (1) 输入层和嵌入层 特征的选取对于模型的预测精度会产生显著影响[20],为验证模型结构的有效性,减少特征工程 的影响,选择项目 ID 和项目所属类别的 ID 作为输入,统一使用 one-hot 编码后通过嵌入层映射到 低维、稠密的向量空间中并进行拼接。以项目 ID 为例,设该特征有 k 种取值,其第i 项取值的 onehot 向量 _ i i id o 与权重矩阵 _ emb Wi id 进行点乘得到嵌入结果,以特征取第 3 个可能取值为例,其嵌入向量 记为 i i_id ,原理如式(3)所示, d 表示希望得到的低维向量维度,0 的不同下标只为说明其所在位置。 11 12 1 21 22 2 _ _ 1 2 4 5 31 32 3 1 2 ... ... [0 ,0 ,1,0 ,0 ,...,0 ] = [ , ,..., ] ... ... ... ... ... d emb d i id i id k d k k d i k i w w w w w w w w w w w w i d _i o W (3) 用户历史点击序列 hsu 表示若干个项目按点击行为发生时间排序后的序列,序列中每个向量均 录用稿件,非最终出版稿
由表示该项目的D和其类别D两部分向量拼接而成。用户u的历史点击序列s,可表示为式(4)。 hs={(iid,,c_id,)2,(did.,c_id,)ltk-1<tk,k∈[2,n川} (4) (2)兴趣提取层 兴趣提取层可以细分为一个编码器(Encoder)部分和一个激活单元(Activation Unit)部分。 编码器部分的结构借鉴Transformer,其中自注意力(Self-Attention)机制能够关注上下文信息 和顺序信息,并且高效地完成长序列建模,克服了梯度消失的问题。编码器结构如图2所示。 Output 最终出版稿 Add Normalization Feedforward Neural Network Self-Attention Positional Encoding 图2编码器结构 Fig.2 Structure of Encoder 通过输入层和嵌入层后, 用护历更点击序列已经被映射为固定长度向量组成的序列,序列中每 一个向量表示一次点击行为。编码器部分的作用是使得序列中的每个向量不仅包含本次点击行为的 信息,也包含其在整个序列贞的位置信息和上下文信息。 首先对得到的序列进行位置编码(Positional Encoding),并将位置编码得到的向量序列与原序 列相加。采取正余弦位置编,如式(⑤)所示,将向量序列第p个位置映射为一个维度是ds的向 量,该向量的第k个循记作PE(p)。应用中,一般令ds和嵌入层得到的低维向量维度d相等。 PE,(p)=sin(p/100002w-) PE2+1(p)=cosp/100002a-) (5) 对上述结构输出的数据s使用自注意力机制,使模型感知序列中某个向量的上下文信息,思 路是基于每一个向量分别计算应该赋予序列中每个向量的权重并进行加权求和,该权重可视作相似 度,显然某特定向量与自身相似度最高,所以自身对应权重最大,其他向量与其相似度越高权重越 大。对于处理后得到的向量序列,原序列某一向量所在位置的新向量包含原向量的信息,也包含其 他位置向量的信息,即上下文信息。本部分使用基于缩放点积的自注意力机制,原理如式(6)所示, 在本式中d,是向量序列s中的向量维度,为防止点乘结果过大,通过除以√d,进行缩放, softmax是归一化指数函数
由表示该项目的 ID 和其类别 ID 两部分向量拼接而成。用户 u 的历史点击序列 hsu 可表示为式(4)。 u t t t t k k {( , ),..., ( , ) | , [2, ]} 1 1 n n 1 hs i_id c_id i_id c_id t t k n (4) (2) 兴趣提取层 兴趣提取层可以细分为一个编码器(Encoder)部分和一个激活单元(Activation Unit)部分。 编码器部分的结构借鉴 Transformer,其中自注意力(Self-Attention)机制能够关注上下文信息 和顺序信息,并且高效地完成长序列建模,克服了梯度消失的问题。编码器结构如图 2 所示。 Positional Encoding Self-Attention Add & Normalization Feedforward Neural Network Add & Normalization Output Record 1 Record 2 Ă Record N 图 2 编码器结构 Fig.2 Structure of Encoder 通过输入层和嵌入层后,用户历史点击序列已经被映射为固定长度向量组成的序列,序列中每 一个向量表示一次点击行为。编码器部分的作用是使得序列中的每个向量不仅包含本次点击行为的 信息,也包含其在整个序列中的位置信息和上下文信息。 首先对得到的序列进行位置编码(Positional Encoding),并将位置编码得到的向量序列与原序 列相加。采取正余弦位置编码[19],如式(5)所示,将向量序列第 p 个位置映射为一个维度是 pos d 的向 量,该向量的第 k 个值记作 ( ) PE p k 。应用中,一般令 pos d 和嵌入层得到的低维向量维度 d 相等。 2 / 2 2 / 2 1 ( ) sin( /10000 ) ( ) cos( / 10000 ) pos pos i d i i d i PE p p PE p p (5) 对上述结构输出的数据 p hsu 使用自注意力机制,使模型感知序列中某个向量的上下文信息,思 路是基于每一个向量分别计算应该赋予序列中每个向量的权重并进行加权求和,该权重可视作相似 度,显然某特定向量与自身相似度最高,所以自身对应权重最大,其他向量与其相似度越高权重越 大。对于处理后得到的向量序列,原序列某一向量所在位置的新向量包含原向量的信息,也包含其 他位置向量的信息,即上下文信息。本部分使用基于缩放点积的自注意力机制,原理如式(6)所示, 在本式中 k d 是向量序列 p hsu 中的向量维度,为防止点乘结果过大,通过除以 k d 进行缩放, softmax 是归一化指数函数。 录用稿件,非最终出版稿
Attention(hsP,hs)=softmax( ? a (6 自注意力机制的输出与其输入进行残差连接后进行归一化(Add&Normalization),为增加模 型的非线性能力,将数据继续输入一个前馈神经网络(Feedforward Neural Network)中。残差连接 的作用是缓解梯度消失的影响,避免模型退化。前馈神经网络的输出与输入仍然进行残差连接并归 一化,结果即为编码器部分的输出K:。该结果随后进入激活单元部分。 在编码器部分,可视作模型感知了每一次点击行为的上下文信息,在激活单元部分,模型进一 步感知待预测候选项目信息。该部分仍使用注意力机制,思想与编码器部分注意力机制相似,但计 算过程不同,将候选项目向量”=(位id,,Cid,,)复制,并将其与编码器部分的输出k:及二者的差 三个矩阵拼接后输入三层全连接神经网络,如图3。该结构的目标是学习每个历史项目与候选项目 的关系。 Output Layer 版稿 图3激活单元涟意力机制原理示意图 Fig.3 Attention Mechanism in Activation Unit (3)信息融合层 在本层,此前结构输出的向量序列被分为长期和短期序列,对长期序列。建模关注用户长期 以来相对稳定的兴趣,不同用户历史点击序列长度不同,为保证后续结构接收到的数据结构统一, 采用平均池化的方式处理为定长向量,该结构输出的向量记作。学习短期兴趣时,进一步使用 GRU处理短期序列Sa,输单个的定长向量r。 此外,针对短期序列建模考虑将GRU替换为一维CNN。CNN最初为解决图像识别问题Pu, 后被应用在多个领域,自然语言处理任务常用一维CNN四,它具有并行度高,提取局部信息能力 强的特点。借鉴Kim及Zhag等2将CNN用于自然语言处理的经验,设置LSTN中的CNN网络 第一层为卷积层,〈卷积核的长度为2,宽度为输入向量宽度,滤波器个数为100,输出矩阵的每一 列包含一个滤波器的枚值。第二层为平均池化层,第三层为与第一层结构相同的卷积层。最后,进 行全局池化并抛舜一定数量的输出防止过拟合。 (4)评分层和损失函数 至此得到了表征用户长、短期兴趣的向量和表征候选项目的向量,将三个向量拼接后输入评分 层。评分层采取三层全连接神经网络,含输入层、隐藏层和输出层。全连接层输入层的处理过程可 以表示为式(7),式(7)-式(9)中的下标1、2、3分别表示变量位于全连接层神经网络的第几层。其中, [h,r”]是表征长期兴趣的向量、短期兴趣的向量和候选物品的向量拼接得到。在式(7)中,W,为输 入层的权重矩阵,b,是偏置向量,I是输入层神经元的数量。0,∈R1是输入层的输出。 o1=G h,r,ve W+b (7) 全连接层隐藏层原理与输入层相同,输出层使用softmax函数,如式(8),最终需要得到点击或
( ) softmax( ) p p T p p p u u u u u k Attention d hs hs ( ) hs ,hs hs (6) 自注意力机制的输出与其输入进行残差连接后进行归一化(Add & Normalization),为增加模 型的非线性能力,将数据继续输入一个前馈神经网络(Feedforward Neural Network)中。残差连接 的作用是缓解梯度消失的影响,避免模型退化。前馈神经网络的输出与输入仍然进行残差连接并归 一化,结果即为编码器部分的输出 i k 。该结果随后进入激活单元部分。 在编码器部分,可视作模型感知了每一次点击行为的上下文信息,在激活单元部分,模型进一 步感知待预测候选项目信息。该部分仍使用注意力机制,思想与编码器部分注意力机制相似,但计 算过程不同,将候选项目向量 1 1 ( , ) n n t t v i_id c_id c 复制,并将其与编码器部分的输出 i k 及二者的差 三个矩阵拼接后输入三层全连接神经网络,如图 3。该结构的目标是学习每个历史项目与候选项目 的关系。 i k c v Concat Input Layer Hidden Layer Output Layer 图 3 激活单元注意力机制原理示意图 Fig.3 Attention Mechanism in Activation Unit (3) 信息融合层 在本层,此前结构输出的向量序列被分为长期和短期序列,对长期序列 ' hsu 建模关注用户长期 以来相对稳定的兴趣,不同用户历史点击序列长度不同,为保证后续结构接收到的数据结构统一, 采用平均池化的方式处理为定长向量,该结构输出的向量记作 h 。学习短期兴趣时,进一步使用 GRU 处理短期序列 ' u rs ,输出单个的定长向量 r 。 此外,针对短期序列建模,考虑将 GRU 替换为一维 CNN。CNN 最初为解决图像识别问题[21], 后被应用在多个领域,自然语言处理任务常用一维 CNN[22],它具有并行度高,提取局部信息能力 强的特点。借鉴 Kim[23]及 Zhang 等[24]将 CNN 用于自然语言处理的经验,设置 LSTIN 中的 CNN 网络 第一层为卷积层,卷积核的长度为 2,宽度为输入向量宽度,滤波器个数为 100,输出矩阵的每一 列包含一个滤波器的权值。第二层为平均池化层,第三层为与第一层结构相同的卷积层。最后,进 行全局池化并抛弃一定数量的输出防止过拟合。 (4) 评分层和损失函数 至此得到了表征用户长、短期兴趣的向量和表征候选项目的向量,将三个向量拼接后输入评分 层。评分层采取三层全连接神经网络,含输入层、隐藏层和输出层。全连接层输入层的处理过程可 以表示为式(7),式(7)-式(9)中的下标 1、2、3 分别表示变量位于全连接层神经网络的第几层。其中, [ ] h,r,vc 是表征长期兴趣的向量、短期兴趣的向量和候选物品的向量拼接得到。在式(7)中,W1 为输 入层的权重矩阵, 1 b 是偏置向量, f 1 l 是输入层神经元的数量。 1 1 f l R o1 是输入层的输出。 o h,r,v W + b 1 c 1 1 (7) 全连接层隐藏层原理与输入层相同,输出层使用 softmax 函数,如式(8),最终需要得到点击或 录用稿件,非最终出版稿
不点击的二分类结果。softmax函数进行归一化,0,第一维表示用户不会点击该候选项目的概率, 第二维则表示用户会点击该候选项目的概率。随后通过argmax函数选择0,中最大的值并输出其索 引,如式(9)和式(10)所示。最终少∈0,1表示模型预测用户是否会点击该候选项目,0表示不会点 击,1表示会点击。 o3=sofimaxo2W3+b) (8) y=argmax(o3) (9) argmaxnx={xx:f(y)sf(x) (10) 预测模型的目标函数为最大似然估计的对数损失(Logloss),如式(1I)所示其中S是全量训练 样本,N是训练样本的样本总数,y∈{0,1代表用户的真实点击,取值含相同。p(x)代表 CTR预测函数。 L=-1 [ylog(p(x))+(1-y)log(1-p(x) (11) 2实验设量 2.1数据集、优化器和超参数设量 实验在亚马逊产品数据集(Amazon Dataset)上开展,垓数据集包含来自用户对产品的评论数据 和产品自身的属性数据,是CT℉预测领域常用的源数据集。实验在其中一个电子类商品子集 (Electronics5)上进行,该子集包含19.24万名用户、6项商品、801个类别和168.92万条行为记 录。每个用户和商品都有5条以上的评分。D模型曾使用本数据集验证效果,在本数据集上进行 实验有助于更加直观地对比模型效果。数据集及包含正样本,随机抽取与正样本数量相同的负样本, 选取每个用户行为序列中最后一条样本作为测试集,其他样本作为训练集。 表1败据桌航计H信惠 Table 1 Statistical Information of Dataset Data set Number of user Number of categories Number of commodities Number of samples Amazon(Electronics) 项40 63001 801 1689188 使用Adam优化器,学习率初始为0.001,并且设置学习率随着迭代次数增加而衰减:训练 和测试的批尺寸(Batch Size)设置为128。为公平起见,本文模型和对比模型在嵌入维度上保持一致, 均为32:全连接层每层的神经网络单元数分别为4×32,1×32,1。短期序列长度设置为固定值5。 2.2指标和对比方法 AUC(Area Under Curve)是CTR预测领域常用效果度量方法2阿,将样本根据预测点击率由大到 小排列,随机取出一个正样本和一个负样本,正样本排在负样本前的概率即AUC。计算公式如式 (12)所示,,和x表示任取两个样本,X和X_分别表示正、负样本的集合,N和N分别代表 正负样本的数量,rnk()指样本i的预测点击率的排名。 AUC P(x,x rank(x)<rank(x2)xX.xX_} ∑,rakd-N+N (12) 2 N.N 对比模型选用BaseModel、.DeepFM和DN。BaseModel是CTR预测领域的基础DNN模型,是
不点击的二分类结果。softmax 函数进行归一化, 3 o 第一维表示用户不会点击该候选项目的概率, 第二维则表示用户会点击该候选项目的概率。随后通过 argmax 函数选择 3 o 中最大的值并输出其索 引,如式(9)和式(10)所示。最终 yˆ {0,1} 表示模型预测用户是否会点击该候选项目,0 表示不会点 击,1 表示会点击。 3 2 3 3 o o W + b softmax (8) 3 y argmax ˆ o (9) { | : } f x argmax x x f y f x (10) 预测模型的目标函数为最大似然估计的对数损失(Logloss),如式(11)所示。其中 S 是全量训练 样本, N 是训练样本的样本总数, y 0,1 代表用户的真实点击,取值含义与 yˆ 相同。 p x 代表 CTR 预测函数。 , 1 [ log 1 log 1 ] x y S L y p x y p x N ò (11) 2 实验设置 2.1 数据集、优化器和超参数设置 实验在亚马逊产品数据集(Amazon Dataset)上开展,该数据集包含来自用户对产品的评论数据 和产品自身的属性数据,是 CTR 预测领域常用的开源数据集。实验在其中一个电子类商品子集 (Electronics 5)上进行,该子集包含 19.24 万名用户、6.3 万项商品、801 个类别和 168.92 万条行为记 录。每个用户和商品都有 5 条以上的评分。DIN 模型曾使用本数据集验证效果,在本数据集上进行 实验有助于更加直观地对比模型效果。数据集仅包含正样本,随机抽取与正样本数量相同的负样本 , 选取每个用户行为序列中最后一条样本作为测试集,其他样本作为训练集。 表 1 数据集统计信息 Table 1 Statistical Information of Dataset Data set Number of users Number of categories Number of commodities Number of samples Amazon(Electronics) 192 403 63 001 801 1 689 188 使用 Adam 优化器[25];学习率初始为 0.001,并且设置学习率随着迭代次数增加而衰减;训练 和测试的批尺寸(Batch Size)设置为 128。为公平起见,本文模型和对比模型在嵌入维度上保持一致, 均为 32;全连接层每层的神经网络单元数分别为 4 32,1 32,1 。短期序列长度设置为固定值 5。 2.2 指标和对比方法 AUC(Area Under Curve)是 CTR 预测领域常用效果度量方法[26],将样本根据预测点击率由大到 小排列,随机取出一个正样本和一个负样本,正样本排在负样本前的概率即 AUC。计算公式如式 (12)所示, 1 x 和 2 x 表示任取两个样本, X 和 X 分别表示正、负样本的集合, N 和 N 分别代表 正负样本的数量, rank i 指样本i 的预测点击率的排名。 1 2 1 2 1 2 { , | ( ) ( ) } 1 2 N i AUC P x x rank x rank x x X x X N N rank i N N (12) 对比模型选用 BaseModel、DeepFM 和 DIN。BaseModel 是 CTR 预测领域的基础 DNN 模型,是 录用稿件,非最终出版稿
最简单的Embedding-MLP范式模型),遵循该范式的模型与之对比可以清晰地展示出结构改变后 的效果提升。DeepFM是FM的衍生算法之一,提出后便成为CTR预测研究领域经典算法之一。 DN成功将注意力机制应用到CTR预测中,建立了候选项目与用户历史记录的联系,与DN对比 可以得出LSTN模型扩大模型感知范围并赋予模型序列数据建模能力后的效果提升。 为验证区分用户长短期兴趣对最终预测结果和训练效率的影响,首先构建不区分用户长、短期 兴趣的模型,在兴趣提取层使用注意力和自注意力机制建立用户历史记录与候选项目和自身上下文 之间的联系,信息融合层使用平均池化的记作LIN,信息融合层使用GU的记作LIN,使用CNN 的记作LIN。接着,对于分别考虑用户长、短期兴趣的LSTN模型,在信息融合层,长期序列建 模采用平均池化,依据短期序列建模采用的方法,将短期序列建模使用GU和CNN的模型分别记 作LSTIN,和LSTIN.。 3实验结果 对每个模型重复5次训练,取每次训练最高AUC,5次训练平均值记为该模型AUC。Best AUC是5次训练中AUC最高值。记RP(BaseModel)为某一模型AUC对BaseMode的相对提升,计 算方式如式(I3)所示,同理,记RP(DN)为某一模型AUC对DN的相对提升结象如表2和图4所 示。 AUC(mesuared model)-AUC(BaseModep RP(BaseModel)= 00% (13) AUC(BaseModel) 表2算法性对比 Table 2 Algorithm Performance Category Name AUC(%) BestAue(%) RP(BaseModelX%) RP(DINX(%) BaseModel 84.852 84.946 -0.670 Existing models DeepFM 85.012 85.095 0.189 -0.482 DIN 85424 85.468 0.674 LIN 85.581 85.669 0.859 0.184 Modesl of this LIN. 84.803 84.91 -0.058 -0.727 LIN, 85.796 85.841 1.113 0.435 paper LSTIN .781 85.834 1.095 0.418 录用稿件 LSTIN, .831 85.943 1.154 0.476 0.86 0.852 0.850 0.848 0.846 BaseModel DeepFM DIN LIN LINe LINr LSTINe *LSTIN ■AUC■Best AUC 圆4算法AUC对比 Fig.4 AUC of Different Algorithm
最简单的 Embedding-MLP 范式模型[13],遵循该范式的模型与之对比可以清晰地展示出结构改变后 的效果提升。DeepFM 是 FM 的衍生算法之一,提出后便成为 CTR 预测研究领域经典算法之一。 DIN 成功将注意力机制应用到 CTR 预测中,建立了候选项目与用户历史记录的联系,与 DIN 对比 可以得出 LSTIN 模型扩大模型感知范围并赋予模型序列数据建模能力后的效果提升。 为验证区分用户长短期兴趣对最终预测结果和训练效率的影响,首先构建不区分用户长、短期 兴趣的模型,在兴趣提取层使用注意力和自注意力机制建立用户历史记录与候选项目和自身上下文 之间的联系,信息融合层使用平均池化的记作 LIN,信息融合层使用 GRU 的记作 LINr,使用 CNN 的记作 LINc。接着,对于分别考虑用户长、短期兴趣的 LSTIN 模型,在信息融合层,长期序列建 模采用平均池化,依据短期序列建模采用的方法,将短期序列建模使用 GRU 和 CNN 的模型分别记 作 LSTINr和 LSTINc。 3 实验结果 对每个模型重复 5 次训练,取每次训练最高 AUC,5 次训练平均值记为该模型 AUC。Best AUC 是 5 次训练中 AUC 最高值。记 RP(BaseModel)为某一模型 AUC 对 BaseModel 的相对提升,计 算方式如式(13)所示,同理,记 RP(DIN)为某一模型 AUC 对 DIN 的相对提升,结果如表 2 和图 4 所 示。 ( ) ( ) ( ) 100% ( ) AUC mesuared model AUC BaseModel RP BaseModel AUC BaseModel (13) 表 2 算法性能对比 Table 2 Algorithm Performance Category Name AUC(%) Best AUC(%) RP(BaseModel)(%) RP(DIN)(%) Existing models BaseModel 84.852 84.946 - -0.670 DeepFM 85.012 85.095 0.189 -0.482 DIN 85.424 85.468 0.674 - Modesl of this paper LIN 85.581 85.669 0.859 0.184 LINc 84.803 84.911 -0.058 -0.727 LINr 85.796 85.841 1.113 0.435 LSTINc 85.781 85.834 1.095 0.418 LSTINr 85.831 85.943 1.154 0.476 BaseModel DeepFM DIN LIN LINc LINr LSTINc *LSTINr 0.846 0.848 0.850 0.852 0.854 0.856 0.858 0.860 AUC Best AUC AUC 图 4 算法 AUC 对比 Fig.4 AUC of Different Algorithm 录用稿件,非最终出版稿
LN相比DN,结构上的差异只是在信息融合层前加入编码器结构,因此LN的AUC指标高 于DN可以证明模型获得感知上下文信息的能力后能够取得更好的效果。LN,效果进一步提高,证 明GU结构相比平均池化能够更充分地提取和保留信息,使模型获得更强的学习和表示能力,但 LIN.效果不佳,效果低于BaseModel。在对长期和短期兴趣采取不同的处理方式后,LSTIN和 LSTN均取得了良好的效果。LSTN相比LN的效果提升,可进一步验证CNN更加偏向关注局部 信息,适用于处理长度固定的短序列。平均AUC和最高AUC的最大值均由LSTN,取得。 如图5对比部分模型在达到最佳效果前AUC随时间的变化。从AUC的角度看,性能最佳的三 个模型为LIN、LSTN、LSTN,LN:尽管性能较好,但需耗费超过60OOOs的训练时间取得最高 AUC,此外LIN将用户全部历史数据通过GU处理,需要占用较多的内存资源。LSTN通过区分 用户长、短期兴趣,对用户长、短期兴趣采取不同的处理方式,实现训练效率提升的同时保障并提 升模型效果。在相同的实验环境下,LSTN,和LSTIN均在110OOs以内达到最高AUC,LSTIN略 快于LSTN。从模型效果及训练效率两个角度综合来看,将用户历史点击行为分为长期和短期两 部分都是十分有价值的。 AUC 0.86 0.85 084 0.83 0.82 0.81 10000 最终出版槁 20000 40000 50000 LSTIN LIN 圆5部分模型训练时间对比 Fig.5 Comparison of Training Time 4结论 (1)针对点击率预测词@、建模用户兴趣时用户历史记录上下文信息和顺序信息难以有效提 取的问题,提出长短期冷趣网经模型,使用基于注意力机制的结构解决了以上问题。 (2)针对序列数据建模方法效率较低的问题,将用户行为分为长期和短期两部分,分别采用平 均池化、RNN/CNN进关步处理,保障模型效果的同时提高了模型训练效率。 (3) 基于亚马逊公开数据集的对比实验表明,LSTN的预测精度有明显提升。 参考文献 [1]Shen XL,LiZ J,He C H.Hybrid recommendation algorithm based on rating filling and trust information.Journal of Computer Applications,2020,40(10):2789. (沈学利,李子健,赫辰皓.基于评分填充与信任信息的混合推荐算法计算机应用,2020,40(10)少:2789.) [2]Song H Q,Du S Y,Zhou Y C,et al.Big data intelligent platform and application analysis for oil and gas resource development.Chinese Journal of Engineering,2021,43(02):179. (宋洪庆,都书一,周园春,等.油气资源开发的大数据智能平台及应用分析.工程科学学报,2021,43(02):179.)
LIN 相比 DIN,结构上的差异只是在信息融合层前加入编码器结构,因此 LIN 的 AUC 指标高 于 DIN 可以证明模型获得感知上下文信息的能力后能够取得更好的效果。LINr效果进一步提高,证 明 GRU 结构相比平均池化能够更充分地提取和保留信息,使模型获得更强的学习和表示能力,但 LINc 效果不佳,效果低于 BaseModel。在对长期和短期兴趣采取不同的处理方式后,LSTINr 和 LSTINc均取得了良好的效果。LSTINc相比 LINc的效果提升,可进一步验证 CNN 更加偏向关注局部 信息,适用于处理长度固定的短序列。平均 AUC 和最高 AUC 的最大值均由 LSTINr取得。 如图 5 对比部分模型在达到最佳效果前 AUC 随时间的变化。从 AUC 的角度看,性能最佳的三 个模型为 LINr、LSTINr、LSTINc,LINr尽管性能较好,但需耗费超过 60000s 的训练时间取得最高 AUC,此外 LINr将用户全部历史数据通过 GRU 处理,需要占用较多的内存资源。LSTIN 通过区分 用户长、短期兴趣,对用户长、短期兴趣采取不同的处理方式,实现训练效率提升的同时保障并提 升模型效果。在相同的实验环境下,LSTINr和 LSTINc均在 11000s 以内达到最高 AUC,LSTINc略 快于 LSTINr。从模型效果及训练效率两个角度综合来看,将用户历史点击行为分为长期和短期两 部分都是十分有价值的。 图 5 部分模型训练时间对比 Fig.5 Comparison of Training Time 4 结论 (1) 针对点击率预测问题中,建模用户兴趣时用户历史记录上下文信息和顺序信息难以有效提 取的问题,提出长短期兴趣网络模型,使用基于注意力机制的结构解决了以上问题。 (2) 针对序列数据建模方法效率较低的问题,将用户行为分为长期和短期两部分,分别采用平 均池化、RNN/CNN 进一步处理,保障模型效果的同时提高了模型训练效率。 (3) 基于亚马逊公开数据集的对比实验表明,LSTIN 的预测精度有明显提升。 参 考 文 献 [1] Shen X L, Li Z J, He C H. Hybrid recommendation algorithm based on rating filling and trust information. Journal of Computer Applications, 2020, 40(10): 2789. (沈学利,李子健,赫辰皓.基于评分填充与信任信息的混合推荐算法.计算机应用, 2020, 40(10): 2789.) [2] Song H Q, Du S Y, Zhou Y C, et al. Big data intelligent platform and application analysis for oil and gas resource development. Chinese Journal of Engineering, 2021, 43(02): 179. (宋洪庆,都书一,周园春,等.油气资源开发的大数据智能平台及应用分析.工程科学学报, 2021, 43(02): 179.) 录用稿件,非最终出版稿
[3]Tao ZL,Wang,X He X N,et al.HoAFM:A High-order Attentive Factorization Machine for CTR Prediction. Information Processing and Management,2019,57(6):102076. [4]Zhou A Y,Zhou M Q,Gong X Q.Computational Advertising :A Data-Centric Comprehensive Web Application. Chinese Journal of Computers,2011,34(10):1805. (周傲英周敏奇,宫学庆.计算广告:以数据为核心的Wb综合应用.计算机学报2011,34(10)1805.) [5]Liu M J,Zeng G C,Yue W,et al.Review on Click-through Rate Prediction Models for Display Advertising.Computer Science,2019,46(07):38. (刘梦娟,曾贵川,岳威,等面向展示广告的点击率预测模型综述.计算机科学,2019,46(07):38) [6]Richardson M,Dominowska E,Ragno R.Predicting Clicks:Estimating the Click Through Rate for New ADs// Proceedings of the 16th International Conference on World Wide Web.Alberta,2007:521 [7]Chen J X,Sun B G,Li H,et al.Deep CTR Prediction in Display Advertising Proceedings of the 24th ACM international conference on Multimedia.Amsterdam,2016:811. [8]Rendle S.Factorization Machines//IEEE International Conference on Data Mining.Berli [9]Zhang W N,Du T M,Wang J.Deep Learning over Multi-field Categorical Data on User Response Prediction /l Proceedings of European Conference on Information Retrieval.Padua20 [10]Qu Y R,Cai H,Ren K,et al.Product-based Neural Networks for User Response Prediction /2016 IEEE 16th International Conference on Data Mining.Barcelona,2016:1149 [11]Cheng H T,Koc L,Harmsen J,et al.Wide Deep Learning for Recommender Systems /Proceedings of the Ist Workshop on Deep Learning for Recommender Systems.Boston,2016 [12]Guo H F.Tang R M.Ye Y M,et al.DeepFM:A Factorization-Machine based Neural Network for CTR Prediction / Twenty-Sixth International Joint Conference on Artificial Intelligence.Melboumne,2017:1725. [13]Zhou G R.Song C R.Zhu X Q,et al.Deep Interest Network for Click-Through Rate Prediction /Proceedings of KDD'18.London.2018:1059. [14]Hochreiter S,Schmidhuber J.Long Short-Term Memory.Neural Computation,1997,9(8):1735 [15]Cheng Y,Yao L B,Zhang G H,et al.Text Sentiment Orientation Analysis of Multi-Channels CNN and BiGRU Based on Attention Mechanism.Journal of Computer Research and Development,2020,57(12):2583 (程艳,尧磊波,张光河,等.基于注意力机制的多通道CNN和BiGU的文本情感倾向性分析.计算机研究与发展, 2020.57(12:2583.) [16]Cho K,van Merrienboer B.Gulcehre C,et al.Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation Proceedings of the Conference on Empirical Methods on Natural Language Processing.Doha.2014:1724. [17]Dai J H,Deng YB.Extracting Emotion-Cause Pairs Based on Emotional Dilation Gated CNN.Data Analysis and Knowledge Discovery.2020,4(08):98. (代建华邓有 .基于情感膨胀门控CNN的情感-原因对提取.数据分析与知识发现.2020,4(08):98.) [18]Kalchbrenner N.Grefenstette E,Blunsom P.A Convolutional Neural Network for Modelling Sentences//Proceedings of the 52nd Anmial Meeting of the Association for Computational Linguistics.Baltimore,2014:655. [19]Vaswani A,Shazeer N,Parmar N,et al.Attention Is All You Need /Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach,2017:5998. [20]Jiang D,Xu R B,Xu X,et al.Multi-view feature transfer for click-through rate prediction.Information Sciences,2021, 546:961. [21]Yu C M,Feng B L,An L.Sentiment Analysis in Cross-Domain Environment with Deep Representative Learning.Data Analysis and Knowledge Discovery,2017,1(07):73. (余传明,冯博琳,安璐.基于深度表示学习的跨领域情感分析.数据分析与知识发现,2017,1(07):73) [22]Zhang Y F,Lu Z Q.Remaining useful life prediction based on an integrated neural network.Chinese Journal of
[3] Tao Z L, Wang, X He X N, et al. HoAFM: A High-order Attentive Factorization Machine for CTR Prediction. Information Processing and Management, 2019, 57(6): 102076. [4] Zhou A Y, Zhou M Q, Gong X Q. Computational Advertising :A Data-Centric Comprehensive Web Application. Chinese Journal of Computers, 2011, 34(10): 1805. (周傲英,周敏奇,宫学庆.计算广告:以数据为核心的 Web 综合应用.计算机学报,2011, 34(10): 1805.) [5] Liu M J, Zeng G C, Yue W, et al. Review on Click-through Rate Prediction Models for Display Advertising. Computer Science, 2019, 46(07): 38. (刘梦娟, 曾贵川, 岳威, 等.面向展示广告的点击率预测模型综述. 计算机科学, 2019, 46(07): 38.) [6] Richardson M, Dominowska E, Ragno R.Predicting Clicks: Estimating the Click Through Rate for New ADs // Proceedings of the 16th International Conference on World Wide Web. Alberta, 2007: 521. [7] Chen J X, Sun B G, Li H, et al. Deep CTR Prediction in Display Advertising // Proceedings of the 24th ACM international conference on Multimedia. Amsterdam, 2016: 811. [8] Rendle S. Factorization Machines // IEEE International Conference on Data Mining. Berlin 2010: 995. [9] Zhang W N, Du T M, Wang J. Deep Learning over Multi-field Categorical Data: A Case Study on User Response Prediction // Proceedings of European Conference on Information Retrieval. Padua, 2016: 45. [10] Qu Y R, Cai H, Ren K, et al. Product-based Neural Networks for User Response Prediction // 2016 IEEE 16th International Conference on Data Mining. Barcelona, 2016: 1149. [11] Cheng H T, Koc L, Harmsen J, et al.Wide & Deep Learning for Recommender Systems // Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. Boston, 2016: 7. [12] Guo H F, Tang R M, Ye Y M, et al. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction // Twenty-Sixth International Joint Conference on Artificial Intelligence. Melbourne, 2017: 1725. [13] Zhou G R, Song C R, Zhu X Q, et al. Deep Interest Network for Click-Through Rate Prediction // Proceedings of KDD’18. London, 2018: 1059. [14] Hochreiter S, Schmidhuber J . Long Short-Term Memory. Neural Computation, 1997, 9(8): 1735. [15] Cheng Y, Yao L B, Zhang G H, et al. Text Sentiment Orientation Analysis of Multi-Channels CNN and BiGRU Based on Attention Mechanism. Journal of Computer Research and Development, 2020, 57(12): 2583. (程艳,尧磊波,张光河,等.基于注意力机制的多通道 CNN 和 BiGRU 的文本情感倾向性分析. 计算机研究与发展, 2020, 57(12): 2583.) [16] Cho K, van Merriënboer B, Gulcehre C, et al. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation // Proceedings of the Conference on Empirical Methods on Natural Language Processing. Doha, 2014: 1724. [17] Dai J H, Deng Y B. Extracting Emotion-Cause Pairs Based on Emotional Dilation Gated CNN. Data Analysis and Knowledge Discovery, 2020, 4(08): 98. (代建华,邓育彬. 基于情感膨胀门控 CNN 的情感-原因对提取. 数据分析与知识发现,2020, 4(08): 98. ) [18] Kalchbrenner N, Grefenstette E, Blunsom P. A Convolutional Neural Network for Modelling Sentences // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, 2014: 655. [19] Vaswani A, Shazeer N , Parmar N, et al. Attention Is All You Need // Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, 2017: 5998. [20] Jiang D, Xu R B, Xu X, et al. Multi-view feature transfer for click-through rate prediction. Information Sciences, 2021, 546: 961. [21] Yu C M, Feng B L, An L. Sentiment Analysis in Cross-Domain Environment with Deep Representative Learning. Data Analysis and Knowledge Discovery, 2017, 1(07): 73. (余传明,冯博琳,安璐.基于深度表示学习的跨领域情感分析. 数据分析与知识发现, 2017, 1(07): 73.) [22] Zhang Y F, Lu Z Q. Remaining useful life prediction based on an integrated neural network. Chinese Journal of 录用稿件,非最终出版稿