第16卷第1期 智能系统学报 Vol.16 No.1 2021年1月 CAAI Transactions on Intelligent Systems Jan.2021 D0L:10.11992tis.202009032 联邦推荐系统的协同过滤冷启动解决方法 王健宗,肖京,朱星华,李泽远 (平安科技(深圳)有限公司,广东深圳518000) 摘要:基于联邦学习的推荐系统可以在保护用户隐私的情况下,联合多方数据,提升推荐系统的性能,已经成 为推荐领域的研究热点之一。联邦协同过滤是联邦推荐系统中最经典及最常用的算法之一。然而,针对联邦 协同过滤系统的冷启动问题的研究工作相对较少。针对这一问题,本文提出了一种基于安全内积协议的解决 方案。具体地,在系统中添加新用户或新物品时,联合多方评分矩阵,利用安全内积的方法,对多方数据进行 相似矩阵的求解,从而完成推荐输出。本文在MovieLens数据集上对所述方法进行了验证。结果表明:本方法 能够有效解决基于相似度的协同过滤中的冷启动问题,并且推荐效果也会依据多方数据分布的比例变化。 关键词:联邦学习:隐私保护;数据孤岛;推荐系统:协同过滤:冷启动:机器学习;安全内积 中图分类号:TP391文献标志码:A文章编号:1673-4785(2021)01-0178-08 中文引用格式:王健宗,肖京,朱星华,等.联邦推荐系统的协同过滤冷启动解决方法【J川.智能系统学报,2021,16(1): 178-185. 英文引用格式:VANG Jianzong,.XIAO Jing,.ZHU Xinghua,et al Cold starts in collaborative filtering for federated recommender systems[J].CAAI transactions on intelligent systems,2021,16(1):178-185. Cold starts in collaborative filtering for federated recommender systems WANG Jianzong,XIAO Jing,ZHU Xinghua,LI Zeyuan (Ping An Technology(Shenzhen)Co.,Ltd.,Shenzhen 518000,China) Abstract:Recommender systems based on federated learning has become one of the research hotspots in the recom- mender field.However,few studies focused on the cold start problem of federated recommender systems.Under the framework of federated learning,we propose a novel collaborative filtering algorithm for its solution:through involving more rating matrices,we can get a similarity matrix with secure inner product method,and implement the recommenda- tion for new users to the system.In this work,we verify the performance of our method on MovieLens.The results show that our proposal is effective in solving the cold start problem in similarity-based collaborative filtering,and the recom- mendation effects vary according to the data distribution among different parties. Keywords:federated learning;privacy protection;data island;recommender system;collaborative filtering;cold start; machine learning;secure inner product 大数据时代政府关于隐私保护的法律法规盛于分布在每个用户手机上的数据学习一个统一的 行,如《通用数据保护条例》(general data protec- 模型,用户的原始信息无需转移到中央服务器, tion regulation),数据在政策的限制下分散在不 从而实现了隐私保护。经证明,L与在原始数据 同的载体组织中,因此保护隐私的机器学习在学 上学习到的传统模型相比,预测能力几乎相同。 术界和工业界都备受重视。在实现隐私保护机器学 随着互联网和电子商务的迅猛发展,推荐系 习的各种技术中,联邦学习(federated learning,.FL)冈 统成为企业提高市场竞争力的重要工具。其中, 受到高度重视,它最初由Google提出,目标是基 协同过滤(collaborative filtering,CF)是最著名的 一种推荐算法,有2种实现方法:一种是基于近 收稿日期:2020-09-23. 基金项目:国家重点研发计划“云计算和大数据”重点专项 邻的,另一种是基于矩阵分解。其中基于近邻的 (2018YFB1003503):国家重点研发计划“高性能计 算”重点专项(20I8YFB0204400):国家重点研发计划 协同过滤又分为基于用户的协同过滤和基于物品 “现代服务业共性关键技术研发及应用示范”专项 2017YFB1401202). 的协同过滤,分别依据用户消费行为上的相似性 通信作者:王健宗.E-mail:jzwang(@188.com 或消费产品间的相似性来实现个性化的产品推
DOI: 10.11992/tis.202009032 联邦推荐系统的协同过滤冷启动解决方法 王健宗,肖京,朱星华,李泽远 (平安科技 (深圳) 有限公司,广东 深圳 518000) 摘 要:基于联邦学习的推荐系统可以在保护用户隐私的情况下,联合多方数据,提升推荐系统的性能,已经成 为推荐领域的研究热点之一。联邦协同过滤是联邦推荐系统中最经典及最常用的算法之一。然而,针对联邦 协同过滤系统的冷启动问题的研究工作相对较少。针对这一问题,本文提出了一种基于安全内积协议的解决 方案。具体地,在系统中添加新用户或新物品时,联合多方评分矩阵,利用安全内积的方法,对多方数据进行 相似矩阵的求解,从而完成推荐输出。本文在 MovieLens 数据集上对所述方法进行了验证。结果表明:本方法 能够有效解决基于相似度的协同过滤中的冷启动问题,并且推荐效果也会依据多方数据分布的比例变化。 关键词:联邦学习;隐私保护;数据孤岛;推荐系统;协同过滤;冷启动;机器学习;安全内积 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)01−0178−08 中文引用格式:王健宗, 肖京, 朱星华, 等. 联邦推荐系统的协同过滤冷启动解决方法 [J]. 智能系统学报, 2021, 16(1): 178–185. 英文引用格式:WANG Jianzong, XIAO Jing, ZHU Xinghua, et al. Cold starts in collaborative filtering for federated recommender systems[J]. CAAI transactions on intelligent systems, 2021, 16(1): 178–185. Cold starts in collaborative filtering for federated recommender systems WANG Jianzong,XIAO Jing,ZHU Xinghua,LI Zeyuan (Ping An Technology (Shenzhen) Co., Ltd., Shenzhen 518000, China) Abstract: Recommender systems based on federated learning has become one of the research hotspots in the recommender field. However, few studies focused on the cold start problem of federated recommender systems. Under the framework of federated learning, we propose a novel collaborative filtering algorithm for its solution: through involving more rating matrices, we can get a similarity matrix with secure inner product method, and implement the recommendation for new users to the system. In this work, we verify the performance of our method on MovieLens. The results show that our proposal is effective in solving the cold start problem in similarity-based collaborative filtering, and the recommendation effects vary according to the data distribution among different parties. Keywords: federated learning; privacy protection; data island; recommender system; collaborative filtering; cold start; machine learning; secure inner product 大数据时代政府关于隐私保护的法律法规盛 行,如《通用数据保护条例》(general data protection regulation)[1] ,数据在政策的限制下分散在不 同的载体/组织中,因此保护隐私的机器学习在学 术界和工业界都备受重视。在实现隐私保护机器学 习的各种技术中,联邦学习 (federated learning,FL)[2] 受到高度重视,它最初由 Google 提出,目标是基 于分布在每个用户手机上的数据学习一个统一的 模型,用户的原始信息无需转移到中央服务器, 从而实现了隐私保护。经证明,FL 与在原始数据 上学习到的传统模型相比,预测能力几乎相同[3]。 随着互联网和电子商务的迅猛发展,推荐系 统成为企业提高市场竞争力的重要工具。其中, 协同过滤 (collaborative filtering,CF) 是最著名的 一种推荐算法[4] ,有 2 种实现方法:一种是基于近 邻 [5] ,另一种是基于矩阵分解[6]。其中基于近邻的 协同过滤又分为基于用户的协同过滤和基于物品 的协同过滤,分别依据用户消费行为上的相似性 或消费产品间的相似性来实现个性化的产品推 收稿日期:2020−09−23. 基金项目:国家重点研发计划 “ 云计算和大数据 ” 重点专 项 (2018YFB1003503);国家重点研发计划“高性能计 算”重点专项 (2018YFB0204400);国家重点研发计划 “现代服务业共性关键技术研发及应用示范”专项 (2017YFB1401202). 通信作者:王健宗. E-mail:jzwang@188.com. 第 16 卷第 1 期 智 能 系 统 学 报 Vol.16 No.1 2021 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2021
第1期 王健宗,等:联邦推荐系统的协同过滤冷启动解决方法 ·179· 荐。一般来说,客户的历史信息越详细,推荐结 boosting decision tree,.GBDT))、逻辑回归、支持 果越准确。 向量机」 由于没有足够多的客户数据,许多中小型公 本文主要关注在纵向联邦的场景下实现推荐 司无法获得满意的推荐模型。为了解决这个问 系统的冷启动问题。 题,通常采取的解决方案有:1)请求另一家拥有 1.2推荐系统的隐私保护 庞大客户数据库的公司帮助;2)与其他多家拥有 推荐系统(recommendation systems,R.S)收集 相对较小客户数据库公司合作,共同创建一个大 和学习用户对一系列项目的偏好信息,并预测用 的数据库。公司间无法简单地共享或允许彼此 户对新物品或项目的兴趣程度,产生推荐列表。 完全访问其数据库,因为这可能会造成客户隐私 用户的偏好信息可以是显性的(基本上是通过收 数据外泄。文献[8]表明,70%~89.5%的互联网 集用户的评分)或隐性的(基本上是通过监测用 用户认为个人隐私信息面临泄露风险。鉴于联邦学 户的交互记录,如访问过的网页、购买过的软件、 习处理数据孤岛和隐私保护问题的有效性和实用 阅读过的书籍和刷过的短视频等隐性推断关于 性,与联邦学习相结合的协同过滤推荐算法成为 某物品的兴趣程度)s。根据输入数据的类型, 目前推荐系统领域的一个研究热点。 推荐模型主要分为协同过滤式推荐系统叨、基于 冷启动是协同过滤算法应用中经常会遇到的 内容的推荐系统1和基于知识的推荐系统。在 问题,分为新用户冷启动、新项目冷启动、系统冷 实践中,推荐系统已经被广泛地应用于各种应 启动等。当系统中有新用户加入时,由于该用户 用中,如电子商务m2、娱乐22、新闻42和社交 在系统中没有历史评分数据,不能根据传统算法 平台26-27 计算用户间的相似度,也就无法为其进行推荐, 由于个人对物品的偏好往往涉及到个人的隐 这就是协同过滤算法的新用户冷启动问题。在 私信息,长期以来,推荐系统中如何保护隐私信 现有的与联邦学习相结合的协同过滤推荐算法的 息受到许多学者关注。许多研究使用差分隐私的 研究中,对用户冷启动问题的研究比较少,因此 方法保护用户评价记录的隐私性"。联邦学习通 对联邦学习协同过滤算法中用户冷启动问题的研 过数据不出本地、仅传输用户梯度的方式,进一 步保障用户的隐私不被窃取。联邦推荐系统可以 究具有迫切的意义。 与差分隐私、多方安全计算等技术结合,灵活有 1相关工作 效地在不泄露用户隐私的前提下实现推荐系统性 能的提升。 本文的研究是3个研究主题的交叉点:联邦 协同过滤是推荐系统中最常用、应用范围最 学习、协同过滤推荐算法中的隐私保护问题和冷 广的算法之一,也是本文讨论的主要算法。针对 启动问题。 协同过滤算法中的隐私保护问题,有多种方法可 1.1联邦学习 以解决。如文献[15]针对集中式数据,采用随机 随着信息革命的发展,海量的数据在不断产 扰乱技术,提出了一个保护隐私的协同过滤推荐 生,如何合理有效地利用这些数据成为一个热点 方案;文献[28]在差分隐私框架中提出了协同过 方向。由于隐私政策的保护,很多数据不能被轻 滤算法:文献[29]使用同态加密计算协同过滤过 易地获取,数据间相互隔离,形成了一个个数据 程的中间值,中间值解密后通过奇异值分解和因 孤岛。如何建立数据孤岛间沟通的桥梁,打破数 子分析产生推荐建议;文献[30]提出了一种基于 据之间的界限,成为一个热点方向。谷歌研究院 同态密码的协同过滤算法;文献[31]提出了一种 提出了联邦学习的概念,即通过只在各节点间传 新的兴趣点推荐隐私保护框,在联邦学习中采用 递模型参数,而不分享模型间数据的方式训练一 安全聚合的策略来学习特征交互模型;文献[32] 个共享的数据模型。联邦学习成为解决数据隐私 提出了一种新的分布式矩阵分解框架用于兴趣点 保护的一个有利工具。联邦学习旨在满足数据隐 推荐,该框架具有可扩展性,能够保护用户隐私。 私保护、数据安全和政府法规的前提下,进行数 1.3协同过滤及其冷启动问题 据的使用和建模。根据数据划分的方式,联邦学 协同过滤是一种基于矩阵分解的推荐算法。 习可分为纵向联邦学习以及横向联邦学习。迄 在已知用户的历史评分矩阵R的前提下,使用较 今为止,有许多研究致力于联邦学习算法,以支 低维的用户特征矩阵U={u12…uw}和物品特征 持更多的机器学习模型,包括深度神经网络(deep 矩阵V={y,2…vw}的乘积UV拟合评分矩阵。 neural network,DNN)l、梯度提升树(gradient 在进行推荐时,通过用户特征和物品特征向量的
荐。一般来说,客户的历史信息越详细,推荐结 果越准确。 由于没有足够多的客户数据,许多中小型公 司无法获得满意的推荐模型。为了解决这个问 题,通常采取的解决方案有:1) 请求另一家拥有 庞大客户数据库的公司帮助;2) 与其他多家拥有 相对较小客户数据库公司合作,共同创建一个大 的数据库[7]。公司间无法简单地共享或允许彼此 完全访问其数据库,因为这可能会造成客户隐私 数据外泄。文献 [8] 表明,70%~89.5% 的互联网 用户认为个人隐私信息面临泄露风险。鉴于联邦学 习处理数据孤岛和隐私保护问题的有效性和实用 性,与联邦学习相结合的协同过滤推荐算法成为 目前推荐系统领域的一个研究热点[9]。 冷启动是协同过滤算法应用中经常会遇到的 问题,分为新用户冷启动、新项目冷启动、系统冷 启动等。当系统中有新用户加入时,由于该用户 在系统中没有历史评分数据,不能根据传统算法 计算用户间的相似度,也就无法为其进行推荐, 这就是协同过滤算法的新用户冷启动问题[10]。在 现有的与联邦学习相结合的协同过滤推荐算法的 研究中,对用户冷启动问题的研究比较少,因此 对联邦学习协同过滤算法中用户冷启动问题的研 究具有迫切的意义。 1 相关工作 本文的研究是 3 个研究主题的交叉点:联邦 学习、协同过滤推荐算法中的隐私保护问题和冷 启动问题。 1.1 联邦学习 随着信息革命的发展,海量的数据在不断产 生,如何合理有效地利用这些数据成为一个热点 方向。由于隐私政策的保护,很多数据不能被轻 易地获取,数据间相互隔离,形成了一个个数据 孤岛。如何建立数据孤岛间沟通的桥梁,打破数 据之间的界限,成为一个热点方向。谷歌研究院 提出了联邦学习的概念,即通过只在各节点间传 递模型参数,而不分享模型间数据的方式训练一 个共享的数据模型。联邦学习成为解决数据隐私 保护的一个有利工具。联邦学习旨在满足数据隐 私保护、数据安全和政府法规的前提下,进行数 据的使用和建模。根据数据划分的方式,联邦学 习可分为纵向联邦学习以及横向联邦学习[11]。迄 今为止,有许多研究致力于联邦学习算法,以支 持更多的机器学习模型,包括深度神经网络(deep neural network,DNN) [12] 、梯度提升树(gradient boosting decision tree,GBDT) [13] 、逻辑回归、支持 向量机[14]。 本文主要关注在纵向联邦的场景下实现推荐 系统的冷启动问题。 1.2 推荐系统的隐私保护 推荐系统 (recommendation systems, RS) 收集 和学习用户对一系列项目的偏好信息,并预测用 户对新物品或项目的兴趣程度,产生推荐列表。 用户的偏好信息可以是显性的 (基本上是通过收 集用户的评分) 或隐性的 (基本上是通过监测用 户的交互记录,如访问过的网页、购买过的软件、 阅读过的书籍和刷过的短视频等隐性推断关于 某物品的兴趣程度) [15-17]。根据输入数据的类型, 推荐模型主要分为协同过滤式推荐系统[17] 、基于 内容的推荐系统[18] 和基于知识的推荐系统[19]。在 实践中,推荐系统已经被广泛地应用于各种应 用中,如电子商务[20-21] 、娱乐[22-23] 、新闻[24-25] 和社交 平台[26-27]。 由于个人对物品的偏好往往涉及到个人的隐 私信息,长期以来,推荐系统中如何保护隐私信 息受到许多学者关注。许多研究使用差分隐私的 方法保护用户评价记录的隐私性[1]。联邦学习通 过数据不出本地、仅传输用户梯度的方式,进一 步保障用户的隐私不被窃取。联邦推荐系统可以 与差分隐私、多方安全计算等技术结合,灵活有 效地在不泄露用户隐私的前提下实现推荐系统性 能的提升。 协同过滤是推荐系统中最常用、应用范围最 广的算法之一,也是本文讨论的主要算法。针对 协同过滤算法中的隐私保护问题,有多种方法可 以解决。如文献 [15] 针对集中式数据,采用随机 扰乱技术,提出了一个保护隐私的协同过滤推荐 方案;文献 [28] 在差分隐私框架中提出了协同过 滤算法;文献 [29] 使用同态加密计算协同过滤过 程的中间值,中间值解密后通过奇异值分解和因 子分析产生推荐建议;文献 [30] 提出了一种基于 同态密码的协同过滤算法;文献 [31] 提出了一种 新的兴趣点推荐隐私保护框,在联邦学习中采用 安全聚合的策略来学习特征交互模型;文献 [32] 提出了一种新的分布式矩阵分解框架用于兴趣点 推荐,该框架具有可扩展性,能够保护用户隐私。 1.3 协同过滤及其冷启动问题 R U = {u1 u2 ··· uN} V = {v1 v2 ··· vM} U TV 协同过滤是一种基于矩阵分解的推荐算法。 在已知用户的历史评分矩阵 的前提下,使用较 低维的用户特征矩阵 和物品特征 矩阵 的乘积 拟合评分矩阵。 在进行推荐时,通过用户特征和物品特征向量的 第 1 期 王健宗,等:联邦推荐系统的协同过滤冷启动解决方法 ·179·
·180· 智能系统学报 第16卷 内积";计算出用户对某一物品的预测评分,即 户,但对于B不为新用户。因此A拥有评分矩阵 用户可能对该物品感兴趣的程度。其中,用户特 Vm(n+1≤u≤n,1≤i≤m),相应地,B机构拥有评 征和物品特征都是通过对历史评分的学习训练得 分矩阵V(1≤u≤n,m+1≤i≤m)。该研究问题是 到的,当系统中添加新的用户和新的物品时,它 设计一个联邦学习纵向协同过滤算法,让A能够 们的特征向量是未知的,即产生了初始推荐的问 在不泄露双方信息的前提下,通过B的信息完成 题,相关的算法称为协同过滤的冷启动。 对新用户1≤u≤)的推荐。 针对协同过滤算法中冷启动问题,文献[33] 提出了一种基于协同矩阵分解的用户冷启动推荐 88888888888 算法,来处理用户冷启动问题。文献[34]将计算 相似性的不对称方法与矩阵分解和基于典型性的 协同过滤(yco)相结合,实现了一种改进的电影 推荐算法。然而目前对冷启动问题的研究一般基 于单方数据库,具有一定的局限性,有少数学者 对多方参与的协同过滤冷启动问题进行了探索。 物品 图冷启动用户 题现有用户物品矩阵 文献[35]引入联邦多视图矩阵分解方法,将联邦 图1带有冷启动用户的纵向划分 学习框架扩展到具有多个数据源的矩阵分解。经 Fig.1 Vertical partition with cold start users. 证明,该方法对于多数据源冷启动推荐有较好的 预测效果。 3联邦推荐冷启动 本文提出的方法联合多方数据,打通了数据 孤岛,在进行隐私保护的同时,解决了协同过滤 3.1协同过滤冷启动算法 中的冷启动问题。 根据文献[36]提出的框架,协同过滤主要分 为3个步骤: 2纵向联邦协同过滤中的冷启动定义 1)物品相似度计算:根据评分信息,计算物 在本节中,对纵向联邦协同过滤中的冷启动 品1与其他物品相似度: 问题给出正式的公式定义。 2)邻近样本选择:这一步主要是为了提高推 本文考虑采用基于纵向联邦学习的协同过滤 荐算法的效率和精确度; 方法。其中,联邦协同过滤可以由多方进行联合 3)预测推荐:对用户“的评分预测,并将排序 训练,为了方便起见,本文均以两方为例。假定 最高的前N个推荐给用户。 联邦参与公司A、B都是半诚实的,这意味着他们 1)计算物品相似度:为了计算A方物品与 会遵守协议,但也会尽可能地从执行中推断信 B方物品的相似度,采用皮尔森相关系数进行计 息。因此在本文中,由于评分属于隐私信息,A、 算,令i为A方物品,j为B方物品,则皮尔森系 B双方均不能直接交换评分。在此假定A需要解 数为 决新用户冷启动问题,与B联合进行基于物品的 协同过滤训练,最终A、B均能获得两方物品的相 (-)(v-) 似度矩阵,B通过相似度矩阵与物品评分对A物 simi 品进行评分预测,将预测值排序并返回A推荐物 (- 品d。最终,在不泄露评分信息的情况下,A获得 了针对新用户的物品推荐顺序。 如图1,机构A为了解决本地新用户的冷启 式中:v:表示用户u给物品i的评级;= 动问题,与机构B进行合作。假设A与B是纵向 n-w 联合,A与B共有用户n个,已经进行了对齐处 sim,代表物品i与j相似度,范围在-1,1)。为了 理;共有m个物品,其中A有m个物品,B有 使A、B两方能够联合计算,将其分为ci、c2个 m-mm-m个物品。令评分为[yin,VaJ[ymn,Vm] 部分: 中的一个整数,对于物品i(1≤i≤m),评分向量为 sim; V,=(y,,…,Vm),其中vm(1≤u≤m)代表用户u对 物品i的评分。假设n个用户中,A有1个新用 其中:
u T i 内积 vj 计算出用户对某一物品的预测评分,即 用户可能对该物品感兴趣的程度。其中,用户特 征和物品特征都是通过对历史评分的学习训练得 到的,当系统中添加新的用户和新的物品时,它 们的特征向量是未知的,即产生了初始推荐的问 题,相关的算法称为协同过滤的冷启动。 针对协同过滤算法中冷启动问题,文献 [33] 提出了一种基于协同矩阵分解的用户冷启动推荐 算法,来处理用户冷启动问题。文献 [34] 将计算 相似性的不对称方法与矩阵分解和基于典型性的 协同过滤 (tyco) 相结合,实现了一种改进的电影 推荐算法。然而目前对冷启动问题的研究一般基 于单方数据库,具有一定的局限性,有少数学者 对多方参与的协同过滤冷启动问题进行了探索。 文献 [35] 引入联邦多视图矩阵分解方法,将联邦 学习框架扩展到具有多个数据源的矩阵分解。经 证明,该方法对于多数据源冷启动推荐有较好的 预测效果。 本文提出的方法联合多方数据,打通了数据 孤岛,在进行隐私保护的同时,解决了协同过滤 中的冷启动问题。 2 纵向联邦协同过滤中的冷启动定义 在本节中,对纵向联邦协同过滤中的冷启动 问题给出正式的公式定义。 本文考虑采用基于纵向联邦学习的协同过滤 方法。其中,联邦协同过滤可以由多方进行联合 训练,为了方便起见,本文均以两方为例。假定 联邦参与公司 A、B 都是半诚实的,这意味着他们 会遵守协议,但也会尽可能地从执行中推断信 息。因此在本文中,由于评分属于隐私信息,A、 B 双方均不能直接交换评分。在此假定 A 需要解 决新用户冷启动问题,与 B 联合进行基于物品的 协同过滤训练,最终 A、B 均能获得两方物品的相 似度矩阵,B 通过相似度矩阵与物品评分对 A 物 品进行评分预测,将预测值排序并返回 A 推荐物 品 id。最终,在不泄露评分信息的情况下,A 获得 了针对新用户的物品推荐顺序。 n m m ′ m−m ′m−m ′ [vmin, vmax][vmin, vmax] i(1 ⩽ i ⩽ m) Vi = (v1i , v2i ,··· , vni) vui(1 ⩽ u ⩽ n) u i n n ′ 如图 1,机构 A 为了解决本地新用户的冷启 动问题,与机构 B 进行合作。假设 A 与 B 是纵向 联合,A 与 B 共有用户 个,已经进行了对齐处 理;共有 个物品,其中 A 有 个物品,B 有 个物品。令评分为 中的一个整数,对于物品 ,评分向量为 ,其中 代表用户 对 物品 的评分。假设 个用户中,A 有 个新用 Vui(n ′ +1 ⩽ u ⩽ n,1 ⩽ i ⩽ m ′ ) Vui(1 ⩽ u ⩽ n,m ′ +1 ⩽ i ⩽ m) u(1 ⩽ u ⩽ n ′ ) 户,但对于 B 不为新用户。因此 A 拥有评分矩阵 ,相应地,B 机构拥有评 分矩阵 。该研究问题是 设计一个联邦学习纵向协同过滤算法,让 A 能够 在不泄露双方信息的前提下,通过 B 的信息完成 对新用户 的推荐。 A B 冷启动用户 现有用户-物品矩阵 用户 物品 图 1 带有冷启动用户的纵向划分 Fig. 1 Vertical partition with cold start users. 3 联邦推荐冷启动 3.1 协同过滤冷启动算法 根据文献 [36] 提出的框架,协同过滤主要分 为 3 个步骤: 1) 物品相似度计算:根据评分信息,计算物 品 i 与其他物品相似度; 2) 邻近样本选择:这一步主要是为了提高推 荐算法的效率和精确度; u N 3) 预测推荐:对用户 的评分预测,并将排序 最高的前 个推荐给用户。 i j 1) 计算物品相似度:为了计算 A 方物品与 B 方物品的相似度,采用皮尔森相关系数进行计 算,令 为 A 方物品, 为 B 方物品,则皮尔森系 数为 simi j = ∑n u=n ′+1 (vui −vi) ( vu j −vj ) √ ∑n u=n ′+1 (vui −vi) 2 √ ∑n u=n ′+1 ( vu, j −vj ) vu,i u i v¯i = ∑n u=n ′+1 vui n−n ′ simi j i j cui cu j 式中: 表示用户 给物品 的评级; ; 代表物品 与 相似度,范围在 [−1, 1]。为了 使 A、B 两方能够联合计算,将其分为 、 2 个 部分: simi j = ∑n u=n ′+1 cuicu j 其中: ·180· 智 能 系 统 学 报 第 16 卷
第1期 王健宗,等:联邦推荐系统的协同过滤冷启动解决方法 ·181· Vui-Vi C.E (1) 多方A、B以及第3方T: 输入A:C;B:C: 输出A:rA;B:rB,且有rA+rB=。 - (2) 1)T方随机产生2个随机向量x,y,以及一个随 机数,且令z=-r,将(x,r)传给A,y,)传给B; 2)A将C+x传给B; 显然,计算cn(cw)只需要vi(w)的信息,因 3)B将C,-y传给A: 此A、B两方均可在本地计算cm、c。令C:= 4)A计算可公开信息Ta=-r; (cr+i,cr+2i,…,cam,C=(cm,Cr+2,…,C),计算sim 5)B计算可公开信息rB=-z。 即可转为计算C和C的内积。 由于rA及rs里面各包含2个随机项,对C 2)选择近邻:由于本文针对的是新用户的冷 及C,的隐私信息均进行了保护,因此不会泄露各 启动推荐问题,将所有物品都作为邻近样本,允 方的隐私数据,最终A,B双方均可利用公开的 许使用不相似的物品来进行计算,增加推荐覆盖率。 rA、r进行内积的计算,达到了隐私保护 3)预测推荐:为了对机构A的新用户进行推 的作用,流程如图2所示。 荐,采用B机构里的评分信息进行预测: T Vujsimij =m+1 pred= (3) 0) 式中:pred代表用户u对物品i的预测评分,对 C+x 于A机构的新用户,有1≤u≤n,1≤i≤m。其中 预测值计算可在B机构进行,且B机构对预测值 Cry 结果排序,将排在前N个物品发送给A机构,完 图2安全内积流程 成对新用户的推荐。 Fig.2 Overview of secure inner product. 3.2安全内积 3.3联邦协同过滤冷启动算法 文献[3]提出了一种基于第3方的一种安全 为了使A、B双方能够在数据不泄露的情况 内积计算协议。 下进行新用户的推荐,将协同过滤与安全内积相 为了计算C,与C,的内积,加入一个 结合,构建联邦学习协同过滤冷启动解决算法。 第3方,在不泄露各方数据下进行数据的汇总,如 框架内容如图3所示,由受信任的第3方T以及 算法1所示。 A、B两方构成。如前文所述,假设A、B两方都 算法1安全内积算法 是半诚实的,同时第3方T也不与A、B两方勾结。 服务器T 初始化:T生成随机向量x,y及随机数r,使z=一r。 计算相似度矩阵:W=可亿,什r,),分发给A,B双方 W (x,r) rAi) C机 0) ra(i,1) rAi,1)C C-y> Cy rdi,j<Cx,C- 本地数据 Local Data C(1≤i≤m) C(m'+1≤i≤m) TopN推荐 图3联邦协同过滤冷启动框架 Fig.3 Overview of federated learning system for cold start in collaborative filtering
cui= vui −v¯i √∑n u=n ′+1 (vui−v¯i) 2 (1) cu j= vu j −v¯j √∑n u=n ′+1 ( vu j−v¯j )2 (2) cui cu j vui( vu j) cui cu j Ci = (cn ′+1i , cn ′+2i ,··· , cni),Cj = (cn ′+1 j , cn ′+2 j ,··· , cn j) simi j 显然,计算 ( ) 只需要 的信息,因 此 A、 B 两方均可在本地计算 、 。 令 ,计算 即可转为计算 Ci 和 Cj 的内积。 2) 选择近邻:由于本文针对的是新用户的冷 启动推荐问题,将所有物品都作为邻近样本,允 许使用不相似的物品来进行计算,增加推荐覆盖率。 3) 预测推荐:为了对机构 A 的新用户进行推 荐,采用 B 机构里的评分信息进行预测: predui = ∑m j=m′+1 vu jsimi j ∑m j=m′+1 simi j (3) predui u i 1 ⩽ u ⩽ n ′ ,1 ⩽ i ⩽ m ′ 式中: 代表用户 对物品 的预测评分,对 于 A 机构的新用户,有 。其中 预测值计算可在 B 机构进行,且 B 机构对预测值 结果排序,将排在前 N 个物品发送给 A 机构,完 成对新用户的推荐。 3.2 安全内积 文献 [37] 提出了一种基于第 3 方的一种安全 内积计算协议。 Ci Cj ,加入一个 第 3 方,在不泄露各方数据下进行数据的汇总,如 算法 1 所示。 多方 A、B 以及第 3 方 T; 输入 A: Ci; B: Cj ; rA rB rA +rB =。 x, y r z = −r (x,r) (y,z) 1) T 方随机产生 2 个随机向量 ,以及一个随 机数 ,且令 ,将 传给A, 传给B; 2) A 将 Ci + x 传给 B; 3) B 将 Cj − y 传给 A; rA = −r; 5) B 计算可公开信息 rB = −z。 rA rB Ci Cj rA rB 由于 及 里面各包含 2 个随机项,对 及 的隐私信息均进行了保护,因此不会泄露各 方的隐私数据,最终 A, B 双方均可利用公开的 、 进行内积 的计算,达到了隐私保护 的作用,流程如图 2 所示。 T A B (x, r) (y, z) Ci+x Ci−y 图 2 安全内积流程 Fig. 2 Overview of secure inner product. 3.3 联邦协同过滤冷启动算法 为了使 A、B 双方能够在数据不泄露的情况 下进行新用户的推荐,将协同过滤与安全内积相 结合,构建联邦学习协同过滤冷启动解决算法。 框架内容如图 3 所示,由受信任的第 3 方 T 以及 A、B 两方构成。如前文所述,假设 A、B 两方都 是半诚实的,同时第 3 方 T 也不与 A、B 两方勾结。 服务器 T Wij Wij A B (x, r) (y, z) Ci+x Ci−y rA (i, j) rB (i, j) rA (i, j)=− y r rB (i, j)=−z 本地数据 Ci (1≤i≤m′) Local Data Cj (m′+1≤i≤m) Top N 推荐 初始化: T 生成随机向量 x , y 及随机数 r, 使 z =− x y r。 计算相似度矩阵: Wij=rA(i, j)+rB (i, j), 分发给A, B 双方 图 3 联邦协同过滤冷启动框架 Fig. 3 Overview of federated learning system for cold start in collaborative filtering 第 1 期 王健宗,等:联邦推荐系统的协同过滤冷启动解决方法 ·181·
·182· 智能系统学报 第16卷 联邦协同过滤冷启动算法的主要步骤包括: 对于测试集里的每个用户,都保留其最新一 1)基于安全内积算法,A、B端根据式(1)、 条评分信息进行验证。由于在评价过程中对每个 (2)在本地分别计算C(1≤i≤m),C(m+1≤i≤m): 用户都进行排序比较耗时,所以本位采用了常用 2)第3方T随机产生2个随机向量x、y以及 的策略Bs3,即对于每个用户随机抽取30个没有 一个随机数r,且令z=-r,将(x,)传给A, 评分的物品,并且对其评分预测排序。在此设定 y,传给B: 推荐个数为10,将该30个物品与最新评分物品 3)A将C:+x(1≤i≤m)传给B;B将C-y 的预测评分进行排序,若最新评分物品排在前 (m+1≤j≤m)传给A; l0则视为击中。评估指标采用命中率(hit ratio, 4)A分别计算ra(i,)=-(1≤i≤, HR)B以及归一化折现累计增益(normalized dis m+1≤j≤m)传输给T;同理B相应计算rs(位,》传 counted cumulative gain,NDCG)来判断排序列表 输给T: 的性能。HR直观地衡量测试物品是否在前10, 5)T计算sim=ra位,)+rs位,),并构建相应 而NDCG根据击中的位置进行评估。 的相似矩阵W(由sim,元素构成)分发给A、B 4.2数据集 双方; 本文实验采用GroupLens提供的网络开源数 6)B根据W相似矩阵以及本地用户 据集MovieLens1M为例,整个数据集包括了6040 u∈[1,]对物品je[m+1,m的评分信息,由式 个电影用户对3706部电影的1000209条评分, (3)对pred,ue[l,],ie[l,m]进行预测,并对预测 评分范围为1~5。由于本文针对基于物品协同过 结果进行排序,最终将预测值最高的前N个物品 滤的冷启动问题,因此只取数据集中的用户一电 D发送给A,完成用户冷启动推荐过程。 影评分集作为实验数据。 由图3中可看出,每一方并不能直接收到对 该评分数据集均对用户及电影进行了D处 方的原始评分,且由于增加了随机项,不能从中 理,因此在进行计算过程中用户ID及电影D不 间结果进行对原数据的反推,因此达到了隐私保 视为隐私数据。同时有较多数的电影只被极少 护的作用。 数的用户进行评分,该部分电影对新用户的推荐 4实验与结果 起较少的作用,因此将用户评分率低于10%的电 影进行删除,处理后的用户-电影数据维度为 4.1度量标准 6040498. 本文采用Top-N推荐,采用2种不同的评估 为了衡量冷启动推荐的效果,将用户分割为 方法进行模型评价。 2部分,新老用户比例为2:8,在新用户与老用户 1)阈值击中评价 中的数据进行了纵向分割,随机分成A、B2个部 推荐评估指标采用精确率Precision、查全率 分,并且通过改变A、B的分配比例P∈(0.1,0.9)进 Recall以及F1-score. 行多组实验。评估时,将A中已有的新用户评分 行为与相应的推荐作比较。 4.3验证 Precision 第1个实验是通过变化A、B间分配比例P 的取值来观察当联合多方数据训练模型时,取何 ∑Rn 值效果会比较理想。第2个实验中,将该算法和 一个基于物品平均评分的无偏差推荐基线算法进 Recall o 行评估指标的比较。 1)不同B机构比例的实验结果 u=1 F-score=2precisionx recall 令P代表B数据量在总数据量中的占比,当 precision+recall P越大时,代表B所拥有的信息越多。由于在实 式中:R.是B方基于相似矩阵以及用户W的评分 际场景中,两方机构所含有的物品特征不全是一 信息进行对A方的推荐列表:T.是新用户“对于 致的,A可能会与规模较大的机构合作,也可能 A中物品的非空且评分大于阈值c的用户行为 会与规模较小的机构合作。 列表。 从表1中可以看出当B的占比越大,无论阈 2)留一法(leave-one-out)评价 值c取3或4(当用户评分>=阈值时,才算击中)
联邦协同过滤冷启动算法的主要步骤包括: Ci(1 ⩽ i ⩽ m ′ ) Cj(m ′ +1 ⩽ i ⩽ m) 1) 基于安全内积算法,A、B 端根据式 (1)、 (2) 在本地分别计算 , ; x y r z = −r (x,r) (y,z) 2) 第 3 方 T 随机产生 2 个随机向量 、 以及 一个随机数 ,且令 ,将 传给 A, 传给 B; Ci + x(1 ⩽ i ⩽ m ′ ) Cj − y (m ′ +1 ⩽ j ⩽ m) 3) A 将 传 给 B; B 将 传给 A; rA (i, j) = −r(1 ⩽ i ⩽ m ′ , m ′ +1 ⩽ j ⩽ m) rB (i, j) 4) A 分别计算 传输给 T;同理 B 相应计算 传 输给 T; simi j = r A (i, j)+rB (i, j) Wi j simi, j 5) T 计算 ,并构建相应 的相似矩阵 (由 元素构成) 分发给 A、B 双方; Wi j u ∈ [1,n ′ ] j ∈ [m ′ +1,m] predui,u ∈ [1,n ′ ],i ∈ [1,m ′ ] 6) B 根 据 相似矩阵以及本地用户 对物品 的评分信息,由式 (3) 对 进行预测,并对预测 结果进行排序,最终将预测值最高的前 N 个物品 ID 发送给 A,完成用户冷启动推荐过程。 由图 3 中可看出,每一方并不能直接收到对 方的原始评分,且由于增加了随机项,不能从中 间结果进行对原数据的反推,因此达到了隐私保 护的作用。 4 实验与结果 4.1 度量标准 本文采用 Top-N 推荐,采用 2 种不同的评估 方法进行模型评价。 1) 阈值击中评价 F1 −score 推荐评估指标采用精确率 Precision、查全率 Recall 以及 。 Precision = n∑′ u=1 |Ru ∩Tu| n∑′ u=1 |Ru| Recall = n∑′ u=1 |Ru ∩Tu| n∑′ u=1 |Tu| F1 −score = 2 precision×recall precision+recall Ru u Tu u c 式中: 是 B 方基于相似矩阵以及用户 的评分 信息进行对 A 方的推荐列表; 是新用户 对于 A 中物品的非空且评分大于阈值 的用户行为 列表。 2) 留一法 (leave-one-out) 评价 对于测试集里的每个用户,都保留其最新一 条评分信息进行验证。由于在评价过程中对每个 用户都进行排序比较耗时,所以本位采用了常用 的策略[35-36] ,即对于每个用户随机抽取 30 个没有 评分的物品,并且对其评分预测排序。在此设定 推荐个数为 10,将该 30 个物品与最新评分物品 的预测评分进行排序,若最新评分物品排在前 10 则视为击中。评估指标采用命中率 (hit ratio, HR)[37] 以及归一化折现累计增益 (normalized discounted cumulative gain,NDCG) 来判断排序列表 的性能。HR 直观地衡量测试物品是否在前 10, 而 NDCG 根据击中的位置进行评估。 4.2 数据集 本文实验采用 GroupLens 提供的网络开源数 据集 MovieLens 1M 为例,整个数据集包括了 6 040 个电影用户对 3 706 部电影的 1 000 209 条评分, 评分范围为 1~5。由于本文针对基于物品协同过 滤的冷启动问题,因此只取数据集中的用户−电 影评分集作为实验数据。 该评分数据集均对用户及电影进行了 ID 处 理,因此在进行计算过程中用户 ID 及电影 ID 不 视为隐私数据。同时有较多数的电影只被极少 数的用户进行评分,该部分电影对新用户的推荐 起较少的作用,因此将用户评分率低于 10% 的电 影进行删除,处理后的用户−电影数据维度为 6 040 498。 P ∈ (0.1,0.9) 为了衡量冷启动推荐的效果,将用户分割为 2 部分,新老用户比例为 2:8,在新用户与老用户 中的数据进行了纵向分割,随机分成 A、 B 2 个部 分,并且通过改变 A、B 的分配比例 进 行多组实验。评估时,将 A 中已有的新用户评分 行为与相应的推荐作比较。 4.3 验证 第 1 个实验是通过变化 A、 B 间分配比例 P 的取值来观察当联合多方数据训练模型时,取何 值效果会比较理想。第 2 个实验中,将该算法和 一个基于物品平均评分的无偏差推荐基线算法进 行评估指标的比较。 1) 不同 B 机构比例的实验结果 令 P 代表 B 数据量在总数据量中的占比,当 P 越大时,代表 B 所拥有的信息越多。由于在实 际场景中,两方机构所含有的物品特征不全是一 致的,A 可能会与规模较大的机构合作,也可能 会与规模较小的机构合作。 从表 1 中可以看出当 B 的占比越大,无论阈 值 c 取 3 或 4(当用户评分>=阈值时,才算击中), ·182· 智 能 系 统 学 报 第 16 卷
第1期 王健宗,等:联邦推荐系统的协同过滤冷启动解决方法 ·183· 对于A机构的冷启动推荐效果都更好,这与直观 B的占比上升,总体趋势也为上升。阈值c为 相符合,当外部提供的信息越多,对自身的帮助 4时召回率均大于阈值为3,这说明本文的方法对 会越大。对于HR及NDCG,也可以看到随着 于高评分物品推荐的效果较好。 表1取不同P的实验结果 Table 1 Results change population distribution c=3 (=4 命中率 归一化折现累计增益 精确率 查全率 F-score 精确率 查全率 F-score 0.1 0.9529 0.0906 0.1655 0.8029 0.1032 0.1830 0.3313 0.1580 0.2 0.9628 0.1136 0.2032 0.8295 0.1321 0.2279 0.3657 0.1742 0.3 0.9674 0.1387 0.2426 0.8463 0.1637 0.2744 0.3882 0.1838 0.4 0.9720 0.1691 0.2880 0.8510 0.2004 0.3244 0.4300 0.2106 0.5 0.9728 0.2032 0.3361 0.8534 0.2396 0.3742 0.4237 0.2084 0.6 0.9721 0.2532 0.4018 0.8464 0.2959 0.4385 0.4264 0.2074 0.7 0.9701 0.3202 0.4815 0.8374 0.3719 0.5151 0.4599 0.2208 0.8 0.9657 0.4563 0.6197 0.8232 0.5178 0.6357 0.4505 0.2181 0.9 0.9429 0.7716 0.8487 0.7585 0.8300 0.8214 0.4934 0.2532 2)基准算法与本文算法的结果对比 升,约12.5%,但NDCG的提升效果较小,约 为验证方法可行性,采用一个基准算法来作 9.6%。说明该算法对于推荐的击中效果有较大的 对比。采用的基准算法为只取A方的数据对各 提升,而对于击中的位置提升的效果较小。 个物品评分取平均,并将其平均分排序最高的前 5结束语 N个对新用户进行无偏差的推荐。本文以A、B 机构均占50%,即P=0.5为例,实验结果如表2、3。 本文首先介绍了基于物品的协同过滤算法以 表2阈值击中评价 及安全内积算法,并针对新用户的冷启动问题, Table 2 Hit rate with different threshold 提出了一种基于联邦学习的协同过滤冷启动解决 方法 精确率 查全率 F-score 算法。该算法针对某一方的新用户冷启动问题, 本文算法 0.9728 0.2032 0.3361 通过与其他方数据进行联合,在不泄露信息的情 基准算法 0.9645 况下进行相似矩阵的计算,最终解决冷启动问 0.1870 0.3132 题。实验结果表明,本文提出的联邦学习冷启动 本文算法 0.8534 0.2396 0.3742 方法在准确度均有一定的提升,同时实验证明当 基准算法 0.8546 0.2228 0.3534 联合规模较大的数据进行联合训练时,对于本地 从表2结果可以发现,当阈值取3以及取 的推荐效果会有较大的提升。该方法不仅提供了 4时,本文算法均比基准算法有一定的提高。当 一种解决协同过滤冷启动的方法,也在运用联邦 阈值取3,可以看到无论是精确度还是查全率都 学习解决冷启动的方向带来了一定的启发。 有一定的提升,其中F,值较基准算法提升了约%。 参考文献: 当阈值取4时,F,值较基准算法提升了约6%。 表3留一法评价 [1]ALBRECHT J P.How the GDPR will change the world[J]. Table 3 Leave-one-out evaluation European data protection law review,2016.2(3):287-289. [2]SHI E,CHAN T HH,RIEFFEL E,et al.Distributed 方法 命中率 归一化折现累计增益 private data analysis:lower bounds and practical construc- 本文算法 0.4237 0.2084 tions[J].ACM transactions on algorithms,2017.13(4):50. 基准算法 0.3765 0.1900 [3]KIM S,KIM J,KOO D,et al.Efficient privacy-preserving matrix factorization via fully homomorphic encryption:ex- 从表3中可以看到留一法的评估结果,相较 tended Abstract[C]//Proceedings of the 11th ACM on Asia 基准算法,本文算法的击中率(HR)有较大的提 Conference on Computer and Communications Security
对于 A 机构的冷启动推荐效果都更好,这与直观 相符合,当外部提供的信息越多,对自身的帮助 会越大。对于 HR 及 NDCG,也可以看到随着 B 的占比上升,总体趋势也为上升。阈值 c 为 4 时召回率均大于阈值为 3,这说明本文的方法对 于高评分物品推荐的效果较好。 表 1 取不同 P 的实验结果 Table 1 Results change population distribution P c=3 c=4 命中率 归一化折现累计增益 精确率 查全率 F1 -score 精确率 查全率 F1 -score 0.1 0.952 9 0.090 6 0.165 5 0.802 9 0.103 2 0.183 0 0.331 3 0.158 0 0.2 0.962 8 0.113 6 0.203 2 0.829 5 0.132 1 0.227 9 0.365 7 0.174 2 0.3 0.967 4 0.138 7 0.242 6 0.846 3 0.163 7 0.274 4 0.388 2 0.183 8 0.4 0.972 0 0.169 1 0.288 0 0.851 0 0.200 4 0.324 4 0.430 0 0.210 6 0.5 0.972 8 0.203 2 0.336 1 0.853 4 0.239 6 0.374 2 0.423 7 0.208 4 0.6 0.972 1 0.253 2 0.401 8 0.846 4 0.295 9 0.438 5 0.426 4 0.207 4 0.7 0.970 1 0.320 2 0.481 5 0.837 4 0.371 9 0.515 1 0.459 9 0.220 8 0.8 0.965 7 0.456 3 0.619 7 0.823 2 0.517 8 0.635 7 0.450 5 0.218 1 0.9 0.942 9 0.771 6 0.848 7 0.758 5 0.830 0 0.821 4 0.493 4 0.253 2 2) 基准算法与本文算法的结果对比 P = 0.5 为验证方法可行性,采用一个基准算法来作 对比。采用的基准算法为只取 A 方的数据对各 个物品评分取平均,并将其平均分排序最高的前 N 个对新用户进行无偏差的推荐。本文以 A、B 机构均占 50%,即 为例,实验结果如表 2、3。 表 2 阈值击中评价 Table 2 Hit rate with different threshold c 方法 精确率 查全率 F1 -score 3 本文算法 0.972 8 0.203 2 0.336 1 基准算法 0.964 5 0.187 0 0.313 2 4 本文算法 0.853 4 0.239 6 0.374 2 基准算法 0.854 6 0.222 8 0.353 4 从表 2 结果可以发现,当阈值取 3 以及取 4 时,本文算法均比基准算法有一定的提高。当 阈值取 3,可以看到无论是精确度还是查全率都 有一定的提升,其中 F1 值较基准算法提升了约 7%。 当阈值取 4 时,F1 值较基准算法提升了约 6%。 表 3 留一法评价 Table 3 Leave-one-out evaluation 方法 命中率 归一化折现累计增益 本文算法 0.423 7 0.208 4 基准算法 0.376 5 0.190 0 从表 3 中可以看到留一法的评估结果,相较 基准算法,本文算法的击中率 (HR) 有较大的提 升 , 约 12.5%,但 NDCG 的提升效果较小, 约 9.6%。说明该算法对于推荐的击中效果有较大的 提升,而对于击中的位置提升的效果较小。 5 结束语 本文首先介绍了基于物品的协同过滤算法以 及安全内积算法,并针对新用户的冷启动问题, 提出了一种基于联邦学习的协同过滤冷启动解决 算法。该算法针对某一方的新用户冷启动问题, 通过与其他方数据进行联合,在不泄露信息的情 况下进行相似矩阵的计算,最终解决冷启动问 题。实验结果表明,本文提出的联邦学习冷启动 方法在准确度均有一定的提升,同时实验证明当 联合规模较大的数据进行联合训练时,对于本地 的推荐效果会有较大的提升。该方法不仅提供了 一种解决协同过滤冷启动的方法,也在运用联邦 学习解决冷启动的方向带来了一定的启发。 参考文献: ALBRECHT J P. How the GDPR will change the world[J]. European data protection law review, 2016, 2(3): 287–289. [1] SHI E, CHAN T H H, RIEFFEL E, et al. Distributed private data analysis: lower bounds and practical constructions[J]. ACM transactions on algorithms, 2017, 13(4): 50. [2] KIM S, KIM J, KOO D, et al. Efficient privacy-preserving matrix factorization via fully homomorphic encryption: extended Abstract[C]//Proceedings of the 11th ACM on Asia Conference on Computer and Communications Security. [3] 第 1 期 王健宗,等:联邦推荐系统的协同过滤冷启动解决方法 ·183·
·184· 智能系统学报 第16卷 Xi'an,China,2016:617-628 transactions on knowledge and data engineering,2018, [4]SARWAR B,KARYPIS G.KONSTAN J,et al.Item- 30(12:2228-2241 based collaborative filtering recommendation algori- [16]CHEN Shulong,PENG Yuxing.Matrix factorization for thms[C]//Proceedings of the 10th International Conference recommendation with explicit and implicit feedback[J]. on World Wide Web.Hong Kong,China,2001:285-295. Knowledge-based systems,2018,158:109-117 [5]HERLOCKER JL,KONSTAN J A,BORCHERS A,et al. [17]JAWAHEER G,SZOMSZOR M,KOSTKOVA P.Com- An algorithmic framework for performing collaborative fil- parison of implicit and explicit feedback from an online tering[C]//Proceedings of the 22nd Annual International music recommendation service[C]//Proceedings of the Ist ACM SIGIR Conference on Research and Development in International Workshop on Information Heterogeneity and Information Retrieval.California,Berkeley,USA,1999: Fusion in Recommender Systems.New York,USA,2010: 230-237. 47-51. [6]KOREN Y,BELL R,VOLINSKY C.Matrix factorization [18]PAZZANI M J,BILLSUS D.Content-based recommend- techniques for recommender systems[J].Computer,2009, ation systems[M].BRUSILOVSKY P,KOBSA A,NE- 42(8):30-37 JDL W.The Adaptive Web:Methods and Strategies of [7]RENNIE J D M,SREBRO N.Fast maximum margin mat- Web Personalization.Berlin,Heidelberg,Germany: rix factorization for collaborative prediction[C]//Proceed- Springer,,2007:325-341. ings of the 22nd International Conference on Machine [19]BURKE R.Knowledge-based recommender systems[J]. Learning.New York,USA,2005:713-719. Encyclopedia of library and information systems,2000, [8]KOBSA A.Privacy-enhanced web personalization[M]. 69(S32):175-186. BRUSILOVSKY P,KOBSA A,NEJDL W.The Adaptive [20]WANG Jizhe,HUANG Pipei,ZHAO Huan,et al.Billion- Web:Methods and Strategies of Web Personalization.Ber- scale commodity embedding for E-commerce recom- lin:Springer,2007:628-670. mendation in Alibaba[C]//Proceedings of the 24th ACM [9]JECKMANS A,TANG Qiang,HARTEL P.Privacy-pre- SIGKDD International Conference on Knowledge Dis- serving collaborative filtering based on horizontally parti- covery Data Mining.London,United Kingdom,2018: tioned dataset[Cl//Proceedings of 2012 International Con- 839-848. ference on Collaboration Technologies and Systems.Den- [21]HWANGBO H,KIM Y S,CHA K J.Recommendation ver,USA,2012. system development for fashion retail E-commerce[J]. [10]QIAO Yu,LI Lingjuan.Research on resolving strategies Electronic commerce research and applications,2018,28: of the cold start problem of recommendation system [J]. 94101. Computer technology and development,2018,28(2): [22]HERLOCKER J L,KONSTAN J A,RIEDL J.Explain- 83-87. ing collaborative filtering recommendations[Cl//Proceed- [11]YANG Qiang,LIU Yang,CHEN Tianjian,et al.Feder- ings of the 2000 ACM Conference on Computer Suppor- ated machine learning:concept and applications[J].ACM ted Cooperative Work.Pennsylvania,Philadelphia,USA. transactions on intelligent systems and technology,2019, 2000:241-250. 10(2:12. [23]SUBRAMANIYASWAMY V.LOGESH R. [12]乔雨,李玲娟.推荐系统冷启动问题解决策略研究: CHANDRASHEKHAR M,et al.A personalised movie 计算机技术与发展,2018.28(2:83-87. recommendation system based on collaborative QIAO Yu,LI Lingjuan.Research on solution of solving filtering[J].International journal of high performance cold start problem in recommender systems[J].Computer computing and networking,2017,10(1/2):54-63. technology and development,2018,28(2):83-87. [24]ZHENG E,KONDO G Y,ZILORA S,et al.Tag-aware [13]ZHAO Lingchen,NI Lihao,HU Shengshan,et al. dynamic music recommendation[J].Expert systems with InPrivate digging:enabling tree-based distributed data applications,2018.,106:244-251. mining with differential privacy[C]//Proceedings of 2018 [25]ZHENG Guanjie,ZHANG Fuzheng,ZHENG Zihan,et al. IEEE Conference on Computer Communications.Hon- DRN:a deep reinforcement learning framework for news olulu.USA.2018:2087-2095. recommendation[C]//Proceedings of the 2018 World [14]SMITH V.CHIANG C K,SANJABI M,et al.Federated Wide Web Conference.Lyon,France,2018:167-176. multi-task learning[C]//Proceedings of the 31st Interna- [26]COLOMO-PALACIOS R.GARCIA-PENALVO F J. tional Conference on Neural Information Processing Sys- STANTCHEV V,et al.Towards a social and context- tems.Red Hook,USA,2017:4427-4437. aware mobile recommendation system for tourism[J].Per- [15]HSU CC,YEH M Y,LIN Shude.A general framework vasive and mobile computing,2017,38:505-515. for implicit and explicit social recommendation[J].IEEE [27]GENTRY C.A fully homomorphic encryption
Xi'an, China, 2016: 617–628. SARWAR B, KARYPIS G, KONSTAN J, et al. Itembased collaborative filtering recommendation algorithms[C]//Proceedings of the 10th International Conference on World Wide Web. Hong Kong, China, 2001: 285–295. [4] HERLOCKER J L, KONSTAN J A, BORCHERS A, et al. An algorithmic framework for performing collaborative filtering[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. California, Berkeley, USA, 1999: 230–237. [5] KOREN Y, BELL R, VOLINSKY C. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8): 30–37. [6] RENNIE J D M, SREBRO N. Fast maximum margin matrix factorization for collaborative prediction[C]//Proceedings of the 22nd International Conference on Machine Learning. New York, USA, 2005: 713–719. [7] KOBSA A. Privacy-enhanced web personalization[M]. BRUSILOVSKY P, KOBSA A, NEJDL W. The Adaptive Web: Methods and Strategies of Web Personalization. Berlin: Springer, 2007: 628–670. [8] JECKMANS A, TANG Qiang, HARTEL P. Privacy-preserving collaborative filtering based on horizontally partitioned dataset[C]//Proceedings of 2012 International Conference on Collaboration Technologies and Systems. Denver, USA, 2012. [9] QIAO Yu, LI Lingjuan. Research on resolving strategies of the cold start problem of recommendation system [J]. Computer technology and development, 2018, 28(2): 83–87. [10] YANG Qiang, LIU Yang, CHEN Tianjian, et al. Federated machine learning: concept and applications[J]. ACM transactions on intelligent systems and technology, 2019, 10(2): 12. [11] 乔雨, 李玲娟. 推荐系统冷启动问题解决策略研究 [J]. 计算机技术与发展, 2018, 28(2): 83–87. QIAO Yu, LI Lingjuan. Research on solution of solving cold start problem in recommender systems[J]. Computer technology and development, 2018, 28(2): 83–87. [12] ZHAO Lingchen, NI Lihao, HU Shengshan, et al. InPrivate digging: enabling tree-based distributed data mining with differential privacy[C]//Proceedings of 2018 IEEE Conference on Computer Communications. Honolulu, USA, 2018: 2087–2095. [13] SMITH V, CHIANG C K, SANJABI M, et al. Federated multi-task learning[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, USA, 2017: 4427–4437. [14] HSU C C, YEH M Y, LIN Shude. A general framework for implicit and explicit social recommendation[J]. IEEE [15] transactions on knowledge and data engineering, 2018, 30(12): 2228–2241. CHEN Shulong, PENG Yuxing. Matrix factorization for recommendation with explicit and implicit feedback[J]. Knowledge-based systems, 2018, 158: 109–117. [16] JAWAHEER G, SZOMSZOR M, KOSTKOVA P. Comparison of implicit and explicit feedback from an online music recommendation service[C]//Proceedings of the 1st International Workshop on Information Heterogeneity and Fusion in Recommender Systems. New York, USA, 2010: 47–51. [17] PAZZANI M J, BILLSUS D. Content-based recommendation systems[M]. BRUSILOVSKY P, KOBSA A, NEJDL W. The Adaptive Web: Methods and Strategies of Web Personalization. Berlin, Heidelberg, Germany: Springer, 2007: 325–341. [18] BURKE R. Knowledge-based recommender systems[J]. Encyclopedia of library and information systems, 2000, 69(S32): 175–186. [19] WANG Jizhe, HUANG Pipei, ZHAO Huan, et al. Billionscale commodity embedding for E-commerce recommendation in Alibaba[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. London, United Kingdom, 2018: 839–848. [20] HWANGBO H, KIM Y S, CHA K J. Recommendation system development for fashion retail E-commerce[J]. Electronic commerce research and applications, 2018, 28: 94–101. [21] HERLOCKER J L, KONSTAN J A, RIEDL J. Explaining collaborative filtering recommendations[C]//Proceedings of the 2000 ACM Conference on Computer Supported Cooperative Work. Pennsylvania, Philadelphia, USA, 2000: 241–250. [22] SUBRAMANIYASWAMY V, LOGESH R, CHANDRASHEKHAR M, et al. A personalised movie recommendation system based on collaborative filtering[J]. International journal of high performance computing and networking, 2017, 10(1/2): 54–63. [23] ZHENG E, KONDO G Y, ZILORA S, et al. Tag-aware dynamic music recommendation[J]. Expert systems with applications, 2018, 106: 244–251. [24] ZHENG Guanjie, ZHANG Fuzheng, ZHENG Zihan, et al. DRN: a deep reinforcement learning framework for news recommendation[C]//Proceedings of the 2018 World Wide Web Conference. Lyon, France, 2018: 167–176. [25] COLOMO-PALACIOS R, GARCÍA-PEÑALVO F J, STANTCHEV V, et al. Towards a social and contextaware mobile recommendation system for tourism[J]. Pervasive and mobile computing, 2017, 38: 505–515. [26] [27] GENTRY C. A fully homomorphic encryption ·184· 智 能 系 统 学 报 第 16 卷
第1期 王健宗,等:联邦推荐系统的协同过滤冷启动解决方法 ·185· scheme[D].Palo Alto:Stanford University,2009 history and context[J].ACM transactions on interactive [28]CANNY J.Collaborative filtering with privacy via factor intelligent systems,2015,5(4):19. analysis[C]//Proceedings of the 25th Annual International [36]KOREN Y.Factorization meets the neighborhood:a mul- ACM SIGIR Conference on Research and Development tifaceted collaborative filtering model[Cl//Proceedings of in Information Retrieval.Tampere,Finland,2002: the 14th ACM SIGKDD International Conference on 238-245 Knowledge Discovery and Data Mining.Nevada,Las Ve- [29]CHEN Chaochao,ZHOU Jun,WU Bingzhe,et al.Prac- gas,USA,2008:426-434. tical privacy preserving POI recommendation[J].ACM [37]NIKOLAENKO V,WEINSBERG U,IOANNIDIS S,et transactions on intelligent systems and technology,2020, 11(5):52. al.Privacy-preserving ridge regression on hundreds of [30]CHEN Chaochao,LIU Ziqi,ZHAO Peilin,et al.Privacy millions of records[Cl//Proceedings of 2013 IEEE Sym- preserving point-of-interest recommendation using de- posium on Security and Privacy.Berkeley,USA,2013: centralized matrix factorization[C]//Proceedings of the 334348. 32nd AAAI Conference on Artificial Intelligence.New 作者简介: Orleans,Louisiana,USA,2018:257-264. 王健宗,高级工程师,博土,主要 [31]ERKIN Z,BEYE M,VEUGEN T,et al.Efficiently com- 研究方向为联邦学习算法、金融智能 puting private recommendations[Cl//Proceedings of 2011 平台。主持国家重点研发计划基金项 IEEE International Conference on Acoustics,Speech and 目3项、校企联合课题2项,授权发明 Signal Processing.Prague,Czech Republic,2011: 专利100余项。发表学术论文50余 5864-5867. 篇,出版著作3部。 [32]KATARYA R,VERMA O P.Effective collaborative movie recommender system using asymmetric user simil- 肖京,教授级高级工程师,博士, arity and matrix factorization[Cl//Proceedings of 2016 In- 主要研究方向为人工智能与大数据分 ternational Conference on Computing,Communication 析挖掘。国际授权专利101项,授权 and Automation.Noida.India.2016:71-75. 国内发明专利109项。2019年吴文俊 [33]HERLOCKER JL,KONSTAN J A,BORCHERS A,et 人工智能科学技术奖“杰出贡献奖”获 al.An algorithmic framework for performing collaborat- 得者,发表学术论文130余篇。 ive filtering[C]//Proceedings of the 22nd Annual Interna- tional ACM SIGIR Conference on Research and Develop- ment in Information Retrieval.California,Berkeley, 朱星华,博士研究生,主要研究方 向为联邦学习、机器视觉算法。 USA,1999:230-237. [34]GASCON A,SCHOPPMANN P,BALLE B,et al.Se- cure linear regression on vertically partitioned datasets[J]. IACR cryptology ePrint archive,2016,2016:892. [35]HARPER F M.KONSTAN J A.The movielens datasets:
scheme[D]. Palo Alto: Stanford University, 2009. CANNY J. Collaborative filtering with privacy via factor analysis[C]//Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Tampere, Finland, 2002: 238–245. [28] CHEN Chaochao, ZHOU Jun, WU Bingzhe, et al. Practical privacy preserving POI recommendation[J]. ACM transactions on intelligent systems and technology, 2020, 11(5): 52. [29] CHEN Chaochao, LIU Ziqi, ZHAO Peilin, et al. Privacy preserving point-of-interest recommendation using decentralized matrix factorization[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, Louisiana, USA, 2018: 257–264. [30] ERKIN Z, BEYE M, VEUGEN T, et al. Efficiently computing private recommendations[C]//Proceedings of 2011 IEEE International Conference on Acoustics, Speech and Signal Processing. Prague, Czech Republic, 2011: 5864–5867. [31] KATARYA R, VERMA O P. Effective collaborative movie recommender system using asymmetric user similarity and matrix factorization[C]//Proceedings of 2016 International Conference on Computing, Communication and Automation. Noida, India, 2016: 71–75. [32] HERLOCKER J L, KONSTAN J A, BORCHERS A, et al. An algorithmic framework for performing collaborative filtering[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. California, Berkeley, USA, 1999: 230–237. [33] GASCON A, SCHOPPMANN P, BALLE B, et al. Secure linear regression on vertically partitioned datasets[J]. IACR cryptology ePrint archive, 2016, 2016: 892. [34] [35] HARPER F M, KONSTAN J A. The movielens datasets: history and context[J]. ACM transactions on interactive intelligent systems, 2015, 5(4): 19. KOREN Y. Factorization meets the neighborhood: a multifaceted collaborative filtering model[C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Nevada, Las Vegas, USA, 2008: 426–434. [36] NIKOLAENKO V, WEINSBERG U, IOANNIDIS S, et al. Privacy-preserving ridge regression on hundreds of millions of records[C]//Proceedings of 2013 IEEE Symposium on Security and Privacy. Berkeley, USA, 2013: 334–348. [37] 作者简介: 王健宗,高级工程师,博士,主要 研究方向为联邦学习算法、金融智能 平台。主持国家重点研发计划基金项 目 3 项、校企联合课题 2 项,授权发明 专利 100 余项。发表学术论文 50 余 篇,出版著作 3 部。 肖京,教授级高级工程师,博士, 主要研究方向为人工智能与大数据分 析挖掘。国际授权专利 101 项,授权 国内发明专利 109 项。2019 年吴文俊 人工智能科学技术奖“杰出贡献奖”获 得者,发表学术论文 130 余篇。 朱星华,博士研究生,主要研究方 向为联邦学习、机器视觉算法。 第 1 期 王健宗,等:联邦推荐系统的协同过滤冷启动解决方法 ·185·