正在加载图片...
第1期 王健宗,等:联邦推荐系统的协同过滤冷启动解决方法 ·179· 荐。一般来说,客户的历史信息越详细,推荐结 boosting decision tree,.GBDT))、逻辑回归、支持 果越准确。 向量机」 由于没有足够多的客户数据,许多中小型公 本文主要关注在纵向联邦的场景下实现推荐 司无法获得满意的推荐模型。为了解决这个问 系统的冷启动问题。 题,通常采取的解决方案有:1)请求另一家拥有 1.2推荐系统的隐私保护 庞大客户数据库的公司帮助;2)与其他多家拥有 推荐系统(recommendation systems,R.S)收集 相对较小客户数据库公司合作,共同创建一个大 和学习用户对一系列项目的偏好信息,并预测用 的数据库。公司间无法简单地共享或允许彼此 户对新物品或项目的兴趣程度,产生推荐列表。 完全访问其数据库,因为这可能会造成客户隐私 用户的偏好信息可以是显性的(基本上是通过收 数据外泄。文献[8]表明,70%~89.5%的互联网 集用户的评分)或隐性的(基本上是通过监测用 用户认为个人隐私信息面临泄露风险。鉴于联邦学 户的交互记录,如访问过的网页、购买过的软件、 习处理数据孤岛和隐私保护问题的有效性和实用 阅读过的书籍和刷过的短视频等隐性推断关于 性,与联邦学习相结合的协同过滤推荐算法成为 某物品的兴趣程度)s。根据输入数据的类型, 目前推荐系统领域的一个研究热点。 推荐模型主要分为协同过滤式推荐系统叨、基于 冷启动是协同过滤算法应用中经常会遇到的 内容的推荐系统1和基于知识的推荐系统。在 问题,分为新用户冷启动、新项目冷启动、系统冷 实践中,推荐系统已经被广泛地应用于各种应 启动等。当系统中有新用户加入时,由于该用户 用中,如电子商务m2、娱乐22、新闻42和社交 在系统中没有历史评分数据,不能根据传统算法 平台26-27 计算用户间的相似度,也就无法为其进行推荐, 由于个人对物品的偏好往往涉及到个人的隐 这就是协同过滤算法的新用户冷启动问题。在 私信息,长期以来,推荐系统中如何保护隐私信 现有的与联邦学习相结合的协同过滤推荐算法的 息受到许多学者关注。许多研究使用差分隐私的 研究中,对用户冷启动问题的研究比较少,因此 方法保护用户评价记录的隐私性"。联邦学习通 对联邦学习协同过滤算法中用户冷启动问题的研 过数据不出本地、仅传输用户梯度的方式,进一 步保障用户的隐私不被窃取。联邦推荐系统可以 究具有迫切的意义。 与差分隐私、多方安全计算等技术结合,灵活有 1相关工作 效地在不泄露用户隐私的前提下实现推荐系统性 能的提升。 本文的研究是3个研究主题的交叉点:联邦 协同过滤是推荐系统中最常用、应用范围最 学习、协同过滤推荐算法中的隐私保护问题和冷 广的算法之一,也是本文讨论的主要算法。针对 启动问题。 协同过滤算法中的隐私保护问题,有多种方法可 1.1联邦学习 以解决。如文献[15]针对集中式数据,采用随机 随着信息革命的发展,海量的数据在不断产 扰乱技术,提出了一个保护隐私的协同过滤推荐 生,如何合理有效地利用这些数据成为一个热点 方案;文献[28]在差分隐私框架中提出了协同过 方向。由于隐私政策的保护,很多数据不能被轻 滤算法:文献[29]使用同态加密计算协同过滤过 易地获取,数据间相互隔离,形成了一个个数据 程的中间值,中间值解密后通过奇异值分解和因 孤岛。如何建立数据孤岛间沟通的桥梁,打破数 子分析产生推荐建议;文献[30]提出了一种基于 据之间的界限,成为一个热点方向。谷歌研究院 同态密码的协同过滤算法;文献[31]提出了一种 提出了联邦学习的概念,即通过只在各节点间传 新的兴趣点推荐隐私保护框,在联邦学习中采用 递模型参数,而不分享模型间数据的方式训练一 安全聚合的策略来学习特征交互模型;文献[32] 个共享的数据模型。联邦学习成为解决数据隐私 提出了一种新的分布式矩阵分解框架用于兴趣点 保护的一个有利工具。联邦学习旨在满足数据隐 推荐,该框架具有可扩展性,能够保护用户隐私。 私保护、数据安全和政府法规的前提下,进行数 1.3协同过滤及其冷启动问题 据的使用和建模。根据数据划分的方式,联邦学 协同过滤是一种基于矩阵分解的推荐算法。 习可分为纵向联邦学习以及横向联邦学习。迄 在已知用户的历史评分矩阵R的前提下,使用较 今为止,有许多研究致力于联邦学习算法,以支 低维的用户特征矩阵U={u12…uw}和物品特征 持更多的机器学习模型,包括深度神经网络(deep 矩阵V={y,2…vw}的乘积UV拟合评分矩阵。 neural network,DNN)l、梯度提升树(gradient 在进行推荐时,通过用户特征和物品特征向量的荐。一般来说,客户的历史信息越详细,推荐结 果越准确。 由于没有足够多的客户数据,许多中小型公 司无法获得满意的推荐模型。为了解决这个问 题,通常采取的解决方案有:1) 请求另一家拥有 庞大客户数据库的公司帮助;2) 与其他多家拥有 相对较小客户数据库公司合作,共同创建一个大 的数据库[7]。公司间无法简单地共享或允许彼此 完全访问其数据库,因为这可能会造成客户隐私 数据外泄。文献 [8] 表明,70%~89.5% 的互联网 用户认为个人隐私信息面临泄露风险。鉴于联邦学 习处理数据孤岛和隐私保护问题的有效性和实用 性,与联邦学习相结合的协同过滤推荐算法成为 目前推荐系统领域的一个研究热点[9]。 冷启动是协同过滤算法应用中经常会遇到的 问题,分为新用户冷启动、新项目冷启动、系统冷 启动等。当系统中有新用户加入时,由于该用户 在系统中没有历史评分数据,不能根据传统算法 计算用户间的相似度,也就无法为其进行推荐, 这就是协同过滤算法的新用户冷启动问题[10]。在 现有的与联邦学习相结合的协同过滤推荐算法的 研究中,对用户冷启动问题的研究比较少,因此 对联邦学习协同过滤算法中用户冷启动问题的研 究具有迫切的意义。 1 相关工作 本文的研究是 3 个研究主题的交叉点:联邦 学习、协同过滤推荐算法中的隐私保护问题和冷 启动问题。 1.1 联邦学习 随着信息革命的发展,海量的数据在不断产 生,如何合理有效地利用这些数据成为一个热点 方向。由于隐私政策的保护,很多数据不能被轻 易地获取,数据间相互隔离,形成了一个个数据 孤岛。如何建立数据孤岛间沟通的桥梁,打破数 据之间的界限,成为一个热点方向。谷歌研究院 提出了联邦学习的概念,即通过只在各节点间传 递模型参数,而不分享模型间数据的方式训练一 个共享的数据模型。联邦学习成为解决数据隐私 保护的一个有利工具。联邦学习旨在满足数据隐 私保护、数据安全和政府法规的前提下,进行数 据的使用和建模。根据数据划分的方式,联邦学 习可分为纵向联邦学习以及横向联邦学习[11]。迄 今为止,有许多研究致力于联邦学习算法,以支 持更多的机器学习模型,包括深度神经网络(deep neural network,DNN) [12] 、梯度提升树(gradient boosting decision tree,GBDT) [13] 、逻辑回归、支持 向量机[14]。 本文主要关注在纵向联邦的场景下实现推荐 系统的冷启动问题。 1.2 推荐系统的隐私保护 推荐系统 (recommendation systems, RS) 收集 和学习用户对一系列项目的偏好信息,并预测用 户对新物品或项目的兴趣程度,产生推荐列表。 用户的偏好信息可以是显性的 (基本上是通过收 集用户的评分) 或隐性的 (基本上是通过监测用 户的交互记录,如访问过的网页、购买过的软件、 阅读过的书籍和刷过的短视频等隐性推断关于 某物品的兴趣程度) [15-17]。根据输入数据的类型, 推荐模型主要分为协同过滤式推荐系统[17] 、基于 内容的推荐系统[18] 和基于知识的推荐系统[19]。在 实践中,推荐系统已经被广泛地应用于各种应 用中,如电子商务[20-21] 、娱乐[22-23] 、新闻[24-25] 和社交 平台[26-27]。 由于个人对物品的偏好往往涉及到个人的隐 私信息,长期以来,推荐系统中如何保护隐私信 息受到许多学者关注。许多研究使用差分隐私的 方法保护用户评价记录的隐私性[1]。联邦学习通 过数据不出本地、仅传输用户梯度的方式,进一 步保障用户的隐私不被窃取。联邦推荐系统可以 与差分隐私、多方安全计算等技术结合,灵活有 效地在不泄露用户隐私的前提下实现推荐系统性 能的提升。 协同过滤是推荐系统中最常用、应用范围最 广的算法之一,也是本文讨论的主要算法。针对 协同过滤算法中的隐私保护问题,有多种方法可 以解决。如文献 [15] 针对集中式数据,采用随机 扰乱技术,提出了一个保护隐私的协同过滤推荐 方案;文献 [28] 在差分隐私框架中提出了协同过 滤算法;文献 [29] 使用同态加密计算协同过滤过 程的中间值,中间值解密后通过奇异值分解和因 子分析产生推荐建议;文献 [30] 提出了一种基于 同态密码的协同过滤算法;文献 [31] 提出了一种 新的兴趣点推荐隐私保护框,在联邦学习中采用 安全聚合的策略来学习特征交互模型;文献 [32] 提出了一种新的分布式矩阵分解框架用于兴趣点 推荐,该框架具有可扩展性,能够保护用户隐私。 1.3 协同过滤及其冷启动问题 R U = {u1 u2 ··· uN} V = {v1 v2 ··· vM} U TV 协同过滤是一种基于矩阵分解的推荐算法。 在已知用户的历史评分矩阵 的前提下,使用较 低维的用户特征矩阵 和物品特征 矩阵 的乘积 拟合评分矩阵。 在进行推荐时,通过用户特征和物品特征向量的 第 1 期 王健宗,等:联邦推荐系统的协同过滤冷启动解决方法 ·179·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有