正在加载图片...
第1期 杨强:联邦学习:人工智能的最后一公里 ·185· 在ImageNet数据的基础上增加l00倍。这样就能 私、利益的关系,每一个机构都不想或者不能把 发现,在数据很少的情况下,迁移还是可以得到 数据和别人共享。那么,可以让它们结成一个联 非常好的效果。与此同时,NLP的领域也得到了 盟,让它们共同遵循一个规则,使得这个模型的 类似的印证,还有像BERT这样的领域,这使得机 参数可以在它们之间沟通,在沟通的时候,这个 器学习的工作者非常兴奋。 参数也是加密的,使得一个机构没有办法通过它 我们知道,Automated learning是用AI来设计 得到的参数包来反拆对方的数据和模型。最后每 AL,用人工智能来自动地设计部分的人工智能步 一个地方的部分模型都得到了成长,加起来就是 骤。那么迁移学习同样可以达到这个效果,可以 个总的模型。联邦学习是这样的一个概念。 用一个人工智能的模型来设计一个迁移学习模 联邦学习的技术优势 型,这是我们最近的一项工作。这个工作称为 1. 数据隐私保护 Federated Learning 'learning to transfer'”,也是一个非常有希望能够 2.模型参数保护 自动化迁移学习过程的一个例子。所以这个就是 3 建模能力效果更好 。A方有A檀用 我们在迁移学习方面的努力,从大数据到很多小 ,8方有B模型 ,A和B模型都比单驻建模好 数据领域。 自动化学习如何迁移:1CML2018工作 labeled 联邦学习具有很多优点,比如:数据隐私得到 mageNet transfer learning 保护,参数也能得到保护,建模的效果也非常 好。我们把联邦学习理论化,建立了一个数学的 基础。这个数学基础基于一个假设,假设这个数 据拥有的各方,有足够多的特征方面的重叠,那 main 么称之为“纵向联邦学习”。如果它们特征是重叠 Transfer Learning via ransfer,Ying Wei,Qiang Yang et al ICML 2018 的,但是它们的样本不重叠,这个称为“横向联邦 我最近的一项工作和迁移学习类似,但是还 学习”。如果两边都不重叠,还可以用迁移学习把 有不一样的地方,它更多的是解决“数据孤岛”的 它们都给迁移到另外一个状态空间,在那个空间 问题。我们知道,如果我们有很多的部门,有很 找它们的共性,同时用联邦学习来解决。 多的传感器,但是每个传感器都只能收集一部分 General Federated Learning Catalog Vertical Federated Learning 的数据。如果没有办法把这些传感数据打通,那 么每一个地方的数据都不足以来训练一个好的模 联w移学习 型。为什么会发生这样的事?因为现在社会对隐 私、安全的要求越来越严格,在欧洲有这种法律, 在国内也有很多非常严格的个人隐私保护法律, 而且趋于严格化和全面化。 ht5 cutu he0A7yhml达 举个例子,如果养一只羊,这只羊就是一个模 型,那么如何建立起这个模型?过去的方法是把 所以联邦学习+迁移学习,就形成了一个既能 各家的草买过来,喂这只羊。这就相当于到各处 保护隐私,又能共同联合建模的机制,这个机制 去买数据、采购数据、收集数据。但是这个方法 在工业界获得强烈反响。我们发现这个机制在跨 现在不行了,数据要求不能出本地,也就是说,草 领域不同的企业机构之间尤其有用。比如:银行 不能出草场,那么农民的羊是不是就会饿死?不 和监管(机构)可以联合起来,更好地建立一个反 会的,农民会采取另外一种方法,他会让这个羊 洗钱的模型;互联网(公司)和银行可以建立一个 在各处的草场走动,草不出草场,那么这只羊可 小微企业的风控模型;互联网公司和零售公司可 以走。就好像数据不动,模型在数据库之间走。 以建立更好的新零售模型等等。这样的建立取决 这由此引发了一个新的领域,叫做联邦学 于一个数学基础,一个非常有效、高效可计算的 习。我们有许多机构,每一个机构都有自己的数 加密机制,其中数学的演化、硬件的演化和分布 据,它们联合起来是一个完整的、很大的数据库, 式安全算法的演化要一起进行。 可以用来训练一个大数据模型。但是现在因为隐 另外一个非常特别的领域是城市管理。比在 ImageNet 数据的基础上增加 100 倍。这样就能 发现,在数据很少的情况下,迁移还是可以得到 非常好的效果。与此同时,NLP 的领域也得到了 类似的印证,还有像 BERT 这样的领域,这使得机 器学习的工作者非常兴奋。 我们知道,Automated learning 是用 AI 来设计 AI,用人工智能来自动地设计部分的人工智能步 骤。那么迁移学习同样可以达到这个效果,可以 用一个人工智能的模型来设计一个迁移学习模 型,这是我们最近的一项工作。这个工作称为 “learning to transfer”,也是一个非常有希望能够 自动化迁移学习过程的一个例子。所以这个就是 我们在迁移学习方面的努力,从大数据到很多小 数据领域。 我最近的一项工作和迁移学习类似,但是还 有不一样的地方,它更多的是解决“数据孤岛”的 问题。我们知道,如果我们有很多的部门,有很 多的传感器,但是每个传感器都只能收集一部分 的数据。如果没有办法把这些传感数据打通,那 么每一个地方的数据都不足以来训练一个好的模 型。为什么会发生这样的事?因为现在社会对隐 私、安全的要求越来越严格,在欧洲有这种法律, 在国内也有很多非常严格的个人隐私保护法律, 而且趋于严格化和全面化。 举个例子,如果养一只羊,这只羊就是一个模 型,那么如何建立起这个模型?过去的方法是把 各家的草买过来,喂这只羊。这就相当于到各处 去买数据、采购数据、收集数据。但是这个方法 现在不行了,数据要求不能出本地,也就是说,草 不能出草场,那么农民的羊是不是就会饿死?不 会的,农民会采取另外一种方法,他会让这个羊 在各处的草场走动,草不出草场,那么这只羊可 以走。就好像数据不动,模型在数据库之间走。 这由此引发了一个新的领域,叫做联邦学 习。我们有许多机构,每一个机构都有自己的数 据,它们联合起来是一个完整的、很大的数据库, 可以用来训练一个大数据模型。但是现在因为隐 私、利益的关系,每一个机构都不想或者不能把 数据和别人共享。那么,可以让它们结成一个联 盟,让它们共同遵循一个规则,使得这个模型的 参数可以在它们之间沟通,在沟通的时候,这个 参数也是加密的,使得一个机构没有办法通过它 得到的参数包来反拆对方的数据和模型。最后每 一个地方的部分模型都得到了成长,加起来就是 一个总的模型。联邦学习是这样的一个概念。 联邦学习具有很多优点,比如:数据隐私得到 保护,参数也能得到保护,建模的效果也非常 好。我们把联邦学习理论化,建立了一个数学的 基础。这个数学基础基于一个假设,假设这个数 据拥有的各方,有足够多的特征方面的重叠,那 么称之为“纵向联邦学习”。如果它们特征是重叠 的,但是它们的样本不重叠,这个称为“横向联邦 学习”。如果两边都不重叠,还可以用迁移学习把 它们都给迁移到另外一个状态空间,在那个空间 找它们的共性,同时用联邦学习来解决。 所以联邦学习+迁移学习,就形成了一个既能 保护隐私,又能共同联合建模的机制,这个机制 在工业界获得强烈反响。我们发现这个机制在跨 领域不同的企业/机构之间尤其有用。比如:银行 和监管 (机构) 可以联合起来,更好地建立一个反 洗钱的模型;互联网 (公司) 和银行可以建立一个 小微企业的风控模型;互联网公司和零售公司可 以建立更好的新零售模型等等。这样的建立取决 于一个数学基础,一个非常有效、高效可计算的 加密机制,其中数学的演化、硬件的演化和分布 式安全算法的演化要一起进行。 另外一个非常特别的领域是城市管理。比 第 1 期 杨强:联邦学习:人工智能的最后一公里 ·185·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有