能否推荐一款产品帮助企业顺利的进行纵向联邦学习吗

某银行A与某互联网公司B达成了企業级的合作互联网公司A与银行B有着一大部分重合的用户,A有着客户上网行为等特征信息B有着客户的存贷情况等特征信息以及客户的标簽信息——客户的还贷情况(Y)。B希望能够将他所独有的特征信息与A所独有的特征信息相结合训练出一个更强大的识别客户信用风险的模型,但由于不同行业之间的行政手续用户数据隐私安全等因素,企业AB无法直接互通数据,联邦学习应运而生

联邦学习旨在建立一个基於分布数据集的联邦学习模型。在模型训练的过程中模型相关的信息能够在各方之间交换(或者是以加密形式交换),但原始数据不能这一交换不会暴露每个站点上数据的任何受保护的隐私部分。已训练好的联邦学习模型可以置于联邦学习系统的各参与方也可以在多方之间共享。
设有N位参与方协作使用各自的训练数据集来训练机器学习模型传统的方法是将所有的数据收集起来并且存储在同一个地方,例如存储在某一台云端数据服务器上从而在该服务器上使用集中后的数据集训练得到一个机器学习模型。在传统方法的训练过程中任何一位参与方会将自己的数据暴露给服务器甚至其他参与方。联邦学习是一种不需要收集各参与方所有的数据便能协作训练一个模型的機器学习过程
设和分别为集中型模型和联邦型模型的性能度量。在使用安全的联邦学习在分布式数据源上构建机器学习模型时我们允許在保护用户隐私的情况下,联邦学习模型的性能略低于集中型模型的性能

其中即为允许的性能损失。

  • 横向联邦学习:不同参与方的数據有较大的特征的重叠(横向)但数据样本(纵向),即特征所属的样本的重叠度不高例如,联邦学习的参与方是两家服务于不同区域市场的银行他们所服务的客户群体差别较大,但客户的特征可能会因为相似的商业模式而重叠度较高
  • 纵向联邦学习:不同参与方的數据样本有较大的重叠,但样本特征的重叠度不高例如,两家公司(银行和电子商务公司)向客户提供不同的服务拥有客户不同方面嘚数据,但他们所服务的客户群体有较大的重叠
  • 联邦迁移学习:不同参与方的数据在特征和样本维度重叠度都不是非常高。

纵向联邦学習算法有利于各企业之间建立合作使用各自的特有数据,共同建立更加强大的模型本篇将着重介绍一种基于加法同态加密的纵向联邦學习算法。

细化开头的案例企业B 有特征X3 和Y(标签),可独立建模企业A 有特征X1、X2,缺乏Y无法独立建模,现在企业AB 合作,建立联合模型显然效果会超过企业B单边数据建模。

但两方之间如何合作来共同训练一个模型呢以逻辑回归为例,一个经典的逻辑回归的损失函数囷梯度公式如下所示:


可以看到梯度的计算离不开特征数据(x)和标签数据(y)。因此一种最直接的数据交互方向就是其中一方将自巳独有的数据直接以明文的方式发送给对方,由对方计算出梯度后再返回但这样的交互方式会产生信息的泄露,其中一方会获得全部的信息这显然是不符合规范的。
既然明文的传输不行一种解决思路就是将需要的数据以密文的形式发送,但这又会产生另一个问题其Φ一方获得另一方的密文数据后无法解密,又如何进行计算呢这时就需要引入同态加密算法。

由于篇幅所限这里将只介绍同态加密算法的作用,而不介绍其具体细节
同态加密(Homomorphic Encryption)是一种特殊的加密方法,允许对密文进行处理得到仍然是加密的结果即对密文直接进行處理,跟对明文进行处理后再对处理结果加密得到的结果相同。从抽象代数的角度讲保持了同态性。
假设存在两个数x、yOP(x,y)表示x与y之间嘚一种操作运算(加、减、乘、除、指数……)。E(x)表示对x的加密操作D(x)表示对x的解密操作,则当某种加密算法对某个操作OP满足同态性时表达式如下:

根据算法所能支持的操作运算的范围和次数的大小,可以将同态加密算法分为部分同态加密算法(PHE)、些许同态加密算法(SHE)和全同態加密算法(FHE)其支持的运算范围与次数依次扩大。本文之后的纵向联邦学习算法将基于Paillier算法实现它是一种部分同态加密算法,支持加法鉯及与常数的乘法运算下面我将基于Python的phe库演示Paillier算法的作用。

参与方C在整个训练过程中主要的作用就是分发秘钥以及最后的对A和B加密梯喥的解密。

## 保存训练中的损失值(泰展开近似)

这里将基于sklearn中的乳腺癌数据集生成一组模拟数据参与方A获得部分特征数据,参与方B获得蔀分特征数据与标签数据

## 将特征分配给A和B ## 各参与方的初始化 ## 各参与方之间连接的建立

为测试该纵向联邦学习算法的训练效果。可以设置普通的集中式训练的逻辑回归算法作为对照组基于乳腺癌数据集,使用相同的训练集数据及相同的逻辑回归模型来进行训练观察其损夨值的下降曲线以及在相同测试集上的预测准确率。
以下是两种情况下训练的损失值的下降情况:

Logistic: 普通逻辑回归的损失值变化曲线,使鼡的是正常的损失函数
Taylor_Logistic: 普通逻辑回归的损失值变化曲线使用的是泰勒展开拟合的损失函数
Taylor_Taylor:纵向逻辑回归的损失值变化曲线,使用的是泰勒展开拟合的损失函数

以下是在sklearn中不同数据集上普通逻辑回归与纵向逻辑回归的训练结果的正确率及AUC的差异,其中rows代表样本数量feat代表特征数量,logistic代表集中式逻辑回归的训练结果Vertical代表纵向联邦学习算法的训练效果。

由训练结果的比较可以看到与普通的逻辑回归相比,该纵向逻辑回归算法在保证各方数据隐私性的同时在实验数据集上能够达到不错的训练效果。

原标题:数据不出本地还能享受大数据训练模型,联邦学习提供一种学习新范式

联邦学习提出至今不过两年而已~

近日,联邦学习概念的提出者之一 Blaise Agu?ray Arcas 在韩国针对全球莋了一个关于联邦学习的在线workshop

Blaise Agu?ray Arcas是2014年加入的谷歌,在此之前在微软任杰出工程师加入谷歌后,Blaise领导了谷歌设备端on-device机器智能(Machine Intelligence)项目哃时负责基础研究与新产品研发工作。

联邦学习的概念最初是由Blaise等人于2017年在Google AI Blog上发表的一篇博文中首次提出的这个概念提出至今不过两年時间,但对它的研究已然甚嚣尘上几乎每天都至少会发布一篇相关论文,甚至在18年底在港科大杨强教授等人的推动下联邦学习进入了IEEE国際标准

联邦学习之所以能够在如此短的时间里迅速由一个构想变为一门学科,主要原因在于联邦学习技术作为一种学习范式能够在确保用户数据隐私的同时解决“数据孤岛”问题。

不过不同于国内主要关注企业之间针对“数据孤岛”的联邦学习Blaise 等人(或许也在某种程喥上代表谷歌)关注更多的则是设备上的联邦学习,这也是联邦学习概念被提出之初的应用场景

1. 提出联邦学习的初始动力

Blaise五年前加入谷謌后不久,便开始了联邦学习的研究直到2017年,当他们取得了一定的成果才在博文中进行公布。

一开始联邦学习只是一个概念,但很赽它便被开发成人工智能领域中的一个学科现在已经有数千篇的文章在讨论联邦学习。在今年12月份在温哥华举行的机器学习顶会 NeurIPS上也将會有一个专题专门讨论联邦学习另一方面,现在也有很多公司也在以此为基础构建他们的模型这说明整个人工智能社区已经开始重视這种技术了。

那么为什么联邦学习能够如此快速地被整个社区重视呢

大家应该知道,目前人工智能已经发展到了这样一个节点:我们希朢能够用少量的数据做更多的工作这也是当前人工智能的核心话题之一。

神经网络可以做很多的认知语言处理、语音合成、图像识别,甚至还可以下围棋这些都能达到人类甚至超越人类的水平,这是过去几年我们取得的成就但是目前的神经网络相比人类还欠缺一点,就是学习的效率它需要大量的数据进行训练。所以一些大公司如谷歌、微软、亚马逊等开始提供人工智能服务时需要收集大量的数據,才能去训练大型神经网络这也是一直以来,整个社区所做的事情

对于设备端(例如手机)的智能应用,通常情况下的模式是用戶在设备上产生的数据会被上传到服务器中,然后由部署在服务器上的神经网络模型根据收集到的大量数据进行训练得到一个模型服务商根据这个模型来为用户提供服务。随着用户设备端数据的不断更新并上传到服务器服务器将根据这些更新数据来更新模型。很明显这昰一种集中式的模型训练方法

然而这种方式存在几个问题:1)无法保证用户的数据隐私,用户使用设备过程中产生的所有数据都将被服務商所收集;2)难以克服网络延迟所造成的卡顿这在需要实时性的服务(例如输入法)中尤其明显。

Blaise等人便想是否可以通过做一个大型的分布式的神经网络模型训练框架,让用户数据不出本地(在自己的设备中进行训练)的同时也能获得相同的服务体验

2. 设备上的联邦學习

解决之道便是:上传权重,而非数据

我们知道神经网络模型是由不同层的神经元之间连接构成的,层与层之间的连接则是通过权重實现的这些权重决定了神经网络能够做什么:一些权重是用来区分猫和狗的;另一组则可以区分桌子和椅子。从视觉识别到音频处理都昰由权重来决定的神经网络模型的训练本质上就是在训练这些权重。

那么Blaise提出的设备端联邦学习不再是让用户把数据发送到服务器,嘫后在服务器上进行模型训练而是用户本地训练,加密上传训练模型(权重)服务器端会综合成千上万的用户模型后再反馈给用户模型改进方案。

举例来说输入法是典型的智能推荐应用。当人们使用Google键盘Gboard给家人朋友发信息的时候传统来说你敲击键盘的数据会被上传箌谷歌的服务器,他们通过收集大量数据来训练一个更加符合用户习惯的智能推荐但在应用联邦学习后,用户敲击键盘的数据将永远保留在本地用户的手机中有一个不断更新的模型会根据这些数据进行学习和更新,并将更新的权重加密上传到服务器服务器收到大量用戶的模型后,会根据这些模型进行综合训练并反馈给用户进行模型更新和迭代。

这里或许值得强调这种在设备端上的模型是经压缩过嘚,而非像服务器中那种大型神经网络模型因此模型训练的耗能是非常小的,几乎检测不到此外,Blaise讲了一个非常形象的比喻即人会茬睡觉的时候通过做梦来更新自己的大脑认知系统;同样设备终端的系统也可以通过闲置时进行模型训练和更新。所以整体上这并不会對用户的使用体验造成任何影响。

我们将设备上联邦学习的过程总结一下:1)设备端下载当前版本的模型;2)通过学习本地数据来改进模型;3)把对模型的改进概括成一个比较小的更新;4)该更新被加密发送到云端;5)与其他用户的更新即时整合,作为对共享模型的改进

整个过程有三个关键环节:1)根据用户使用情况,每台手机在本地对模型进行个性化改进;2)形成一个整体的模型修改方案;3)应用于囲享的模型该过程会不断循环。

首先我们不必将数据上传到云端,服务提供商就看不到用户的数据这可以提高用户数据的隐私性。洇此通过这种方式,我们不必在隐私和功能之间进行权衡可以两者兼有。这一点在当下数据隐私越来越受到重视的情况下特别重要

其次,是降低了延时尽管5G时代即将到来,但并不是在任何情况下任何地点的网速都能得到保障如果将用户所有的数据都上传到云端,苴服务本身也是从云端进行的反馈那么在网速较慢的环境下,网络延时将会极大降低用户体验而联邦学习加持下的服务则不会出现这種情况,因为服务本身就来自于本地

当然,或许还有一个好处是在传统的方法下,用户只是人工智能的旁观者——我使用但我没参與。而在联邦学习场景下每个人都是“驯龙高手”,每个人都是人工智能发展的参与者

联邦学习的这种思想,事实上并不仅仅适用于設备用户数据的隐私保护和模型更新我们将设备用户抽象来看,视作数据的拥有者可以是手机持有者,也可以是公司、医院、银行等;而服务器或云端视作模型共享综合平台

因此,联邦学习更是一种新的学习范式它有以下特点:

  • 在联邦学习的框架下,各参与者地位對等能够实现公平合作;
  • 数据保留在本地,避免数据泄露满足用户隐私保护和数据安全的需求;
  • 能够保证参与各方在保持独立性的情況下,进行信息与模型参数的加密交换并同时获得成长;
  • 建模效果与传统深度学习算法建模效果相差不大;
  • 联邦学习是一个「闭环」的學习机制,模型效果取决于数据提供方的贡献

这样的特点正中当前人工智能发展所面临的困境。

当前大多数应用领域均存在数据有限苴质量较差的问题,在某些专业性很强的细分领域(如医疗诊断)更是难以获得足以支撑人工智能技术实现的标注数据

同时,在不同数據源之间存在难以打破的壁垒除了少数几家拥有海量用户、具备产品和服务优势的「巨无霸」公司外,大多数企业难以以一种合理合法嘚方式跨越人工智能落地的数据鸿沟或者对于他们来说需要付出巨大的成本来解决这一问题。

此外随着大数据的发展,重视数据隐私囷安全已经成为一种世界性的趋势而欧盟「数据隐私保护条例」(General Data Protection Regulation,GDPR)等一系列条例的出台更是加剧了数据获取的难度这也给人工智能的落地应用带来了前所未有的挑战。

从目前的研究进展来看联邦学习也是解决以上这些问题的唯一选择。

关于联邦学习在国内的进一步发展可以参考这篇文章《从概念到技术,再到国际标准和开源社区联邦学习只用两年时间》。值得一提的是关于「联邦学习」的洺字有一个故事:在早期国内将「Federated Learning」大多翻译为「联合学习」,现多称为「联邦学习」其中的区别是,如果用户是个人确实是把他们嘚模型「联合」起来学习,正如 Blaise 等人所做的工作;而如果用户是企业、银行、医院等大数据拥有者这种技术则更像是将诸多「城邦」结匼起来,「联邦」一词则更为准确这一名字的变化,也反映着联邦学习的研究主体从理论转向实际应用的变化趋势

点击阅读原文查看 從概念到技术,再到国际标准和开源社区联邦学习只用两年时间


可以选择腾讯安全联邦学习应用垺务(FLAS)这款产品在联邦学习框架下,训练的联合模型效果相对传统建模的效果提升15%以上效益更高。在银行业、消金行业和持牌机构、消费互联网行业、其他行业都可以应用。有不明白的可以再问我

你对这个回答的评价是


· TA获得超过3.4万个赞

不可以,迁移是包括所有茬原号上数据全部迁移到另外一个号包括素材库里的文章,已发送的文章以及你的所有违规记录,都会被迁移到目标账号你可以先紦需要的留下,不需要的进行删除整理完成后再进行迁移。

你对这个回答的评价是

下载百度知道APP,抢鲜体验

使用百度知道APP立即抢鲜體验。你的手机镜头里或许有别人想知道的答案

我要回帖

 

随机推荐