随着机器学习、隐私计算、高性能计算、深度学习训练和差分隐私的快速发展,如今美国的人工智能仍然面临两大挑战。第一,在大多数行业中,数据以孤岛的形式存在;二是加强数据隐私和安全。本文针对这些挑战提出了一个可能的解决方案:安全联邦学习。包括横向联邦学习、纵向联邦学习和联邦迁移学习。
联邦学习是一种分布式机器学习技术。其核心思想是通过用本地数据训练多个数据源间的分布式模型,建立一个基于虚拟融合数据的全局模型,而不交换本地个体或样本数据,从而达到数据隐私保护和数据共享计算之间的平衡,即数据可用和不可见和数据固定和模型移动。许多客户端(例如,移动设备或整个组织)在中央服务器(例如,服务提供商)的安排下合作训练模型,同时保持训练数据分散。联邦学习体现了数据集中收集和最小化的原则,可以缓解传统和集中的机器学习和数据科学方法带来的许多系统性隐私风险和成本。
联合学习涉及在大规模分布式网络中训练机器学习模型。虽然联合平均(fedavg)是在这种设置下训练非凸模型的主要优化方法,但在交叉统计异构设备(即每个设备具有不同的时尚)中很难实现相同的目标。著名的解决统计异构的fedprox框架包括了作为特例的fedavg。一个新颖的设备异构性假设为fedprox提供了收敛保证,它可以表示网络中的异构性。最后,对一组联合数据集进行了详细的实验评估,证明了广义fedprox框架在异构网络学习中比fedavg具有更好的鲁棒性和稳定性。
联邦研究论文的成果现状
一、发表论文的复合年增长率为40%
基于AMiner系统,通过关键词组在标题和摘要中检索2016-2021年的论文数据。结果显示,研究期内有4576篇与联邦学习相关的论文。自2016年提出以来,研究论文数量逐年增加,到2021年复合年增长率为40.78%。相关论文趋势如下图所示。
联邦研究论文趋势(2016-2021)
二、发表的论文由中国和美国主导。
根据作者所属国家的排名分析发现,近年来排名前10位的国家分别是中国、美国、英国、俄罗斯、德国、印度、澳大利亚、加拿大、日本和法国。论文突出的国家是中国(1245篇)和美国(1175篇)。详情如下图所示。
联邦论文发表数量排名前10位的国家(2016-2021年)
三、研究热点涵盖应用、系统和模型设计、安全和隐私。
1、一般研究热点
总体来说,基于AMiner系统的论文热词分析,发现2016-2021年联邦学习领域前10位的研究热点包括:物联网(Internet of Things)、区块链(blockchain)、边缘计算(edge computing)、优化(optimization)、深度网络(deep network)、聚合(Aggregation)、差分隐私(differential privacy)、医疗保健(medical care)、多方计算(multi-party computing)、强化学习(reinforcement learning)等,如图所示。可以看出,在研究期内,联邦学习的主要研究重点是应用和相关算法模型。
2016-2021年联邦学习领域热词云图
2、主题热门趋势
通过TF-IDF算法,计算研究期内各年与联邦学习主题相关的论文数量,得出论文数量前30位的热词,进而聚合成联邦学习三个学科领域的研究热点:应用、系统与模型设计、安全与隐私。这三个子课题的研究趋势呈现出以下特点。
在应用研究领域,联邦学习的研究热点按照总热度的顺序依次为物联网(Internet of things)、边缘计算(edge computing)、医疗保健(healthcare)、车辆交互(vehicle)、无线通信(wireless communication)、数据库(database)、推荐(recommendation)。细节如图所示。
联邦应用研究热点趋势(2016-2021)
联邦学习的系统和模型设计的研究热点趋势如图所示。从图中可以看出,到目前为止,系统和模型设计中的研究热点按照热度递减依次是优化、聚合、健壮性、通信效率、异构性、公平性、资源效率和激励机制。优化方面的研究在2016年和2017年最火,在2018-2020年相对减弱后,2021年再次成为最热的研究课题。
2017年,资源效率与公平的相关课题研究开始出现。
2018年,沟通效率相关研究位居热门榜单第一。
2019年最热的研究与安全聚合相关,同时对联邦学习(数据和系统)的异构性研究有了很大的提升。
2020年,与异质性相关的研究成为最热,与激励机制相关的研究数量大幅增加。
2021年,优化和聚合相关课题的研究显著增加。
从热持续性的角度来看,研究期间聚集性、优化性、鲁棒性、激励机制、公平性的相关研究都有不同程度的上升。
联邦学习系统和模型设计研究热点趋势(2016-2021)
在安全和隐私方面,联邦学习研究的主题包括区块链、差分隐私、安全多方计算、恶意攻击、隐私泄露、同态加密、网络安全和容错。具体热门趋势如图。在研究期间,区块链、差分隐私、多方计算、恶意攻击、隐私泄露和同态加密的研究热度总体上持续逐年上升。
2016年最火的研究是联邦学习中的恶意攻击。
2017年最火的研究是差分隐私。
2018年,最热门的研究是安全多方计算涉及的数据安全和隐私保护技术。与区块链结合的相关研究虽然出现在2018年,但很快成为2019年至2021年最热门的研究课题。
联邦学习安全和隐私研究热点趋势(2016-2021)
四、高被引论文分析
根据联邦学习领域论文被引数量,选取前3%的论文作为具有较大学术影响力的高被引论文,分析相关作者、所属机构和国家的特点。数据显示,今年联邦学习领域高被引论文的最低被引次数为120次,是去年的3倍,反映出该领域论文的整体学术影响力有了较大提升。
1、超过60%的高被引论文来自中国和美国。
根据论文第一作者所属国家的统计分析发现,近年来发表在《联邦学习》上的高被引论文主要来自美国和中国。其中,美国的高被引论文数占39.2%,较上期下降1个百分点,但仍为全球最多;中国高被引论文占26.4%,虽然仍居世界第二,但数量较上期增长了近10%;德国、英国、澳大利亚和新加坡也有一定数量的高被引论文;在其他国家发表的高被引论文比例不到4%。详细信息如图所示。
按国家分布的联邦研究论文(2016-2021)
2、美国被引用论文数量大幅领先世界。
联邦相关论文总引用量前10位的国家分别是美国、中国、澳大利亚、德国、新加坡、英国、印度、日本、以色列和波兰。具体信息如图。其中,美国的论文总被引数明显高于其他国家,比上期高出1.6倍,仍占据首位;中国的引文数量与上一期相比,美国的论文增加了近三倍,保持了第二的位置。印度、以色列和波兰是本期新进前十的国家,而上一期位居前十的沙特、韩国和瑞士本期未能进入前十。
联邦论文被引用量排名前十的国家(2016-2021年)
从领先国家来看,美国联邦学习被引用最多的论文是谷歌公司研究科学家H. Brendan Mcmahan发表的论文《从分散数据中进行深度网络的通信高效学习》。本文于2016年发表于ArXiv e-prints (2016): arXiv- 1602,2017年收录于AIStats(人工智能与统计国际会议)。目前已被引用4534次。中国拥有第二多被引用的论文,其中被引用最多的论文是HKUST计算机科学与工程系教授杨强作为第一作者,与微众银行人工智能系和北京航空航天大学计算机学院的研究人员共同发表的《联邦机器学习:概念与应用》,已被引用1936次。
多开源联邦学习系统框架详细介绍
一、 openmine —— pysyft
PySyft是开源社区OpenMined推出的用于安全和私有深度学习的Python库。它使用联邦学习、差分隐私和加密计算来解耦私有和敏感数据,可用于主要的深度学习框架,如TensorFlow和PyTorch。PySyft代表了在深度学习程序中启用可靠隐私模型的首批尝试之一。PySyft的核心组件是一个名为SyftTensor的抽象。
SyftTensors旨在表示数据的状态或转换,并且可以链接在一起。一个链总是在头上有一个PyTorch张量,用子属性向下访问SyftTensor体现的变换或状态,用父属性向上访问SyftTensor体现的变换或状态。
二、微众银行——FATE
微众银行AI部门开发了面向联邦学习的FATE(Federated AI Technology Enabler)开源项目,这是首个面向联邦学习的开源工业框架。目前,FATE开源社区已经聚集了700多家企业、300多所高校等科研机构的开发者,是国内最大的联邦学习开源社区。
FATE项目使用多方安全计算(MPC)和同态加密(HE)技术构建底层安全计算协议,从而支持不同种类的机器学习安全计算,包括逻辑回归、树算法、深度学习(人工神经网络)和迁移学习。FATE目前支持三种类型的联邦学习算法:水平联邦学习、垂直联邦学习和迁移学习。
命运的整体结构如图。FATE的主仓库包括FederatedML核心联邦算法库和多方联邦建模流水线调度模块FATE-Flow。FATE拥抱大数据生态,底层引擎支持使用微众银行自主研发的EGGROLL或Spark进行高性能计算。围绕命运美联储
FederatedML是命运联邦成员学习算法库模块,提供20种联邦成员学习算法,支持垂直联邦成员学习、水平联邦成员学习和联邦迁移学习三种联邦成员建模场景,涵盖了工业建模的整个建模过程,包括数据处理、特征转换、训练、预测和评估。此外,许多多方安全计算协议被封装,以便为上层算法提供调度,并支持联邦学习开发者开发联邦算法。
FATE-Flow为FATE提供联邦建模管道端到端的调度和管理,主要包括联邦建模管道的DAG定义、联邦任务生命周期管理、联邦任务协同调度、联邦任务跟踪、联邦模型管理等。实现了联邦建模到生产服务的集成。FATE-Board是联邦学习建模的可视化工具,为最终用户提供可视化和测量模型训练的全过程。
三、 Google —— sensor flow Federated(TFF)
由Google开发和维护的TensorFlow联邦项目(TFF)是一个开源框架,用于在联邦机器学习和其他计算方法的分散数据集上进行实验。TFF允许开发人员在他们自己的模型和数据上模拟现有的联邦学习算法和其他新颖的算法。TFF提供的构建模块也可以应用于分散的数据集,实现非学习计算,比如聚合分析。
TF的接口由两层组成:联邦层(FL)的应用程序接口(API)和联邦核心(FC)的API。TFF使开发人员能够声明和表达联邦计算,以便它可以部署在各种运行环境中。TFF包含一个独立的实验操作过程模拟器。这个联邦学习的框架如图所示。
与分布式培训理念不同,TFF框架的设计理念是面向数据的,而不是代码分离的。在编写模型和训练代码时,应该将客户端和服务器视为一个整体。不需要在同一个文件中分离服务器(S端)和客户机(C端)的代码。C端和S端的区别在代码逻辑层面。也就是说,在写TFF代码时,用户不不需要指明某段代码应该运行在C端还是S端),而只需要指明每个数据是存储在C端/S端,全局唯一还是有多个副本。类似TF 在非急切模式下,当用户编写模型代码和训练代码时,TFF会自动将代码分别放置在客户端和服务器设备上。只要用户注意模型架构,CS端交互的数据格式,聚合多客户端模型的方式。
四、字节跳动——费德勒
基于字节跳动在推荐和广告领域积累的机器学习建模技术和个性化推荐算法,字节跳动联邦学习平台Fedlearner可以支持多种联邦学习模式,已经在电商、金融、教育等行业的多个落地场景中得到应用。
Fedlearner联邦学习平台的整个系统包括控制台、训练器、数据处理、数据存储等模块。每个模块对称部署在参与联邦双方的集群上,通过代理相互通信实现训练。
五、百度——PaddleFL
PaddleFL是一个基于PaddlePaddle的开源联邦学习框架。PaddleFL提供了许多联邦学习策略及其在计算机视觉、自然语言处理、推荐算法等领域的应用,例如,水平联邦学习(联邦平均、差分隐私、安全聚合)和垂直联邦学习(逻辑回归用privc,神经网络用ABY3)。研究人员可以用PaddleFL复制和比较不同的联邦学习算法。
此外,PaddleFL还提供了传统机器学习训练策略的应用,如多任务学习、联邦学习环境下的迁移学习、主动学习等。依靠PaddlePaddle 的大规模分布式培训和Kubernetes 训练任务的灵活调度能力,PaddleFL可以基于全栈开源软件轻松部署。
PaddleFL主要提供两种解决方案:数据并行和用MPC (PFM)进行联邦学习。有了数据并行,各数据方可以基于经典的横向联邦学习策略(如FedAvg、DPSGD等)完成模型训练。).此外,PFM是一个基于多方安全计算(MPC)的联邦学习计划。作为PaddleFL的重要组成部分,PFM可以很好地支持联邦学习,包括横向、纵向和联邦迁移学习。
六、 JD.COM ——九号码联邦学习9NFL
JD。COM 美国自研九数联邦学习平台(9NFL)于2020年初正式上线。9NFL平台是基于JD.COM商业促进部的9N机器学习平台开发的。在9N平台离线训练、离线预测、在线推理、模型发布等功能的基础上。增加了多任务跨域调度、跨域高性能网络、大规模样本匹配、大规模跨域联合训练、模型分级加密等功能。整个平台可以支持百亿/百t规模的样本匹配和联合训练,并设计了一系列可用性和容灾的机制和策略,保证整个系统的高吞吐量、可用性和性能。
七、FedML。AI——FedML
ML是一个面向研究的联邦学习库,支持分布式计算、移动/物联网设备上的训练和独立仿真,可以促进新的联合学习算法的开发和公平的性能比较。支持分布式计算、移动/物联网设备上的培训和独立仿真。
FedML还通过灵活通用的API设计和参考基准,实现和推动各种算法研究。为非独立工业发展选定的综合基准数据集旨在进行公平比较。FedML可以为联合学习研究社区开发和评估算法提供有效且可重复的方法。
八、台湾省人工智能实验室——Harmonia
台湾省人工智能实验室(AI Labs)开发了一个开源项目Harmonia,旨在开发系统/基础设施和库,以简化联合学习的研究和生产使用。Harmonia使用工程师熟悉的环境和语言,比如流行的开源工具Kubernetes、Git大文件存储和GitOps。Harmonia使用Git进行访问控制、模型版本控制以及服务器和联合训练(FL)行动参与者之间的同步。FL训练策略、全局模型和局部模型/梯度保存在Git储存库中。这些Git响应的更新将触发FL系统状态转换。这将使外语培训过程自动化。
FL参与者被激活为一个K8S pod,由一个操作者和一个应用程序容器组成。操作容器负责维护FL系统状态,并通过gRPC与应用容器通信。本地训练和聚集功能封装在应用程序容器中。这种设计可以很容易地部署在Kubernetes集群环境中,并且可以快速插入现有的机器学习(ML)工作流。
开源非联邦学习系统框架的详细介绍
一、腾讯——天使力量FL
天使力量FL(原名AngelFL)安全联合计算基于腾讯自主研发的多数据源联合计算技术,为联邦机器学习和联合数据分析提供安全、易用、稳定、高性能的解决方案,助力数据融合应用。它构建在Angel机器学习平台上,利用Angel- PS支持万亿级模型训练的能力,将Worker上的很多计算提升到PS(参数服务器)端;Angel PowerFL为联邦学习算法提供计算、加密、存储、状态同步等基本操作接口。进程调度模块协调参与者的任务执行状态,通信模块完成任务训练过程中所有数据的传输。
采用去中心化架构设计,全自动化流程,算法支持LR、XGBoost、PCA和用户自定义神经网络模型(如MLP、CNN、RNN、WideDeep、DeepFM、DSSM等。).天使PowerFL联邦学习已经开始落地腾讯金融云、腾讯广告联合建模等业务。目前主要应用产品是腾讯云安全和隐私计算。
二、 JD.COM科技——Fedlearn
2020年10月,JD.COM数字科技集团(简称京东数字科学,现名JD.COM科技)推出了自主研发的联邦学习平台Fedlearn。Fedlearn平台具有以下核心功能:六位一体:多自研联邦学习算法、多方同态加密、轻量级分布式架构、区块链和联邦学习的集成、数据安全容器、一站式运营平台。
JD。COM科技Fedlearn平台有三个特点:
1、数据和模型隐私方面
不同参与者之间没有本地数据和模型参数的直接交换,但是需要中间值来更新参数。为了避免从这些中间值中恢复数据信息,通过添加扰动来保护这些值,保证了数据和模型的私密性。
2、通信
引入集中式数据交换的概念,使数据交换独立于参与者。
计算架构
采用异步计算框架,提高模型训练速度。
三、财富科技——FMPC
富多方安全计算平台(FMPC)是上海富数科技的产品,目前并未开源,主要通过体验或购买服务的方式使用。
FMPC建筑有以下特点:
1、联邦学习
原始数据不出去,各方参与本地建模;没有敏感数据流通,只交换中间计算结果;整个模型受到保护,所有参与者只有自己模型参数;私有化;开放API快速开发;支持主流的机器学习算法,如LR、DT、RF、Xgboost等。建模速度快3倍;密文训练精度的误差为1%。
2、多方安全计算
应用计算量为11000次/天;支持多方数据安全;支持一次多项式;支持多方归因统计分析;支持多方多维数据钻取分析;私有化。
3、消失查询
支持100亿条记录;第二响应时间;查询授权存款凭证;甲方的查询信息不会被泄露;加密隧道以避免中间保留;私有化。
隐私(联合学习)液冷GPU服务器
蓝脑隐私计算(联邦学习)大数据液冷GPU服务器为基于数据隐私保护的安全建模过程提供丰富的可视化呈现,为终端用户可视化和度量模型训练全过程,支持模型训练全过程的跟踪、统计和监控,帮助模型开发者快速设置联邦学习任务,并可根据客户需求深度定制开发。它是一个高性能、高可靠性、高灵活性、高可扩展性的深度学习操作系统。由高性能计算加速中间件、深度学习训练平台和数据推理平台三个子系统组成。为用户提供数据处理、模型训练、推理服务应用等完整的AI解决方案。
一、用户状态
1、数据产品相互分离
同一业务可能会随着业务发展和需求发生变化,可能会同时部署不同的数据库和数据平台产品;此外,为了保证企业的核心竞争力,企业不断部署新的数据库和数据平台产品,不断建设、合并和迁移业务。而竖井建设模式使得数据产品相互割裂,导致数据孤岛问题,最终降低了企业的数据共享能力。
2、系统复杂性急剧增加
传统的解决方案需要经过复杂耗时的ETL,将数据反复存储在同一个存储介质中,然后重新开发业务获得数据计算结果。数据存储在不同的数据产品中,数据结构不同,给跨产品数据之间的相关性计算带来了一定的难度。
3、开发和运营困难
系统集成一段时间后,业务部门会推出新的业务数据库,ETL流程需要改造。频繁的业务结构调整和底层数据库的数据转换也会导致集成系统的失败。面对集成系统的开发和运维问题,企业自身的技术发展
自主研发的统一分布式计算引擎可以根据不同的查询对象,采用多种优化技术自动优化查询,并实现毫秒级延迟。
3、多数据源支持
支持传统关系数据库、Nosql数据库、MPP数据库和大数据平台产品。
4、统一SQL查询
自主研发了统一的SQL编译器,通过一个标准的SQL就可以实现各个数据库之间的关联查询。
5、数据独立性
实现跨数据库、跨平台的数据集成,满足底层数据库的自治需求。
6、安全合规
提供统一的权限体系、用户行为审核和溯源,提供数据安全和合规保障。
三、客户收入
1、构建统一计算平台,简化IT系统架构,降低IT成本。
2、提高企业数据共享能力,快速响应业务需求
3、提升企业信息技术架构敏捷性,助力企业数据数字化转型审核编辑黄浩宇
标签:联邦数据学习