个人网站做的类型,网站建设合作协议,百度手机导航官方新版,百度应用宝A Survey on Federated Learning Systems Vision Hype and Reality for Data Privacy and Protection
选自#xff1a;IEEE Transactions on Knowledge and Data Engineering#xff0c;2021
链接
本文主要从数据分布、机器学习模型、隐私机制、通信架构、联邦规模和联邦动…A Survey on Federated Learning Systems Vision Hype and Reality for Data Privacy and Protection
选自IEEE Transactions on Knowledge and Data Engineering2021
链接
本文主要从数据分布、机器学习模型、隐私机制、通信架构、联邦规模和联邦动机六个方面对联邦学习系统FLSs进行了全面的分类通过系统的总结现有的联邦学习系统提出了设计因素、给出了案例以及未来的研究方向。作者试图利用这些现有的Federated system中的两个性质Heterogeneity和Autonomy来从一个新的角度看待FL system。主要工作如下
(1)调查第一个从系统的角度对FL进行全面分析的调查包括系统组件、分类、摘要、设计和远景。(2)从数据分布、机器学习模型、隐私机制、通信架构、联邦规模和联邦动机等6个方面对网络安全系统进行了全面的分类可作为网络安全系统的共同构建模块和系统抽象。(3)根据研究领域对已有的典型研究和最新研究进行了总结便于研究人员和开发人员参考。(4)提出了一个成功的FLS的设计因素并全面审查了每个场景的解决方案。(5)提出了未来FLSs的研究方向和挑战。
联邦学习系统federated learning systemsFLSs目标是在限制用户隐私的情况下在不同组织之间进行协作式机器学习技术
Heterogeneity 联邦学习的异质性指的是参与联邦学习的不同设备或实体之间存在的差异性。这种差异性可以从多个方面来理解 数据分布的差异性在联邦学习中每个参与方例如设备或实体通常拥有自己特定的本地数据这些数据可能来自不同的地理位置、不同的用户群体或不同的环境条件。这导致了参与方之间数据的分布差异例如一种设备上的数据可能更倾向于特定的特征或类别。计算能力和资源的差异性不同的设备或实体可能具有不同的计算能力和资源水平。有些设备可能性能较好可以处理大规模的模型训练和推理任务而其他设备可能硬件条件有限只能处理较小规模的任务。这导致了参与方之间在计算能力和资源方面的差异。隐私和安全要求的差异性在联邦学习中参与方通常拥有自己的隐私和安全要求。由于不同的参与方有不同的隐私政策和约束条件可能会限制对数据的共享或模型的访问。这导致了参与方之间隐私和安全要求的差异性。 为了解决联邦学习的异质性可以采取一些策略
跨设备或实体的数据同构化通过一些数据预处理技术可以使不同参与方之间的数据更加同构例如特征选择、数据标准化等。联邦学习算法的调整和优化针对异质性问题可以使用一些算法技术来处理例如联邦学习中的参数选择、模型聚合等策略以使得参与方之间的差异性最小化。联邦学习参与方的选择和分组可以根据参与方的特点和限制条件将其进行合理的分组使得每个组内的参与方更加相似减小异质性的影响。跨设备或实体的知识转移通过将模型的知识从一个参与方转移到另一个参与方可以减小异质性带来的影响。例如可以利用迁移学习的方法将一个参与方上训练好的模型参数应用于其他参与方的模型初始化从而加速训练过程并减小异质性的影响。异步联邦学习在异质性较大的情况下同步进行模型聚合可能会带来困难。此时可以采用异步联邦学习的方式允许参与方在自己的本地数据上独立进行训练和模型更新减小异质性带来的同步问题。个性化的模型和任务设置考虑到参与方的异质性可以根据每个参与方的特点和需求定制个性化的学习模型和任务。例如根据不同参与方的数据特征差异可以为每个参与方设计特定的子模型以更好地适应其本地数据分布。联合优化和协同训练在模型聚合过程中可以采用联合优化的方式充分考虑参与方之间的异质性。同时可以通过协同训练的方式充分挖掘参与方之间的互补性从而提高整体模型性能。
Autonomy 联邦学习的自治性指的是在联邦学习框架下参与方例如设备或实体具有一定程度的自主性和自治性。这意味着每个参与方能够在一定程度上自主地决定参与联邦学习、模型训练和模型推理的方式。 在联邦学习中的自治性表现在以下几个方面 数据自治性每个参与方保持对其本地数据的控制可以自主地决定是否共享其数据。这使得联邦学习能够在保护个体隐私的同时允许参与方控制自己的数据并决定是否将其用于模型训练和推理。 模型自治性每个参与方可以自主地选择和训练自己的模型。虽然联邦学习的目标是通过模型聚合来获得最终的联合模型但是每个参与方可以根据自己的需求和特定情况选择适合自己的模型结构和训练策略。 参与自治性每个参与方可以自主地选择是否参与联邦学习。这可以基于多种因素包括计算资源、网络带宽、数据隐私和安全要求等。参与方有权决定是否将自己的设备或实体纳入联邦学习环境并在一定程度上控制自己的参与程度。 效果自治性每个参与方可以自主地根据自己的需求和目标评估和决策模型的效果。虽然联邦学习的目标是提升整体模型的性能但每个参与方可以根据自己的指标和需求评估并决策是否接受联邦学习所得模型的使用。 协商自治性在联邦学习中参与方之间可以通过协商和合作来共同决策有关联邦学习的规则和流程。这包括数据共享策略、模型聚合方式、训练轮数等。通过参与方之间的协商可以确保联邦学习过程中的公平性和平衡性。 隐私自治性参与方拥有保护自身数据隐私的权利和自治性。他们可以自主决定如何对本地数据进行隐私保护例如采用差分隐私技术、加密手段或数据脱敏等。参与方之间需要遵守隐私协议和政策确保数据隐私得到有效保护。 模型训练自治性参与方可以自主决定模型的本地训练方式和优化策略。他们可以根据本地数据的特点和需求自主选择训练算法、超参数设置和优化目标以最大程度地提升本地模型性能。 资源管理自治性参与方在联邦学习中可以自主管理和分配自身的计算资源、存储资源和带宽资源。他们可以根据自身需求和资源限制灵活调整和优化资源分配策略以实现高效的联邦学习过程。 模型权衡自治性每个参与方可以自行权衡模型的复杂性和性能。他们可以根据计算和存储资源的限制自主地选择模型的规模和复杂度以平衡模型的性能和资源消耗。 算法选择自治性参与方可以自主选择合适的联邦学习算法来适应自身需求。这包括基于梯度的方法、可微分的方法、优化解算法等。参与方可以根据自己的数据特点和计算能力选择适合的算法以满足其特定的学习任务。 模型访问控制自治性参与方对于其本地模型的访问有一定的自治权。他们可以自主决定允许其他参与方访问其模型的程度包括读取、写入和执行。这样的控制权可以帮助实现联邦学习中的安全和隐私保护。
然后给出了联邦学习系统的定义以及与传统联邦系统相比的优缺点FDBSs(federated database systems)关注的是分布式数据的管理FC(federated cloud)关注的是资源的调度而FLSs更关注的是多方之间的安全计算 在联邦学习系统中多方协作训练机器学习模型而不交换原始数据。系统的输出是每一方的机器学习模型(可以是相同的也可以是不同的)。一个实际的联邦学习系统具有以下约束:给定一个评估指标例如测试精度通过联邦学习学习的模型的性能应该优于具有相同模型体系结构的本地训练学习的模型。 FLS系统组成 各方(例如客户端)、管理器(例如服务器)用于训练机器学习模型的通信计算框架 联邦学习框架 对现有的工作进行了分类总结介绍了两个具体的application场景 联邦学习系统分类 根据不同的特征来区分分布式学习、跨设备联邦学习和跨竖井联邦学习包括设置、数据分布、通信等。我们的分类法用于从部署视图区分不同的联邦学习系统并且在中没有考虑机器学习模型和联邦动机等方面。 Data Partitioning 水平 垂直 混合 机器学习模型 神经网络决策树线性模型 Privacy Mechanisms 一个FLS可以采用多种方法来增强隐私保障[64,205,86]。还有其他保护用户隐私的方法 加密方法同态加密安全多方计算差分隐私可信执行环境攻击可以来自FL过程的任何阶段包括输入、学习过程和学习模型 输入恶意方可以对FL进行数据中毒攻击例如恶意方可以修改具有特定类的训练样本的标签从而使最终模型在该类上表现不佳。学习过程在学习过程中各方可以进行模型投毒攻击上传设计好的模型参数。与数据中毒攻击一样由于中毒的本地更新全局模型的准确性可能非常低。除了模型中毒攻击外拜占庭故障也是分布式学习中的一个常见问题其中各方可能表现得任意恶劣并上传随机更新。学习模型如果学习到的模型被发布则可以对其进行推理攻击。服务器可以从交换的模型参数中推断出训练数据的敏感信息。例如隶属度推理攻击可以推断训练中是否使用了特定的数据记录。请注意推理攻击也可能由FL管理器在学习过程中进行FL管理器可以访问各方的本地更新。 Communication Architecture 集中式设计 在集中式设计中数据流往往是不对称的这意味着管理者将来自各方的信息(如本地模型)聚合起来并将训练结果发回。全局模型上的参数更新总是在这个管理器中完成。管理者和本地各方之间的通信可以是同步的或异步的。 分散式设计 在去中心化设计中各方之间进行通信每一方都能够直接更新全局参数。 Scale of Federation 跨筒仓FLSs 在跨筒仓FLS中各方是组织或数据中心。通常有相对较少的参与方每个参与方都有相对大量的数据和计算能力。 跨设备FLSs 跨设备FLS中各方的数量相对较多每一方的数据量相对较少计算能力也相对较弱。当事人通常是移动设备。 Motivation of Federation 奖励机制 总结现有的流行和最先进的研究工作 现有的研究大多考虑水平数据划分大多数研究考虑在没有任何隐私保证的情况下交换原始模型参数。集中式设计是当前实现的主流。在它们的设置中需要一个可信的服务器。但是可能很难找到受信任的服务器特别是在跨竖井设置中。提高有效性、效率和隐私性是人工智能的主要研究方向(也是面临的主要挑战)这也是评价人工智能的三个重要指标。 效率的改进 如图对现有已发表研究的比较。LM表示线性模型。DM表示决策树。NN表示神经网络。CM表示加密方法。DP表示差分隐私。 应用 边缘计算推荐系统自然语言处理交易欺诈检测 基准测试框架 分类 通用基准系统旨在全面评估FLSs并给出FLSs不同方面的详细特征;有针对性的基准测试针对集中在一个小领域的一个或多个方面并试图在该领域优化系统的性能;数据集基准旨在为联邦学习提供专用数据集。 开源系统 Federated AI Technology Enabler (FATE)。链接 TensorFlow Federated (TFF)链接 OpenMined PySyft链接 Baidu PaddleFL链接 FedML链接 框架对比 System Design 效率 隐私效力 Evaluation (1)模型性能(2)系统安全性(3)系统效率(4)系统鲁棒性 案例 移动服务医疗领域金融领域