自己做网站哪家好,怎么编辑网站后台,wordpress 主题 失败,学佛网站开发项目需求分析出自——联邦学习综述#xff1a;概念、技术、应用与挑战。梁天恺 1*#xff0c;曾 碧 2#xff0c;陈 光 1
从两个方面保护隐私数据
硬件层面
可 信 执 行 环 境 #xff08;Trusted Execution Environment#xff0c;TEE#xff09;边 缘 计 算#xff08;Edge Com…出自——联邦学习综述概念、技术、应用与挑战。梁天恺 1*曾 碧 2陈 光 1
从两个方面保护隐私数据
硬件层面
可 信 执 行 环 境 Trusted Execution EnvironmentTEE边 缘 计 算Edge ComputingEC
软件层面
在数据以及通信层面对数据进行加密 网 络 安 全 通 信 协 议密 码 学 技 术后 量 子 密 码
联邦学习的出现
集中式学习
此模式下所有终端的数据需要被传输到主服务器上由主 服务器基于收集到的数据执行机器学习任务即数据会被移 动到主服务器而模型以及模型的训练过程则被固定在主服 务器上称“模型不动数据动”。 面临的问题集 中 式 学 习 虽 然 在 传 输 数 据 的 过 程 中 使用了密码学进行加密但是依旧面临着被破解的可能性 存 在 一 定 的 数 据 安 全 隐 患。
分布式学习
分布式现场学习的提出解决了数据安全和隐私保护的 问题主要思路是一个系统的数据分别在来源端各自执行机 器 学 习 任 务 最 为 典 型 的 例 子 就 是 边 缘 计 算
边缘计算是分布式现场学习的一种实现方式思路是把需要分析的数据限制在设备的边缘环境中进行现场学习并将最终的学习结果汇聚到主服务器进行汇总和存储。
优点 无需将敏感数据传输到主服务器进行学习降低了敏感信息的流通率。 缺点 由于各方缺乏数据上的沟通导致一个系统内的数 据无法交汇融合无法得到最大的发挥同时导致各方所学习到的知识过于片面模型缺乏全局性和泛化能力
联邦学习的定义与分类
定义
联邦学习是一种“数据不动模型动”的学习模式。 在联邦学习的过程中各参与方不需要交换样本数据及其变体仅需要交换与模型相关的中间数据及其变体然后由主服务器将中间数据进行安全聚合并反馈给参与方参与方则负责根据聚合后的模型信息进行己方模型的更新有效保证 了各参与方的敏感数据的安全性和隐私性实现了在融合多个参与方的数据所蕴含的知识的同时保护隐私数据。
分类
横向联邦学习
横向联邦学习Horizontal Federated LearningHFL指的是两个参与方的数据集存在较大的特征空间重叠的情况。此模式下设定前提为各参与方的数据都是具备标签空间的。
在横向联邦 学习模式下用户设备会把本地模型的模型信息传输到主服 务器主服务器将所有的模型信息进行安全聚合并将聚合 信息加密后广播给所有的用户设备最后用户设备会根据主 服 务 器 的 聚 合 信 息 来 更 新 自 身 的 本 地 模 型。
主要步骤
步骤 1 参与方根据自身数据集构建本地模型。步骤 2 参与方将本地模型的模型信息如梯度使用 加密算法进行加密如同态加密然后把加密后的模型信息 发送给主服务器。步骤 3 主服务器根据参与方的模型信息进行安全聚 合 常 见 的 安 全 聚 合 算 法 有 联 邦 平 均 算 法Federated Averaging algorithmFedAvg以及异构联邦模型的联邦优化 Federated Optimization in Heterogeneous NetworkFedProx 算法等。步骤 4 主服务器将聚合后的信息广播给所有参与方。步骤 5 参与方对主服务器传来的聚合信息进行解密 据此更新本地模型。 重复以上步骤直至达到预设的停止条件。 优点能在不得知其他参与方源数据的情况下实现各方知识的交换 缺点横向联邦不适用于各参与方之间特征空间差异较大的跨领域联邦学习的情况
纵向联邦学习
在具有较多样本数据重叠的参与方之间执行的联邦学习任务称纵向联邦学习Vertical Federated Learning VFL。此模式下设定前提为只有一个参与 方 的 数 据 具 备 标 签 空 间 其 余 参 与 方 的 数 据 不 具 备 标 签 空 间。然而在现实生活中还可能存在两个在样本空间以及 特征空间均存在较小重叠的数据集此种情况下需要使用联邦迁移学习Federated Transfer Learning FTL。
例子
纵向联邦学习更适合执行跨行业跨领域的机器学习任 务如微视与广告商合作提出的联邦广告投放系统。在此系 统中微视具备包括用户画像和用户点播记录等数据广告 平台则具备广告信息、产品信息以及用户购买记录等数据 可见双方的数据集的特征空间截然不同但是可能存在相同 用户。在此情况下纵向联邦学习可以在不泄露、不交换双 方样本数据的同时聚合双方的数据特征和知识特征构建出 一个联邦推荐模型在提高微视用户的体验度和广告收益的 同时提高广告方的营销收益实现双赢局面。
主要步骤
步骤 1 数据对齐。数据对齐的目的是在保护各参与方隐私和数据安全的前提下找到共同样本并给予共同样本执行联邦学习任务。常见的数据对齐方法有 Li 等提出的算法。隐私求交步骤 2 主服务器发送公钥给各参与方同时参与方基于共同样本构建初始本地模型然后将加密后的模型信息 如梯度、损失值等发送给主服务器。步骤 3 主服务器解密参与方的模型信息同时计算参与方更新模型所必须的计算结果并传送回参与方。步骤 4 参与方根据主服务器的计算结果更新本地模型同时各方会把中间计算结果共享给其他参与方用于协助对方计算梯度和损失值等模型信息。步骤 5-1 对于部分纵向联邦学习算法参与方还会将 本地模型的模型标识发送给主服务器保存以便在预测过程 中主服务器知道需要将新数据发送至哪些参与方进行联邦 预测。如 secureBoost 算法中参与方会把记录 id特征阈 值以及分割后的样本空间告知主服务器同时主服务器会 将当前的处理节点与参与方的划分信息进行关联。因此只有主服务器清楚整棵决策树的结构 当有新样本需要预测时主服务器会将数据发至当前节点所关联的参与方让参与方利用本地模型计算阈值 得知下一步的树搜索方向。步骤 5-2 特别地部分需要全体参与方参与预测的纵 向联邦学习算法如安全联邦线性回归则不需要参与方告 知主服务器必要的模型标识
联邦迁移学习
学习模式可被总 结为使用某参与方在当前迭代中已训练好的模型参数迁 移到另外一个参与方上协助它进行新一轮模型的训练。典 型 的 联 邦 迁 移 学 习 的 架 构 如 图 8 所 示
步骤
步骤 1 参与方根据自身数据集构建本地模型。步骤 2 参与方分别运行各自的本地模型获得数据表 征以及一组中间结果加密后发送给对方。步骤 3 对方利用接收到的中间结果计算模型的加密梯 度和损失值加入掩码后发给原参与方。步骤 4 各方对接收到的信息进行解密后发回给对方 然后各方利用发解密后的模型信息更新各自的模型。 不 断 重 复 以 上 步 骤 直 至 损 失 收 敛 为 止 。
联邦学习的隐私安全
联邦学习除了解决数据孤岛问题使得各方数据可以进行联合学习外还必须解决数据安全问题实现各方的隐私保护。
安全模型
安全模型是评价一个联邦学习系统是否满足隐私保护 要求的标准之一要求一个安全的联邦学习系统应当满足以 下几个安全属性 1隐私性。要求能有效保证系统内部各方的数据安全 和隐私安全。 2正确性。每个参与方都能输出计算结果且计算结果 是正确的。 3公平性。系统能公平看待各方的计算贡献公平地进 行计算结果的聚合。
攻击模式
源自服务器的攻击 一个诚实但好奇的服务器会试图从参与方的模型更新 信息中反推出参与方的隐私数据特点等但不会提供负反馈 信息给参与者使其错误地更改本地模型。恶意服务器不仅会试图从参与方的模型更新信息中反推出参与方 的隐私数据特点等还会恶意篡改聚合模型或者提供错误 的信息给参与方破坏参与方的模型性能混合的服务器敌 手则同时或者不间断地充当诚实但好奇的服务器敌手和恶 意的服务器敌手。 源自参与者的攻击 有的参与者是诚实但好奇的它希望窃听其他参与方以 及主服务器共享的数据信息以期从中推理出某些有用的信息。还有恶 意的参与者存在他们的主要目的是反馈错误的模型信息到 主 服 务 器 使得联邦模型向着消极的方向更新迭代同样地也存在混合类型的敌对参与方 源自外部的攻击 参与者和服务器之间通信更新时通道上可能存在外部 窃 听 者 窃 听 信 息 并 由 此 反 推 出 一 些 有 关 模 型 等 的 隐 私 数 据造成联邦内部的通信安全威胁。 源自系统漏洞的攻击 联邦学习系统本身也可能存在潜在的安全薄弱点比如 系统架构设计不合理等。这些源自系统的漏洞使得攻击者 可以发起数据攻击以及模型攻击数据攻击 主要是指参与者恶意修改数据标签或中间 信息破坏联邦学习的过程。模型更新攻击 通过恶意地恶化本地模型破坏全局模 型的性能。
隐私保护
不经意传输Oblivious TransferOT 发送方把多条数据基于不同的密钥加密 并将所有公钥发送给接收方接收方按需使用特定的公钥生 成随机数双方再分别进行异或运算等最后接收方只会得 到特定数据的明文信息其余数据的运算结果为乱码。
混淆电路Garbled CircuitGC 属于不经意传输的一种应用基本思路是 根据运算函数设计出一个电路加密方首先对该电路进行加 密即加密方负责电路的生成任务。解密方在不能得知原始 电路的情况下双方通过不经意传输使得解密方可以获得相应的数据即解密方负责电路的解密任务。
秘密共享Secret SharingSS 基本思路是化整为散将需要计算的秘密分 割成多份小秘密分别分发给若干个参与方进行处理最后 将结果进行聚合。在此设计下因为各方只得到了一小部分 的秘密无法重构出真实的秘密保证了数据的安全性和隐私性。
隐私集合交集Private Set IntersectionPSI 是一种基于多方的单独输入寻找多方 数据的交集并返回给特定方的技术。隐私集合交集技术常被用于联邦学习的数据对齐任务中。
差分隐私Differential Privacy DP 基本思路是针对需要保密的数据加入噪声 的处理。该动作虽然有效保护了数据的安全性与隐私性但噪声的加入会对计算结果产生一定的影响。
同态加密Homomorphic EncryptionHE 相较于其他加密算法同态加密的最大优势 在于在计算过程中不需要频繁进行加解密的操作可以直接对密文进行计算且计算结果解密后得到的值与直接使用 明文计算得到的结果一致有效提高了计算效率。