Introduction
Federated Learning是一种分布式机器学习,提供规模和隐私方面的优势。本篇论文提出一种框架,通过每个用户的域适应来增强协作模型。这个模型当有差分隐私限定的时候,对FL模型改进的效果非常明显。
本论文考虑的是个人数据来自不同域的设定,因为通常每个用户的数据集有一个与别的用户数据集不同的产生过程。论文的Section 3表明,虽然FL的数据量变多,但是模型的效果可能还不如non-collaborative baseline模型的效果好。域适应(domain adaptation)在非FL系统中研究很多。在域适应中,对来自源域的数据集训练的模型进一步完善,以适应来自不同域的数据集。
本篇论文用privacy-preserving FL去训练一个公共的,通用的模型,然后将此模型适应每个用户的私有域。在训练通用模型的同时为每个用户训练私有模型,每个用户的使用MoE将通用和私有模型结合之后的输出作为最后的精确度。混合中的两个“专家”是通用FL模型和领域调整私有模型,因此将系统称为领域专家联邦学习 (federated learning with domain experts (FL+DE))。为了保护通用模型的隐私,在FL中使用差分隐私随机梯度下降。私有模型使用普通的随机梯度下降训练。两个模型可能相同,可能不同,但是为了方便,通用模型和私有模型共同使用一种模型架构。使用MoE架构可以使通用模型和私有模型对每个单独的数据点产生不同的影响。
实验结果表明,用论文中架构训练出的模型精度明显优于differentially private FL的模型。原因有两个:
- 私有模型提供域自适应,这通常会提高每个域的准确性。
- 第二,私有模型允许无噪声更新,因为不需要在私有模型隐藏私有数据。
在低噪声设置下,差异私有FL系统的精度降低了11.5%,而FL + DE的性能则丝毫不降低。在高噪声设置下,差分私有FL系统的精度降低了13.9%,而FL + DE精度仅降低了0.8%。
Our Model
模型的核心是联合学习来的模型的输出和领域专家的输出混合。用户协作以建立任务的通用模型,但维护私有的,适合领域的专家模型。
令是通用模型,
是参数,则
是
的预测值。
是FL with differentially private SGD训练出来的,所有参与方共享。
是用参与方
的私有模型。
是
的预测值。虽然两个模型可能结构不同,但是在初始的时候设为相同。
不会共享,所以可以不用添加隐私噪音。所以最后参与方
的最后输出是
权重
被称为门控函数。
,
是sigmoid函数,
,
是训练得来的。最后
取决于
,
,
和
。所有的参数都是通过SGD训练而来的。模型提升京都的原因在于1. 通过对各个域进行适应,提高了准确率。2. 因为有一部分是无噪音训练,可以防止由于隐私要求对通用模型添加更多噪音。
随着训练的深入,会自己学习对通用模型更加信任还是私有模型。
仅在通用模型表现不好的节点上表现的好就可以了。
通常在敏感数据节点表现得不好。这种方法也变相的增加了用户的数据隐私。
Evaluation
第一个实验是综合线性回归问题,两个数据集的域非常不同。但结果是FL+DE效果更好。第二个实验是垃圾邮件分类。
Rlated Work
一项工作重点是在传统的域适应设置中保护隐私(12),其中在源域上调整良好的模型适用于在数据较少的目标域中更好地执行。另一项工作重点是安全的联邦学习(18),但使用附加的同态加密来确保两方联合学习环境中的隐私。这篇论文把两者结合起来了。