一种面向联邦学习的模型遗忘系统及方法与流程

专利2025-05-04  5


本发明涉及人工智能安全,具体涉及一种面向联邦学习的模型遗忘系统及方法。


背景技术:

1、随着机器学习在不同领域的快速发展,数据隐私的问题也逐渐为人们所重视。一方面,这种数据丰富性使人工智能,特别是机器学习模型取得了突破。另一方面,它也可能威胁到用户的个人隐私,削弱人类与人工智能之间的信任。最近的法规要求,用户的私人信息应当可以从计算机系统中删除,特别是从机器学习模型中删除。虽然直接从后端数据库中删除数据很简单,但是在人工智能环境中这种方式显然是不够的,因为机器学习模型往往能够“记住”数据。一些现有的对抗性攻击证明,可以从训练好的模型中窃取某些私有数据的身份或属性。

2、联邦学习允许一组分布式客户端联合训练并共享训练模型,同时保留其数据的分布性。尽管在联邦学习的框架下,客户端并不会在彼此之间或是与服务器进行数据的交换,但也同样会存在隐私泄露的风险。

3、在现有的一些遗忘方法中,由于联邦学习的特殊性,如服务器端无法访问客户端所拥有的数据、在每轮的更新过程中,所有的客户端都参与模型参数的更新,很难直接将这些遗忘方法运用在联邦学习的框架下。一种简单的想法是从相应的客户端中删除需遗忘的数据样本,然后重新训练本地模型。但重新训练的计算成本很高,因此在满足频繁的删除请求时并不实用。


技术实现思路

1、针对现有联邦学习遗忘方法存在的计算量大、模型精度低的问题,本发明提供一种面向联邦学习的模型遗忘系统及方法,本发明相较于重新训练模型,消耗了更少的训练成本,且在最终模型精度的差异上较小。

2、为实现上述目的,本发明的技术方案是:

3、第一方面,本发明提供一种kl遗忘方法,将待遗忘模型记为mt,需要遗忘的数据记为df,未参与模型训练的第三方数据记为dt;

4、所述第三方数据为与遗忘模型训练数据分布相似的数据,复制模型mu=mt,固定待遗忘模型mt的参数;

5、使df在mu上的输出预测of与dt在mt上的输出预测ot之间的kullback-leibler距离最小。

6、第二方面,本发明提供一种面向联邦学习的模型遗忘系统,包括若干客户端和服务端,全体客户端及服务端进行联邦训练,在训练的最后,存在遗忘请求的客户端i∈c需保存本地模型mc;

7、将服务端最终全局模型记为ms,当客户端i∈c发起遗忘请求后,利用kl遗忘方法对客户端模型mi∈c进行遗忘,得到遗忘后的模型并上传参数更新至服务器;

8、服务器利用fedavg方式聚合参数更新ms,得到更新后的全局模型在df数据上的预测。

9、本发明与现有技术相比,其有益效果在于:

10、针对现有联邦学习遗忘方法存在的计算量大、模型精度低的问题,本发明所提出的面向联邦学习遗忘方法,通过构造与训练集无关的第三方数据,使得模型在需遗忘数据上的预测尽可能接近该模型在第三方数据上预测的分布,并使得模型在遗留数据上的损失尽可能小。从而,在达到遗忘要求的同时,确保模型不会损失太大的精度,并且高效的完成指定数据的联邦遗忘。



技术特征:

1.一种面向联邦学习的模型遗忘系统,包括若干客户端和服务端,其特征在于,全体客户端及服务端进行联邦训练,在训练的最后,存在遗忘请求的客户端i∈c需保存本地模型mc;

2.如权利要求1所述的面向联邦学习的模型遗忘系统,其特征在于,所述kl遗忘方法包括:将待遗忘模型记为mt,需要遗忘的数据记为df,未参与模型训练的第三方数据记为dt;

3.如权利要求2所述的面向联邦学习的模型遗忘方法,其特征在于,通过如下公式来使得df在mu上的输出预测of与dt在mt上的输出预测ot之间的kullback-leibler距离最小:

4.如权利要求3所述的面向联邦学习的模型遗忘方法,其特征在于,所述kl遗忘方法还包括:减小mu在剩余数据dr上的损失,即:

5.如权利要求4所述的面向联邦学习的模型遗忘方法,其特征在于,最终遗忘的优化目标如下,其中λ为平衡遗忘和性能之间的超参数:

6.一种kl遗忘方法,其特征在于,将待遗忘模型记为mt,需要遗忘的数据记为df,未参与模型训练的第三方数据记为dt;

7.如权利要求6所述的kl遗忘方法,其特征在于,通过如下公式来使得df在mu上的输出预测of与dt在mt上的输出预测ot之间的kullback-leibler距离最小:

8.如权利要求6所述的kl遗忘方法,其特征在于,所述kl遗忘方法还包括:减小mu在剩余数据dr上的损失,即:

9.如权利要求8所述的kl遗忘方法,其特征在于,最终遗忘的优化目标如下,其中λ为平衡遗忘和性能之间的超参数:


技术总结
本发明公开了一种面向联邦学习的模型遗忘系统及方法,该KL遗忘方法,将待遗忘模型记为M<subgt;t</subgt;,需要遗忘的数据记为D<subgt;f</subgt;,未参与模型训练的第三方数据记为D<subgt;t</subgt;;所述第三方数据为与遗忘模型训练数据分布相似的数据,复制模型M<subgt;u</subgt;=M<subgt;t</subgt;,固定待遗忘模型M<subgt;t</subgt;的参数;使D<subgt;f</subgt;在M<subgt;u</subgt;上的输出预测O<subgt;f</subgt;与D<subgt;t</subgt;在M<subgt;t</subgt;上的输出预测O<subgt;t</subgt;之间的Kullback‑Leibler距离最小。本发明通过构造与训练集无关的第三方数据,使得模型在需遗忘数据上的预测尽可能接近该模型在第三方数据上预测的分布,并使得模型在遗留数据上的损失尽可能小。

技术研发人员:陈孔阳,李文高,米冰,李进
受保护的技术使用者:人工智能与数字经济广东省实验室(广州)
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1819566.html

最新回复(0)