本发明涉及大数据和云计算,具体涉及一种基于主从博弈的训练损失优化激励方法。
背景技术:
1、近年来,随着终端用户的数量增加,传统的基于云-端的模式已经不能够满足需求响应的传输要求。此外,传统的分布式模型训练要求终端用户上传部分私有数据,这样的模型训练方式存在数据隐私泄露的风险。在实际的模型训练过程中,终端用户还会产生相应的计算和通信开销等负担,如果没有良好的激励方法刺激终端用户参与模型训练,那么就会导致全局模型训练时间长和损耗大,极大的降低模型训练效果。
技术实现思路
1、本发明的目的在于提供一种基于主从博弈的训练损失优化激励方法,旨在解决在联邦学习训练过程中,由于终端用户在参与联邦学习时会产生大量模型训练损耗,导致终端用户不会主动参与模型训练的技术问题。
2、为实现上述目的,本发明提供了一种基于主从博弈的训练损失优化激励方法,包括下列步骤:
3、步骤1:建立基于主从博弈的联邦学习激励机制系统模型;
4、步骤2:在所述联邦学习激励机制系统模型中分别对终端用户、本地数据中心以及云端数据中心三层交互模型进行模型描述;
5、步骤3:将本地数据中心和终端用户获得的效益建模为一个主从博弈的效益模型;
6、步骤4:云端数据中心作为激励报酬预算的分配者,负责为每个本地数据中心分配用于激励的预算;
7、步骤5:每个终端用户根据本地数据中心的激励报价,相应地调整投入参与训练的损耗频率,从而进行最大化用户效益博弈分析;
8、步骤6:本地数据中心根据终端用户报告的损耗频率投入情况,再重新调整给出的激励报酬,从而进行最大化本地数据中心的效益博弈分析;
9、步骤7:两层效益最大化博弈反复进行,直到达到纳什均衡点,得到最优的损耗频率、奖励单价以及激励预算分配
10、步骤8:在满足本地数据中心和终端用户的效益博弈达到均衡状态下,使得全局模型训练的损失值达到最小。
11、具体的,所述联邦学习激励机制系统模型中包含云端数据中心、本地数据中心和终端用户三种角色,云端数据中心作为分配者首先会将总预算均分给各本地数据中心,作为领导者的本地数据中心在博弈初始阶段会随机分配奖励单价,作为追随者的终端用户会根据奖励单价来决定消耗本地资源来执行计算任务。
12、具体的,在步骤2的一次联邦学习训练过程中,假设有一个云端数据中心g,本地数据中心集合为l={l|l=1,2,...,l},本地数据中心l服务范围下的终端用户集合为n={n|n=1,2,...,n}。终端用户n所产生的总损耗值为
13、
14、其中,表示本地数据中心l的迭代次数,表示终端用户n完成迭代任务所需要的计算损耗值,表示终端用户n上传一次模型梯度参数给本地数据中心l的传输损失值;
15、本地数据中心l向云端数据中心g上传一次梯度参数所产生的传输损失值为
16、
17、其中,表示本地数据中心l向云端数据中心g完成一次模型梯度参数传输需要的时间,pl表示本地数据中心l的传输损耗功率。
18、具体的,在步骤3的执行过程中,本地数据中心l会给每个终端用户n由于参与训练而计算产生的损耗频率提供奖励单价an,终端用户n则会向其提供服务的本地数据中心报告自己用于计算任务的损耗频率fren,然后本地数据中心会再调整奖励单价an。
19、所述主从博弈的效益模型中终端用户n的效益函数an为
20、
21、本地数据中心l的效益函数al为
22、
23、具体的,步骤4中云端数据中心g总的奖励为ag,本地数据中心l从全局云端数据中心获得的奖励表示为终端用户n的损耗对于一次全局迭代训练任务的影响因子表示为
24、具体的,在步骤5中对终端用户n的效益函数an分别进行求一阶导数和二阶导数,终端用户效益函数an的二阶导数小于0,证明效益函数an是严格凹的,保证纳什均衡解的存在,再令终端用户效益函数an的一阶导数等于0,求得损耗频率的均衡解
25、具体的,在步骤6中计算最大化本地数据中心效益博弈的均衡解的过程,具体为先利用黑塞矩阵和二阶求导证明效益函数al的中间一项和前一项是严格凹的,表明本地数据中心l的效益函数al是一个凹函数,再将将效益函数al取反,转变成为一个凸问题,最后再利用拉格朗日乘子法来求得最大化本地数据中心效用问题的均衡解
26、具体的,在步骤7中当终端用户和本地数据中心的效益博弈反复进行达到纳什均衡时,会得到最优奖励单价最优激励分配预算yl*以及损耗频率均衡解
27、具体的,步骤8中全局模型训练的损失值达到最小的限制条件表达式如下:
28、
29、
30、其中,αn是终端用户n的权重,而f(w)则表示为全局训练过程中的平均样本损失函数,是终端用户n用于更新模型样本参数的本地数据集。
31、本发明提供了一种基于主从博弈的训练损失优化激励方法,首先,利用联邦学习架构中,终端用户只上传本地训练出的模型参数,原始的数据则不会上传到云数据中心的方式来建立系统模型图,保证训练任务与终端用户本地的原始数据分离开来,实现了终端用户的数据隐私保护。其次,对于传统的云-端模式无法满足需求响应过程中海量数据传输限制要求的弊端,提出云端数据中心-本地数据中心-终端用户的三层模式,利用终端用户和本地数据中心的计算和存储能力,在最接近原始数据产生的地方完成模型训练,这样就减少了需要传输的数据信息,降低了需求响应的传输要求。最后,为进一步降低模型训练的损耗,在终端用户和本地数据中心之间设计一种优化模型损失的激励算法来使得全局模型训练的损失值达到最小,激励更多终端用户参与模型训练。
1.一种基于主从博弈的训练损失优化激励方法,其特征在于,包括下列步骤:
2.如权利要求1所述的基于主从博弈的训练损失优化激励方法,其特征在于,
3.如权利要求2所述的基于主从博弈的训练损失优化激励方法,其特征在于,
4.如权利要求3所述的基于主从博弈的训练损失优化激励方法,其特征在于,
5.如权利要求4所述的基于主从博弈的训练损失优化激励方法,其特征在于,
6.如权利要求5所述的基于主从博弈的训练损失优化激励方法,其特征在于,
7.如权利要求6所述的基于主从博弈的训练损失优化激励方法,其特征在于,
8.如权利要求7所述的基于主从博弈的训练损失优化激励方法,其特征在于,
9.如权利要求8所述的基于主从博弈的训练损失优化激励方法,其特征在于,
