本发明涉及一种隐私保护方法,具体涉及一种用于决策模型发布的集中式隐私保护方法。
背景技术:
随着基于人工智能技术的群智感知应用的发展和普及,智能决策模型已逐渐在人们的日常工作和生活中发挥重要作用。因此,越来越多的用户都参与到各种群智感知应用之中,分享和贡献自己的感知数据。第三方服务提供商则收集和分析大量的用户感知数据,以向用户提供相应的智能决策或进行服务推荐。然而,利用基于感知数据学习的智能决策模型时,会给参与用户的个人隐私带来前所未有的隐私泄漏风险。例如,攻击者可以利用决策模型进行逆向攻击,推断训练数据集中的用户记录或敏感属性等信息。与面向数据统计发布的隐私保护研究相比,智能决策模型发布过程涉及复杂的机器学习算法或人工智能算法,且感知数据集的组成结构也更为复杂,导致现有隐私保护范式难以直接应用到决策模型发布场景中,并且直接应用现有隐私保护技术会导致决策模型的准确性严重降低,使得针对决策模型发布的隐私保护面临严峻挑战。因此,本发明同时考虑了决策模型发布场景中的隐私保护模型构建和隐私保护技术研究,设计了一种用于决策模型发布的集中式隐私保护方法。
技术实现要素:
本发明的目的是解决智能决策模型发布时会给参与用户的个人隐私带来前所未有的隐私泄漏风险,而现有隐私保护范式难以直接应用到决策模型发布场景中,并且直接应用现有隐私保护技术会导致决策模型的准确性严重降低的问题,而提供一种用于决策模型发布的集中式隐私保护方法。
为达到上述目的,本发明所采用的技术方案是:
一种用于决策模型发布的集中式隐私保护方法,其特征在于:首先根据智能决策场景分别构建决策模型和隐私模型,然后基于隐私模型计算敏感度,最后对决策模型的模型参数添加拉普拉斯噪声以实现隐私保护,具体包括以下步骤:
1)构建决策模型
获取每位用户i所拥有的数据集di,根据每位用户i所拥有的数据集di构建决策模型,从而基于最大似然估计方法计算约束后用户i的偏好参数
2)构建隐私模型
在集中式隐私保护模型下,基于相邻数据集具有的用户级特性和记录级特性,将每位用户i所拥有的包含有n条记录的数据集di分为用户级相邻数据集和记录级相邻数据集;基于以上两种相邻数据集和标准差分隐私概念,分别构建集中式的用户级隐私保护模型和集中式的记录级隐私保护模型;
3)计算敏感度
分别计算两种隐私保护模型下的敏感度δu和δr;
4)噪声扰动及决策模型发布
根据敏感度δu和δr,以及隐私预算∈,产生拉普拉斯噪声r,对决策模型参数进行扰动,最终发布具有隐私保护的决策模型。
进一步地,所述步骤1)具体按照以下步骤实施:
1.1)将每位用户i所拥有的包含有n条记录的数据集di表示为:
其中,
1.2)利用高斯随机变量对用户i的每种选择进行效用性评估,每个选项
将用户i选择
其中,pr表示概率,φ表示标准正态分布的累积分布函数,βi表示用户i的偏好参数;
1.3)根据公式(2),利用最大似然估计方法计算每位用户i的偏好参数βi,其对应的对数似然函数定义如下:
1.4)采用l1范数将每位用户i的偏好参数βi约束为最大为b,则约束后用户i的偏好参数
进一步地,所述步骤2)具体按照以下步骤实施:
2.1)定义用户级相邻数据集duser和d′user:如果一个数据集可以通过更改另一个数据集的任意一条记录而得到,则这两个数据集为用户级相邻数据集;
定义记录级相邻数据集drecord和d′record:如果一个数据集可以通过更改另一个数据集中的一个用户的一条记录而得到,则这两个数据集为记录级相邻数据集;
2.2)构建集中式的用户级隐私保护模型ulcp,其对应的隐私保护范式定义如下:
对于任意两个用户级相邻数据集duser和d′user,随机算法a选择隐私预算∈进行隐私保护,如果算法a满足ulcp∈-差分隐私,则对于随机算法a的输出结果的任意可能子集s,都满足:
pr[y(duser)∈s]≤e∈·pr[y(d′user)∈s](5);
构建集中式的记录级隐私保护模型rlcp,其对应的隐私保护范式定义如下:
对于任意两个记录级相邻数据集drecord和d′record,随机算法a选择隐私预算∈进行隐私保护,如果算法a满足rlcp∈-差分隐私,则对于随机算法a的输出结果的任意可能子集s,都满足:
pr[y(drecord)∈s]≤e∈·pr[y(d′record)∈s](6)。
进一步地,所述步骤3)具体按照以下步骤实施:
3.1)根据敏感度定义,得到集中式的用户级隐私保护模型ulcp下敏感度δu和集中式的记录级隐私保护模型rlcp下敏感度δr的计算式:
其中,
3.2)根据公式(7)、(8)计算得到
进一步地,所述步骤4)具体按照以下步骤实施:
4.1)根据敏感度
其中,lap表示拉普拉斯函数;
4.2)向n位用户的偏好参数平均值
4.3)发布具有隐私保护的决策模型。
本发明相比现有技术的有益效果是:
本发明提供的用于决策模型发布的集中式隐私保护方法,根据决策模型发布场景提出了相应的隐私保护模型,解决隐私保护范式缺乏的挑战,并且设计了基于拉普拉斯噪声扰动的隐私保护技术,保证发布的决策模型的准确性,因而在实际应用中具有更好的实用性。通过理论分析和实验分析,本发明能够在提供强隐私保护的前提下保证较高的数据效用性。本发明实现了人工智能场景中决策模型的隐私保护发布,整个过程简单、易于实现,无需复杂的加密解密运算,能够保证在发布决策模型时不会泄漏用户的隐私信息,同时保证决策模型的准确性和较低的计算开销。
附图说明
图1是本发明用于决策模型发布的集中式隐私保护方法的流程图;
图2是本发明方法在不同隐私预算下准确性随用户记录数量变化的实验结果图;
图3是本发明方法在不同隐私预算下准确性随维度变化的实验结果图;
图4是本发明方法在真实数据集下准确性实验结果图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
如图1所示,本发明提供的一种用于决策模型发布的集中式隐私保护方法,具体包括以下步骤:
step1构建决策模型
首先,获取每位用户i所拥有的数据集di,i∈{1,2,…,n},n为用户总数;将每位用户i所拥有的具有n条记录的数据集di表示为:
其中,
其次,利用高斯随机变量对用户的每种选择进行效用性评估,每个选项
其中,pr表示概率,φ表示标准正态分布的累积分布函数,βi表示用户i的偏好参数;
再次,根据公式(2),利用最大似然估计方法计算每位用户i的偏好参数βi,具体的对数似然函数定义如下:
为了限定敏感度的界限并保证公式(3)总是能够解得最优参数,采用l1范数将每位用户的偏好参数约束为最大为b,因此,约束后用户i的偏好参数
step2构建隐私模型
根据每位用户i所拥有的具有n条记录的数据集di进行隐私建模,具体提出两种相邻数据集概念,即用户级相邻数据集和记录级相邻数据集,分别定义如下:
(1)用户级相邻数据集duser和d′user:如果一个数据集可以通过更改另一个数据集的任意一条记录而得到,则这两个数据集为用户级相邻数据集;
(2)记录级相邻数据集drecord和d′record:如果一个数据集可以通过更改另一个数据集中的一个用户的一条记录而得到,则这两个数据集为记录级相邻数据集;
基于上述两种相邻数据集和标准差分隐私概念,分别构建集中式的用户级隐私保护模型ulcp(user-levelprivacyprotectionwithcentralizedperturbation)和集中式的记录级隐私保护模型rlcp(record-levelprivacyprotectionwithcentralizedperturbation),其对应的隐私保护范式分别定义如下:
(1)集中式的用户级隐私保护模型ulcp:对于任意两个用户级相邻数据集duser和d′user,随机算法a选择隐私预算∈进行隐私保护,如果算法a满足ulcp∈-差分隐私,则对于随机算法a的输出结果的任意可能子集s,都满足:
pr[y(duser)∈s]≤e∈·pr[y(d′user))∈s](5);
(2)集中式的记录级隐私保护模型rlcp:对于任意两个记录级相邻数据集drecord和d′record,随机算法a选择隐私预算∈进行隐私保护,如果算法a满足rlcp∈-差分隐私,则对于随机算法a的输出结果的任意可能子集s,都满足:
pr[y(drecord)∈s]≤e∈·pr[y(d′record)∈s](6)。
step3计算敏感度
根据隐私保护模型ulcp和rlcp分别计算敏感度δu和δr,根据敏感度的定义可知:
其中,
step4噪声扰动及决策模型发布
根据敏感度
其中,lap表示拉普拉斯函数;
接着向n位用户的偏好参数平均值
最终发布具有隐私保护的决策模型。
使用数据集进行实验验证,在合成数据集上进行准确性验证的实验结果如图2所示,设置用户总数n=100,隐私预算变化范围为∈={0.01,0.02,0.03,0.05,0.07,0.09,0.1,0.2,0.3,0.5,0.7,0.9,1,2,3,5,10},可以看到,本发明所设计的隐私保护机制在整体上具有较高的准确性,且准确性随隐私预算∈的增加而增大。此外,对比三条曲线可知,当每个用户所拥有的记录数量n分别为n=10,n=50,n=100时,本发明所设计的隐私保护机制的准确性随记录数量n的增加而增大。
在合成数据集上验证准确性随维度d的变化情况,实验结果如图3所示,设置用户总数n=50,且每个用户的记录数量为n=50,隐私预算变化范围为∈={0.01,0.02,0.03,0.05,0.07,0.09,0.1,0.2,0.3,0.5,0.7,0.9,1,2,3,5,10},对比三条曲线可以看到,在相同隐私预算下,当维度d分别为d=5,d=15,d=25时,本发明所设计的隐私保护机制的准确性会随维度的增大而降低。
在真实数据集上进行准确性验证的实验结果如图4所示,设置隐私预算变化范围为∈={0.01,0.02,0.03,0.05,0.07,0.09,0.1,0.2,0.3,0.5,0.7,0.9,1,2,3,5,10},真实数据集中每个用户所拥有的记录数量固定为n=13,可以看到,本发明所设计的隐私保护机制在整体上具有较高的准确性,且准确性随隐私预算∈的增加而增大。此外,对比三条曲线可知,当用户所总数n分别为n=50,n=100,n=150,n=200时,本发明所设计的隐私保护机制的准确性随用户总数n的增加而增大。
1.一种用于决策模型发布的集中式隐私保护方法,其特征在于:首先根据智能决策场景分别构建决策模型和隐私模型,然后基于隐私模型计算敏感度,最后对决策模型的模型参数添加拉普拉斯噪声以实现隐私保护,具体包括以下步骤:
1)构建决策模型
获取每位用户i所拥有的数据集di,根据每位用户i所拥有的数据集di构建决策模型,从而基于最大似然估计方法计算约束后用户i的偏好参数
2)构建隐私模型
在集中式隐私保护模型下,基于相邻数据集具有的用户级特性和记录级特性,将每位用户i所拥有的包含有n条记录的数据集di分别表示为用户级相邻数据集和记录级相邻数据集;基于以上两种相邻数据集和标准差分隐私概念,分别构建集中式的用户级隐私保护模型和集中式的记录级隐私保护模型;
3)计算敏感度
分别计算两种隐私保护模型下的敏感度δu和δr;
4)噪声扰动及决策模型发布
根据敏感度δu和δr,以及隐私预算∈,产生拉普拉斯噪声r,对决策模型参数进行扰动,最终发布具有隐私保护的决策模型。
2.根据权利要求1所述的用于决策模型发布的集中式隐私保护方法,其特征在于,所述步骤1)具体按照以下步骤实施:
1.1)获取每位用户i所拥有的数据集di,i∈{1,2,…,n};将每位用户i所拥有的包含有n条记录的数据集di表示为:
其中,
1.2)利用高斯随机变量对用户i的每种选择进行效用性评估,每个选项
将用户i选择
其中,pr表示概率,φ表示标准正态分布的累积分布函数,βi表示用户i的偏好参数;
1.3)根据公式(2),利用最大似然估计方法计算每位用户i的偏好参数βi,其对应的对数似然函数定义如下:
1.4)采用l1范数将每位用户i的偏好参数βi约束为最大为b,则约束后用户i的偏好参数
3.根据权利要求2所述的用于决策模型发布的集中式隐私保护方法,其特征在于,所述步骤2)具体按照以下步骤实施:
2.1)定义用户级相邻数据集duser和d′user:如果一个数据集可以通过更改另一个数据集的任意一条记录而得到,则这两个数据集为用户级相邻数据集;
定义记录级相邻数据集drecord和d′record:如果一个数据集可以通过更改另一个数据集中的一个用户的一条记录而得到,则这两个数据集为记录级相邻数据集;
2.2)构建集中式的用户级隐私保护模型ulcp,其对应的隐私保护范式定义如下:
对于任意两个用户级相邻数据集duser和d′user,随机算法a选择隐私预算∈进行隐私保护,如果算法a满足ulcp∈-差分隐私,则对于随机算法a的输出结果的任意可能子集s,都满足:
pr[y(duser)∈s]≤e∈·pr[y(d′user)∈s](5);
构建集中式的记录级隐私保护模型rlcp,其对应的隐私保护范式定义如下:
对于任意两个记录级相邻数据集drecord和d′record,随机算法a选择隐私预算∈进行隐私保护,如果算法a满足rlcp∈-差分隐私,则对于随机算法a的输出结果的任意可能子集s,都满足:
pr[y(drecord)∈s]≤e∈·pr[y(d′record)∈s](6)。
4.根据权利要求3所述的用于决策模型发布的集中式隐私保护方法,其特征在于,所述步骤3)具体按照以下步骤实施:
3.1)根据敏感度定义,得到集中式的用户级隐私保护模型ulcp下敏感度δu和集中式的记录级隐私保护模型rlcp下敏感度δr的计算式:
其中,
3.2)根据公式(7)、(8)计算得到
5.根据权利要求4所述的用于决策模型发布的集中式隐私保护方法,其特征在于,所述步骤4)具体按照以下步骤实施:
4.1)根据敏感度
其中,lap表示拉普拉斯函数;
4.2)向n位用户的偏好参数平均值
4.3)发布具有隐私保护的决策模型。
技术总结