本发明属于人工智能、数据分析领域,尤其涉及一种基于二分类模型的数据集相似性比较方法。
背景技术:
1、数据是人工智能算法的基石,越来越多的企业将数据视为企业的宝贵财富。企业可以将数据制作成数据集来进行训练或出售给同行。判断两个数据集是否相似具有重要的意义,一方面,在大规模的数据要素市场中,由于数据的广泛使用和流通,出现数据抄袭的风险也随之增加,损害企业和研究机构的价值成果,评估数据集之间的相似性成为确保数据的原创性和合规性的关键步骤;另一方面,在人工智能任务中的数据选择、训练和泛化方面也具有重要价值,有助于快速发现并扩大可用数据集。
2、很多企业和研究机构为了提高效率和性能,更频繁地利用第三方提供的数据集。然而,这也为数据抄袭嫌疑埋下了隐患。拥有一种初步检测对方数据集是否抄袭的方法以及成为维护自身知识产权的必要手段。
3、通过相似性检测方法,可以有效识别不同数据集之间的相似性程度。这有助于发现潜在的抄袭案例,保护原始数据集的独特性,从而保护提供数据企业的合法权益。通过定期进行相似性检测,可以提高发现抄袭行为的及时性,降低知识产权风险。同时相似度检测有助于帮助需要数据的企业选择合适的数据集来扩充数据的数量或多样性,从而提高模型的泛化能力。
4、现如今数据要素市场是数据经济中的一个组成部分,而数据是数据要素市场的基础。如何检测数据集之间的相似度已成为了一个亟待解决的问题,解决该问题有利于促进数据抄袭、数据扩充、数据定价等问题的进一步解决。
5、传统的jaccard相似性系数关注的是两个数据集之间的交集,这种方式很容易受到数据噪音的添加的影响。而导致数据的数据抄袭的出现。而余弦相似度无法处理负权重,且不考虑特征的重要性,不适用于图像。同样的,常规的特征选择也只适用于表格类数据,对于图像也同样不适用。
技术实现思路
1、针对现有技术的不足,本发明提供了一种基于二分类模型的数据集相似性比较方法,可以为发现潜在的数据抄袭、数据侵权提供帮助,同时也可以为扩充数据集提供支持。
2、本发明提供了一种基于二分类模型的数据集相似性比较方法,该方法包括以下步骤:
3、(1)对于给定的数据集a和数据集b,根据所述数据集a和数据集b中的数据数量来确定模型训练需要的训练集中的数据条数和测试集中的数据条数;
4、(2)数据预处理:对于无标签的数据集,从数据集a和数据集b中通过随机抽样数据来组成训练集和测试集;对于有标签的数据集,先要对数据集进行分析每个类别的样本数量和分布情况;并对数据集进行分层随机采样,确保每个类别的样本都得到充分代表;再将采样后的数据集按之前的操作进行合并;
5、(3)模型训练:使用二元交叉熵损失作为模型的损失函数,通过训练来让模型判断每一张图片来自某个数据集,当经过一定轮次的训练后或达到稳定状态时停止训练;
6、(4)预测:对于训练好的模型,使用测试集进行分类,得到准确率ε;
7、(5)重复实验n次得到准确率列表p[p1,p1,...,pn-1,pn];
8、(6)相似度计算:设计相似度函数s,并利用p为在测试集上的准确率来衡量两个数据集间的总的相似度;最后计算模型的相似度sfinal。
9、进一步地,所述步骤(1)中训练集中的数据条数和测试集中的数据条数的比例为2:8。
10、进一步地,所述步骤(2)的训练集和测试集中的数据来自数据集a和数据集b的比例各占50%,同时将来自数据集a的数据的标签设置为0,来自数据集b的标签设置为1。
11、进一步地,所述步骤(3)的损失函数表达式如下:
12、
13、其中,y表示数据的真实来源,表示对于数据来源的预测,yi表示第i条数据的真实来源,表示第i条数据的预测来源,n为总数据的条数。
14、进一步地,所述步骤(4)具体为:当两个数据集在分布和图片内容上以致模型无法判断图片来自哪个数据集,则此时模型对于数据来自哪个数据集的判断准确率p为50%;当两个数据集中图像分布的差异致使对于某一类型的图片模型倾向于归属与这类图像较多的数据集;则会导致提高在该类型上的准确率,最终导致在提高总准确率;同理,相同类型的图像内容之间存在差异也会被作为特征被模型学习,进而提高分类的准确率。
15、进一步地,所述步骤(6)中相似度函数s的表达式如下:
16、
17、当测试集上的准确度为0.5时,则可得两个数据集之间的相似度为1;当准确度向高于0.5或低于0.5时,相似度会相应的降低。
18、进一步地,所述步骤(6)中计算模型的相似度sfinal的表达式如下:
19、
20、其中,pi为第i次的准确率,n为重复实验的次数。
21、本发明的有益效果如下:
22、首先,本发明通过采用基于二分类模型的数据集相似性比较方法,成功解决了传统相似性检测方法受到数据噪音的问题,同时适用于多种类型的数据集,包括图像数据,有效提高了对相似数据集的辨别能力,降低了误判率。其次,通过对于模型分辨的准确率来进行定义相似数据集的相似度公式,为数据的相似提供了评判标准。本发明的方法不仅可以应用于发现数据抄袭和侵权问题,而且为数据集的选择、训练和泛化提供了有力支持,有助于促进数据要素市场的发展,提高模型的泛化能力和知识产权的保护水平,具备广泛的应用前景。这些技术效果使得本发明在数据领域具有重要意义。
1.一种基于二分类模型的数据集相似性比较方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法,其特征在于,所述步骤(1)中训练集中的数据条数和测试集中的数据条数的比例为2:8。
3.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法,其特征在于,所述步骤(2)的训练集和测试集中的数据来自数据集a和数据集b的比例各占50%,同时将来自数据集a的数据的标签设置为0,来自数据集b的标签设置为1。
4.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法,其特征在于,
5.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法,其特征在于,所述步骤(4)具体为:当两个数据集在分布和图片内容上以致模型无法判断图片来自哪个数据集,则此时模型对于数据来自哪个数据集的判断准确率p为50%;当两个数据集中图像分布的差异致使对于某一类型的图片模型倾向于归属与这类图像较多的数据集;则会导致提高在该类型上的准确率,最终导致在提高总准确率;同理,相同类型的图像内容之间存在差异也会被作为特征被模型学习,进而提高分类的准确率。
6.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法,其特征在于,所述步骤(6)中相似度函数s的表达式如下:
7.根据权利要求1所述的一种基于二分类模型的数据集相似性比较方法,其特征在于,所述步骤(6)中计算模型的相似度sfinal的表达式如下: