一种数据处理的方法和装置与流程

专利2026-01-30 19

本发明涉及计算机，特别是涉及一种数据处理的方法和装置。

背景技术：

1、数据(data)是事实或观察的结果，是对客观事物的逻辑归纳，是用于表示客观事物的未经加工的原始素材，数据可以是连续的值，比如声音、图像，称为模拟数据，也可以是离散的，如符号、文字，称为数字数据，

2、目前，对数据进行留存或者上传时存在重复数据，即相同的数据，重复数据不仅耗费存储单元内存，也对数据的查找都存在不同程度的影响，而目前一般上传数据很难发现重复的数据，人工查找的差异太大。

技术实现思路

1、鉴于上述问题，提出了以便提供克服上述问题或者至少部分地解决上述问题的一种数据处理的方法和装置，包括：

2、一种数据处理的方法，所述方法包括：

3、获取原始数据集；

4、对所述原始数据集进行重复数据识别，并根据识别结果，从所述原始数据集中，提取被识别为存在重复的第一数据；

5、生成所述第一数据的标签信息，并结合所述第一数据和所述标签信息，生成供人工审核的图片信息；

6、获取针对所述图片信息反馈的人工审核结果，并根据所述人工审核结果，对所述第一数据进行处理。

7、可选地，在所述根据识别结果，从所述原始数据集中，提取被识别为存在重复的第一数据之后，还包括：

8、获取所述第一数据的提取位置；

9、所述根据所述人工审核结果，对所述第一数据进行处理，包括：

10、在所述人工审核结果指示所述第一数据不存在重复的情况下，按照所述提取位置，对所述第一数据进行恢复。

11、可选地，还包括：

12、在所述人工审核结果指示所述第一数据存在重复的情况下，对所述第一数据进行删除。

13、可选地，所述对所述原始数据集进行重复数据识别，包括：

14、确定所述原始数据集中数据的数据类型，并调用与所述数据类型匹配的识别模型，对所述原始数据集中数据进程重复数据识别。

15、可选地，所述调用与所述数据类型匹配的识别模型，对所述原始数据集中数据进程重复数据识别，包括：

16、调用与所述数据类型匹配的识别模型，从所述数据类型对应的数据中，确定多个数据组，并从所述多个数据组中，选取至少两个目标数据组；

17、调用与所述数据类型匹配的识别模型，确定所述至少两个目标数据组的数据重复比例，并在所述数据重复比例大于预设比例值的情况下，判定所述至少两个目标数据组存在重复。

18、可选地，所述确定所述至少两个目标数据组的数据重复比例，包括：

19、确定所述至少两个目标数据组的内容相似度；

20、根据所述内容相似度，确定所述至少两个目标数据组的数据重复比例。

21、可选地，所述标签信息包括以下任一项或多项：

22、数据提取时间、数据重复信息、数据特性。

23、一种数据处理的装置，所述装置包括：

24、原始数据集获取模块，用于获取原始数据集；

25、第一数据提取模块，用于对所述原始数据集进行重复数据识别，并根据识别结果，从所述原始数据集中，提取被识别为存在重复的第一数据；

26、图片信息生成模块，用于生成所述第一数据的标签信息，并结合所述第一数据和所述标签信息，生成供人工审核的图片信息；

27、人工审核模块，用于获取针对所述图片信息反馈的人工审核结果，并根据所述人工审核结果，对所述第一数据进行处理。

28、一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的数据处理的方法。

29、一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的数据处理的方法。

30、本发明实施例具有以下优点：

31、在本发明实施例中，通过获取原始数据集，所述原始数据集进行重复数据识别，并根据识别结果，从所述原始数据集中，提取被识别为存在重复的第一数据，生成所述第一数据的标签信息，并结合所述第一数据和所述标签信息，生成供人工审核的图片信息，获取针对所述图片信息反馈的人工审核结果，并根据所述人工审核结果，对所述第一数据进行处理，实现了结合人工智能和人工双重查找重复数据，能够高效、精准地查找重复数据，既避免漏掉重复的数据，也避免误判，提升了重复数据查找的效率和准确性。

技术特征：

1.一种数据处理的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述根据识别结果，从所述原始数据集中，提取被识别为存在重复的第一数据之后，还包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1或2或3所述的方法，其特征在于，所述对所述原始数据集进行重复数据识别，包括：

5.根据权利要求4所述的方法，其特征在于，所述调用与所述数据类型匹配的识别模型，对所述原始数据集中数据进程重复数据识别，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定所述至少两个目标数据组的数据重复比例，包括：

7.根据权利要求1所述的方法，其特征在于，所述标签信息包括以下任一项或多项：

8.一种数据处理的装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据处理的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据处理的方法。

技术总结
本发明实施例提供了一种数据处理的方法和装置，所述方法包括：获取原始数据集；对所述原始数据集进行重复数据识别，并根据识别结果，从所述原始数据集中，提取被识别为存在重复的第一数据；生成所述第一数据的标签信息，并结合所述第一数据和所述标签信息，生成供人工审核的图片信息；获取针对所述图片信息反馈的人工审核结果，并根据所述人工审核结果，对所述第一数据进行处理。通过本发明实施例，实现了结合人工智能和人工双重查找重复数据，能够高效、精准地查找重复数据，既避免漏掉重复的数据，也避免误判，提升了重复数据查找的效率和准确性。

技术研发人员：钟美霞
受保护的技术使用者：中国电信股份有限公司
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1826837.html

专利

最新回复(0)