基于句群的海量网页并行去重处理方法及系统与流程

专利2026-02-12  0


本公开涉及网页去重,具体涉及基于句群的海量网页并行去重处理方法及系统。


背景技术:

1、本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。

2、目前,随着大型语言模型的迅速发展,对于训练这些模型所需的数据量也在不断增加。然而,网页数据中存在大量的重复内容,大型语言模型会过度拟合这些重复的数据,导致性能下降和泛化能力降低。因此,对网页数据进行去重处理变得至关重要。去重操作可以消除数据中的冗余信息,提高数据的质量和多样性,从而使得模型能够更有效地学习语言的规律。特别是对于训练大型模型而言,去重操作不仅可以提高训练效率,还可以提升模型的拟合性和泛化能力,使其在真实场景中表现更加出色。

3、现有的去重方法通过提取网页的二进制词向量,利用基于语义局部敏感散列表的方法对网页进行比较。然而,该方法在处理去重时采用网页粒度大小进行处理,存在信息损失的风险,导致删除过多信息。

4、当前的网页去重专利主要集中在整个网页的重复性比较上,而对于网页内部的具体内容去重却被忽略,目前的网页去重方法通常将整个网页作为一个单一实体进行比较,可能会忽略网页内部的细微差异。针对网页中大部分内容相同但最后观点不同的网页,网页粒度的去重会导致重复性的误判。如果对网页内容进行单个句子的去重,可能会破坏原有的语境和连贯性,导致信息的不完整或错误的理解,这种去重方法会导致语言模型在训练过程中无法捕捉到句子之间的逻辑关系,进而影响其对文本的完整理解和正确推断。

5、另外,大型语言模型训练需要大量的数据,但单个节点上处理这些数据通常速度较慢。


技术实现思路

1、本公开为了解决上述问题,提出了基于句群的海量网页并行去重处理方法及系统,通过基于句群的海量网页去重,更准确地学习和推断文本的含义,分析网页内部的具体内容,并利用多个节点对同一块磁盘进行并发访问,从而实现对海量数据的并行处理。

2、根据一些实施例,本公开采用如下技术方案:

3、基于句群的海量网页并行去重处理方法,包括:

4、获取输入原始文件中的所有网页数据,并提取高评分网页数据;

5、将每个高评分网页数据保存为json对象,对json对象的正文内容进行句子组合,对每个句子组合创建hashsig对象,将所有hashsig对象构成签名文件;

6、针对所有签名文件,采用先局部后整体的方式进行重复性检查,将重复的json对象索引和句子索引保存到重复文件中;

7、利用生成的重复文件查找重复的句子,删除重复项;

8、其中,对原始文件、签名文件以及重复文件的处理为多个处理节点上对同一块磁盘进行并发访问,实现数据的顺序并行处理。

9、根据一些实施例,本公开采用如下技术方案:

10、基于句群的海量网页并行去重处理系统,包括:

11、网页预处理模块,用于获取输入原始文件中的所有网页数据,并提取高评分网页数据;

12、签名文件生成模块,用于将每个高评分网页数据保存为json对象,对json对象的正文内容进行句子组合,对每个句子组合创建hashsig对象,将所有hashsig对象构成签名文件;

13、重复项检查模块,用于针对所有签名文件,采用先局部后整体的方式进行重复性检查,将重复的json对象索引和句子索引保存到重复文件中;

14、去除重复项模块,用于利用生成的重复文件查找重复的句子,删除重复项;

15、并行处理模块,用于对所述网页预处理模块、签名文件生成模块以及去除重复项模块中所执行的过程进行节点数据的并发访问,实现数据的顺序并行处理。

16、与现有技术相比,本公开的有益效果为:

17、本公开的基于句群的海量网页并行去重处理方法,提供一种基于聚群粒度的去重方法,本公开所说的句群是由n个句子组成的集合,以句群为单位进行比较,更有效地捕捉到网页中微小的变化和差异,从而提高了去重的准确度和鲁棒性,而且,还确保了语境理解和语义连贯性,帮助模型更准确地学习和推断文本的含义,基于句群的海量网页去重则能够更加细致地分析网页内部的具体内容,从而有效避免这些问题的发生。

18、本公开的基于句群的海量网页并行去重处理方法,在多个节点上对同一块磁盘进行并发访问实现数据的并行处理,采用远程文件系统协议nfs实现此模块,nfs协议可以实现将同一块磁盘挂载到不同的节点上,提高效率,利用多个节点对同一块磁盘进行并发访问,从而实现对海量数据的并行处理。

19、本公开的基于句群的海量网页并行去重处理方法,有效过滤掉重复和噪声数据,提高数据集的质量和可用性。在细粒度进行去重的同时保持文本的语境和连贯性,使得语言模型能够更准确地理解和推断文本的含义,通过提高数据质量和保持语境连贯性,有助于提升语言模型在各种自然语言处理任务上的表现,网页去重领域具有重要的创新和应用价值。



技术特征:

1.基于句群的海量网页并行去重处理方法,其特征在于,包括:

2.如权利要求1所述的基于句群的海量网页并行去重处理方法,其特征在于,获取输入原始文件中的所有网页数据,包括:读取文件夹中所有的待去重文件,处理文件中的每条网页记录,获取每个网页的网页内容text、网页id、网页url,采用文本提取工具对每个网页内容text提取正文文本;采用语言过滤器对正文文本进行语言识别,筛选出评分超过设定分数的网页数据,作为高评分网页。

3.如权利要求1所述的基于句群的海量网页并行去重处理方法,其特征在于,将高评分网页数据按照json对象形式进行保存,每个待去重文件保存为一个json文件,将待去重文件在文件夹中进行索引格式化,文件名记为file_id。

4.如权利要求1所述的基于句群的海量网页并行去重处理方法,其特征在于,读取json文件中的json对象,将json对象中的text正文文本进行句子分词,得到句子列表,判断句子列表长度是否大于句群的句子个数,若小于句群的句子个数则不对该json对象的网页进行处理;若大于句群的句子个数,则对句子列表中的句子进行简化,得到简化后的句子列表。

5.如权利要求4所述的基于句群的海量网页并行去重处理方法,其特征在于,所述简化的方式包括将文本单词全部转化为小写,将所有空白字符替换为单个空格、删除所有标点符号、转换发音符号以及unicode标准化。

6.如权利要求1所述的基于句群的海量网页并行去重处理方法,其特征在于,按照滑动窗口的形式将句子列表进行组合,得到句子组合列表pair_sent_list,将每个句子组合pair_sent编码为utf-8字节串,然后将字节串利用sha-1算法生成哈希对象,并利用numpy将哈希对象的消息摘要生成无符号整数的哈希值,将无符号整数的哈希值连同file_id、json对象索引doc_id及句子组合索引sent_id构为hashsig对象,其中,file_id为json文件名,json对象索引为json对象在json文件中的位置,句子组合索引为句子组合pair_sent在句子组合列表pair_sent_list中的位置。

7.如权利要求1所述的基于句群的海量网页并行去重处理方法,其特征在于,一个json对象的所有hashsig对象构成哈希值签名列表hash_sig_list,json文件中的所有哈希值签名列表hash_sig_list构成一个签名文件sig_file,签名文件sig_file文件名与json文件名保持一致,其中,json文件的个数等于签名文件sig_file的个数,签名文件sig_file包含k个哈希值签名列表hash_sig_list,哈希值签名列表hash_sig_list中包含m个hashsig对象,k的大小由json文件中json对象个数决定,m的大小由每个json对象中句子数量决定。

8.如权利要求1所述的基于句群的海量网页并行去重处理方法,其特征在于,重复性检查的过程包括:在每个签名文件sig_file文件中进行哈希值对比,将重复hashsig对象的doc_id和sent_id以二进制的形式写入到与file_id一致的重复文件dup_file中,对比方法为创建哈希表,遍历列表中的每一个hashsig对象,判断该元素是否已经在哈希表中,如果在哈希表中,将其判定为重复,若不在,则将该元素添加到哈希表中,并生成与签名文件sig_file文件数相等的哈希表,其次依次将两两哈希表合并成一个哈希表,过程中依旧将重复项的元素值保存到重复文件中,直到最后合并为一个哈希表,每个sig_file生成一个对应的重复文件。

9.如权利要求1所述的基于句群的海量网页并行去重处理方法,其特征在于,并行处理实现的方式为:采用远程文件系统协议nfs实现将同一磁盘挂载到不同节点上,实现不同节点对同一文件夹的访问,将原始文件、json文件、dup_file文件按照节点个数平均分为三个块,将每个块分配到不同的节点上进行并行处理;

10.基于句群的海量网页并行去重处理系统,其特征在于,包括:


技术总结
本公开提供了基于句群的海量网页并行去重处理方法及系统,涉及网页去重技术领域,获取输入原始文件中的所有网页数据,并提取高评分网页数据;将每个高评分网页数据保存为Json对象,对Json对象的正文内容进行句子组合,对每个句子组合创建HashSig对象,将所有HashSig对象构成签名文件;针对所有签名文件,采用先局部后整体的方式进行重复性检查,将重复的Json对象索引和句子索引保存到重复文件中;利用生成的重复文件查找重复的句子,删除重复项;其中,对原始文件、签名文件以及重复文件的处理为多个处理节点上对同一块磁盘进行并发访问,实现数据的并行处理。

技术研发人员:赵志刚,肖连辉,李传涛,王春晓,肖玉坤,张俭,刘福来
受保护的技术使用者:山东省计算中心(国家超级计算济南中心)
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1827484.html

最新回复(0)