本技术涉及数据处理,尤其涉及一种语料质量评价方法、装置、电子设备及存储介质。
背景技术:
1、目前大语言模型训练中所使用的低质量数据过滤方法可以大致分为:基于分类器和基于启发式的两类方法。
2、基于分类器的方案一般对输入的句子长度有具体的要求,对大于特征表征模型最大表征长度的句子切分方法还不完善,可能会导致将长句子切割后语义错乱。且参数量较大的文本表征模型效果稍微较好,但也会额外增加处理耗时,在耗时与效果之间的平衡点难以抉择,导致在耗时和效果两方面难以完美兼具。且大部分深度学习方法都没开源,是各家公司独有的核心技术。
3、基于启发式的方法,往往需要数据的先验知识。而对于大模型预训练场景,往往需要大量的数据,甚至可达上百gb的数据,需要耗费大量的人力物力。因此启发式的方法难以推广,且泛化性较差,基本不可取。
技术实现思路
1、本技术提供一种语料质量评价方法、装置、电子设备及存储介质,以解决上述句子级的语料质量评分时,耗时和质量难以同时兼具的技术问题。
2、于本技术一实施例中,本技术提供一种语料质量评价方法,包括:获取待评句子语料;根据预设窗口长度和预设语义终止符对所述待评句子语料进行滑窗分割,得到待评窗口文本;将所述待评窗口文本输入语料质量评价模型进行质量评价,得到已评分类结果和已评分类置信度,并根据所述已评分类结果和所述已评分类置信度对所述待评句子语料进行评分,得到第一语料评分;若所述已评分类结果为负向类,则根据评分优化模型对所述第一语料评分进行评分优化,并将优化后的第一语料评分作为所述待评句子语料的已评语料评分;若所述已评分类结果为正向类,则将所述第一语料评分作为所述待评句子语料的已评语料评分;其中,所述语料质量评价模型是通过多个历史句子语料和多个历史分类标签训练得到的,所述评分优化模型是基于各所述历史句子语料的历史语料评分拟合得到的。
3、于本技术一实施例中,根据预设窗口长度和预设语义终止符对所述待评句子语料进行滑窗分割,得到待评窗口文本,包括:若所述待评句子语料的语料长度小于或等于所述预设窗口长度,则将所述待评句子语料作为第一窗口文本;若所述待评句子语料的语料长度大于所述预设窗口长度,则根据预设窗口长度和所述待评句子语料的语料文本头进行遍历,得到第二窗口文本,将从初始文本尾向初始文本头检测到的预设语义终止符作为目标文本尾,根据所述目标文本尾对所述第二窗口文本进行更新,得到第三窗口文本,并将所述目标文本尾的下一字符至所述待评句子语料的语料文本尾作为所述待评句子语料,重复执行若所述待评句子语料的语料长度大于所述预设窗口长度,则根据预设窗口长度和所述待评句子语料的语料文本头进行遍历,得到第二窗口文本,将从初始文本尾向初始文本头检测到的预设语义终止符作为目标文本尾,根据所述目标文本尾对所述第二窗口文本进行更新,得到第三窗口文本,并将所述目标文本尾的下一字符至所述待评句子语料的语料文本尾作为所述待评句子语料的步骤,直至所述待评句子语料的语料长度小于或等于所述预设窗口长度,并将所述待评句子语料作为第一窗口文本;其中,所述待评窗口文本包括所述第一窗口文本和第三窗口文本至少之一,或所述待评窗口文本包括所述第一窗口文本和多个所述第三窗口文本,所述第二窗口文本包括所述初始文本尾和所述初始文本头。
4、于本技术一实施例中,将所述待评窗口文本输入语料质量评价模型进行质量评价之前,所述方法还包括:获取多个历史句子语料和各所述历史句子语料的历史分类标签,所述历史分类标签包括正向标签和负向标签;将各所述历史句子语料和各所述历史分类标签划分为训练集、验证集和测试集;根据所述训练集对初始质量评价模型进行迭代训练,得到第一质量评价模型,所述初始质量评价模型包括文本表征模型和分类器;根据所述验证集对预设迭代次数对应的第一质量评价模型进行验证,得到多个语料验证评分,根据各所述语料验证评分确定目标迭代次数,并将所述目标迭代次数对应的第一质量评价模型作为第二质量评价模型;基于所述测试集对所述第二质量评价模型进行测试,得到测试语料评分,并基于所述测试语料评分将所述第二质量评价模型作为语料质量评价模型。
5、于本技术一实施例中,根据所述训练集对初始质量评价模型进行迭代训练,包括:根据预设窗口长度和预设语义终止符对训练集中的多个训练句子语料进行滑窗分割,得到多个训练窗口文本;根据预设训练步长将多个训练窗口文本作为多个待训窗口文本;通过文本表征模型提取每一待训窗口文本的语义表征,得到每一待训窗口文本的至少一个待训语义分类向量;对每一待训窗口文本的至少一个训练语义分类向量进行加权相加,得到每一待训窗口文本的待训语义分类向量;通过分类器根据所述待训语义分类向量和所述待训语义分类向量对应的训练分类标签进行分类,得到训练分类结果和训练分类置信度,并根据预设训练步长将多个新的训练窗口文本作为多个新的待训窗口文本,以对所述文本表征模型和所述分类器进行参数更新;其中,所述训练集包括多个训练窗口文本和多个训练分类标签。
6、于本技术一实施例中,得到多个语料验证评分后,所述方法还包括:对预设数量个负向类对应的验证句子语料进行重新评分,得到多个第二语料评分;根据各所述第二语料评分和各所述第二语料评分对应的验证语料评分对预设对数拟合函数进行拟合,得到评分优化模型,以对所有负向类对应的目标语料评分进行评分优化。
7、于本技术一实施例中,根据所述验证集对预设迭代次数对应的第一质量评价模型进行验证,得到多个语料验证评分,包括:将所述验证集输入预设迭代次数对应的第一质量评价模型进行分类,得到多个验证句子语料的验证分类结果和验证分类置信度,所述验证集包括各所述验证句子语料;若一个验证句子语料的验证分类结果为正向类,则将所述验证分类结果对应的正向置信度作为所述一个验证句子语料的验证语料评分;若一个验证句子语料的验证分类结果为负向类,则将预设概率总值与所述验证分类结果对应的负向置信度之差作为所述一个验证句子语料的验证语料评分。
8、于本技术一实施例中,获取多个历史句子语料之后,所述方法还包括:若一个历史句子语料存在预设第一状态,则将所述一个历史句子语料的历史分类标签确定为负向标签,所述预设第一状态包括文本内容为截断状态、文本语义为表意不明状态、文本语义为前后矛盾状态、文本内容为口语化状态、文本内容存在逻辑错误状态至少之一;若一个历史句子语料为预设行业标准文本,则将所述一个历史句子语料的历史分类标签确定为正向标签。
9、于本技术一实施例中,本技术提供一种语料质量评价装置,包括:获取模块,用于获取待评句子语料;滑窗分割模块,用于根据预设窗口长度和预设语义终止符对所述待评句子语料进行滑窗分割,得到待评窗口文本;初始评价确定模块,用于将所述待评窗口文本输入语料质量评价模型进行质量评价,得到已评分类结果和已评分类置信度,并根据所述已评分类结果和所述已评分类置信度对所述待评句子语料进行评分,得到第一语料评分;负向评价优化模块,用于若所述已评分类结果为负向类,则根据评分优化模型对所述第一语料评分进行评分优化,并将优化后的第一语料评分作为所述待评句子语料的已评语料评分;正向评价确定模块,若所述已评分类结果为正向类,则将所述第一语料评分作为所述待评句子语料的已评语料评分;其中,所述语料质量评价模型是通过多个历史句子语料和多个历史分类标签训练得到的,所述评分优化模型是基于各所述历史句子语料的历史语料评分拟合得到的。
10、于本技术一实施例中,本技术提供一种电子设备,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如上述各实施例任一项所述的语料质量评价方法。
11、于本技术一实施例中,本技术提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行上述各实施例任一项所述的语料质量评价方法。
12、本技术实施例的有益效果:本技术提供一种语料质量评价方法、装置、电子设备及存储介质,本技术实施例通过预设窗口长度和预设语义终止符对待评句子语料进行滑窗分割,提高了长文本语料的切分准确度;并通过语料质量评价模型对滑窗分割后的待评窗口文本进行质量评价,提高了对待评句子语料评价速度,增加评价客观性;以及通过评分优化模型对负向类对应的第一语料评分进行优化,提升了评分的直观性。
13、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
1.一种语料质量评价方法,其特征在于,所述方法包括:
2.根据权利要求1所述的语料质量评价方法,其特征在于,根据预设窗口长度和预设语义终止符对所述待评句子语料进行滑窗分割,得到待评窗口文本,包括:
3.根据权利要求1所述的语料质量评价方法,其特征在于,将所述待评窗口文本输入语料质量评价模型进行质量评价之前,所述方法还包括:
4.根据权利要求3所述的语料质量评价方法,其特征在于,根据所述训练集对初始质量评价模型进行迭代训练,包括:
5.根据权利要求3-4任一项所述的语料质量评价方法,其特征在于,得到多个语料验证评分后,所述方法还包括:
6.根据权利要求3所述的语料质量评价方法,其特征在于,根据所述验证集对预设迭代次数对应的第一质量评价模型进行验证,得到多个语料验证评分,包括:
7.根据权利要求3所述的语料质量评价方法,其特征在于,获取多个历史句子语料之后,所述方法还包括:
8.一种语料质量评价装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行权利要求1至7中任一项所述的语料质量评价方法。