一种涉及企业的行业分类数据处理方法及装置与流程

专利2025-06-09  19


本技术涉及信息处理,尤其是涉及一种涉及企业的行业分类数据处理方法及装置。


背景技术:

1、企业的行业标签是一个重要的字段,而全国已有企业达千万级别,并且每天有不少的企业孵化,如何快速对企业按照行业分类是个重要问题。

2、此外,企业行业分类是自然语言处理领域的一个重要的应用。如何借助于企业信息对企业的行业进行分类成为亟需解决的问题。


技术实现思路

1、针对相关技术中所存在的不足,本技术提供一种涉及企业的行业分类数据处理方法及装置,该方法通过将企业描述文本输入预设行业分类模型中,得到企业名称对应的行业标签,根据行业标签对不同企业的行业进行分类,以解决相关技术中未借助企业信息对企业的行业进行分类的问题。

2、本技术第一方面提供一种涉及企业的行业分类数据处理方法,应用于服务器,方法包括:接收用户设备发送的查询请求,查询请求用于查询第一企业所处的行业;获取第一企业的企业名称和企业描述文本;将企业描述文本输入预设行业分类模型中,得到企业名称对应的行业标签;一个企业名称对应至少一个行业标签;向用户设备发送第一企业对应的行业标签。

3、采用上述技术方案,借助企业信息对企业的行业进行分类,通过将企业描述文本输入预设行业分类模型中,得到企业名称对应的行业标签;不同的企业对应不同的行业标签,行业标签就是根据不同企业的行业进行分类的标签,从而实现了根据企业信息快速地对企业的行业进行分类的目的。

4、本技术第二方面提供一种涉及企业的行业分类数据处理装置,服务器包括接收单元,处理单元以及发送单元;接收单元,用于接收用户设备发送的查询请求,查询请求用于查询第一企业所处的行业;处理单元,用于获取第一企业的企业名称和企业描述文本;将企业描述文本输入预设行业分类模型中,得到企业名称对应的行业标签;一个企业名称对应至少一个行业标签;发送单元,向用户设备发送第一企业对应的行业标签。

5、采用上述技术方案,借助企业信息对企业的行业进行分类,通过将企业描述文本输入预设行业分类模型中,得到企业名称对应的行业标签;不同的企业对应不同的行业标签,行业标签就是根据不同企业的行业进行分类的标签,从而实现了根据企业信息快速的对企业的行业进行分类。

6、可选的,接收单元用于获取企业样本集,企业样本集包括多个企业名称与多个企业描述文本之间的对应关系,一个企业名称对应一个企业描述文本;处理单元用于对多个企业描述文本进行预处理,得到多个企业描述文本对应的多个特征向量样本;将第一特征向量和多个行业名称输入预设bert模型中,得到第一特征向量与第一行业名称的样本分值;第一特征向量为多个特征向量样本中任意一个特征向量,第一行业名称为多个行业名称中任意一个行业名称;将第一特征向量对应的多个样本分值输入损失函数中,得到第一损失值;第一损失值为第二企业对应的预测损失值,第一特征向量为第二企业对应的特征向量,第二企业为多个企业名称中任意一个企业名称;获取第一损失值与第二损失值的差值,当差值在预设差值范围内时,确认预设bert模型训练完成,以构建预设行业分类模型;第二损失值为第二企业对应的实际损失值。

7、采用上述技术方案,在将多个企业描述信息样本输入到预设行业分类模型中,以得到不同的企业描述文本在行业名称的分值,再将企业描述文本在行业名称的分值输入损失函数,得到第一损失值;得到比较之后的损失差值,当损失差值在预设差值范围内,确认预设bert模型训练完成,以便于根据企业描述信息输入模型得到行业标签。

8、可选的,处理单元用于若第一样本分值大于预设数值,确认第一样本分值的类别是第二企业的预测目标类别,第一样本分值是多个样本分值中任意一个样本分值;处理单元用于若第一样本分值小于预设数值,确认第一样本分值的类别是第二企业的预测非目标类别。

9、采用上述技术方案,计算得到企业描述信息在行业名称表中每一类别的分值后,要将分值输入损失函数时,根据计算的分值从整体上判断企业描述文本与行业的关联度,进而预测企业描述样本的损失值。

10、可选的,接收单元用于获取第二企业的企业描述文本和所属行业名称;处理单元用于对第二企业的企业描述文本进行预处理,得到第二企业的企业描述文本对应的第二特征向量;将第二特征向量和第二企业的所属行业名称输入预设bert模型中,得到第二特征向量与第二企业的所属行业名称的第二样本分值;将第二特征向量和第二企业的非所属行业名称输入预设bert模型中,得到第二特征向量与第二企业的非所属行业名称的第三样本分值;将第二样本分值和第三样本分值输入损失函数中,得到第二损失值。

11、采用上述技术方案,根据企业名称获取企业描述文本信息,再将企业描述文本信息进行处理,以得到企业描述文本信息与行业名称的分值,根据分值以得到企业名称所属的行业,再将分值输入损失函数,得到真实的企业描述文本与行业名称之间的损失值。

12、可选的,处理单元用于第二样本分值的类别为第二企业的真实目标类别,第三样本分值的类别为第二企业的真实非目标类别。

13、采用上述技术方案,根据样本分值的类别,在将分值输入损失函数时,将样本分值所属的行业作为真实目标类别;将样本分值非所属的行业作为非真实目标类别,进而计算实际情况下企业描述文本的损失值。

14、可选的,损失函数为:

15、

16、其中,ωneg表示样本的正类别集合,即一个样本的各个目标类别集合;ωpos表示样本的负类别集合,即一个样本的各个非目标类别集合;si表示目标类别得分;sj表示非目标类别得分。

17、采用上述技术方案,损失函数使用目标类别得分与非目标类别得分的两两比较结果作为输出结果,当得到的损失函数值越小,确认预测的行业标签准确率越高。

18、可选的,处理单元用于在任意一个企业描述文本的起始位置插入第一标记符号,在结束位置插入第二标记符号;根据第一标记符号和第二标记符号对任意一个企业描述文本进行词向量处理,得到多个企业描述文本对应的多个特征向量样本。

19、采用上述技术方案,对企业描述文本的位置插入标记符号,从而便于服务器对企业描述文本进行识别,快速对企业描述文本进行处理。

20、可选的,接收单元用于获取企业第一描述文本,企业第一描述文本为企业描述文本中任意一个描述文本;处理单元用于去除企业第一描述文本中的停用词,得到企业第二描述文本;判断企业第二描述文本对应的长度是否大于预设文本长度;若企业第二描述文本对应的长度大于预设文本长度,得到企业第三描述文本,企业第三描述文本为选取预设文本长度对应的企业第二描述文本,以便于在企业第三描述文本的位置插入对应的标记符号。

21、采用上述技术方案,在对企业描述文本进行处理前,要对企业描述文本中停用词去除,便于得到准确的企业描述文本;设置企业描述文本的长度,是为了方便后续服务器对企业描述文本进行识别。

22、本技术第三方面提供一种电子设备,电子设备包括处理器、存储器、用户接口及网络接口,存储器用于存储指令,用户接口和网络接口用于给其他设备通信,处理器用于执行存储器中存储的指令,使得一种电子设备执行如本技术第一方面任意一项的方法。

23、本技术第四方面提供一种计算机可读存储介质,计算机可读存储介质存储有指令,当指令被执行时,执行本技术第一方面任意一项的方法。

24、与现有技术相比,本技术的有益效果是:借助企业信息对企业的行业进行分类,通过将企业描述文本输入预设行业分类模型中,得到企业名称对应的行业标签;不同的企业对应不同的行业标签,行业标签就是根据不同企业的行业进行分类的标签,从而实现了根据企业信息快速的对企业的行业进行分类。再将多个企业描述信息样本输入到预设行业分类模型中,以得到不同的企业描述文本在行业名称的分值,再将每一类别对应的分值输入损失函数,得到第一损失值;根据两个损失函数值得到的损失差值,当损失差值在预设差值范围内,确认预设bert模型训练完成,以便于将企业描述信息输入模型得到行业标签。计算得到企业描述信息在行业名称表中每一类别的分值后,要将分值输入损失函数时,根据计算的分值从整体上判断企业描述文本与行业的关联度,进而预测企业描述样本的损失值。在企业描述文本的位置插入标记符号,是为了便于服务器对企业描述文本进行识别,快速对企业描述文本进行处理。损失函数使用目标类别得分与非目标类别得分的两两比较作为输出结果,当得到的损失函数值越小,确认预测的行业标签准确率概率越高。


技术特征:

1.一种涉及企业的行业分类数据处理方法,其特征在于,应用于服务器,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述企业描述文本输入预设行业分类模型中,得到所述企业名称对应的行业标签之前,所述方法包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述第一特征向量对应的多个所述样本分值输入损失函数中,得到第一损失值之前,所述方法还包括:

4.根据权利要求2所述的方法,其特征在于,在所述获取所述第一损失值与第二损失值的差值之前,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述第二样本分值的类别为所述第二企业的真实目标类别,所述第三样本分值的类别为所述第二企业的真实非目标类别。

6.根据权利要求2或4所述的方法,其特征在于,所述损失函数为:

7.根据权利要求2所述的方法,其特征在于,所述对多个所述企业描述文本进行预处理,得到所述多个所述企业描述文本对应的多个特征向量样本;具体包括:

8.根据权利要求7所述的方法,其特征在于,所述在任意一个所述企业描述文本的起始位置插入第一标记符号,在结束位置插入第二标记符号之前,所述方法还包括:

9.一种涉及企业的行业分类数据处理装置,其特征在于,所述装置为服务器,所述服务器包括接收单元(501),处理单元(502)以及发送单元(503);

10.一种电子设备,其特征在于,包括处理器(601)、存储器(605)、用户接口(603)及网络接口(604),所述存储器(605)用于存储指令,所述用户接口(603)和网络接口(604)用于给其他设备通信,所述处理器(601)用于执行所述存储器(605)中存储的指令,以使所述电子设备(600)执行如权利要求1-8任意一项所述的方法。


技术总结
本申请提供了一种涉及企业的行业分类数据处理方法及装置,应用于服务器,接收用户设备发送的查询请求,查询请求用于查询第一企业所处的行业;获取第一企业的企业名称和企业描述文本;将企业描述文本输入预设行业分类模型中,得到企业名称对应的行业标签;一个企业名称对应至少一个行业标签;向用户设备发送第一企业对应的行业标签。该方法通过将企业描述文本输入预设行业分类模型中,得到企业名称对应的行业标签,根据行业标签对不同企业的行业进行分类,以解决相关技术中未借助企业信息对企业的行业进行分类的问题。

技术研发人员:蔡青山
受保护的技术使用者:企知道科技有限公司
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/index.php/read-1821037.html

最新回复(0)