一种篇章标签化的方法及装置与流程

专利2022-05-09  80



1.本申请涉及计算机技术领域,尤其涉及一种篇章标签化的方法及装置。


背景技术:

2.标签是用来标志产品目标、分类或内容的,便于查找和定位目标的工具。而用户画像使用的标签是网络标签的一种深化应用方式,是某一种用户特征的符号表示,是观察、认识和描述用户的一个角度,用户标签是基于用户的特征数据、行为数据和消费数据进行统计计算得到的,包含了用户的各个维度。用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。
3.医疗在医疗健康领域企业发展过程中积累了大量的内容数据,包括文本形式为主的文章,问答等数据,也包括二进制形式为主,文本为辅的音视频,图片数据,这些数据一般具有数据规模大,分类和索引困难。目前的做法过于依赖于人工标签,但标签化的过程标准不统一,不能很准确的提取标签。


技术实现要素:

4.本申请提供了一种篇章标签化的方法及装置,以解决现有技术提取篇章的标签准确率低的问题。
5.第一方面,为实现上述目的,本申请提供了一种篇章标签化的方法,所述方法包括:
6.获取篇章,对篇章内容进行分级,获取分级文本及分级权重值;
7.对分级文本进行分词处理获取目标分词及目标分词的标签分值,并将所述目标分词加入标签队列;
8.对篇章内容进行关键词抓取获取目标关键词及目标关键词的标签分值,并将所述目标关键词加入标签队列;
9.对所述标签队列中的标签分值归一化处理,获取目标标签队列。
10.进一步地,所述对分级文本进行分词处理获取目标分词及目标分词的标签分值,并将所述目标分词加入标签队列,包括:
11.对所述分级文本进行分词处理获取分词集,对所述分词集中的分词分别进行第一标签库枚举,如果所述分词存在于第一标签库则获取命中分词对应的标签分值,所述命中分词加入标签队列。
12.进一步地,所述对分级文本进行分词处理获取目标分词及目标分词的标签分值,并将所述目标分词加入标签队列之后,还包括:
13.去除所述分级文本中的无意义符号获取待处理分级文本,对所述待处理分级文本进行第二标签库枚举,如果命中,则获取命中文本的标签分值,所述命中文本加入标签队
列;所述第二标签库内的标签为所述第一标签库内的标签去除目标分词后剩余的标签。
14.进一步地,所述对篇章内容进行关键词抓取获取目标关键词及目标关键词的标签分值,并将所述目标关键词加入标签队列,包括:
15.对所述篇章第一次提取关键词,获取第一关键词集,对所述第一关键词集中的关键词分别进行第三标签库枚举,获取所述第三标签库内的每个标签对应的标签分值,将所述第三标签库内的标签加入标签队列;所述第三标签库内的标签为所述第一标签库内的标签去除目标分词和目标命中文本后剩余的标签。
16.进一步地,所述对篇章内容进行关键词抓取获取目标关键词及目标关键词的标签分值,并将所述目标关键词加入标签队列,还包括:
17.对所述篇章进行第二次提取关键词,获取第二关键词集,对所述第二关键词集中的关键词进行第一标签库枚举,如果所述关键词不存在于第一标签库则获取未命中关键词对应的标签分值,所述未命中关键词加入标签队列。
18.第二方面,本申请还提供了一种篇章标签化的装置,所述装置包括:
19.分级单元,用于获取篇章,对篇章内容进行分级,获取分级文本及分级权重值;
20.目标分词处理单元,用于对分级文本进行分词处理获取目标分词及目标分词的标签分值,并将所述目标分词加入标签队列;
21.目标关键词获取单元,用于对篇章内容进行关键词抓取获取目标关键词及目标关键词的标签分值,并将所述目标关键词加入标签队列;
22.归一化处理单元,用于对所述标签队列中的标签分值归一化处理,获取目标标签队列。
23.进一步地,所述目标分词处理单元用于:
24.对所述分级文本进行分词处理获取分词集,对所述分词集中的分词分别进行第一标签库枚举,如果所述分词存在于第一标签库则获取命中分词对应的标签分值,所述命中分词加入标签队列。
25.进一步地,所述装置还包括分级文本处理单元,用于:
26.去除所述分级文本中的无意义符号获取待处理分级文本,对所述待处理分级文本进行第二标签库枚举,如果命中,则获取命中文本的标签分值,所述命中文本加入标签队列;所述第二标签库内的标签为所述第一标签库内的标签去除目标分词后剩余的标签。
27.进一步地,所述目标关键词获取单元用于:
28.对所述篇章第一次提取关键词,获取第一关键词集,对所述第一关键词集中的关键词分别进行第三标签库枚举,获取所述第三标签库内的每个标签对应的标签分值,将所述第三标签库内的标签加入标签队列;所述第三标签库内的标签为所述第一标签库内的标签去除目标分词和目标命中文本后剩余的标签。
29.进一步地,所述目标关键词获取单元还用于:
30.对所述篇章进行第二次提取关键词,获取第二关键词集,对所述第二关键词集中的关键词进行第一标签库枚举,如果所述关键词不存在于第一标签库则获取未命中关键词对应的标签分值,所述未命中关键词加入标签队列。
31.第三方面,为实现上述目的,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面任一项篇章标签化的方法的步骤。
32.第四方面,为实现上述目的,本申请提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面任一项篇章标签化的方法的步骤。
33.由以上技术方案可见,本申请实施例提供的一种篇章标签化的方法及装置,通过获取篇章,对篇章内容进行分级,获取分级文本及分级权重值;对分级文本进行分词处理获取目标分词及目标分词的标签分值,并将所述目标分词加入标签队列;对篇章内容进行关键词抓取获取目标关键词及目标关键词的标签分值,并将所述目标关键词加入标签队列;对所述标签队列中的标签分值归一化处理,获取目标标签队列实现篇章标签化的过程。本申请使标签的提取更加精准和合理,而且可以有效的扩展和引进新标签,丰富标签的维度,使标签库内的标签维持在动态调整状态中,供多种场景索引使用。
34.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
35.为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
36.图1为本申请实施例提供的篇章标签化的方法的流程示意图;
37.图2为本申请实施例提供的篇章标签化的装置的结构示意图。
具体实施方式
38.下面通过对本申请进行详细说明,本申请的特点和优点将随着这些说明而变得更为清楚、明确。
39.在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
40.在本申请的描述中,需要说明的是,术语“上”、“下”、“内”、“外”、“前”、“后”、“左”和“右”等指示的方位或位置关系为基于本申请工作状态下的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”、“第三”和“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性。
41.为解决上述问题,本申请提供了一种篇章标签化的方法及装置,下面结合附图,详细介绍本申请的具体实施例。
42.图1为本申请实施例提供的一种篇章标签化的方法的流程示意图,如图1所示,所述方法包括步骤s101至s104。
43.s101:获取篇章,对篇章内容进行分级,获取分级文本及分级权重值。
44.篇章是具有一定文本描述的内容,可包括多种内容形态,例如文章,问答,自测题目等。一般包括了标题、关键词或主体部分。
45.标签库是指通过医疗健康领域的数据积累形成的一套产品运营标签库,标签按用
途区分,其类型可包括主题标签、通用标签、专用标签或地域标签等,标签可根据具体需求进行设置和区分。其中:
46.主题标签:主要是医疗健康领域内容分类或主题/栏目,例如:男性,饮食;
47.通用标签:主要是健康领域细化的一些大众化的词,扩展性较强,无法一次性获得,例如:孕妇,美食;
48.专用标签:主要是医疗领域的疾病症状词,标签数量固定有限,主要来自于企业收录的疾病库,例如:糖尿病,肚子疼;
49.地域标签:主要是一些省市地方名称,标签固定一次性搜集即可,例如:广东,广州。
50.具体实施时,对篇章根据重要性进行分级,如分级为l1级别和l2级别,l1级别一般指标题或篇章关键词,l2级别一般指主体或问答的回复段落等,l1级别的重要性高于l2级别,计算标签分值时对于篇章的不同部分给予相应的权重值,一般经验值可以是l2的权重值为 l1权重值的0.3倍,以下描述部分的0.3即代表此含义。某个篇章的标签队列为记录该篇章标签分值(score)的集合容器,一个篇章对应一个标签队列,同一个标签对于一个篇章只有一个分值,如果不同分级文本中均包含某一标签,则不同分级对应的标签分值累加合并,篇章中涉及的不同标签组成标签队列。
51.具体实施时,以下述篇章为例说明。
52.标题:咳血一般是肺癌几期?
53.关键词:肺癌早期症状,咳血
54.主体:肺癌早期症状往往都不明显,出现咳血的症状往往已经不是肺癌早期了,具体分期患者还应该到正规医院去检查,以明确病情。在肺癌的治疗方面,早期肺癌首选手术治疗,中晚期患者需要考虑接受放化疗治疗。为了提高肺癌患者得治疗效果,患者可以考虑选择吃抗肿瘤中药人参皂苷rg3用于辅助治疗。它在癌症治疗中比较显著的优势有两点:一方面,人参皂苷rg3是被国家认可的抗肿瘤中药,具有抑制肿瘤新生血管生长,诱导肿瘤细胞的凋亡及控制肿瘤细胞的进一步扩散和转移的作用;另一方面,人参皂苷rg3可以辅助放化疗,可降低放化疗的副作用,保护肝损伤,在放化疗期间配合使用,可以有效提高放化疗的效果。患者平时要多注意休息,不要熬夜,饮食方面要注重其营养价值。您好,咳血是常见的肺癌症状反应之一,不能作为判断分期的依据,建议患者尽快到当地三甲医院安排详细检查,积极配合治疗。由于肺癌细胞发展较快,约有80%的患者需进行化疗控制,为进一步减轻化疗毒性刺激,提高疗效,可配合富力教授研究的人参皂苷rg3辅助调理。根据文献记载:人参皂苷rg3抗肿瘤作用机制的研究发展表明,目前发现人参皂苷rg3具有抑制肿瘤细胞增殖作用、抑制肿瘤细胞的侵袭和转移,与部分化学药物联合,可明显提高效果,同时对临床患者无明显血液系统毒性,并提高生活质量等作用。希望患者可以保持良好的心态,积极配合医生的治疗。
55.咳血一般是肺癌几期?一般来说肺癌到了中期就会出现咳血迹象。一般肺癌会出现咳嗽及出血的,而且还会进行性消瘦,影响精气神。要注意休息,防止受凉刺激,多喝温开水,可以针对性治疗,如止血止咳,如果体质好,可以考虑手术治疗的,术后癌症患者出现的不良现象可以服用一些超力胶囊进行缓解,含有的人参皂苷rh2、rg3等抗癌小分子易于人体所吸收,能快速的提高患者t细胞的cd3、cd4的数值,这是可以减少复发和转移,提高治疗
效果的。
56.对篇章内容进行文本分级,l1级文本包括主题和关键词,l2级文本包括主体。
57.s102:对分级文本进行分词处理获取目标分词及目标分词的标签分值,并将所述目标分词加入标签队列。
58.具体实施时,具体包括:
59.对所述分级文本进行分词处理获取分词集,对所述分词集中的分词分别进行第一标签库枚举,如果所述分词存在于第一标签库则获取命中分词对应的标签分值,所述命中分词加入标签队列。
60.分别对分级文本进行分词处理后,获取l1分级文本对应的l1分词集和l2分级文本对应的分词集,再将每一个分词对应第一标签库分别进行枚举,精确的确认该分词是否存在于第一标签库中。如果该分词存在于第一标签库中,则该分词即为目标分词,则获取其对应的标签分值并加入至标签队列,如果不存在,则其对应的标签分值为0,不计入标签队列。
61.因为对应的分级不同,对应的权重值有所侧重,在计算标签分值时有所体现。如对l1级别文本进行分词后,枚举标签库中每个标签进行精确判断,如果命中按照0.8*标签长度计算标签分值,未命中的记做0分,不计入标签队列;对l2级别分级文本进分词后,枚举标签库中每个标签进行精确判断,如果命中按照0.3*0.8*标签长度计算标签分值,未命中的记做0 分,不计入标签队列。在l1和l2出现同一个分词时,则将该分词对应的l1标签分值和l2 对应的标签分值累加。
62.下述即是某个分词对应的标签分值的计算公式:
63.score=sum(count1*0.8*length(标签),count2*0.3*0.8*length(标签))
64.count1:l1级分词命中次数
65.count2:l2级分词命中次数
66.0.3为级别重要性因子
67.0.8为基本长度分值折算因子
68.具体实施时,标签的长度会影响分值,主要是考虑到自然语言处理中一般词语越短描述的信息越抽象,长度越长描述的信息越具体、越明确的特性。此外对于地域标签的计算统一按照长度为3计算长度,因为地域标签描述的是一个地方,属于地方专有名词,在一般应用场景中按照距离的远近聚类,而非按照文本的自然涵义聚类。例如:“广东”这个标签与“广州”这个标签是一种地址位置上的关系,而不是词语上的关系。
69.继续以上述篇章为例,l1级文本分词集:[咳血,一般,是,肺癌,几期,?,肺癌,早期,症状,咳血]。
[0070]
l2级文本分词集:[往往,都,不,明显,出现,的,往往,已经,不是,了,具体,分期,患者,还,应该,到,正规,医院,去,检查,以,明确,病情,在,的,治疗,方面, 首选,手术,治疗,中晚期,患者,需要,考虑,接受,放化疗,治疗,为了,提高,患者, 得,治疗,效果,患者,可以,考虑,选择,吃,抗肿瘤,中药,人参皂苷rg3,用于,辅助,治疗,它,在,癌症,治疗,中,比较显著,的,优势,有,两点,一方面,人参皂苷 rg3,被,国家,认可,的,抗肿瘤,中药,具有,抑制,肿瘤,新生,血管,生长,诱导, 肿瘤,细胞,的,凋亡,及,控制,肿瘤,细胞,的,进一步,扩散,和,转移,的,作用, 另一方面,人参皂苷rg3,可以,辅助,放化疗,可,降低,放化疗,的,副作用,保护, 肝损伤,在,放化疗,期间,配合,使用,可以,有效,提高,放化疗,的,
效果,患者, 平时,要,多,注意,休息,不要,熬夜,饮食,方面,要,注重,其,营养价值,endrd, 您好,常见,的,反应,之一,不能,作为,判断,分期,的,依据,建议,患者,尽快, 到,当地,三甲,医院,安排,详细,检查,积极,配合,治疗,由于,肺,癌细胞,发展, 较,快,约,有,80,的,患者,需,进行,化疗,控制,为,进一步,减轻,化疗,毒性, 刺激,提高,疗效,可,配合,富力,教授,研究,的,人参皂苷rg3,辅助,调理,根据, 文献,记载,人参皂苷rg3,抗肿瘤,作用,机制,的,研究,发展,表明,目前,发现, 人参皂苷rg3,具有,抑制,肿瘤,细胞,增殖,作用,抑制,肿瘤,细胞,的,侵袭,和, 转移,与,部分,化学,药物,联合,可,明显提高,效果,同时,对,临床,患者,无, 明显,血液,系统,毒性,并,提高,生活,质量,等,作用,希望,患者,可以,保持良好,的,心态,积极,配合,医生,的,治疗,一般来说,到,了,中期,就,会,出现, 迹象,会,出现,咳嗽,及,出血,的,而且,还会,进行性消瘦,影响,精气神,要,注意,休息,防止,受凉,刺激,多,喝,温开水,可以,针对性,治疗,如,止血,止咳, 如果,体质,好,可以,考虑,手术,治疗,的,术后,癌症,患者,出现,的,不良现象, 可以,服用,一些,超力,胶囊,进行,缓解,含有,的,人,参皂,苷,rh2rg3,等,抗癌,小分,子,易于,人体,所,吸收,能,快速,的,提高,患者,t,细胞,的,cd3cd4, 的,数值,这是,可以,减少,复发,和,转移,提高,治疗,效果,的]。
[0071]
分词后枚举第一标签库,进行分词的精确判断后的标签队列为:
[0072]
咳嗽:0.48
[0073]
肺癌:3.2
[0074]
血液:0.48
[0075]
咳血:3.2
[0076]
手术:0.96
[0077]
中药:0.96
[0078]
化疗:0.96
[0079]
出血:0.48
[0080]
肝损伤:0.72
[0081]
进行性消瘦:1.2
[0082]
人体:0.48
[0083]
血管:0.48
[0084]
癌症:0.96
[0085]
放化疗:3.5999999999999996
[0086]
抗癌:0.48
[0087]
肺:0.24
[0088]
止咳:0.48
[0089]
体质:0.48
[0090]
为了解决特殊情况的标签计算,在步骤s102之后,还包括:
[0091]
去除所述分级文本中的无意义符号获取待处理分级文本,对所述待处理分级文本进行第二标签库枚举,如果命中,则获取命中文本的标签分值,所述命中文本加入标签队列;所述第二标签库内的标签为所述第一标签库内的标签去除目标分词后剩余的标签。
[0092]
如文本为“老年人得了糖尿病怎么办”,不进行分词处理,而是将全部文本进行标
签库枚举。这样做是在分词时会有不精准的情况出现,如把“糖尿病”分词与前后词结合,分词为“得了糖”,会影响分词和标签的准确性。
[0093]
具体实施时,对不同分级文本去除如标点符号这些没有意义的符号后,整体进行枚举,如果文本中的内容与标签库中的某个标签相同,则为命中,对其进行标签分值的计算。
[0094]
其中,标签分值采用如下公式进行:
[0095]
score=sum(count1*0.5*0.8*length(标签),count2*0.3*0.5*0.8*length(标签))
[0096]
count1:l1级文本命中次数
[0097]
count2:l2级文本命中次数
[0098]
0.5为包含比配折算因子
[0099]
对l1级别的文本,如果命中,按照0.5*0.8*标签长度计算标签分值,未命中的记做0 分,不计入标签队列;如果命中,按照0.5*0.3*0.8*标签长度计算标签分值;未命中的记做 0分,不计入标签队列。枚举后命中的标签重复时,对应的标签分值累加。
[0100]
上述步骤对步骤s102是进一步的补充,主要是考虑一些特定情况的标签计算,例如:“行为”这个词如果作为“精确判断”的分词标签时要比“某某银行,为了某事
…”
这种包含匹配的重要性高,在标签计算时也更佳合理。
[0101]
继续以上述篇章为例,经过文本匹配后的标签队列为:
[0102]
咳嗽:0.48
[0103]
人参:0.24
[0104]
肺癌:3.2
[0105]
血液:0.48
[0106]
营养:0.24
[0107]
咳血:3.2
[0108]
手术:0.96
[0109]
损伤:0.24
[0110]
中药:0.96
[0111]
化疗:0.96
[0112]
出血:0.48
[0113]
肝损伤:0.72
[0114]
进行性消瘦:1.2
[0115]
人体:0.48
[0116]
血管:0.48
[0117]
消瘦:0.24
[0118]
癌症:0.96
[0119]
护肝:0.24
[0120]
放化疗:3.5999999999999996
[0121]
抗癌:0.48
[0122]
肺:0.24
[0123]
止咳:0.48
[0124]
肝:0.12
[0125]
体质:0.48
[0126]
s103:对篇章内容进行关键词抓取获取目标关键词及目标关键词的标签分值,并将所述目标关键词加入标签队列。
[0127]
通过关键词筛选,可以发现相似标签或发现新标签,不仅进一步完善篇章对应的标签,还能为标签库补充新标签。具体实施时,可以通过不同方式筛选关键词。
[0128]
具体地,所述对篇章内容进行关键词抓取获取目标关键词及目标关键词的标签分值,并将所述目标关键词加入标签队列包括:
[0129]
对所述篇章第一次提取关键词,获取第一关键词集,对所述第一关键词集中的关键词分别进行第三标签库枚举,获取所述第三标签库内的每个标签对应的标签分值,将所述第三标签库内的标签加入标签队列。所述第三标签库内的标签为所述第一标签库内的标签去除目标分词和目标命中文本后剩余的标签。
[0130]
具体实施时,对篇章内容进行第一次提取关键次可通过tf

idf算法实现,tf

idf算法简单快速,结果比较符合实际情况。提取关键词后对应获取每个关键词对应的权重值,即 tfidfvalue(tf

idf关键词的权重值),根据分值将对应的关键词从大到小排序,再根据具体需求获取一定数量关键词形成第一关键词集,如获取排序前五的关键词。接下来对第一关键词集中的关键词分别进行第三标签库枚举,计算某一标签分别与关键词之间的距离并求和获取标签对应的标签分值,如下述公式:
[0131]
score=∑distance(标签,关键词)*tfidfvalue
[0132]
tfidfvalue:tf

idf关键词的权重值
[0133]
如通过tf

idf算法第一次提取关键词为10个,根据tf

idf关键词的权重值从大到小排序后,获取前五个关键词a、b、c、d、e,再获取第三标签库中的某一标签“糖尿病”,所述第三标签库内的标签为所述第一标签库内的标签去除目标分词和目标命中文本后剩余的标签,“糖尿病”与关键词“a、b、c、d、e”分别进行语义距离计算获取距离值a1、b1、c1、 d1、e1,再求和s=(a1 b1 c1 d1 e1),s*tfidfvalue后获取标签“糖尿病”对应的标签分值,该标签加入标签队列。对所述第三标签库中的标签进行同样的处理。
[0134]
具体实施时,为了控制有效性的距离值,只有距离权重值在[0.5,1]区间的才会参与计算,否则丢弃。同样对于地域类标签也不参与此处计算,因为上述公式主要是语义距离计算,而地域标签主要进行地理距离计算。
[0135]
继续以上述篇章为例,tf

idf提取关键词后获取的第一关键词集:
[0136]
肺癌:0.0395
[0137]
人参皂苷rg3:0.0275
[0138]
患者:0.0268
[0139]
放化疗:0.0253
[0140]
咳血:0.0247
[0141]
治疗:0.0245
[0142]
经过tf

idf处理后的标签队列为:
[0143]
细支气管肺泡癌:0.020317064467498768
[0144]
腺癌:0.019778822564609073
[0145]
免疫治疗:0.015019563393244971
[0146]
气喘:0.01490492037411251
[0147]
血性胸水:0.012352635894733498
[0148]
膀胱癌:0.02487100190151739
[0149]
肺结核:0.03506042899860075
[0150]
进行性消瘦:1.2
[0151]
白血病:0.02075186307623835
[0152]
放疗:0.04048134457720316
[0153]
支扩:0.01326029386294431
[0154]
淋巴瘤:0.02304808748045798
[0155]
白痰:0.012820820083257474
[0156]
气促:0.013152754011270827
[0157]
肺纤维化:0.0198542544009897
[0158]
恶性肿瘤:0.0206490210405982
[0159]
咽喉癌:0.020748316899769633
[0160]
胸膜转移:0.019938316796296932
[0161]
脓痰:0.012538403769420689
[0162]
伽马刀:0.013152728408439215
[0163]
肺癌转移:0.02078220404353061
[0164]
乳癌:0.02143877749639836
[0165]
肺部感染:0.014492336876244372
[0166]
贲门癌:0.020461195025946382
[0167]
子宫癌:0.02195767260347111
[0168]
食道癌:0.028515951525993805
[0169]
鳞癌:0.02238230206961498
[0170]
体质:0.48
[0171]
人参:0.24
[0172]
慢阻肺:0.02072952526147901
[0173]
淋巴癌:0.024654631667199736
[0174]
手术:0.96
[0175]
肺部转移:0.02105577713778348
[0176]
化疗:0.96
[0177]
脑癌:0.02131025447831806
[0178]
大肠癌:0.021575607205065468
[0179]
前列腺癌:0.023712770820191964
[0180]
矽肺:0.02071394107821925
[0181]
结肠癌:0.02344696711456436
[0182]
肺转移瘤:0.02182651988567318
[0183]
肾癌:0.026233549996123658
[0184]
肝癌:0.026223934875459237
[0185]
恶性间皮瘤:0.019825996617529314
[0186]
脑胶质瘤:0.012673013861008917
[0187]
血液:0.48
[0188]
纵膈淋巴结肿大:0.019896234082494173
[0189]
胸腔积液:0.013278615851403174
[0190]
老年人肺癌:0.021246424086180923
[0191]
直肠癌:0.023225080576062738
[0192]
血管:0.48
[0193]
肺癌脑转移:0.021883120426308324
[0194]
护肝:0.24
[0195]
放化疗:3.5999999999999996
[0196]
咯血:0.021164290651061266
[0197]
肺部:0.013000275439824032
[0198]
呕血:0.013021934597854033
[0199]
支气管扩张:0.016466839413154
[0200]
支气管扩张症:0.013648284390403645
[0201]
干咳:0.014642088642047748
[0202]
出血:0.48
[0203]
剧烈咳嗽:0.013630356455800506
[0204]
消瘦:0.24
[0205]
支气管肺癌:0.021876834442559813
[0206]
胸膜间皮瘤:0.02284371324220223
[0207]
原发性肝癌:0.020555176537124794
[0208]
咳痰:0.01615362975877447
[0209]
结直肠癌:0.020679769745557224
[0210]
抗癌:0.48
[0211]
卵巢癌:0.02328195247297231
[0212]
止咳:0.48
[0213]
气急:0.013688782305517509
[0214]
肝:0.12
[0215]
咳嗽:0.48
[0216]
血痰:0.016315836819965557
[0217]
肺部检查:0.01295747295162621
[0218]
呼吸困难:0.013266728348696596
[0219]
食管癌:0.0272643501090148
[0220]
损伤:0.24
[0221]
尘肺:0.02062310718445269
[0222]
肺脓肿:0.012786932374111552
[0223]
病因:0.012767582097591913
[0224]
骨癌:0.021362064075822675
[0225]
肺:0.24
[0226]
血丝痰:0.012686799017375915
[0227]
肠癌:0.02249575009669627
[0228]
肺癌骨转移:0.022361449462159046
[0229]
肺腺癌:0.026311959879161465
[0230]
黄痰:0.012625164216066116
[0231]
肺癌:3.2
[0232]
痰中带血丝:0.016718549546802592
[0233]
鼻咽癌:0.026859070105691045
[0234]
人体:0.48
[0235]
口腔癌:0.022891872682134818
[0236]
舌癌:0.020399022841556872
[0237]
甲状腺癌:0.02464032761319895
[0238]
肺部肿块:0.012417104605294412
[0239]
肺部出血:0.015971222909975255
[0240]
骨转移:0.02110912124661809
[0241]
小细胞肺癌:0.023166975577367795
[0242]
胆管癌:0.02189531466639528
[0243]
营养:0.24
[0244]
胆囊癌:0.023167301205241984
[0245]
咳血:3.2
[0246]
喉癌:0.02858149786948701
[0247]
中药:0.96
[0248]
肝损伤:0.72
[0249]
咳血痰:0.015866495086684425
[0250]
胸痛:0.01561928309056202
[0251]
乳腺癌:0.026896309746023916
[0252]
癌症:0.96
[0253]
胰腺癌:0.027275176404068135
[0254]
胃癌:0.028353921081000977
[0255]
胸腺癌:0.02281039572262222
[0256]
为了可以有效的引进新标签,还可以利用其他算法提取关键词,对第一次提取关键词进行补充和扩展。
[0257]
具体地包括:对所述篇章进行第二次提取关键词,获取第二关键词集,对所述第二关键词集中的关键词进行第一标签库枚举,如果所述关键词不存在于第一标签库则获取未命中关键词对应的标签分值,所述未命中关键词加入标签队列。
[0258]
具体实施时,对篇章内容进行第二次提取关键词可通过textrank算法实现。textrank 算法可以考虑相邻词之间的语义关系,而且textrank不需要事先对多篇文档进行学习训练, 更简洁有效。
[0259]
经过textrank算法提取的关键词,再与篇章原有的关键词进行合并为第二关键词集。其中篇章原有的关键词一般是篇章自带或原有设置的。之后将第二关键词集的每个关键词进行第一标签库枚举,如果该关键词不存在第一标签库中,则可说明该关键词是全新的标签,需要将其加入到标签队列中,也需要将其补充进第一标签库中,使标签库中的标签处于动态调整中。
[0260]
对于不属于第一标签库中的关键词也需要计算其标签分值,计算公式为:
[0261]
score=∑distance(textrank关键词,tf

idf关键词)*tfidfvalue
[0262]
tfidfvalue:tf

idf关键词的权重值
[0263]
具体实施时,第二次提取关键词是在第一次提取关键词的基础上进行的,因此word2vec 的距离求和计算是在textrank关键词与tf

idf关键词之间进行的,再根据tf

idf关键词的权重值计算出距离值即标签分值。进一步地,对于重复出现的关键词则对其分数累加后得到对应的标签分值。
[0264]
以上步骤,通过word2vec可以发现某些从未在文本中出现的标签,但是也可以通过此技术联想扩展出这些标签,这样丰富了标签的维度。可有效的引进新标签的引进,也是标签库中新标签的发现机制。发现的新标签加入标签库后会对其进行热度计算,同时设置为未投产状态,当此标签的引用热度和用词次数都超过预设的阈值时可将其状态修改为投产,以后会参与篇章的标签化。
[0265]
继续以上述篇章为例,textrank提取关键词:
[0266]
患者
[0267]
肺癌
[0268]
rg
[0269]
皂苷
[0270]
人参
[0271]
效果
[0272]
经过textrank处理后的标签队列为:
[0273]
细支气管肺泡癌:0.020317064467498768
[0274]
腺癌:0.019778822564609073
[0275]
免疫治疗:0.015019563393244971
[0276]
气喘:0.01490492037411251
[0277]
血性胸水:0.012352635894733498
[0278]
膀胱癌:0.02487100190151739
[0279]
肺结核:0.03506042899860075
[0280]
进行性消瘦:1.2
[0281]
白血病:0.02075186307623835
[0282]
放疗:0.04048134457720316
[0283]
支扩:0.01326029386294431
[0284]
淋巴瘤:0.02304808748045798
[0285]
白痰:0.012820820083257474
[0286]
气促:0.013152754011270827
[0287]
肺纤维化:0.0198542544009897
[0288]
恶性肿瘤:0.0206490210405982
[0289]
咽喉癌:0.020748316899769633
[0290]
胸膜转移:0.019938316796296932
[0291]
脓痰:0.012538403769420689
[0292]
伽马刀:0.013152728408439215
[0293]
肺癌转移:0.02078220404353061
[0294]
乳癌:0.02143877749639836
[0295]
肺部感染:0.014492336876244372
[0296]
贲门癌:0.020461195025946382
[0297]
子宫癌:0.02195767260347111
[0298]
食道癌:0.028515951525993805
[0299]
鳞癌:0.02238230206961498
[0300]
体质:0.48
[0301]
人参:0.24
[0302]
慢阻肺:0.02072952526147901
[0303]
淋巴癌:0.024654631667199736
[0304]
手术:0.96
[0305]
肺部转移:0.02105577713778348
[0306]
化疗:0.96
[0307]
脑癌:0.02131025447831806
[0308]
大肠癌:0.021575607205065468
[0309]
前列腺癌:0.023712770820191964
[0310]
矽肺:0.02071394107821925
[0311]
结肠癌:0.02344696711456436
[0312]
肺转移瘤:0.02182651988567318
[0313]
肾癌:0.026233549996123658
[0314]
肝癌:0.026223934875459237
[0315]
恶性间皮瘤:0.019825996617529314
[0316]
脑胶质瘤:0.012673013861008917
[0317]
血液:0.48
[0318]
纵膈淋巴结肿大:0.019896234082494173
[0319]
胸腔积液:0.013278615851403174
[0320]
老年人肺癌:0.021246424086180923
[0321]
直肠癌:0.023225080576062738
[0322]
血管:0.48
[0323]
肺癌脑转移:0.021883120426308324
[0324]
护肝:0.24
[0325]
放化疗:3.5999999999999996
[0326]
咯血:0.021164290651061266
[0327]
肺部:0.013000275439824032
[0328]
呕血:0.013021934597854033
[0329]
支气管扩张:0.016466839413154
[0330]
支气管扩张症:0.013648284390403645
[0331]
干咳:0.014642088642047748
[0332]
出血:0.48
[0333]
剧烈咳嗽:0.013630356455800506
[0334]
消瘦:0.24
[0335]
支气管肺癌:0.021876834442559813
[0336]
胸膜间皮瘤:0.02284371324220223
[0337]
原发性肝癌:0.020555176537124794
[0338]
咳痰:0.01615362975877447
[0339]
结直肠癌:0.020679769745557224
[0340]
抗癌:0.48
[0341]
卵巢癌:0.02328195247297231
[0342]
止咳:0.48
[0343]
气急:0.013688782305517509
[0344]
肝:0.12
[0345]
咳嗽:0.48
[0346]
血痰:0.016315836819965557
[0347]
肺部检查:0.01295747295162621
[0348]
呼吸困难:0.013266728348696596
[0349]
食管癌:0.0272643501090148
[0350]
损伤:0.24
[0351]
尘肺:0.02062310718445269
[0352]
肺脓肿:0.012786932374111552
[0353]
病因:0.012767582097591913
[0354]
骨癌:0.021362064075822675
[0355]
肺:0.24
[0356]
血丝痰:0.012686799017375915
[0357]
肠癌:0.02249575009669627
[0358]
肺癌骨转移:0.022361449462159046
[0359]
肺腺癌:0.026311959879161465
[0360]
黄痰:0.012625164216066116
[0361]
肺癌:3.2
[0362]
痰中带血丝:0.016718549546802592
[0363]
鼻咽癌:0.026859070105691045
[0364]
患者:0.01570662001052324
[0365]
人体:0.48
[0366]
口腔癌:0.022891872682134818
[0367]
舌癌:0.020399022841556872
[0368]
甲状腺癌:0.02464032761319895
[0369]
肺部肿块:0.012417104605294412
[0370]
肺部出血:0.015971222909975255
[0371]
骨转移:0.02110912124661809
[0372]
小细胞肺癌:0.023166975577367795
[0373]
胆管癌:0.02189531466639528
[0374]
营养:0.24
[0375]
胆囊癌:0.023167301205241984
[0376]
咳血:3.2
[0377]
喉癌:0.02858149786948701
[0378]
中药:0.96
[0379]
肝损伤:0.72
[0380]
咳血痰:0.015866495086684425
[0381]
胸痛:0.01561928309056202
[0382]
乳腺癌:0.026896309746023916
[0383]
癌症:0.96
[0384]
胰腺癌:0.027275176404068135
[0385]
胃癌:0.028353921081000977
[0386]
胸腺癌:0.02281039572262222
[0387]
s104:对所述标签队列中的标签分值归一化处理,获取目标标签队列。
[0388]
对于已经加入标签队列的标签进行归一化处理,如可通过双曲函数tanh的上右半部进行,归一化处理后再根据标签分值从大到小进行排序,获取预设数目的标签作为最后的目标标签队列。
[0389]
归一化处理即是将比较大的数值映射到0~1区间,例如40映射以后可能是0.8,这样处理以后数据比较规范,不至于大的很大,小的很小。
[0390]
处理后的标签的格式:[{"白内障":0.99986},{"辐射性白内障":0.99372},{"老年人 ":0.98367},{"北京":0.98367},{"糖尿病性白内障":0.93286}],将结果同时存入到hdfs, mysql数据表中以及elasticsearch(es)供多种场景索引使用。
[0391]
继续以上述篇章为例,经过归一化处理,获取的目标标签队列为:
[0392]
放化疗:0.99851
[0393]
肺癌:0.99668
[0394]
咳血:0.99668
[0395]
进行性消瘦:0.83365
[0396]
癌症:0.74428
[0397]
中药:0.74428
[0398]
与本申请提供的一种篇章标签化的方法实施例相对应,本申请还提供一种篇章标签化的装置的实施例。参考图2,为本申请实施例提供的一种篇章标签化的装置的结构示意图,所述装置包括:
[0399]
分级单元100,用于获取篇章,对篇章内容进行分级,获取分级文本及分级权重值;
[0400]
目标分词处理单元200,用于对分级文本进行分词处理获取目标分词及目标分词的标签分值,并将所述目标分词加入标签队列;
[0401]
目标关键词获取单元400,用于对篇章内容进行关键词抓取获取目标关键词及目标关键词的标签分值,并将所述目标关键词加入标签队列;
[0402]
归一化处理单元500,用于对所述标签队列中的标签分值归一化处理,获取目标标签队列。
[0403]
所述目标分词处理单元200用于:
[0404]
对所述分级文本进行分词处理获取分词集,对所述分词集中的分词分别进行第一标签库枚举,如果所述分词存在于第一标签库则获取命中分词对应的标签分值,所述命中分词加入标签队列。
[0405]
进一步地,所述装置还包括分级文本处理单元300,用于:
[0406]
去除所述分级文本中的无意义符号获取待处理分级文本,对所述待处理分级文本进行第二标签库枚举,如果命中,则获取命中文本的标签分值,所述命中文本加入标签队列;所述第二标签库内的标签为所述第一标签库内的标签去除目标分词后剩余的标签。
[0407]
进一步地,所述目标关键词获取单元400用于:
[0408]
对所述篇章第一次提取关键词,获取第一关键词集,对所述第一关键词集中的关键词分别进行第三标签库枚举,获取所述第三标签库内的每个标签对应的标签分值,将所述第三标签库内的标签加入标签队列;所述第三标签库内的标签为所述第一标签库内的标签去除目标分词和目标命中文本后剩余的标签。
[0409]
进一步地,所述目标关键词获取单元400还用于:
[0410]
对所述篇章进行第二次提取关键词,获取第二关键词集,对所述第二关键词集中的关键词进行第一标签库枚举,如果所述关键词不存在于第一标签库则获取未命中关键词对应的标签分值,所述未命中关键词加入标签队列。
[0411]
本申请实施例提供的一种篇章标签化的方法及装置,通过获取篇章,对篇章内容进行分级,获取分级文本及分级权重值;对分级文本进行分词处理获取目标分词及目标分词的标签分值,并将所述目标分词加入标签队列;对篇章内容进行关键词抓取获取目标关键词及目标关键词的标签分值,并将所述目标关键词加入标签队列;对所述标签队列中的标签分值归一化处理,获取目标标签队列实现篇章标签化的过程。本申请使标签的提取更加精准和合理,而且可以有效的扩展和引进新标签,丰富标签的维度,使标签库内的标签维持在动态调整状态中,供多种场景索引使用。
[0412]
根据上述篇章标签化的方法,本申请实施例还提供一种可读存储介质和一种计算机设备。可读存储介质上存储有可执行程序,该程序被处理器执行时实现上述篇章标签化的方法的步骤;计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的
可执行程序,处理器执行程序时实现上述篇章标签化的方法的步骤。
[0413]
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

技术特征:
1.一种篇章标签化的方法,其特征在于,所述方法包括:获取篇章,对篇章内容进行分级,获取分级文本及分级权重值;对分级文本进行分词处理获取目标分词及目标分词的标签分值,并将所述目标分词加入标签队列;对篇章内容进行关键词抓取获取目标关键词及目标关键词的标签分值,并将所述目标关键词加入标签队列;对所述标签队列中的标签分值归一化处理,获取目标标签队列。2.根据权利要求1所述的篇章标签化的方法,其特征在于,所述对分级文本进行分词处理获取目标分词及目标分词的标签分值,并将所述目标分词加入标签队列,包括:对所述分级文本进行分词处理获取分词集,对所述分词集中的分词分别进行第一标签库枚举,如果所述分词存在于第一标签库则获取命中分词对应的标签分值,所述命中分词加入标签队列。3.根据权利要求2所述的篇章标签化的方法,其特征在于,所述对分级文本进行分词处理获取目标分词及目标分词的标签分值,并将所述目标分词加入标签队列之后,还包括:去除所述分级文本中的无意义符号获取待处理分级文本,对所述待处理分级文本进行第二标签库枚举,如果命中,则获取命中文本的标签分值,所述命中文本加入标签队列;所述第二标签库内的标签为所述第一标签库内的标签去除目标分词后剩余的标签。4.根据权利要求1所述的篇章标签化的方法,其特征在于,所述对篇章内容进行关键词抓取获取目标关键词及目标关键词的标签分值,并将所述目标关键词加入标签队列,包括:对所述篇章第一次提取关键词,获取第一关键词集,对所述第一关键词集中的关键词分别进行第三标签库枚举,获取所述第三标签库内的每个标签对应的标签分值,将所述第三标签库内的标签加入标签队列;所述第三标签库内的标签为所述第一标签库内的标签去除目标分词和目标命中文本后剩余的标签。5.根据权利要求4所述的篇章标签化的方法,其特征在于,所述对篇章内容进行关键词抓取获取目标关键词及目标关键词的标签分值,并将所述目标关键词加入标签队列,还包括:对所述篇章进行第二次提取关键词,获取第二关键词集,对所述第二关键词集中的关键词进行第一标签库枚举,如果所述关键词不存在于第一标签库则获取未命中关键词对应的标签分值,所述未命中关键词加入标签队列。6.一种篇章标签化的装置,其特征在于,所述装置包括:分级单元,用于获取篇章,对篇章内容进行分级,获取分级文本及分级权重值;目标分词处理单元,用于对分级文本进行分词处理获取目标分词及目标分词的标签分值,并将所述目标分词加入标签队列;目标关键词获取单元,用于对篇章内容进行关键词抓取获取目标关键词及目标关键词的标签分值,并将所述目标关键词加入标签队列;归一化处理单元,用于对所述标签队列中的标签分值归一化处理,获取目标标签队列。7.根据权利要求6所述的篇章标签化的装置,其特征在于,所述目标分词处理单元用于:对所述分级文本进行分词处理获取分词集,对所述分词集中的分词分别进行第一标签
库枚举,如果所述分词存在于第一标签库则获取命中分词对应的标签分值,所述命中分词加入标签队列。8.根据权利要求7所述的篇章标签化的装置,其特征在于,所述装置还包括分级文本处理单元,用于:去除所述分级文本中的无意义符号获取待处理分级文本,对所述待处理分级文本进行第二标签库枚举,如果命中,则获取命中文本的标签分值,所述命中文本加入标签队列;所述第二标签库内的标签为所述第一标签库内的标签去除目标分词后剩余的标签。9.根据权利要求6所述的篇章标签化的装置,其特征在于,所述目标关键词获取单元用于:对所述篇章第一次提取关键词,获取第一关键词集,对所述第一关键词集中的关键词分别进行第三标签库枚举,获取所述第三标签库内的每个标签对应的标签分值,将所述第三标签库内的标签加入标签队列;所述第三标签库内的标签为所述第一标签库内的标签去除目标分词和目标命中文本后剩余的标签。10.根据权利要求9所述的篇章标签化的装置,其特征在于,所述目标关键词获取单元还用于:对所述篇章进行第二次提取关键词,获取第二关键词集,对所述第二关键词集中的关键词进行第一标签库枚举,如果所述关键词不存在于第一标签库则获取未命中关键词对应的标签分值,所述未命中关键词加入标签队列。
技术总结
本申请公开了一种篇章标签化的方法及装置,通过获取篇章,对篇章内容进行分级,获取分级文本及分级权重值;对分级文本进行分词处理获取目标分词及目标分词的标签分值,并将所述目标分词加入标签队列;对篇章内容进行关键词抓取获取目标关键词及目标关键词的标签分值,并将所述目标关键词加入标签队列;对所述标签队列中的标签分值归一化处理,获取目标标签队列实现篇章标签化的过程。本申请使标签的提取更加精准和合理,而且可以有效的扩展和引进新标签,丰富标签的维度,使标签库内的标签维持在动态调整状态中,供多种场景索引使用。供多种场景索引使用。供多种场景索引使用。


技术研发人员:国兴旺 袁乾峰 欧锦华 王志广 叶永钦
受保护的技术使用者:广州启生信息技术有限公司
技术研发日:2021.03.25
技术公布日:2021/6/29

转载请注明原文地址:https://doc.8miu.com/read-14226.html

最新回复(0)