本发明属于自然语言处理,具体涉及一种中医电子病历智能分类方法、系统及设备。
背景技术:
1、中医作为我国最古老的传统医学,被应用于防治多种疾病,是我国医疗服务体系的重要组分。而中医电子病历中隐藏着大量有用的信息,有利于医生对疾病进行判断,提高诊断的正确率和效率。然而,中医电子病历中通常含有大量以古汉语表达的医疗专业术语,句法结构特殊且语义复杂,缺乏标准化的医学概念描述,且存在缩写语和一些条目的缺失,几种疾病的判断之间有很多语义信息的重叠,标签之间的区分度较低,这对于中医电子病历文本分类是一项重大的挑战。
2、目前,对于分析电子病历技术问题的解决,依赖于一些模拟计算辩证技术。这些技术通过构建神经网络等人工智能模型,对中医病历样本进行训练,达到分类识别的目的。然而困于中医病历文本数量稀少,该技术训练所得到的模型泛化能力较差,不具备应用于实际的能力。并且,该技术本质上是通过构建各种复杂函数尝试让计算机理解中医病历内的文本信息,但其并没有真正的模拟人类对中医病历辩证思考的过程,并不能真正的理解病历中的复杂语义,导致该技术缺乏准确性及可靠性。
技术实现思路
1、本发明的目的是克服现有技术存在的问题,提供一种更为准确的,能够适用于复杂病历文本表述的一种针对慢性鼻炎的中医电子病历智能分类方法、系统及设备。
2、本发明的具体技术方案通过如下步骤实现:
3、一种针对慢性鼻炎的中医电子病历智能分类方法,包含如下步骤:
4、步骤一、获取中医电子病历文本数据;
5、收集所需的与慢性鼻炎相关的中医电子病历文本数据;
6、步骤二、对获得的文本数据进行预处理;
7、因医学指标数字组合多样,难以添加到已有词典中。根据文本病历数据中出现的各种数字表述,考虑对应的各项专业医学指标,使用“正常”、“偏高”、“偏低”等程度副词进行描述替换,使得文本数据所表达的意思更加清晰,提高在隐马尔可夫模型中的发射概率。使用正则表达式,以标点符号为分界,对文本数据进行句子分割。基于已有词典,对分割后的句子进行有向无环图构造,并使用动态规划方法寻找到一条最大概率路径,并基于找出最佳词语切分组合。若出现已有词典中不存在的词语,则使用隐马尔可夫模型,利用viterbi算法得到最佳的隐藏状态序列。得到最终的分词结果,构建出词表。
8、进一步的,医学指标的数值在正常范围内的替换为正常,医学指标的数值大于最高阈值的替换为偏高,医学指标的数值小于最低阈值的替换为偏低。
9、步骤三、提取多种文本特征;
10、根据步骤二文本数据的分词结果以及构建出的词表,统计出每个词语在不同的分类类别数据中的词频tf、逆文本频率idf、互信息mi三个不同方面的信息;将所得到的结果继续归一化后以矩阵形式进行存储,作为文本数据的三种不同特征。其中,在四个类别数据中提取的词频tf、逆文本频率idf、互信息mi表示如下:
11、tf=[tf1,tf2,tf3,tf4]t
12、idf=[idf1,idf2,idf3,idf4]t
13、mi=[mi1,mi2,mi3,mi4]t
14、其中,为词表中的第n个词语。
15、可由以下式子计算得:
16、
17、其中,表示为词语wn在当前所属类别的语料中出现的次数,f表示在同一类别下的语料中出现的所有词语的总次数。
18、可由以下式子计算得:
19、
20、其中,d为当前所属类别的语料中的文档个数,|j:wn∈dj|表示包含词语wn的文档的个数。dj表示第j个文档;在此处使用了拉普拉斯平滑,避免出现有部分词语并未出现在已有词典中造成分母为零的情况。
21、可由以下式子计算的:
22、
23、其中,p(ci)表示类别ci在整个语料集中出现的概率,p(wn,ci)表示类别ci中出现词语wn的文档数,p(wn)表示词语wn在整个文本语料集中出现的概率。
24、在类别ci的语料库中,将步骤三计算得到类别ci中词wn的特征值和分别替换步骤二类别ci中每个文本对应的分词结果中的词wn,设类别ci中有个d文本,则待类别ci语料库中所有词均被替换后,得到对应的3d个特征矩阵:词频tfw、逆文本频率idfw、互信息miw。
25、步骤四:多特征融合;
26、构建词向量训练模型,并分别以词频tfw、逆文本频率idfw、互信息miw作为输入特征矩阵,生成词向量,该三类特征矩阵均为文本全局统计信息。考虑到文本数据长短不一的情况,使用了基于tanimoto系数的定长文本表示方法进行处理:对分词词语数量不足规定数量的文档数据升维,使用该文本的词语词向量映射进行循环填充;对分词词语数量超过规定数量的文档数据降维,分别选取两个相邻向量计算tanimoto系数,用于判断两个向量之间的相似程度,并选取所有词中相邻两个tanimoto系数最小的向量进行平均,最大程度保留原有语义信息。tanimoto系数计算公式如下:
27、
28、其中,表示类别ci中一个文本的词向量;表示类别ci中同一文本中与词向量相邻的一个向量。
29、通过词向量训练模型的损失函数,判断词向量生成效果。词向量训练模型的损失函数公式如下:
30、
31、其中,和为两个不同的词向量,bn和bn'分别为词向量和对应的偏差项,pn,n'表示单词wn出现在单词wn'的概率。是降低模型训练复杂度的方法表示。其中,xn表示所有在单词wn上下文环境中出现单词的次数总和,bn包括log(xn)。加上权重函数f(xij)后,损失函数表示为如下公式:
32、
33、xnn'表示单词wn'在单词wn上下文环境中出现的次数。
34、构建多个分类器,分别对词向量进行训练,并分别计算出平均分类准确率,并以平均分类准确率为权值融合三类文本的特征矩阵,得到最终的特征矩阵。
35、类别ci中3d个特征矩阵以平均分类准确率为权值融合三类文本特征矩阵的计算方式如下:
36、(1)当第k类特征矩阵(k类包括词频tfw、逆文本频率idfw、互信息miw)经过不同分类器训练后的分类准确率满足:
37、
38、则计算第k类特征矩阵的权值:
39、
40、其中,n1表示总共的分类器数量,modn1表示第n1个分类器。
41、(2)当第k类特征矩阵经过不同分类器训练后的分类准确率满足:
42、
43、则计算第k类特征矩阵的权值:
44、
45、(3)当第k类特征矩阵经过不同分类器训练后的分类准确率满足:
46、
47、则计算第k类特征矩阵的权值:
48、
49、(4)在此基础上计算融合特征矩阵mix:
50、mix=∑ωk·chk
51、其中,k=1,2,3,ωk表示第k类特征矩阵的权值,表示第k类特征矩经过第n1个分类器训练后的分类准确率;chk表示第k类特征矩阵。
52、步骤五:多模型集成学习并预测证型类别:
53、分别计算最终特征矩阵在多个transformer类分类器中的训练结果指标:交叉熵以及文本的四个类别的识别率。交叉熵的计算方法如下:
54、(1)计算全局文档的似然估计:
55、
56、其中,f(label;predict)=p(predict=predict|label)为单个文档似然估计,labell表示第;个文档的真实标签,predictl表示第;个文档的模型预测标签;x表示类别数量,本专利中x取值为4。
57、(2)降低计算复杂度,计算交叉熵:
58、
59、识别率的计算方法如下:
60、
61、其中,tpn1表示的是文档分类为第n1个分类器的真正例数量,fpn1表示的是文档分类为第n1个分类器的假正例数量,fnn1表示的是文档分类为第n1个分类器的假反例数量。
62、进一步的,本发明还提供一种针对慢性鼻炎的中医电子病历智能分类系统,包括:文本数据采集模块、本数据预处理模块、多种文本特征提取模块、多特征融合模块和预测证型类别模块;
63、文本数据采集模块:收集所需的与慢性鼻炎相关的中医电子病历文本数据;
64、本数据预处理模块:对获得的文本数据进行预处理,根据文本病历数据中出现的各种数字表述,基于对应的各项专业医学指标,使用“正常”、“偏高”、“偏低”程度副词进行描述替换;使用正则表达式,以标点符号为分界,对文本数据进行句子分割;基于已有词典,对分割后的句子进行有向无环图构造,并使用动态规划方法寻找到一条最大概率路径,并基于找出最佳词语切分组合;得到最终的分词结果,构建出词表;
65、多种文本特征提取模块:根据本数据预处理模块得到的分词结果以及构建出的词表,统计出每个词语在不同的分类类别数据中的词频tf、逆文本频率idf、互信息mi三个不同方面的信息;将所得到的结果继续归一化后以矩阵形式进行存储,作为文本数的三种不同特征;
66、多特征融合模块:构建词向量训练模型,并分别以词频tfw、逆文本频率idfw、互信息miw作为输入特征矩阵,生成词向量,该三类特征矩阵均为文本全局统计信息;
67、预测证型类别模块:计算最终特征矩阵在多个transformer类分类器中的训练结果指标:交叉熵以及文本的四个类别的识别率。
68、更进一步的,本发明提供一种中医电子设备,包括所述的分类系统。
69、本发明与现有技术相比,具有如下优点和有益效果:
70、1、与传统的文本分类识别方法相比,本发明通过提取三种不同的文本特征,能够更好的保存文本信息,理解上下文之间的关系和含义,提高模型的鲁棒性。能够更加准确地完成分类预测工作,具有计算简单、特征维数低、计算量小、速度快等优点,在实践中也取得了很好的效果;
71、2、通过使用多分类器集成学习的方法,融合了既有优秀的transformer类模型的优点,提高了分类器的鲁棒性,减少单分类器所带来的误差,能够更加准确地完成文本分类的任务,得到的分类预测结果更加可靠可信。
1.一种针对慢性鼻炎的中医电子病历智能分类方法,其特征在于包括如下步骤:
2.根据权利要求1所述的一种针对慢性鼻炎的中医电子病历智能分类方法,其特征在于步骤二所述的预处理具体如下:
3.根据权利要求1所述的一种针对慢性鼻炎的中医电子病历智能分类方法,其特征在于步骤三所述的提取多种文本特征具体如下:
4.根据权利要求3所述的一种针对慢性鼻炎的中医电子病历智能分类方法,其特征在于针对类别ci的语料库,将步骤三计算得到的类别ci中词wn的特征值和分别替换步骤二类别ci中每个文本对应的分词结果中的词wn,设类别ci中有个d文本,则待类别ci语料库中所有词均被替换后,得到对应的3d个特征矩阵:词频tfw、逆文本频率idfw、互信息miw。
5.根据权利要求3所述的一种针对慢性鼻炎的中医电子病历智能分类方法,其特征在于步骤四所述的多特征融合,具体实现如下:
6.根据权利要求5所述的一种针对慢性鼻炎的中医电子病历智能分类方法,其特征在于类别ci中3d个特征矩阵以平均分类准确率为权值融合三类文本特征矩阵的计算方式如下:
7.根据权利要求6所述的一种针对慢性鼻炎的中医电子病历智能分类方法,其特征在于步骤五所述的交叉熵的计算方法如下:
8.根据权利要求6所述的一种针对慢性鼻炎的中医电子病历智能分类方法,其特征在于步骤五所述的识别率的计算方法如下:
9.一种针对慢性鼻炎的中医电子病历智能分类系统,其特征在于包括:文本数据采集模块、本数据预处理模块、多种文本特征提取模块、多特征融合模块和预测证型类别模块;
10.一种中医电子设备,其特征在于包括如权利要求9所述的分类系统。