1.本发明属于健康管理技术领域,具体涉及一种脑卒中发病风险预测系统、设备、存储介质。
背景技术:
[0002]“脑卒中”(cerebral stroke)又称“中风”,是一种急性脑血管疾病,严重威胁人类的生命健康。脑卒中往往具有发病率高、死亡率高和致残率高的特点,尤其对老年人群体会造成严重死亡或遗留不同程度残疾的后果,极度困扰着患者及家庭。
[0003]
目前医学界认为预防卒中发病是最好的防治措施。然而目前现有技术中仅从临床症状单方面进行风险预测,从而导致无法达到准确识别及过早防治的目标。采用脑卒中发病风险预测模型可用于识别人群中的高危个体并为高危个体提供防治脑卒中的预防干预措施,起到过早识别干预脑卒中的作用。因此,研究设计一种评估准确且方便易用的脑卒中发病风险预测模型具有重要的临床价值,对脑卒中的防治和预防具有重要意义。
技术实现要素:
[0004]
有鉴于此,本发明提出了一种脑卒中发病风险预测系统、设备、存储介质,用于为高危个体提供方便易用、准确度高的脑卒中发病风险预测方案。
[0005]
本发明第一方面,公开一种脑卒中发病风险预测系统,所述系统包括:
[0006]
数据采集单元:用于采集目标人群健康数据信息并进行脱敏处理;
[0007]
预处理单元:用于标准化处理目标人群基本数据信息,标注脑卒中风险类别;
[0008]
特征筛选单元:用于基于iv值分析法筛选脑卒中特征数据,得到对模型预测价值较高的特征数据,组成数据集;
[0009]
模型建立单元:用于利用基于逻辑回归的adaboost增强学习方法训练数据、建立融合模型;
[0010]
模型预测单元:用于通过融合模型对待测试的样本数据进行预测,得到脑卒中风险类别。
[0011]
优选的,所述数据采集单元中,所述目标人群健康数据信息包括姓名、性别、年龄、体重、职业、居住地、血压、心率、血氧、房颤、吸烟史、酗酒史、糖尿病史、心血管疾病史、家族脑卒中史、是否肥胖,以及是否有颈动脉狭窄伴随症状、肢体无力伴随症状、言语障碍伴随症状及对应的伴随症状持续时间。
[0012]
优选的,所述标准化处理包括:对不规整、不统一的数据进行类型转换,数据填充、数据删除操作;数据转换包括二值型数据转换、连续型数据转换。
[0013]
优选的,所述模型建立单元具体包括:
[0014]
弱分类子单元:以多个lr分类器构建弱分类器,初始化样本权重值,采用one
‑
vs
‑
rest形式,训练基于lr的第i个弱分类器;将脑卒中概率值最大的作为每个弱分类器的输出,每个弱分类器中lr分类器的个数等于脑卒中风险类别数;
[0015]
计算第i个弱分类器的输出权重值α
i
:α
i
=max(ln((1
‑
f
i
)/f
i
) ln2,0),f
i
为训练样本被弱分类器误分类样本的权重值之和;
[0016]
强分类子单元:基于多个弱分类器更新强分类器,并计算强分类器分类的错误率;
[0017]
循环子单元:判断是否达到循环结束条件,若是,结束循环,否则依据第i个弱分类器的分类错误率重新计算样本权重值,将新的样本权重值加入样本中进行训练;所述循环结束条件为判断强分类器的分类错误率是否为0,如果是则结束循环,否则判断弱分类器个数是否大于等于设定的弱分类器最大个数,如果是则结束循环。
[0018]
优选的,所述更新强分类器的表达式为:其中h
fq
为更新前的强分类器,为更新后的强分类器,η1∈[0,1]为学习率,α
j
为第j个弱分类器的输出权重值,为弱分类器的输入,l为argmax函数的返回值即脑卒中风险类别等级预测值。
[0019]
优选的,计算强分类器分类的错误率的表达式为:其中sign为符号函数,t
k
为第k个训练样本的特征,如果第k样本为正样本,s
k
为对应t
k
的脑卒中风险等级,m为训练集样本个数。
[0020]
优选的,所述依据第i个弱分类器的分类错误率重新计算样本权重值,将新的样本权重值加入样本中具体包括:
[0021]
根据第i个弱分类器的分类错误率计算第i 1个弱分类器的新的样本权重值:e
i 1k
=e
ik
·
exp(α
i
·
[h
ifq
(t
k
)≠s
k
]),k∈[1,2,
…
,m],α
i
为第i个弱分类器的输出权重值,e
ik
为第i个弱分类器的第k个样本权重值,e
i 1k
为第i 1个弱分类器的第k个样本权重值;处理样本新产生的权重值并进行归一化处理。
[0022]
本发明第二方面,公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
[0023]
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
[0024]
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如本发明第一方面所述的系统。
[0025]
本发明第三方面,公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明第一方面所述的系统。
[0026]
本发明相对于现有技术具有以下有益效果:
[0027]
1)本发明运用数据分析处理等技术,结合iv值分析方法对脑卒中数据样本进行特征筛选,剔除对脑卒中风险预测价值较低的特征,降低特征维度,然后通过一种融合逻辑回归的adaboost算法构建脑卒中发病风险预测模型,计算待识别的脑卒中样本发病风险所属分类类别,本发明为传统脑卒中识别诊断难题提供了新的解决办法,基于目标人群健康数据信息实现对脑卒中风险类别的精准分析,提升诊断效率。
[0028]
2)本发明以多个lr分类器构建弱分类器,采用one
‑
vs
‑
rest形式,训练弱分类器,基于多个弱分类器组成强分类器,可提高脑卒中发病风险预测准确率。
附图说明
[0029]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030]
图1为本发明的脑卒中发病风险预测系统结构图;
[0031]
图2为本发明模型建立单元结构示意图。
具体实施方式
[0032]
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
[0033]
请参阅图1,本发明提出一种脑卒中发病风险预测系统,所述系统包括:数据采集单元10、预处理单元20、特征筛选单元30、模型建立单元40、模型预测单元50;
[0034]
所述数据采集单元10,用于采集目标人群健康数据信息并进行脱敏处理;
[0035]
所述目标人群健康数据信息包括姓名、性别、年龄、体重、职业、居住地、血压、心率、血氧、房颤、吸烟史、酗酒史、糖尿病史、心血管疾病史、家族脑卒中史、是否肥胖,以及是否有颈动脉狭窄伴随症状、肢体无力伴随症状、言语障碍伴随症状及对应的伴随症状持续时间。并对敏感隐私信息进行编码脱敏保护。
[0036]
所述预处理单元20,用于标准化处理目标人群基本数据信息,标注脑卒中风险类别;
[0037]
所述标准化处理包括:对不规整、不统一的数据进行类型转换,数据填充、数据删除操作;数据转换包括二值型数据转换、连续型数据转换。二值型数据转换比如如性别字段“男”或“女”、居住地字段“南方”或“北方”、血压≥140/90mmhg字段“是”或“否”,以及吸烟史、酗酒史、房颤、颈动脉狭窄、伴随肢体无力、伴随言语障碍、糖尿病史、心血管疾病史、家族脑卒中史等字段“是”或“否”,即可分别表示“0”或“1”;连续型数据转换比如血氧[95~99%、90~94%、85~89%、70~84%转换为“0”、“1”、“2”、“3”]、心率(次/分)[55~90、91~100、101~110、111~130、131~180转换为“0”、“1”、“2”、“3”、“4”]等。数据填充即对各健康项目的相关空值字段进行均值填充,用以提高模型训练的精准性。脑卒中风险类型标注为单一类别,即类别标签只对应风险类别集合(低危、中危、高危)中的一种。
[0038]
所述特征筛选单元30,用于基于iv值分析法筛选脑卒中特征数据,得到对模型预测价值较高的特征数据,组成数据集;
[0039]
iv值分析法衡量了某个特征对目标的影响程度,其基本思想是根据该特征所命中黑白样本的比率与总黑白样本的比率,来对比和计算其关联程度,对脑卒中标注样本数据进行上述iv值分析法得到筛选后的样本特征数据,有利于降低噪声信息的干扰,加快模型训练时的收敛速度以及减少时间开销。比如针对某一类目标人群的健康数据信息,经过iv值分析法最终选定出14个对脑卒中有较大影响的特征作为后续模型的输入变量,包括年龄、体重、吸烟史、酗酒史、血压、心率、血氧、房颤、颈动脉狭窄、肢体无力、症状持续时间、糖
尿病史、心血管疾病史、家族脑卒中史。
[0040]
所述模型建立单元40,用于利用基于逻辑回归的adaboost增强学习方法训练数据、建立融合模型;
[0041]
基于lr与adaboost融合模型由1个强分类器和多个弱分类器构成,其中弱分类器又由多个lr分类器构成,采用one
‑
vs
‑
rest形式进行分类,将脑卒中概率值最大的作为每个弱分类器的输出;每个弱分类器中lr分类器的个数等于脑卒中风险类别数。请参阅图2,所述模型建立单元40具体包括:
[0042]
弱分类子单元41:以多个lr分类器构建弱分类器,采用one
‑
vs
‑
rest形式,训练基于lr的第i个弱分类器;并根据分类错误率计算第i个弱分类器的输出权重值;将脑卒中概率值最大的作为每个弱分类器的输出,每个弱分类器中lr分类器的个数等于脑卒中风险类别数;
[0043]
具体的,设训练集表示为r={(t1,s1),
…
(t
k
,s
k
)},其中t
k
为第k个训练样本的特征,t
k
∈{t
k1
,t
k2
,
…
,t
kp
},t
kl
(l=1,2,
…
,p)为第k个样本特征的第l个元素,s
k
∈{1,2,3}为对应t
k
的脑卒中风险等级,即{低危、中危、高危},m为训练集样本个数,占总样本数据的80%;另外设置最大弱分类器个数g=60,学习率η1=0.8与η2=0.01、正则化参数λ=110、lr最大迭代次数n=100;
[0044]
初始化当前弱分类器索引i=1,初始化样本权重值为e
ik
=1/m,k∈[1,2,
…
,m],初始化强分类器h
fq
=0;设弱分类器c
i
由3个lr分类器构成,即c1,c2,c3,弱分类器c
i
的输出即a为每个弱分类中lr分类器的编号,其中w为回归系数,为分类器的输入;将m个训练样本数据作为输入,根据上述初始值利用梯度下降法调整回归系数,如下:
[0045][0046]
j=1,2,
…
p,如果第k样本为正样本,如果第k样本为负样本,因此经过训练获取基于lr的第i个弱分类器c
i
,i=1,2,
…
,g;计算以m个样本作为输入的弱分类器分类错误率(即训练样本被弱分类器误分类样本的权重值之和):
[0047][0048]
计算第i个弱分类器的输出权重值α
i
:α
i
=max(ln((1
‑
f
i
)/f
i
) ln2,0)。
[0049]
强分类子单元42:基于多个弱分类器更新强分类器,并计算强分类器分类的错误率;
[0050]
所述更新强分类器的表达式为:其中h
fq
为更新前的强分类器,为更新后的强分类器,η1∈[0,1]为学习率,α
j
为第j个弱分类器的输出权重值,为弱分类器的输入,l为argmax函数的返回值即脑卒中风险类别等级预测
值。
[0051]
计算强分类器分类的错误率的表达式为:其中sign为符号函数,t
k
为第k个训练样本的特征,如果第k样本为正样本,s
k
为对应t
k
的脑卒中风险等级,m为训练集样本个数。
[0052]
循环子单元43:判断是否达到循环结束条件,若是,结束循环,否则依据第i个弱分类器的分类错误率重新计算样本权重值,将新的样本权重值加入样本中进行训练;所述循环结束条件为判断强分类器的分类错误率是否为0,如果是则结束循环,否则判断弱分类器个数是否大于等于设定的弱分类器最大个数,如果是则结束循环。
[0053]
所述依据第i个弱分类器的分类错误率重新计算样本权重值,将新的样本权重值加入样本中具体包括:
[0054]
根据第i个弱分类器的分类错误率计算第i 1个弱分类器的新的样本权重值:e
i 1k
=e
ik
·
exp(α
i
·
[h
ifq
(t
k
)≠s
k
]),k∈[1,2,
…
,m],α
i
为第i个弱分类器的输出权重值,e
ik
为第i个弱分类器的第k个样本权重值,e
i 1k
为第i 1个弱分类器的第k个样本权重值;
[0055]
令i=i 1,处理样本新产生的权重值并进行归一化处理:
[0056]
所述模型预测单元50,用于通过融合模型对待测试的样本数据进行预测,得到脑卒中风险类别。
[0057]
通过比较发现,充分利用iv值分析筛选特征数据后,能够显著提高融合模型分类器的准确率,并且在训练过程中加快了模型的收敛速度,节约了计算时间成本,最终可提高预测模型的泛化能力;同时本发明以多个lr分类器构建弱分类器,采用one
‑
vs
‑
rest形式,训练基于lr的弱分类器,基于多个弱分类器构建强分类器,对脑卒中潜在风险的人群进行预测,可为患者以及临床医生提供一定帮助。脑卒中发病风险预测模型可以实现较早发现目标人群中的高危个体,对其提供预防措施有着重要意义。
[0058]
本发明还公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现本发明前述的方法。
[0059]
本发明还公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明实施例所述方法的全部或部分步骤。所述存储介质包括:u盘、移动硬盘、只议存储器rom、随机存取存储器ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0060]
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以分布到多个网络单元上。可以根据实际的衙要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0061]
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的
精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种脑卒中发病风险预测系统,其特征在于,所述系统包括:数据采集单元:用于采集目标人群健康数据信息并进行脱敏处理;预处理单元:用于标准化处理目标人群基本数据信息,标注脑卒中风险类别;特征筛选单元:用于基于iv值分析法筛选脑卒中特征数据,得到对模型预测价值高于预设阈值的特征数据,组成数据集;模型建立单元:用于利用基于逻辑回归的adaboost增强学习方法训练数据、建立融合模型;模型预测单元:用于通过融合模型对待测试的样本数据进行预测,得到脑卒中风险类别。2.根据权利要求1所述的脑卒中发病风险预测系统,其特征在于,所述数据采集单元中,所述目标人群健康数据信息包括姓名、性别、年龄、体重、职业、居住地、血压、心率、血氧、房颤、吸烟史、酗酒史、糖尿病史、心血管疾病史、家族脑卒中史、是否肥胖,以及是否有颈动脉狭窄伴随症状、肢体无力伴随症状、言语障碍伴随症状及对应的伴随症状持续时间。3.根据权利要求1所述的脑卒中发病风险预测系统,其特征在于,所述标准化处理包括:对不规整、不统一的数据进行类型转换,数据填充、数据删除操作;数据转换包括二值型数据转换、连续型数据转换。4.根据权利要求1所述的脑卒中发病风险预测系统,其特征在于,所述模型建立单元具体包括:弱分类子单元:以多个lr分类器构建弱分类器,初始化样本权重值,采用one
‑
vs
‑
rest形式,训练基于lr的弱分类器;将脑卒中概率值最大的作为每个弱分类器的输出,每个弱分类器中lr分类器的个数等于脑卒中风险类别数;计算弱分类器的输出权重值,第i个弱分类器的输出权重值α
i
为:α
i
=max(ln((1
‑
f
i
)/f
i
) ln2,0),f
i
为训练样本被弱分类器误分类样本的权重值之和;强分类子单元:基于多个弱分类器更新强分类器,并计算强分类器分类的错误率;循环子单元:判断是否达到循环结束条件,若是,结束循环,否则依据第i个弱分类器的分类错误率重新计算样本权重值,将新的样本权重值加入样本中进行训练;所述循环结束条件为判断强分类器的分类错误率是否为0,如果是则结束循环,否则判断弱分类器个数是否大于等于设定的弱分类器最大个数,如果是则结束循环。5.根据权利要求4所述的脑卒中发病风险预测系统,其特征在于,所述更新强分类器的表达式为:其中a为每个弱分类中lr分类器的编号,h
fq
为更新前的强分类器,为更新后的强分类器,η1∈[0,1]为学习率,α
j
为第j个弱分类器的输出权重值,为弱分类器的输入,为argmax函数的返回值即脑卒中风险类别等级预测值。6.根据权利要求5所述的脑卒中发病风险预测系统,其特征在于,计算强分类器分类的错误率的表达式为:其中sign为符号函数,t
k
为第k个训练样本的特征,如果第k样本为正样本,s
k
为对应t
k
的脑卒中风险等级,m为训练集样本个数。
7.根据权利要求1所述的脑卒中发病风险预测系统,其特征在于,所述依据第i个弱分类器的分类错误率重新计算样本权重值,将新的样本权重值加入样本中具体包括:根据第i个弱分类器的分类错误率计算第i 1个弱分类器的新的样本权重值:e
i 1k
=e
ik
·
exp(α
i
·
[h
ifq
(t
k
)≠s
k
]),k∈[1,2,
…
,m],α
i
为第i个弱分类器的输出权重值,e
ik
为第i个弱分类器的第k个样本权重值,e
i 1k
为第i 1个弱分类器的第k个样本权重值;处理样本新产生的权重值并进行归一化处理。8.一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如权利要求1~7任一项所述的系统。9.一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现权利要求1~7任一项所述的系统。
技术总结
本发明公开一种脑卒中发病风险预测系统,所述系统包括:数据采集单元:用于采集目标人群健康数据信息并进行脱敏处理;预处理单元:用于标准化处理目标人群基本数据信息,标注脑卒中风险类别;特征筛选单元:用于基于IV值分析法筛选脑卒中特征数据,得到对模型预测价值较高的特征数据,组成数据集;模型建立单元:用于利用基于逻辑回归的Adaboost增强学习方法训练数据、建立融合模型;模型预测单元:用于通过融合模型对待测试的样本数据进行预测,得到脑卒中风险类别。本发明基于目标人群健康数据信息实现对脑卒中风险类别的精准分析,可提升发病风险预测效率。发病风险预测效率。发病风险预测效率。
技术研发人员:李宗博 杜冰洋 陈伯怀
受保护的技术使用者:吾征智能技术(北京)有限公司
技术研发日:2021.03.03
技术公布日:2021/6/29
转载请注明原文地址:https://doc.8miu.com/read-1323.html