健康医疗大数据平台的制作方法

专利2022-05-09 44

1.本发明涉及医疗大数据处理技术领域，尤其涉及一种健康医疗大数据平台。

背景技术：

2.随着信息技术和人类生产生活交汇融合，互联网快速普及，全球大数据呈现爆发增长、海量集聚的特点，对经济发展、社会治理、国家管理、人民生活都产生了重大影响。医疗行业每天都在产生大量体检数据，正是大数据应用的重要领域，健康医疗大数据平台的建设事业方兴未艾。然而，国内在医疗大数据平台建设方面目前还停留在初期阶段，数据清洗，数据存储，数据挖掘分析及应用方面还需进一步的探索。

技术实现要素：

3.本发明主要目的在于提供一种健康医疗大数据平台，实现对健康医疗数据进行匿名化处理、清洗、存储、解析、展示及应用。
4.本发明所采用的技术方案是：
5.提供一种健康医疗大数据平台，其特征在于，该数据平台的逻辑架构从上至下依次包括业务应用层、数据接入层、数据服务层、数据分析层、数据存储层和基础实施层；其中：
6.业务应用层，用于支持浏览器的访问及linux系统服务器的访问；
7.数据接入层，用于支撑业务应用层的相关服务，通过负载均衡策略对资源合理分配，并提供对外服务的统一访问规则；
8.数据服务层，用于为数据接入层进入平台后呈现具体的图形化界面，主要实现以下功能：数据检索、数据集管理、数据统计、知识管理、元数据管理、术语集管理、数据录入、大屏展示、大屏管理、中心配置。
9.数据分析层，用于对数据存储层存储的医疗大数据进行处理，在统一任务调度的前提下，提供分布式计算引擎和实时流计算引擎；
10.数据存储层，用于执行健康医疗大数据批量存储，并支持海量数据多台服务器统计计算，将健康医疗大数据处理后形成结构化数据以及海量列式数据，以提供前端web查询搜索；
11.基础实施层，作为数据平台的基础硬件支撑，包括数据库集群服务器、路由器、交换机、防火墙。
12.接上述技术方案，数据服务层的数据检索包括基础检索和高级检索；数据集管理包括对健康医疗大数据的数据集合、人群管理、分组管理和数据收藏；数据统计包括报表统计、数据分析、数据可视化和数据获取。
13.接上述技术方案，数据服务层的知识管理包括对健康医疗大数据的关键字管理、数据项管理和数据项验证修改，建立健康医疗大数据的标准化体系；元数据管理包括基础变量管理、派生变量管理，将不同医院或体检机构的医疗数据进行指标归一化处理及质量
控制，建立质量控制的标准；术语集管理包括术语集匹配和其他标准的管理；数据录入包括数据文件、数据协议文件的导入、质检和管理；大屏展示主要为数据展示页面，可以查看某一地区、某种类型的疾病患病情况、人均分布情况或者历年患病趋势图；大屏管理包括管理数据的接入信息、数据治理信息、数据应用信息，其中数据应用信息包括根据需求展示数据的分布地区、疾病患病率趋势图、合作医院；配置中心主要进行机构管理、角色管理、账户设置、功能点管理、权限设置、个人中心管理和logo管理；
14.接上述技术方案，数据服务层的知识管理建立的标准化体系，具体结合数据样本的临床表型解析并开发一套疾病诊断逻辑规则，对样本的病史、症状、体征、实验室检查、影像学检查的各种数据通过关键字库匹配、诊断标准数值判断和诊断思路综合逻辑判断，将疾病及其相关挖掘指标定义成数据项并进行分类。
15.接上述技术方案，分布式计算引擎通过spark计算实现，实时流计算引擎是通过storm和spark stream计算实现。
16.接上述技术方案，数据存储层包括mysql集群、hdfs分布式文件系统、hbase数据库集群。
17.接上述技术方案，健康医疗大数据为多元化数据，包括体检数据、临床数据、临床医嘱、病案首页、生物样本。
18.接上述技术方案，数据服务层采用tomcat应用服务器实现，响应html页面的访问请求，实现轻量级应用web服务。
19.本发明产生的有益效果是：本发明建立了一种健康医疗大数据平台，主要包括业务应用层、数据接入层、数据服务层、数据分析层、数据存储层、基础设施层。该健康医疗大数据平台通过上述六层架构对健康医疗数据进行匿名化处理、清洗、存储、解析、展示及应用，并通过一套逻辑算法在平台上建立流行病学人群进行统计学分析，为流行病学科学研究打下坚实的基础。本发明还建立了一套完善的逻辑对体检数据进行疾病的智能诊断，本数据平台为推动我国人类疾病科学大数据发展及解决医疗卫生领域复杂问题提供了重要的平台支撑与保障。
附图说明
20.下面将结合附图及实施例对本发明作进一步说明，附图中：
21.图1是本发明实施例的数据共享平台整体逻辑架构示意图；
22.图2是本发明实施例的数据共享平台业务应用层示意图；
23.图3是本发明实施例的数据共享平台数据接入层示意图；
24.图4是本发明实施例的数据共享平台数据服务层示意图；
25.图5是本发明实施例的数据共享平台数据分析层示意图；
26.图6是本发明实施例的数据共享平台数据存储层示意图；
27.图7是本发明实施例的数据共享平台基础设施层示意图。
具体实施方式
28.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不
用于限定本发明。
29.如图1所示，健康医疗大数据平台是由多个子模块构成的、各个子模块之间协作完成整个健康医疗大数据的数据应用。建设健康管理大数据平台，逻辑上主要由6层组成。该数据平台的逻辑架构从上至下依次包括业务应用层、数据接入层、数据服务层、数据分析层、数据存储层、基础设施层。
30.业务逻辑层是提供用户界面登录到医疗大数据平台，所呈现出来的是数据服务层的具体模块；数据接入层是运用在数据服务层基础上，能够提供统一的网关策略以及服务器之间的负载均衡，有效保障服务器的安全性问题和服务器访问压力；所设计的数据服务层为医疗大数据平台主要的操作使用界面，而数据分析层则是给数据服务层提供检索、统计计算、数学分析、任务调度等技术实现方式；在数据分析层上对数据服务层所产生的结果，保存到数据存储层，建立在基础设施层之上；基础设施层提供的是医疗大数据平台的硬件支撑。首先需要说明的是，本发明的大数据平台是建立在如图1所示的特殊设计的系统架构体系之上的，平台中每一个功能模块都能得到本发明的技术架构体系支撑，形成了一个完整的系统应用。由图1中可以看出，每一层之间的关联关系，与之相匹配的是具体的框架(规范)和架构(结构)，根据不同的需求，再来决定具体选用何种技术实现。本发明针对的健康医疗数据主要有：体检数据、病案首页、临床数据、生物样本四种数据形态，基本上囊括了医疗数据里边所有的数据的形态，数据多样化和数据体量大，针对这些特点，本发明设计的大数据平台能够提供多数据源的数据应用，这也是其它系统无法支撑的。
31.具体地，业务应用层：主要是为了支持chrome(谷歌)浏览器、firefox(火狐)浏览器、ie 8.0及以上版本浏览器、qq浏览器、opera浏览器、safari浏览器等主流浏览器进行访问；linux系统服务器访问。
32.数据接入层：是为了提供业务应用层的相关服务的支撑，包括：服务构建、服务支撑、应用开发框架等；统一服务访问提供了对外服务的统一访问规则。
33.数据服务层：其功能为数据接入层进入平台系统后所呈现的具体功能，具体模块为：数据检索模块、数据集管理模块、数据统计模块、知识管理模块、元数据管理模块、术语集管理模块、数据录入模块、大屏展示模块、大屏管理模块、配置中心模块。
34.数据分析层：提供了统一的分布式计算引擎、实时流计算引擎；针对医疗大数据提供了高效的计算方式；
35.数据存储层：提供了统一的数据存储，主要由mysql集群、hdfs分布式文件系统、hbase数据库集群；
36.基础实施层：基础设置层主要是包括基础设施硬件，如数据库服务器、路由器、交换机、防火墙。
37.如图2所示为本发明实施例业务应用层示意图：数据共享平台最终呈现的方式在pc端(主要针对windows系统)以及linux系统服务器上进行使用；其中使用html、css等技术实现不同浏览器页面展示，从而保证了数据共享平台的通用性和可移植性。
38.图3为本发明实施例数据接入层示意图：haproxy是一款专业提供高可用性、负载均衡以及基于tcp(第四层)和http(第七层)应用的反向代理软件，haproxy是完全免费的、借助haproxy可以快速并且可靠的提供基于tcp和http应用的代理解决方案。需要说明的是：作为一个医疗系统而言，医疗数据属于核心机密，既要保证平台的安全，也要保障平台
的使用效率和用户体验感(内部实现负载均衡)，而haproxy最大的优势就是这两方面；目前能够实现此功能的技术有haproxy,nginx,lvx，lvx适合做大型并发量，更适合大型的应用系统(类似与京东，淘宝这种上亿级人群)，另一方面，haproxy比lvx更轻便。而nginx相对与haproxy来说，安全性要求没这么高，nginx不支持url检测，且在并发处理上是优于nginx的；同时，haproxy有网络监控服务，可以在毫秒级中查看服务器连接状态，针对后期整个系统维护非常友好。所以，从安全性、使用便捷性、后期运维、系统访问人数、用户体验等多方面来选择haproxy技术。支持负载较大的web站点以及数万计的并发连接，与此同时可以保护web服务器不被暴露到网络上，安全性高。使用haproxy对平台中的ftp服务器(数据上传)、mysql集群、hdfs分布式系统、hbase集群，进行负载均衡策略，做到资源分配合理化，提高平台运行效率，增加用户体验。统一的api网关，减少网络攻击，有效保障服务器安全。
39.图4为本发明实施例数据服务层示意图：此模块为数据共享平台中用户主要使用的图形化界面；应用开发框架主要包括：界面设计、交互设计、通用模板、应用框架、集成bi。平台整体服务为tomcat应用服务器，其技术特点为：响应html(标准通用标记语言下的一个应用)页面的访问请求，轻量级应用web服务，tomcat运行时占用的系统资源小，扩展性好，支持负载均衡与邮件服务等开发应用系统常用的功能。
40.通过tomcat实现的功能包括：数据检索模块、数据集管理模块、数据统计模块、知识管理模块、元数据管理模块、术语集管理模块、数据录入模块、大屏展示模块、配置中心模块。
41.数据检索模块的功能是：根据不同的医疗数据类型(体检数据、病案首页、临床数据、生物样本)、时间、机构编码、机构地区、身份唯一码作为查询条件，查询出结果。从查询结果中可以根据不同类型的数据，与时间轴相结合，可以在线预览和下载用户的体检报告和临床报告，使用饼状图和线性图展示用户的患病数量和该疾病所属系统(例如：内分泌系统、呼吸系统、消化系统等等)；并且，点击图形中具体患病信息，可以在线查看所患疾病详细的指标变化情况，与医学上所定义好的标准术语值(通过医疗数据所建立的标准术语(由医学上所制定的一套标准例如：白细胞计数_计量(参考值标准0
‑
10)，合法值范围0
‑
500))进行对比，从而将超出合法值范围的指标项进行高亮显示。能够让使用人员醒目注意到数据指标的变化，以及该疾病的判断因素，大大提高了疾病研究效率。不仅如此，还可以将对该体检数据和临床数据进行溯源(查看原始数据)，从数据本身出发做到具体分析。前端(web)页面采用echarts框架技术，用于图形化展示与数据绑定，支持图形多样化，丰富的api，提供直观、生动、可交换、可高度个性化定制的数据可视化图表；后端采用java itext
‑
pdfstamper技术，将体检报告和临床报告以pdf格式下载到页面，能够使用代码调整样式，代码维护较为方便，开发力度小。
42.数据检索采用大数据hive分桶技术，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql(structured query language)查询功能，可以将sql语句转换为mapreduce(mapreduce是面向大数据并行处理的计算模型、框架和平台)任务进行运行。从而在进行大数据查询和多条件操作的时候，大大提高了数据查询效率，比传统技术框架执行效率更快，支持海量数据。
43.数据集管理模块的功能是：通过医疗数据所建立的标准术语(由医学上所制定的一套标准例如：白细胞计数_计量(参考值标准0
‑
10)，合法值范围0
‑
500)和数据项(定义某
种疾病其中的一种指标，例如：定义男性肥胖的数据项规则为：腰围≥90cm,体质指数≥25kg/m2)进行数据的收藏，人群的分类等。前端页面采用ant
‑
design、element
‑
ui等框架实现，其技术特点为：ant
‑
design是一个ui框架，组件丰富，使用简单，提高开发效率；引入element
‑
ui框架，提高大数据加载树形结构展示效率。后端具体由springdata
‑
jpa、springbooot等框架实现，其技术特点为：springdata
‑
jpa是spring基于orm(object relational mapping)框架、jpa(java persistence api)规范的基础上封装的一套jpa应用框架，底层使用了hibernate的jpa技术实现，可使开发者用极简的代码即可实现对数据的访问和操作。它提供了包括增删改查等在内的常用功能，且易于扩展,极大提高开发效率。springboot框架可以快速构建项目，对主流开发框架的无配置集成，提供运行时的应用监控，极大地提高了开发和部署效率。
44.数据统计模块的功能是：展示疾病流行情况，主要用于流行病学研究和统计，根据研究不同人群，并建立数学分析模型，包括t检验分析，方差分析，卡方分析，描述性分析，简单回归与相关等。采用python编程技术，强大的标准库，能够处理各种工作，包括正则表达式、文档生成、单元测试、线程、数据库、网页浏览器、cgl、ftp、电子邮件、xml、xml
‑
rpc、html、wav文件、密码系统、gu(图形用户界面)tk和其他与系统有关的操作。同时具有可移植性，无需依赖其它操作系统；从而显著提高数据统计模块的功能开发效率和使用效率。
45.知识管理模块的功能是：在数据仓库(将不同类型的医疗数据进行数据清洗后的数据的集合)基础上建立健康医疗大数据的标准化体系，结合数据样本的临床表型解析并开发一套疾病诊断逻辑规则，即对该样本的病史、症状、体征、实验室检查、影像学检查等特殊检查等各种数据通过关键字库匹配、诊断标准数值判断、和诊断思路综合逻辑判断，将疾病及其相关挖掘指标定义成数据项分为三种类型：文本型，数值型/等级型/分类型，组合型。文本型通过匹配关键字库的方式挖掘并建立相关的关键字库进行统一管理与使用，数值型通过在相应标准术语里判断数值大小的方式挖掘，组合型通过文本型与数值型的数据项之间不同的逻辑算法组合的方式挖掘，对体检数据进行各种疾病的自动解析并可生成相应报表展示疾病流行特征。前端页面采用vue框架实现，轻量级开发，可以完全脱离服务器端，模块化组件，可以快速搭建页面；后端主要搭建了zookeeper分布式应用程序协调服务，主要应用于配置维护、分布式同步、从而保证了知识库数据诊断功能的稳定性和高效性。
46.元数据管理模块的功能是:用于上传与管理不同医院或体检机构的医疗数据并进行指标归一化处理及质量控制(从医院获取到的数据后，需要对数据进行数据清洗，将清洗好的数据，根据医学和国际上所制定的一套规则和标准，将数据进行分类处理)，建立了一套质量控制的标准。通过ftp服务器上传数据，能够做到断点续传，不受工作组与ip地址限制，基于网络传输，可以对数据进行加密，更好保护数据的安全性。
47.术语集管理模块的功能是：管理国际化医疗的专业用语，通过vue
‑
i18n技术实现国际化管理。
48.数据录入模块的功能是：管理上传文件时记录的信息(数据导入，数据质检，质检次数)等。其中数据质检主要是将导入的文件数据进行校验，判断文件的一些基本内容，比如说：有没有根据系统模板进行导入，文件内容是否为空，文件列是否与模板文件一致等等。通过hikaricp数据库连接池技术，高并发读写数据录入，支持高吞吐量，网络连接稳定，减少cpu使用效率。
49.大屏展示模块的功能是：主要为数据展示页面，可以清晰、直观的查看某一地区、某种类型的疾病患病情况、人均分布情况、历年患病趋势图等信息。前端(web)页面采用echarts框架技术以及d3.js技术实现患病网络分布图，疾病地区柱状图展示、疾病发展趋势折线图展示。
50.大屏管理模块的功能是：管理数据的接入信息、数据治理信息、数据应用信息(数据分布地区展示、疾病患病率趋势图展示、合作医院展示)等。通过springdatajpa技术，配置多数据源，将数据存储到mysql、hbase数据库中。数据治理信息主要包括数据没有清洗之前的数据和清洗之后的变化量。
51.配置中心模块的功能是：管理平台用户信息(个人设置、角色管理、权限设置、机构管理、账号管理、logo配置)。主要对平台现有的模块进行资源配置及分配不同机构的数据权限与功能权限并统一管理不同账号。通过shiro框架实现健康医疗大数据平台用户的认证、用户访问控制，用户授权、加密、会话管理、web集成、缓存等功能。
52.图5是本发明实施例数据分析层示意图；spark核心是rdd(分布式对象集合)具有高效的容错性，可以进行数据复制或者记录日志，可以将中间结果持久化到内存中，数据在内存中进行多个rdd操作之间的传递，加载磁盘读写开销，提高性能。spark streaming是spark core api的扩展，支持实时数据流的处理，并且具有可扩展，高吞吐量，容错的特点。数据可以从许多来源获取，如kafka，flume，kinesis或tcp sockets，并且可以使用复杂的算法进行处理，这些算法使用诸如map，reduce，join和window等高级函数表示。最后，处理后的数据可以推送到文件系统，数据库等。实际上，可以将spark的机器学习和图形处理(graph processing)算法应用于数据流。storm是一个免费并开源的分布式实时数据流处理框架。利用storm可以很容易做到可靠地处理无限的数据流，像hadoop批量处理大数据一样，storm可以实时处理数据。storm简单，可以使用任何编程语言。在数据分析层中，采用workflow工作流处理，在统一任务调度的前提下，提供了分布式计算引擎和实时流计算引擎。其中分布式计算引擎是通过spark计算实现，实时流计算引擎是通过storm和spark stream计算实现。
53.图6是本发明实施例数据存储层示意图；由大数据presto分布式sql查询引擎，适用于交互式分析查询，数据量支持gb到pb字节，在健康医疗大数据平台中，可以在mysql数据库、hdfs文件系统，hbase数据存储系统，等多数据源查询；使用mysql关系型数据库集群，存储平台中的基础数据(用户信息，文件信息等)；使用hdfs分布式文件系统来执行数据批量导入到平台后，支持海量数据多台服务器统计计算；hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。用于存储结构化数据以及海量列式数据(诊断完成后的数据)，提供前端web查询搜索。
54.图7是本发明实施例基础设施层示意图；基础设施层主要包括数据库集群服务器、路由器、交换机、防火墙。
55.本发明实现了多元化数据(体检数据、临床数据、临床医嘱、病案首页、生物样本)应用。通过不同类型的数据进行挖掘、统计和分析。方便、快捷、安全、有效地持续性和智能化管理，能够对健康问题作出预测和指导，提高了健康保健和疾病的防范意识，实现了全方位的实时个人健康大数据管理的目标。
56.本发明还实现了各种类型疾病统一处理流程，从之前的单一报表呈现数据方式，
完善了数据的接入、处理、统计、分析、报表、报告、分享等一系列数据应用，增强了研究员与数据的交互性，同时提升实时性。增加了研究人员与数据分析结果的互动，所见即所得，真正做到一份数据，适配各种场景展现，满足多种业务需求。
57.应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

技术特征：
1.一种健康医疗大数据平台，其特征在于，该数据平台的逻辑架构从上至下依次包括业务应用层、数据接入层、数据服务层、数据分析层、数据存储层和基础实施层；其中：业务应用层，用于支持浏览器的访问及linux系统服务器的访问；数据接入层，用于支撑业务应用层的相关服务，通过负载均衡策略对资源合理分配，并提供对外服务的统一访问规则；数据服务层，用于为数据接入层进入平台后呈现具体的图形化界面，主要实现以下功能：数据检索、数据集管理、数据统计、知识管理、元数据管理、术语集管理、数据录入、大屏展示、大屏管理、中心配置；数据分析层，用于对数据存储层存储的医疗大数据进行处理，在统一任务调度的前提下，提供分布式计算引擎和实时流计算引擎；数据存储层，用于执行健康医疗大数据批量存储，并支持海量数据多台服务器统计计算，将健康医疗大数据处理后形成结构化数据以及海量列式数据，以提供前端web查询搜索；基础实施层，作为数据平台的基础硬件支撑，包括数据库集群服务器、路由器、交换机、防火墙。2.根据权利要求1所述的健康医疗大数据平台，其特征在于，数据服务层的数据检索包括基础检索和高级检索；数据集管理包括对健康医疗大数据的数据集合、人群管理、分组管理和数据收藏；数据统计包括报表统计、数据分析、数据可视化和数据获取。3.根据权利要求1所述的健康医疗大数据平台，其特征在于，数据服务层的知识管理包括对健康医疗大数据的关键字管理、数据项管理和数据项验证修改，建立健康医疗大数据的标准化体系；元数据管理包括基础变量管理、派生变量管理，将不同医院或体检机构的医疗数据进行指标归一化处理及质量控制，建立质量控制的标准；术语集管理包括术语集匹配和其他标准的管理；数据录入包括数据文件、数据协议文件的导入、质检和管理；大屏展示主要为数据展示页面，可以查看某一地区、某种类型的疾病患病情况、人均分布情况或者历年患病趋势图；大屏管理包括管理数据的接入信息、数据治理信息、数据应用信息，其中数据应用信息包括根据需求展示数据的分布地区、疾病患病率趋势图、合作医院；配置中心主要进行机构管理、角色管理、账户设置、功能点管理、权限设置、个人中心管理和logo管理。4.根据权利要求3所述的健康医疗大数据平台，其特征在于，数据服务层的知识管理主要建立标准化体系，具体结合数据样本的临床表型解析并开发一套疾病诊断逻辑规则，对样本的病史、症状、体征、实验室检查、影像学检查的各种数据通过关键词库匹配、诊断标准数值判断和诊断思路综合逻辑判断，将疾病及其相关挖掘指标定义成数据项并进行分类。5.根据权利要求1所述的健康医疗大数据平台，其特征在于，分布式计算引擎通过spark计算实现，实时流计算引擎是通过storm和spark stream计算实现。6.根据权利要求1所述的健康医疗大数据平台，其特征在于，数据存储层包括mysql集群、hdfs分布式文件系统、hbase数据库集群。7.根据权利要求1
‑
6中任一项所述的健康医疗大数据平台，其特征在于，健康医疗大数据为多元化数据，包括体检数据、临床数据、临床医嘱、病案首页、生物样本。8.根据权利要求1
‑
6中任一项所述的健康医疗大数据平台，其特征在于，数据服务层采
用tomcat应用服务器实现，响应html页面的访问请求，实现轻量级应用web服务。
技术总结
本发明公开了一种健康医疗大数据平台，该数据平台的逻辑架构从上至下依次包括业务应用层、数据接入层、数据服务层、数据分析层、数据存储层和基础实施层。本发明通过一套逻辑算法在平台上建立流行病学人群进行统计学分析，为流行病学科学研究打下坚实的基础。并通过完善的逻辑对体检数据进行处理展示，为疾病的智能诊断提供可靠的数据基础。能诊断提供可靠的数据基础。能诊断提供可靠的数据基础。

技术研发人员：李红良张晓晶刘艳琼
受保护的技术使用者：武汉大学
技术研发日：2021.04.01
技术公布日：2021/7/15

转载请注明原文地址:https://doc.8miu.com/read-650392.html

专利

最新回复(0)