用于医学书籍的内容解析系统、方法、设备及介质与流程

专利2025-03-07 60

本申请涉及医学书籍解析，尤其涉及一种用于医学书籍的内容解析系统、方法、设备及介质。

背景技术：

1、随着信息技术的快速发展，数字化、结构化的数据格式已成为知识管理和分析的基础。医学领域拥有大量的实体医学书籍，这些书籍蕴含着丰富的医学知识和经验。然而，这些书籍通常以纸质或不可编辑的数字形式存在，难以直接进行高效的知识分类和分析。

2、现有的，涉及书籍内部解析的方案：一种基于深度学习的中文纸质书籍阅读方法及设备，中文语音合成模型的训练，通过训练样本集并采用有监督学习的训练方法对模型进行训练，得到中文语音合成模型；利用摄像头设备通过无线传输或有线传输获取清晰的纸质图书的正面页面的图像；对图像进行边缘检测获取图像的边缘图像，使边缘图像位于正中央得到预处理图像；双页图书的判断及分割；若为单页则对预处理后的图像文字识别，对图像进行识别并输出结果。

3、但是，上述检测方案仅适用纯文字书籍，由于医学书籍的特殊性，医学数据常常涉及较多医疗图像、医疗表格。现有的书籍的检测技术无法同时进行医疗数据、医疗图像和医疗表格检测。

技术实现思路

1、针对现有技术的上述不足，本申请提供一种用于医学书籍的内容解析系统、方法、设备及介质，以解决现有的书籍的内容检测技术无法同时进行医疗数据、医疗图像和医疗表格检测的问题。

2、第一方面，本申请提供了一种用于医学书籍的内容解析系统，系统包括：版面识别模块，用于获取当前页医学图像，并进行版面识别，以获得当前页医学图像对应的版面信息和位置信息；其中，版面信息由版面子信息组成，且版面子信息分为：正文、标题、图像、表格、公式，位置信息为各个版面子信息的坐标区域；图像提取模块，用于基于当前页医学图像对应的版面信息和位置信息，从当前页医学图像中提取子图像；其中，子图像至少包括以下任意一项或多项：正文子图像、标题子图像、图像子图像、表格子图像和公式子图像；文字检测模块，用于检测当前页医学图像中是否存在文字类子图像，以生成检测结果；其中，文字类子图像为正文子图像、标题子图像和公式子图像；检测结果包括存在文字和不存在文字；文字处理模块，用于当检测结果为存在文字时，通过文本识别模型，从文字类子图像中获得第一文本内容；表格处理模块，用于在存在表格子图像时，通过表格解析模型，结构化重构表格子图像，以获得表格子图像对应的第二文本内容；图像处理模块，用于在当前页医学图像存在图像子图像时，将图像子图像处理为预设格式的标准图像；文字填充模块，用于基于当前页医学图像对应的版面信息和位置信息，从数据库中获得当前页医学图像对应的填充模板；基于当前页医学图像对应的版面信息和位置信息，将提取数据，填充至填充模板对应位置处，以获得最终数据；其中，提取数据至少包括以下任意一项或多项：第一文本内容、第二文本内容、标准图像。

3、进一步地，文字检测模块包括结果生成单元，用于在检测到子图像中包含文字类子图像时，确定检测结果为存在文字；在检测到子图像中不包含文字类子图像时，确定检测结果为不存在文字。

4、进一步地，文字处理模块包括第一ocr单元，用于通过ocr技术，从文字类子图像中获得第一文本内容；表格处理模块包括第二ocr单元，用于通过ocr技术，结构化重构表格子图像，以获得表格子图像对应的第二文本内容。

5、进一步地，文字填充模块包括填充模板获取单元，用于通过预设界面获取填充模板和填充模板信息；其中，填充模板信息至少包括：版面信息和位置信息。

6、第二方面，本申请提供了一种用于医学书籍的内容解析方法，方法包括：获取当前页医学图像，并进行版面识别，以获得当前页医学图像对应的版面信息和位置信息；其中，版面信息由版面子信息组成，且版面子信息分为：正文、标题、图像、表格、公式，位置信息为各个版面子信息的坐标区域；基于当前页医学图像对应的版面信息和位置信息，从当前页医学图像中提取子图像；其中，子图像至少包括以下任意一项或多项：正文子图像、标题子图像、图像子图像、表格子图像和公式子图像；检测当前页医学图像中是否存在文字类子图像，以生成检测结果；其中，文字类子图像为正文子图像、标题子图像和公式子图像；检测结果包括存在文字和不存在文字；当检测结果为存在文字时，通过文本识别模型，从文字类子图像中获得第一文本内容；在存在表格子图像时，通过表格解析模型，结构化重构表格子图像，以获得表格子图像对应的第二文本内容；在当前页医学图像存在图像子图像时，将图像子图像处理为预设格式的标准图像；基于当前页医学图像对应的版面信息和位置信息，从数据库中获得当前页医学图像对应的填充模板；基于当前页医学图像对应的版面信息和位置信息，将提取数据，填充至填充模板对应位置处，以获得最终数据；其中，提取数据至少包括以下任意一项或多项：第一文本内容、第二文本内容、标准图像。

7、进一步地，检测当前页医学图像中是否存在文字类子图像，以生成检测结果，具体包括：在检测到子图像中包含文字类子图像时，确定检测结果为存在文字；在检测到子图像中不包含文字类子图像时，确定检测结果为不存在文字。

8、进一步地，通过文本识别模型，从文字类子图像中获得第一文本内容，具体包括：通过ocr技术，从文字类子图像中获得第一文本内容；在存在表格子图像时，通过表格解析模型，结构化重构表格子图像，以获得表格子图像对应的第二文本内容，具体包括：用于通过ocr技术，结构化重构表格子图像，以获得表格子图像对应的第二文本内容。

9、进一步地，在基于当前页医学图像对应的版面信息和位置信息，从数据库中获得当前页医学图像对应的填充模板之前，方法还包括：通过预设界面获取填充模板和填充模板信息；其中，填充模板信息至少包括：版面信息和位置信息。

10、第三方面，本申请提供了一种用于医学书籍的内容解析设备，设备包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被执行时，使得处理器执行如上述任一项的一种用于医学书籍的内容解析方法。

11、第四方面，本申请提供了一种非易失性计算机存储介质，其上存储有计算机指令，计算机指令在被执行时实现如上述任一项的一种用于医学书籍的内容解析方法。

12、本领域技术人员能够理解的是，本申请至少具有如下有益效果：

13、本申请涉及版面识别模块能够识别当前页医学图像存在的正文、标题、图像、表格、公式（子图像）。进而根据子图像的不同，调用不同的模块，进行数据、图像、表格的处理。解决了现有的书籍的内容检测技术无法同时进行医疗数据、医疗图像和医疗表格检测的问题。

14、另外，本申请包括文字填充模块，能够获得最终数据，实现了整合各模块输出结果，并进行版面结构化解析，完成结果（最终数据）输出。

技术特征：

1.一种用于医学书籍的内容解析系统，其特征在于，所述系统包括：

2.根据权利要求1所述的用于医学书籍的内容解析系统，其特征在于，文字检测模块包括结果生成单元，

3.根据权利要求1所述的用于医学书籍的内容解析系统，其特征在于，文字处理模块包括第一ocr单元，

4.根据权利要求1所述的用于医学书籍的内容解析系统，其特征在于，文字填充模块包括填充模板获取单元，

5.一种用于医学书籍的内容解析方法，其特征在于，所述方法包括：

6.根据权利要求5所述的用于医学书籍的内容解析方法，其特征在于，检测当前页医学图像中是否存在文字类子图像，以生成检测结果，具体包括：

7.根据权利要求5所述的用于医学书籍的内容解析方法，其特征在于，

8.根据权利要求5所述的用于医学书籍的内容解析方法，其特征在于，在基于当前页医学图像对应的版面信息和位置信息，从数据库中获得当前页医学图像对应的填充模板之前，所述方法还包括：

9.一种用于医学书籍的内容解析设备，其特征在于，所述设备包括：

10.一种非易失性计算机存储介质，其特征在于，其上存储有计算机指令，所述计算机指令在被执行时实现如权利要求5-8任一项所述的一种用于医学书籍的内容解析方法。

技术总结
本申请公开了一种用于医学书籍的内容解析系统、方法、设备及介质，主要涉及医学书籍解析技术领域，用以解决现有的书籍的内容检测技术无法同时进行医疗数据、医疗图像和医疗表格检测的问题。包括：版面识别模块，用于获取版面信息和位置信息；图像提取模块，用于从当前页医学图像中提取子图像；文字检测模块，用于生成检测结果；文字处理模块，用于从文字类子图像中获得第一文本内容；表格处理模块，用于获得表格子图像对应的第二文本内容；图像处理模块，用于将图像子图像处理为预设格式的标准图像；文字填充模块，用于从数据库中获得当前页医学图像对应的填充模板；将提取数据，填充至填充模板对应位置处，以获得最终数据。

技术研发人员：金剑,邓小宁,李凤荣,李振刚,孙志强,王萌
受保护的技术使用者：北方健康医疗大数据科技有限公司
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1816995.html

专利

最新回复(0)