一种提高ocr识别医疗费用清单效率的预处理方法和系统与流程

专利2026-05-10  14


本发明涉及医疗费用清单数据处理,具体涉及一种提高ocr识别医疗费用清单效率的预处理方法和系统。


背景技术:

1、在商保中,一般医疗费用清单都是通过ocr识别清单内容,然后保险再根据清单内容进行数据项核准报销。

2、目前,由于用户上传的文件中,有很多不是医保结算清单的文件,导致ocr需要识别很多无关文件图片,这增加了ocr识别压力,也影响了ocr识别医疗费用清单的效率。


技术实现思路

1、为此,本发明提供一种提高ocr识别医疗费用清单效率的预处理方法和系统,在ocr识别前预处理,将医疗费用清单外的文件筛选掉,只将医疗费用清单文件传输给ocr识别,解决了ocr识别压力大,识别效率低的问题。

2、为了实现上述目的,本发明提供如下技术方案:一种提高ocr识别医疗费用清单效率的预处理方法,包括:

3、调用ocr文件筛选模块,对上传的文件进行格式匹配筛选,对指定格式的文件进行过滤得到识别文件对象;对过滤后得到的所述识别文件对象,采用读取文件头与已知文件头签名匹配的方法确定文件类型;

4、调用费用清单筛选模块,根据医院既有医疗费用清单数据,计算一年中医疗费用清单的大小极值,确定医院的医疗费用清单大小范围,对超出医院医疗费用清单大小范围的文件进行过滤。

5、作为一种提高ocr识别医疗费用清单效率的预处理方法优选方案,所述指定格式,包括手写字体文件格式、音频文件格式、视频文件格式和加密文件格式。

6、作为一种提高ocr识别医疗费用清单效率的预处理方法优选方案,所述手写字体文件格式包括will、ink、myscript格式;所述音频文件格式包括mp3、wav、flac格式;所述视频文件格式包括avi、mp4、mov格式;所述加密文件格式包括pdf密码保护文件、加密zip文件等需要密码的文件格式。

7、作为一种提高ocr识别医疗费用清单效率的预处理方法优选方案,所述读取文件头是通过编程语言的文件操作功能,对文件的开头若干字节进行读取,读取后与已知的文件头签名匹配。

8、作为一种提高ocr识别医疗费用清单效率的预处理方法优选方案,使用线性回归模型,训练一个模型来计算医疗费用清单的大小极值;线性回归模型的数学表达式如下:

9、y=b0+b1x1+b2x2+...+bnxn+ε

10、其中,y是目标变量,代表医疗费用清单的大小;x1,x2,...,xn是特征变量;b0是截距;b1,b2,...,bn是特征的系数;ε是误差项。

11、作为一种提高ocr识别医疗费用清单效率的预处理方法优选方案,对上传的费用清单进行过滤,判断是否在所述医院的医疗费用清单大小范围内,若小于所述医院的医疗费用清单大小范围,则过滤掉数据;若大于所述医院的医疗费用清单大小范围,则过滤掉数据。

12、本发明还提供一种提高ocr识别医疗费用清单效率的预处理系统,包括:

13、ocr文件筛选模块,用于对上传的文件进行格式匹配筛选,对指定格式的文件进行过滤得到识别文件对象;对过滤后得到的所述识别文件对象,采用读取文件头与已知文件头签名匹配的方法确定文件类型;

14、费用清单筛选模块,用于根据医院既有医疗费用清单数据,计算一年中医疗费用清单的大小极值,确定医院的医疗费用清单大小范围,对超出医院医疗费用清单大小范围的文件进行过滤。

15、作为一种提高ocr识别医疗费用清单效率的预处理系统优选方案,所述ocr文件筛选模块中:

16、所述指定格式,包括手写字体文件格式、音频文件格式、视频文件格式和加密文件格式;

17、所述手写字体文件格式包括will、ink、myscript格式;所述音频文件格式包括mp3、wav、flac格式;所述视频文件格式包括avi、mp4、mov格式;所述加密文件格式包括pdf密码保护文件、加密zip文件等需要密码的文件格式;

18、所述读取文件头是通过编程语言的文件操作功能,对文件的开头若干字节进行读取,读取后与已知的文件头签名匹配。

19、作为一种提高ocr识别医疗费用清单效率的预处理系统优选方案,所述费用清单筛选模块中:

20、使用线性回归模型,训练一个模型来计算医疗费用清单的大小极值;线性回归模型的数学表达式如下:

21、y=b0+b1x1+b2x2+...+bnxn+ε

22、其中,y是目标变量,代表医疗费用清单的大小;x1,x2,...,xn是特征变量;b0是截距;b1,b2,...,bn是特征的系数;ε是误差项。

23、作为一种提高ocr识别医疗费用清单效率的预处理系统优选方案,所述费用清单筛选模块中:对上传的费用清单进行过滤,判断是否在所述医院的医疗费用清单大小范围内,若小于所述医院的医疗费用清单大小范围,则过滤掉数据;若大于所述医院的医疗费用清单大小范围,则过滤掉数据。

24、本发明具有如下优点:调用ocr文件筛选模块,对上传的文件进行格式匹配筛选,对指定格式的文件进行过滤得到识别文件对象;对过滤后得到的所述识别文件对象,采用读取文件头与已知文件头签名匹配的方法确定文件类型;调用费用清单筛选模块,根据医院既有医疗费用清单数据,计算一年中医疗费用清单的大小极值,确定医院的医疗费用清单大小范围,对超出医院医疗费用清单大小范围的文件进行过滤。本发明实现了在ocr识别前预处理,将医疗费用清单外的文件筛选掉,只将医疗费用清单文件传输给ocr识别,解决了ocr识别压力大,识别效率低的问题。



技术特征:

1.一种提高ocr识别医疗费用清单效率的预处理方法,其特征在于,包括:

2.根据权利要求1所述的一种提高ocr识别医疗费用清单效率的预处理方法,其特征在于,所述指定格式,包括手写字体文件格式、音频文件格式、视频文件格式和加密文件格式。

3.根据权利要求2所述的一种提高ocr识别医疗费用清单效率的预处理方法,其特征在于,所述手写字体文件格式包括will、ink、myscript格式;所述音频文件格式包括mp3、wav、flac格式;所述视频文件格式包括avi、mp4、mov格式;所述加密文件格式包括pdf密码保护文件、加密zip文件等需要密码的文件格式。

4.根据权利要求1所述的一种提高ocr识别医疗费用清单效率的预处理方法,其特征在于,所述读取文件头是通过编程语言的文件操作功能,对文件的开头若干字节进行读取,读取后与已知的文件头签名匹配。

5.根据权利要求1所述的一种提高ocr识别医疗费用清单效率的预处理方法,其特征在于,使用线性回归模型,训练一个模型来计算医疗费用清单的大小极值;线性回归模型的数学表达式如下:

6.根据权利要求1所述的一种提高ocr识别医疗费用清单效率的预处理方法,其特征在于,对上传的费用清单进行过滤,判断是否在所述医院的医疗费用清单大小范围内,若小于所述医院的医疗费用清单大小范围,则过滤掉数据;若大于所述医院的医疗费用清单大小范围,则过滤掉数据。

7.一种提高ocr识别医疗费用清单效率的预处理系统,其特征在于,包括:

8.根据权利要求7所述的一种提高ocr识别医疗费用清单效率的预处理系统,其特征在于,所述ocr文件筛选模块中:

9.根据权利要求7所述的一种提高ocr识别医疗费用清单效率的预处理系统,其特征在于,所述费用清单筛选模块中:

10.根据权利要求9所述的一种提高ocr识别医疗费用清单效率的预处理系统,其特征在于,所述费用清单筛选模块中:


技术总结
一种提高ocr识别医疗费用清单效率的预处理方法和系统,该方法调用ocr文件筛选模块,对上传的文件进行格式匹配筛选,对指定格式的文件进行过滤得到识别文件对象;对过滤后得到的所述识别文件对象,采用读取文件头与已知文件头签名匹配的方法确定文件类型;调用费用清单筛选模块,根据医院既有医疗费用清单数据,计算一年中医疗费用清单的大小极值,确定医院的医疗费用清单大小范围,对超出医院医疗费用清单大小范围的文件进行过滤。本发明实现了在ocr识别前预处理,将医疗费用清单外的文件筛选掉,只将医疗费用清单文件传输给ocr识别,解决了ocr识别压力大,识别效率低的问题。

技术研发人员:李少宇,谢冠超
受保护的技术使用者:云知声智能科技股份有限公司
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1829325.html

最新回复(0)