本发明涉及医疗费用清单数据处理,具体涉及一种提高ocr识别医疗费用清单效率的预处理方法和系统。
背景技术:
1、在商保中,一般医疗费用清单都是通过ocr识别清单内容,然后保险再根据清单内容进行数据项核准报销。
2、目前,由于用户上传的文件中,有很多不是医保结算清单的文件,导致ocr需要识别很多无关文件图片,这增加了ocr识别压力,也影响了ocr识别医疗费用清单的效率。
技术实现思路
1、为此,本发明提供一种提高ocr识别医疗费用清单效率的预处理方法和系统,在ocr识别前预处理,将医疗费用清单外的文件筛选掉,只将医疗费用清单文件传输给ocr识别,解决了ocr识别压力大,识别效率低的问题。
2、为了实现上述目的,本发明提供如下技术方案:一种提高ocr识别医疗费用清单效率的预处理方法,包括:
3、调用ocr文件筛选模块,对上传的文件进行格式匹配筛选,对指定格式的文件进行过滤得到识别文件对象;对过滤后得到的所述识别文件对象,采用读取文件头与已知文件头签名匹配的方法确定文件类型;
4、调用费用清单筛选模块,根据医院既有医疗费用清单数据,计算一年中医疗费用清单的大小极值,确定医院的医疗费用清单大小范围,对超出医院医疗费用清单大小范围的文件进行过滤。
5、作为一种提高ocr识别医疗费用清单效率的预处理方法优选方案,所述指定格式,包括手写字体文件格式、音频文件格式、视频文件格式和加密文件格式。
6、作为一种提高ocr识别医疗费用清单效率的预处理方法优选方案,所述手写字体文件格式包括will、ink、myscript格式;所述音频文件格式包括mp3、wav、flac格式;所述视频文件格式包括avi、mp4、mov格式;所述加密文件格式包括pdf密码保护文件、加密zip文件等需要密码的文件格式。
7、作为一种提高ocr识别医疗费用清单效率的预处理方法优选方案,所述读取文件头是通过编程语言的文件操作功能,对文件的开头若干字节进行读取,读取后与已知的文件头签名匹配。
8、作为一种提高ocr识别医疗费用清单效率的预处理方法优选方案,使用线性回归模型,训练一个模型来计算医疗费用清单的大小极值;线性回归模型的数学表达式如下:
9、y=b0+b1x1+b2x2+...+bnxn+ε
10、其中,y是目标变量,代表医疗费用清单的大小;x1,x2,...,xn是特征变量;b0是截距;b1,b2,...,bn是特征的系数;ε是误差项。
11、作为一种提高ocr识别医疗费用清单效率的预处理方法优选方案,对上传的费用清单进行过滤,判断是否在所述医院的医疗费用清单大小范围内,若小于所述医院的医疗费用清单大小范围,则过滤掉数据;若大于所述医院的医疗费用清单大小范围,则过滤掉数据。
12、本发明还提供一种提高ocr识别医疗费用清单效率的预处理系统,包括:
13、ocr文件筛选模块,用于对上传的文件进行格式匹配筛选,对指定格式的文件进行过滤得到识别文件对象;对过滤后得到的所述识别文件对象,采用读取文件头与已知文件头签名匹配的方法确定文件类型;
14、费用清单筛选模块,用于根据医院既有医疗费用清单数据,计算一年中医疗费用清单的大小极值,确定医院的医疗费用清单大小范围,对超出医院医疗费用清单大小范围的文件进行过滤。
15、作为一种提高ocr识别医疗费用清单效率的预处理系统优选方案,所述ocr文件筛选模块中:
16、所述指定格式,包括手写字体文件格式、音频文件格式、视频文件格式和加密文件格式;
17、所述手写字体文件格式包括will、ink、myscript格式;所述音频文件格式包括mp3、wav、flac格式;所述视频文件格式包括avi、mp4、mov格式;所述加密文件格式包括pdf密码保护文件、加密zip文件等需要密码的文件格式;
18、所述读取文件头是通过编程语言的文件操作功能,对文件的开头若干字节进行读取,读取后与已知的文件头签名匹配。
19、作为一种提高ocr识别医疗费用清单效率的预处理系统优选方案,所述费用清单筛选模块中:
20、使用线性回归模型,训练一个模型来计算医疗费用清单的大小极值;线性回归模型的数学表达式如下:
21、y=b0+b1x1+b2x2+...+bnxn+ε
22、其中,y是目标变量,代表医疗费用清单的大小;x1,x2,...,xn是特征变量;b0是截距;b1,b2,...,bn是特征的系数;ε是误差项。
23、作为一种提高ocr识别医疗费用清单效率的预处理系统优选方案,所述费用清单筛选模块中:对上传的费用清单进行过滤,判断是否在所述医院的医疗费用清单大小范围内,若小于所述医院的医疗费用清单大小范围,则过滤掉数据;若大于所述医院的医疗费用清单大小范围,则过滤掉数据。
24、本发明具有如下优点:调用ocr文件筛选模块,对上传的文件进行格式匹配筛选,对指定格式的文件进行过滤得到识别文件对象;对过滤后得到的所述识别文件对象,采用读取文件头与已知文件头签名匹配的方法确定文件类型;调用费用清单筛选模块,根据医院既有医疗费用清单数据,计算一年中医疗费用清单的大小极值,确定医院的医疗费用清单大小范围,对超出医院医疗费用清单大小范围的文件进行过滤。本发明实现了在ocr识别前预处理,将医疗费用清单外的文件筛选掉,只将医疗费用清单文件传输给ocr识别,解决了ocr识别压力大,识别效率低的问题。
1.一种提高ocr识别医疗费用清单效率的预处理方法,其特征在于,包括:
2.根据权利要求1所述的一种提高ocr识别医疗费用清单效率的预处理方法,其特征在于,所述指定格式,包括手写字体文件格式、音频文件格式、视频文件格式和加密文件格式。
3.根据权利要求2所述的一种提高ocr识别医疗费用清单效率的预处理方法,其特征在于,所述手写字体文件格式包括will、ink、myscript格式;所述音频文件格式包括mp3、wav、flac格式;所述视频文件格式包括avi、mp4、mov格式;所述加密文件格式包括pdf密码保护文件、加密zip文件等需要密码的文件格式。
4.根据权利要求1所述的一种提高ocr识别医疗费用清单效率的预处理方法,其特征在于,所述读取文件头是通过编程语言的文件操作功能,对文件的开头若干字节进行读取,读取后与已知的文件头签名匹配。
5.根据权利要求1所述的一种提高ocr识别医疗费用清单效率的预处理方法,其特征在于,使用线性回归模型,训练一个模型来计算医疗费用清单的大小极值;线性回归模型的数学表达式如下:
6.根据权利要求1所述的一种提高ocr识别医疗费用清单效率的预处理方法,其特征在于,对上传的费用清单进行过滤,判断是否在所述医院的医疗费用清单大小范围内,若小于所述医院的医疗费用清单大小范围,则过滤掉数据;若大于所述医院的医疗费用清单大小范围,则过滤掉数据。
7.一种提高ocr识别医疗费用清单效率的预处理系统,其特征在于,包括:
8.根据权利要求7所述的一种提高ocr识别医疗费用清单效率的预处理系统,其特征在于,所述ocr文件筛选模块中:
9.根据权利要求7所述的一种提高ocr识别医疗费用清单效率的预处理系统,其特征在于,所述费用清单筛选模块中:
10.根据权利要求9所述的一种提高ocr识别医疗费用清单效率的预处理系统,其特征在于,所述费用清单筛选模块中:
