本发明属于图像识别技术领域,特别适用于影像结合内容的识别,更具体的是涉及题册识别方法、系统、装置及介质。
背景技术:
现有技术中的题册识别,依赖完整的、全面的图像采集(拍摄、摆放等)或者影像信息,才能提取准确的信息,确定对应的题册,给出识别结果。一旦已有的题册的影像本身存在缺陷,则不能保证页面的被识别的准确性,导致题册识别不准确,给出不准确的识别结果,甚至存在识别错误或无法识别的缺陷。
因此,为解决上述问题,提高用户体验,提出本申请,旨在解决的问题至少包括如何根据这不完整的页面信息去匹配完整的资源。
技术实现要素:
(一)要解决的技术问题
本发明旨在解决如何根据不完整的页面信息确定对应的题册内容的技术问题,进而根据不完整的页面信息去匹配完整的资源;再进一步,可以对获取的题册整页影像或者存在上下文的题册页面影像,都通过检索分析更准确的判断用户使用的是哪本题册。
(二)技术方案
为解决上述技术问题,本发明的第一方面提出一种题册识别方法,包括:获取题册图像的文本信息;根据所述文本信息,进行检索并确定文字区分点;基于所述文字区分点对检索的结果进行处理,以获得对应所述图像的识别结果。
根据本发明的优选实施方式,获取题册的文本信息,具体包括:获得输入的待识别的题册的图像;对所述题册的图像进行ocr识别,得到所述题册图像的所述文本信息;其中,所述图像包括非完整的图像或完整的图像。
根据本发明的优选实施方式,对所述题册的图像进行ocr识别,具体包括:基于卷积神经网络定位每一个文本行并识别所述每一个文本行的内容;按照文本行排版顺序将识别的每一行文本内容进行串联得到ocr识别的所述文本信息的结果;其中,所述文本信息的内容包括下列至少一项或多项:文字、字符、图形、背景。
根据本发明的优选实施方式,获取题册图像的文本信息之前还包括:预先对所述题册的图像中题目所在粗略位置进行确定,以清除所述题册的图像中并非题目的干扰信息。
根据本发明的优选实施方式,根据所述文本信息,进行检索并确定文字区分点,具体包括:分析所述文本信息以获取关键词;根据所述关键词进行检索,得到具有相同关键词的每个资源题册的文本信息;分析所述文本信息与每个资源题册的文本信息之间的共有文字并抽取共有文字对应的独有特征,以确定一个或多个文字区分点对;对一个或多个所述文字区分点对进行选择,以将最具代表性的一个或多个所述文字区分点对中的文字区分点确定为对检索的结果进行处理的文字区分点;所述独有特征包括下列中的一种或多种:文字内容、文字周围的图像像素、文字内容和/或文字周围的图像的综合信息。
根据本发明的优选实施方式,对一个或多个所述文字区分点对进行选择至少包括:根据文字区分点对的文字周围像素变化梯度最大和/或文字处于特殊位置进行选择。
根据本发明的优选实施方式,基于所述文字区分点对检索的结果进行处理,以获得对应所述题册的识别结果,具体包括:基于最长公共子串和/或所述文字区分点的各个特征信息,将检索的结果进行排序,确定最终的检索结果候选集;输出所述最终的检索结果候选集给用户作为所述题册的识别结果。
根据本发明的优选实施方式,还包括:对检索的结果进行处理之前,至少通过整体文本信息匹配、基于文字区分点匹配概率和/或图像像素匹配概率指标确定检索的结果是否正确;或者,对输出所述最终的检索结果候选集之前,至少通过整体文本信息匹配、基于文字区分点匹配概率和/或图像像素匹配概率指标确定检索结果候选集中的结果是否正确。
为解决上述技术问题,本发明第二方面提出一种电子装置,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行如第一方面所述的题册识别方法。
为解决上述技术问题,本发明第三方面提出一种计算机可读介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现如第一方面所述的题册识别方法。
为解决上述技术问题,本发明的第四方面提出一种题册识别系统,包括:输入处理模块,用于获取题册图像的文本信息;检索确定模块,用于根据所述文本信息,进行检索并确定文字区分点;输出处理模块,用于基于所述文字区分点对检索的结果进行处理,以获得对应所述题册的识别结果。
(三)有益效果
本发明通过对任意输入的不完整的一页题册图像先进行ocr识别获得相应的文本信息并进行分析后确定文字区分点,通过文本信息中提炼的关键词执行检索并利用该文字区分点对检索的结果进行处理和排序,避免了现有的题册识别过程中过多依赖图像本身特点以及图像获取/采集方式以及图像是否被遮挡和覆盖的而无法识别或错误识别的情况,尤其能适用于题册图像的页面信息存在残缺的情况,不必过多依赖图像质量和完整性也能保证识别正确和匹配到完整的资源,从而提升对任意的题册图像的页面信息识别的容错性,无需对图像是否颠倒是否覆盖等不完整的图像页面信息情况做考虑,由此,对于内容与背景图结合的图像的识别,提升了识别效率和识别的便利性、进而也能提升识别的准确度。
本发明在转换时可以通过卷积神经网络定位和识别并在定位识别过程中基于题目文本文字的大略位置/区域/范围进行清洗以清除非主要非重点的内容的干扰(即不做识别),能更准确地定位识别文本信息,进一步有助于快速准确高效的检索和得到更准确的结果。
本发明在通过分析文本信息提取关键词进行检索或者索引出资源方相应的题册结果后,通过分析文本信息中与结果中的题册的文本信息之间的字符/文字相关的各种特征信息,获得多个文字区分点对,进而从多个文字区分点对中确定一个或多个最能体现区分特点的文字区分点对,将其中的文字区分点作为处理检索的题册结果的依据。文字区分点指的是在用户输入页和资源页中在书页中相同位置出现的的相同的文字/字符,且该文字/字符具有较强的代表性,由此确定该文字区分点的过程中辅助了文字/字符的各个周围信息和位置信息等,利用这样的文字区分点进行检索结果处理(比如结果排序取前面设定数量的几个)得到候选集,能够更准确地确定共有的文字/字符(包含各个特征信息)的结果符合用户要识别的题册,并且进一步提升处理效率。
本发明对检索的结果或处理后的候选集都可以做优化,比如采用一个或多个指标(相似度、各种匹配概率等)能进一步排除错误的结果,保障识别的结果的准确性和正确性。
附图说明
图1是根据本发明的题册识别方法的一个实施例的主要流程图;
图2是根据本发明的题册识别系统的一个实施例的主要结构框图;
图3是根据本发明的电子装置的一个实施例的主要结构框图;
图4是根据本发明的更具体的一个电子装置的一个实施例的主要结构示意图;
图5是根据本发明的计算机可读介质的一个实施例的主要结构示意图。
具体实施方式
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
本发明中所称的题册是指包括但不限于线上或线下的用户练习册、答题卡、答题卷、作业本等各种具有与试题内容相关的电子类或纸质类的文件。
为解决上述技术问题,本发明提出的题册识别方法的一个实施例,主要包括:从输入的非完整的题册影像中,获得题册文本信息,并根据分析文本信息确定关键词进行检索以及确定文字区分点,以该文字区分点为基础进行检索结果的处理,识别出该题册影像实际对应的题册,实现非完整题册影像也能准确匹配到完整的资源。
【实施例1】
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明的方法实现作进一步的详细说明。
这里将结合图1所示本发明的方法的一个实施例的主要步骤流程图进行说明。
在步骤s110,对任意的题册图像进行文本转换,以获得题册文本信息。
在一个实施方式中,需要获得要识别的影像。比如,待识别的题册的影像获取。具体地,该影像获取的方式和来源,包括但不限于已知的各种服务器或终端获得的方式和来源,也不限于已知的各种远程网络和/或本地的方式和来源,都可以作为用户输入图像的来源。
例如:实时拍摄(包括拍照、录像)的、已经拍摄存储的(比如图库中提取的)、可以是远程内容服务器经线上传送(例如下载)的、也可以是线下本地或远程上传来的,等等。进一步,这些关于待识别的题册的影像(图片、图像)可以称为题册图像,如果是视频状态(如录像)还可以截取其每帧的图片或图像。进一步,这些题册图像可以包括但不限于有完整状态的、也有残缺状态的。进一步,残缺状态包括但不限于比如拍的题册的照片少了书页的右下角或者方向不正等存在缺陷的情况。通常使用题册的用户更多是学生等未成年人或用户处于着急需要解答的情况,因而往往在采集的题册的影像中,比如实时拍摄的一页,有可能存在倾斜、位置不正、颠倒、缺失题册一些部分、被遮挡一部分、有瑕疵等各种残缺状态,即非完整的一页图像。
在一个实施方式中,可以先对于用户输入或者说待识别的图像进行文字/字符识别,例如将图像中各个位置/区域/范围、各个部分进行图像转计算机文字的处理。进一步,转换的方式可以采用诸如光学字符识别ocr识别方式,对图像文件进行分析处理从而获取文字及版面信息。
其中,用户输入可以通过各种终端(手机、平板电脑、移动电脑、台式电脑、其他手持终端设备等)进行输入,比如:开启终端上安装的客户端应用程序app、通过链接访问的网页等,进行输入。
具体地,进行图像转换的例子包括了文本定位即找到图像中题目文字存在的区域和文本识别即对文字存在的区域中文字进行字符识别得到文本区域的含义,包括但不限于端到端文字识别、场景文本定位算法。
一个转换的例子如下:首先,可以先基于卷积神经网络cnn定位每一个文本行的位置,之后可以基于循环神经网络cnn识别每一个行文本的内容,再按照文本行的排版顺序将识别后的每一行文本的内容进行串联,从而完成题目影像转文字/字符即ocr转换的过程,得到的所述文本信息的结果即题目图片对应的文字/字符。其中,卷积神经网络和循环神经网络可以采用已有的几类实现图像/图片转换的神经网络模型,也可以采用svm等模型。在此具体应用和转换过程不再赘述。
在一个实施方式中,该转换文本信息的处理,优化的方式可以包括先消除干扰或者说清洗干扰信息的步骤。主要可以是确定所述题目在所述影像图片中的相对位置,并根据该相对位置在所述影像图片中去除与所述题目对应区域之外的区域,以清除干扰信息;对清除所述干扰信息之后的所述影像图片进行文字识别转换,获得对应的识别文本。例如预先对所述题目影像中题目文本所在粗略位置进行确定,以清除所述题目影像中并非题目的干扰信息(例如用户做的一些标识如手写字迹等)。
以待识别的题册的题册图像是整页影像拍摄为例:可以对一整页图像进行清洗。清洗的一个例子主要可以通过对一整页图像(或者一帧图像)内容,清除干扰信息。具体如:在一整页图像中,先大致/基本确定题目文字在图像的大体位置(即转换的文本信息对应所在的图像区域),而对不在这个大体位置中的信息则先不予具体分析识别,也就是通过诸如图片扫描、字符特征(背景、大小、粗细、字体、颜色等)、甚至预先设定的条件(获取的图像的中上部位为位置范围的条件)等方式,预先找到图像中这些转换的题目文字/字符等所在的大致的/基本上的范围或者区域(即所在位置)做转换识别而进一步实现处理效率的提升和待识别对象的准确性。
在一个实施方式中,获得题册文本信息主要可以包括但不限于获得待识别题册的图像中被认定为题目部分的文字的文本信息等。题目方面的文本信息包括文字、字符等,经ocr转换的文本信息包括但不限于定位区域的文字、与文字相关的各种信息(像素、字符、背景、颜色、大小、字体、粗细等图像方面的信息)。
例如题目方面的文本信息(包括文字、字符)等:9月初上涨10%、11月初又比10月初回落了15%、11月初牛肉价格比9月初涨了还是跌了?涨跌幅度是多少?等等。经ocr识别的文本信息包括但不限于定位区域的文字、与文字相关的各种信息(像素、字符、背景、颜色、大小、字体、粗细等图像方面的信息)。
一个应用场景例如:从用户输入的题册图像经ocr识别得到文本,。
由此,直接获得影像中的文本信息而无需考虑影像本身的状态是否完整/是否残缺。也就是说,本发明的并不需要限定采集题册的影像的方式以及提取影像的方式,尤其是不需要考虑影像/图像等存在残缺或瑕疵的情况,只要存在内容、具有上下文信息的影像(图片、图像等)就都可以进行识别,识别范畴不需要特意结合书页等其特殊的结构、信息、位置、符号等规范也都能进行识别而获得相应的有上下文支撑的各个文本信息。
在步骤s120,根据分析所述文本信息,进行检索并确定文字区分点。
一个实施方式中,对获得的文本信息进行分析,获得相应的关键词和文字区分点的文字,并根据关键词进行对应所述文本信息的资源库(数据库)存储的题册(题册文本信息)的检索/索引,获得相应的题册,并且进一步分析输入的待识别的题册与其检索的题册中对应的文字区分点,以便后续利用特定的文字区分点去找到对应的准确资源。
其中,从这些文本信息中还可以经过模型预测和/或概率统计等方式提炼出关键词。具体地,在获得文本信息的时候可以通过模型预测和/或概率统计对文本分析,进行提取:预测的或概率高的词。利用关键词进行检索,获得检索结果,获得一系列包含关键词的题册资源。例如:通过频率统计、通过模型预测(如神经网络模型之ner等执行预测)等方式选择出可用的关键词(文本信息),进而执行检索。
其中,文字区分点:指在书页中具有较强代表性的文字。
其中,文字区分点对:指在输入的书页中和资源书页中都存在的具有较强代表性的相同文字。
例如:用户输入页(待识别的题册的图像)和资源页(已经存储的图像)各自展示的书页中在相同位置出现了的相同的文字,该文字就是具有较强代表性的文字,可以将其作为文字区分点;而位于输入页的该文字区分点与位于资源页的文字区分点就是一对文字区分点,又称为文字区分点对。
一个实施方式中,可以通过寻找用户输入文本信息和资源文本中“共有”的文字,将所述文字独有的特征抽取出来,确定出一对文字区分点。文字区分点可以有一对或多对。例如:在识别出的图像书页的文本信息中确定文字区分点,可以通过寻找用户输入文本(如识别出的该文本信息)与资源图像书页对应的文本信息中“共有”的文字,抽取找到的文字的独有特征,这些特征包括但不限于文字内容、文字周围的图像像素等各类信息、和/或这些各类信息的综合信息,进而,每找到一个共有的文字即确定一对文字区分点。
进一步,对所述文字区分点继续进行分析,也就是对多个文字区分点找到代表性最强的,例如:在寻找过程中或者说初步筛选过程中一般可能会有上百对文字区分点,需要选择出确定性最强的或者说尽可能准确以及代表性最强比如文字特征独特性最强,该选择至少包括但不限于文字周围像素变化梯度最大、和/或本身位置比较特殊等等特点。
一个应用场景例如:根据用户输入题册a的文本信息中提取的关键词进行检索/索引出具有相同关键词的一批资源库(数据库)存的题册a1、a2、……an,并且找到a与a1、a与a2、……a与an两两之间“共有”的文字(包括关键词)并抽取其独有特征,找到a与a1、a2、……an之间的上百的文字区分点对,再在文字区分点对中根据每对的周围像素变化梯度最大、特殊位置等方式,确定代表性最强的文字区分点对,将相应的文字区分点作为后续对检索结果进行处理用的文字区分点。
由此,本发明通过文本信息分析方式,提取关键词检索到一些列包含关键词的资源,并找到更准确和更有代表性的文字区分点,有助于后续提升效率和命中准确的相应资源结果(识别结果)。从而无论输入的图像页面是否完整,直接依靠文本信息来找到相关的资源,进而还确定了进一步准确识别用的特征例如文字区分点,以实现完整资源的匹配。
在步骤s130,根据确定的所述文字区分点以及检索的结果,获得对应所述题册图像的识别结果。
一个实施方式中,通过文本信息中的关键词进行检索/索引,获得资源库的题册(文本信息,其可以对应上相应的题册图像)也就是检索结果后,可以基于已经确定的文字区分点,对检索结果进行处理,从而获得准确的识别结果,即与输入的题册图像相匹配的资源题册,尤其是对于输入的非完整的题册图像来说,可以不必考虑图像残缺的问题而通过利用文本信息实现检索和文字区分点准确识别,以确定相匹配的完整资源题册,从而实现了非完整图像能够准确定位或者说匹配完整的资源。
一个例子:通过机器学习模型(例如逻辑回归模型)至少可以基于最长公共子串和/或文字区分点等各个特征信息,将索引的资源库的题册进行排序,其中,使用特征信息的各种排序方式在该模型中可以是采用常见几种情况,在此不再赘述。进一步,选取排序靠前的一个或多个文字区分点对所对应的资源库存的题册,作为最终的检索候选集,进而可以按顺序输出给用户,这样有多个识别结果排序输出。
一个实施方式中,对检索的结果在确定输出候选集前或输出候选集之后,还都可以对返回的检索结果进行处理而确定其正确性,以便最终输出的候选集的结果更准确。具体地,可以通过几个指标来判断返回结果是否和用户输入的题册匹配,下面列举的几个指标是评判方式,可以单个使用也可以两个或多个等任意组合使用,在此不做限制。
例如:1、整体文本的匹配情况,可以通过相似度计算和神经网络预测等方式确定检索的题册和输入的题册之间匹配程度高低情况,相似度计算和神经网络预测方式可以采用常见的计算和预测方式,如:欧式距离、曼哈顿距离等,以及概率神经网络模型、bp、rbf、pnn等,在此不再赘述;2、基于文字区分点的匹配情况,比如通过分析检索结果中或候选集中的题册分别与输入的题册二者之间有很多能互相对应上的文字区分点即文字区分点对,那么表明二者之间是同一页的概率就会增大;3、图像像素的匹配情况,若二者能有很多地方的图像能匹配的比较好,那二者是是同一页的概率也会增大。由此,可以更进一步地对检索的结果进行筛选而找到更合适、更准确的一个或多个识别的题册。这里,通过输出的对题册做是否正确的评判的识别结果是在0-1之间浮点数,即按照指标评判分析了置信度并输出该置信度,越是接近1说明识别结果的置信度越高。进一步,识别结果这里评判后为置信度,可以直接展示给用户或语音提示用户等方式输出给用户。进一步,可以对这些信息(置信度、检索作为备选的各个题册等)进行综合后得到最终的结果。
一个应用场景例如:根据用户输入题册a的文本信息中提取的关键词进行检索/索引出具有相同关键词的一批资源库存的题册a1、a2、……an,其中1、2、……n是大于等于1的自然数表示个数,并且,确定了最终的文字区分点a;通过上述1至3个指标分析了a1至an置信度并作为识别结果输出,综合分析后确定a1至an中的a3至a33这些结果;然后利用逻辑回归模型基于最长公共子串和/或文字区分点等各个特征信息,将a3至a33即资源库的这些题册通过逻辑回归模型等基于最长公共子串、和/或文字区分点a进行排序得到用户输入的待识别的题册的识别结果的候选集,进而可以按顺序输出给用户,这样有多个识别结果排序输出(可以只取前10个输出),第一个就是最匹配待识别的题册的资源库存储的题册,即识别出该待识别的题册是哪个题册。这样,后续就可以支持后续针对该题册执行辅导教学等工作。这个例子采用先对检索结果用指标做正确性评判,也可以先筛选出候选集后用指标做正确性评判,不以该应用场景的例子作为对本发明的限制。
可见,本发明通过检索分析方式,无需受限于影像特殊性,更准确有效地实现检索识别影像结果,尤其对于特定的题册内容,文字区分点涉及的特征信息能更准确区分和确定检索结果中哪些更接近实际用户使用的题册,不必通过图像识别方式增加本地和网络的运算负担,减少资源消耗,提升识别准确度和速度。
【实施例2】
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明的系统实现作进一步的详细说明。
这里将结合图2所示本发明的方法的一个实施例的主要结构框图进行说明。在本实施例中,该系统至少包括输入处理模块110,检索确定模块120,输出处理模块130。
输入处理模块110,用于基于题册图像,进行文本转换以获得题册文本信息。
在一个实施方式中,需要获得要识别的影像,其中,输入题册图像,任意的题册图像,可以是完整或非完整的页面/一帧图。比如,待识别的题册的影像获取。具体地,该影像获取的方式和来源,包括但不限于已知的各种服务器或终端获得的方式和来源,也不限于已知的各种远程网络和/或本地的方式和来源,都可以作为用户输入图像的来源。
例如:实时拍摄(包括拍照、录像)的、已经拍摄存储的(比如图库中提取的)、可以是远程内容服务器经线上传送(例如下载)的、也可以是线下本地或远程上传来的,等等。进一步,这些关于待识别的题册的影像(图片、图像)可以称为题册图像,如果是视频状态(如录像)还可以截取其每帧的图片或图像。进一步,这些题册图像可以包括但不限于有完整状态的、也有残缺状态的。进一步,残缺状态包括但不限于比如拍的题册的照片少了书页的右下角或者方向不正等存在缺陷的情况。通常使用题册的用户更多是学生等未成年人或用户处于着急需要解答的情况,因而往往在采集的题册的影像中,比如实时拍摄的一页,有可能存在倾斜、位置不正、颠倒、缺失题册一些部分、被遮挡一部分、有瑕疵等各种残缺状态,即非完整的一页图像。
在一个实施方式中,可以先对于用户输入或者说待识别的图像进行文字/字符识别,例如将图像中各个位置/区域/范围、各个部分进行图像转计算机文字的处理。进一步,转换的方式可以采用诸如光学字符识别ocr识别方式,对图像文件进行分析处理从而获取文字及版面信息。
具体地,进行图像转换的例子包括了文本定位即找到文字存在的区域和文本识别即对文字存在的区域中文字进行字符识别得到文本区域的含义,包括但不限于端到端文字识别、场景文本定位算法。
一个转换的例子:首先,可以先基于卷积神经网络cnn定位每一个文本行的位置,之后可以基于循环神经网络cnn识别每一个行文本的内容,再按照文本行的排版顺序将识别后的行文本内容进行串联,从而完成图片/图像转文字。其中,卷积神经网络和循环神经网络可以采用已有的几类实现图像/图片转换的神经网络模型,也可以采用svm等模型。在此具体应用和转换过程不再赘述。
在一个实施方式中,该转换文本信息的处理,优化的方式可以包括先消除干扰或者说清洗干扰信息的步骤。主要可以是确定所述题目在所述影像图片中的相对位置,并根据该相对位置在所述影像图片中去除与所述题目对应区域之外的区域,以清除干扰信息;对清除所述干扰信息之后的所述影像图片进行文字识别转换,获得对应的识别文本。例如预先对所述题目影像中题目文本所在粗略位置进行确定,以清除所述题目影像中并非题目的干扰信息(例如用户做的一些标识如手写字迹等)。
以待识别的题册的题册图像是整页影像拍摄为例:可以对一整页图像进行清洗。清洗的一个例子主要可以通过对一整页图像(或者一帧图像)内容,清除干扰信息。具体如:在一整页图像中,先大致/基本确定题目文字在图像的大体位置(即转换的文本信息对应所在的图像区域),而对不在这个大体位置中的信息则先不予具体分析识别,也就是通过诸如图片扫描、字符特征(背景、大小、粗细、字体、颜色等)、甚至预先设定的条件(获取的图像的中上部位为位置范围的条件)等方式,预先找到图像中这些转换的题目文字/字符等所在的大致的/基本上的范围或者区域(即所在位置)做转换识别而进一步实现处理效率的提升和待识别对象的准确性。
在一个实施方式中,获得题册文本信息主要可以包括但不限于获得待识别题册的图像中被认定为题目部分的文字的文本信息等。题目方面的文本信息包括文字、字符等,经ocr转换的文本信息包括但不限于定位区域的文字、与文字相关的各种信息(像素、字符、背景、颜色、大小、字体、粗细等图像方面的信息)。
例如题目方面的文本信息(包括文字、字符)等:9月初上涨10%、11月初又比10月初回落了15%、11月初牛肉价格比9月初涨了还是跌了?涨跌幅度是多少?等等。经ocr识别的文本信息包括但不限于定位区域的文字、与文字相关的各种信息(像素、字符、背景、颜色、大小、字体、粗细等图像方面的信息)。
一个应用场景例如:从用户输入的题册图像经ocr识别得到文本。
由此,直接获得影像中的文本信息而无需考虑影像本身的状态是否完整/是否残缺。也就是说,本发明的并不需要限定采集题册的影像的方式以及提取影像的方式,尤其是不需要考虑影像/图像等存在残缺或瑕疵的情况,只要存在内容、具有上下文信息的影像(图片、图像等)就都可以进行识别,识别范畴不需要特意结合书页等其特殊的结构、信息、位置、符号等规范也都能进行识别而获得相应的有上下文支撑的各个文本信息。
检索确定模块120,用于根据分析所述文本信息,进行检索并确定文字区分点。
一个实施方式中,对获得的文本信息进行分析,获得相应的关键词和文字区分点的文字,并根据关键词进行对应所述文本信息的资源库存储的题册(题册文本信息)的检索/索引,获得相应的题册,并且进一步分析输入的待识别的题册与其检索的题册中对应的文字区分点,以便后续利用特定的文字区分点去找到对应的准确资源。
其中,从这些文本信息中还可以经过模型预测和/或概率统计等方式提炼出关键词。具体地,在获得文本信息的时候可以通过模型预测和/或概率统计对文本分析,进行提取:预测的或概率高的词。利用关键词进行检索,获得检索结果,获得一系列包含关键词的题册资源。例如:通过频率统计、通过模型预测(如神经网络模型之ner等执行预测)等方式选择出可用的关键词(文本信息),进而执行检索。
其中,文字区分点:指在书页中具有较强代表性的文字。
其中,文字区分点对:指在输入的书页中和资源书页中都存在的具有较强代表性的相同文字。
例如:用户输入页(待识别的题册的图像)和资源页(已经存储的图像)各自展示的书页中在相同位置出现了的相同的文字,该文字就是具有较强代表性的文字,可以将其作为文字区分点;而位于输入页的该文字区分点与位于资源页的文字区分点就是一对文字区分点,又称为文字区分点对。
一个实施方式中,可以通过寻找用户输入文本信息和资源文本中“共有”的文字,将所述文字独有的特征抽取出来,确定出一对文字区分点。文字区分点可以有一对或多对。例如:在识别出的图像书页的文本信息中确定文字区分点,可以通过寻找用户输入文本(如识别出的该文本信息)与资源图像书页对应的文本信息中“共有”的文字,抽取找到的文字的独有特征,这些特征包括但不限于文字内容、文字周围的图像像素等各类信息、和/或这些各类信息的综合信息,进而,每找到一个共有的文字即确定一对文字区分点。
进一步,对所述文字区分点继续进行分析,也就是对多个文字区分点找到代表性最强的,例如:在寻找过程中或者说初步筛选过程中一般可能会有上百对文字区分点,需要选择出确定性最强的或者说尽可能准确以及代表性最强比如文字特征独特性最强(包括但不限于文字周围像素变化梯度最大、和/或本身位置比较特殊等等特点)。
一个应用场景例如:根据用户输入题册a的文本信息中提取的关键词进行检索/索引出具有相同关键词的一批资源库存的题册a1、a2、……an,并且找到a与a1、a与a2、……a与an两两之间“共有”的文字(包括关键词)并抽取其独有特征,找到a与a1、a2、……an之间的上百的文字区分点对,再在文字区分点对中根据每对的周围像素变化梯度最大、特殊位置等方式,确定代表性最强的文字区分点对,将相应的文字区分点作为后续对检索结果进行处理用的文字区分点。
由此,本发明通过文本信息分析方式,提取关键词检索到一些列包含关键词的资源,并找到更准确和更有代表性的文字区分点,有助于后续提升效率和命中准确的相应资源结果(识别结果)。从而无论输入的图像页面是否完整,直接依靠文本信息来找到相关的资源,进而还确定了进一步准确识别用的特征例如文字区分点,以实现完整资源的匹配。
输出处理模块130,用于根据确定的所述文字区分点以及检索的结果,获得对应所述图像的识别结果。
一个实施方式中,通过文本信息中的关键词进行检索/索引,获得资源库的题册(文本信息,其可以对应上相应的题册图像)也就是检索结果后,可以基于已经确定的文字区分点,对检索结果进行处理,从而获得准确的识别结果,即与输入的题册图像相匹配的资源题册,尤其是对于输入的非完整的题册图像来说,可以不必考虑图像残缺的问题而通过利用文本信息实现检索和文字区分点准确识别,以确定相匹配的完整资源题册,从而实现了非完整图像能够准确定位或者说匹配完整的资源。
一个例子:通过机器学习模型(例如逻辑回归模型),至少基于最长公共子串,和/或文字区分点等各个特征信息,将索引的资源库的题册进行排序,其中,使用特征信息的各种排序方式在该模型中可以是采用常见几种情况,在此不再赘述。进一步,选取排序靠前的一个或多个文字区分点对所对应的资源库存的题册,作为最终的检索候选集,进而可以按顺序输出给用户,这样有多个识别结果排序输出。
一个实施方式中,对检索的结果在确定输出候选集前或输出候选集之后,还都可以对返回的检索结果进行处理而确定其正确性,以便最终输出的候选集的结果更准确。具体地,可以通过几个指标来判断返回结果是否和用户输入的题册匹配,下面列举的几个指标是评判方式,可以单个使用也可以两个或多个等任意组合使用,在此不做限制。
例如:1、整体文本的匹配情况,可以通过相似度计算和神经网络预测等方式确定检索的题册和输入的题册之间匹配程度高低情况,相似度计算和神经网络预测方式可以采用常见的计算和预测方式,如:欧式距离、曼哈顿距离等,以及概率神经网络模型、bp、rbf、pnn等,在此不再赘述;2、基于文字区分点的匹配情况,比如通过分析检索结果中或候选集中的题册分别与输入的题册二者之间有很多能互相对应上的文字区分点即文字区分点对,那么表明二者之间是同一页的概率就会增大;3、图像像素的匹配情况,若二者能有很多地方的图像能匹配的比较好,那二者是是同一页的概率也会增大。由此,可以更进一步地对检索的结果进行筛选而找到更合适、更准确的一个或多个识别的题册。这里,通过输出的对题册做是否正确的评判的识别结果是在0-1之间浮点数,即按照指标评判分析了置信度并输出该置信度,越是接近1说明识别结果的置信度越高。进一步,识别结果这里评判后为置信度,可以直接展示给用户或语音提示用户等方式输出给用户。进一步,可以对这些信息(置信度、检索作为备选的各个题册等)进行综合后得到最终的结果。
一个应用场景例如:根据用户输入题册a的文本信息中提取的关键词进行检索/索引出具有相同关键词的一批资源库存的题册a1、a2、……an,其中1、2、……n是大于等于1的自然数表示个数,并且,确定了最终的文字区分点a;通过上述1至3个指标分析了a1至an置信度并作为识别结果输出,综合分析后确定a1至an中的a3至a33这些结果;然后利用逻辑回归模型基于最长公共子串,和/或文字区分点等各个特征信息,将a3至a33即资源库的这些题册通过逻辑回归模型等基于最长公共子串和/或、文字区分点a进行排序得到用户输入的待识别的题册的识别结果的候选集,进而可以按顺序输出给用户,这样有多个识别结果排序输出(可以只取前10个输出),第一个就是最匹配待识别的题册的资源库存储的题册,即识别出该待识别的题册是哪个题册。这样,后续就可以支持后续针对该题册执行辅导教学等工作。这个例子采用先对检索结果用指标做正确性评判,也可以先筛选出候选集后用指标做正确性评判,不以该应用场景的例子作为对本发明的限制。
可见,本发明通过检索分析方式,无需受限于影像特殊性,更准确有效地实现检索识别影像结果,尤其对于特定的题册内容,文字区分点涉及的特征信息能更准确区分和确定检索结果中哪些更接近实际用户使用的题册,不必通过图像识别方式增加本地和网络的运算负担,减少资源消耗,提升识别准确度和速度。
【实施例3】
下面描述一个整体的应用场景结合实施例1和2进一步说明本发明的实现过程:
数据库即存储资源的库,具有很多题册(如书本)。用户任意拍摄的题册的练习题页面(图像)提供过来,尤其是非完整的存在残缺的页面输入后,能通过文本信息分析和检索的方式识别该非完整页面的用户正在使用的是哪个题册,即准确地匹配到完整的资源库中的题册。
具体如:用户拍摄链接上的一整页或拍摄纸件的练习册的一整页,存在残缺不完整的情况,在帮助其辅导时,通过文本信息对该页图像进行检索、识别用户正在用的是哪个题册的页面的题目在进行练习。具体地,先对用户输入的图像进行ocr识别,即获得文字相关的信息,也就是图像页面上的内容部分(包括其特征)方面的信息,对于用户输入的图像来说,会有很多干扰,比如用户手写手画的、遮挡的等等,在转换时可以清洗掉后再通过对内容即文本信息的分析,获得关键词和文字区分点,去资源库里用关键词检索出初始的结果,然后利用分析的文字区分点去排序、优化该结果,从而找到准确的结果,即匹配该残缺的页面的完整资源,该方式不受图像残缺或非完整状态的干扰、直接利用文本信息的分析检索和处理,获得准确结果,其效率也比残缺的非完整的图像的直接识别更高,匹配更准确。
这样能主要通过文本信息去找到一本书中与用户在做练习的题册相对应。用文字区分度(区分点)作为题册页面这类图像检索处理的依据,其效率和准确度以及避免干扰性都比用图像进行检索的方式更优,其能有效应诸如采集图像时产生的页面缺陷、或图像本身的缺陷等导致的图像不完整状态而难以匹配到完整的资源的情况。
【实施例4】
图3是根据本发明的一个实施例的电子装置的结构示意框图,该电子装置包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行如前述实施例1中的题册识别方法。
如图3所示,电子装置以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的电子装置并不限于单一实体,也可以是多个实体设备的总和。
所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行,以使得电子装置能够执行本发明的方法,或者方法中的至少部分步骤。
所述存储器包括易失性存储器,例如随机存取存储单元(ram)和/或高速缓存存储单元,还可以是非易失性存储器,如只读存储单元(rom)。
可选的,该实施例中,电子装置还包括有i/o接口,其用于电子装置与外部的设备进行数据交换。i/o接口可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
更具体地,参见图4所示的该实施例所述的电子装置的更具体的一个例子的结构框图。该示例性实施例的电子装置200以通用数据处理设备的形式表现。电子装置200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
其中,所述存储单元220存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元210执行,使得所述处理单元210执行本发明各种实施方式的步骤。例如,所述处理单元210可以执行前述实施例2至5的方法的各个步骤。
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(rom)2203。所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子装置200也可以与一个或多个外部设备300(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备300与该电子装置200交互,和/或使得该电子装置200能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(i/o)接口250进行,还可以通过网络适配器260与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)进行。网络适配器260可以通过总线230与电子装置200的其它模块通信。应当明白,尽管图中未示出,电子装置200中可使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
应当理解,图3、4显示的电子装置仅仅是本发明的一个示例,本发明的电子装置中还可以包括上述示例中未示出的元件或组件。例如,有些电子装置中还包括有显示屏等显示单元,有些电子装置还包括人机交互元件,例如按扭、键盘等。只要该电子装置能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤,均可认为是本发明所涵盖的电子装置。
【实施例5】
图5是本发明的一个实施例的计算机可读记录介质的示意图。如图5所示,计算机可读记录介质中存储有计算机可执行程序,所述计算机可执行程序被执行时,实现本发明上述的题册识别方法。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c 等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
通过以上对实施方式的描述,本领域的技术人员易于理解,本发明可以由能够执行特定计算机程序的硬件来实现,例如本发明的系统,以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等,本发明也可以由包含上述系统或部件的至少一部分的车辆来实现。本发明也可以由执行本发明的方法的计算机软件来实现,例如由机车端的微处理器、电子控制单元,客户端、服务器端等执行的控制软件来实现。但需要说明的是,执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行,其也可以是由不特定具体硬件的以分布式的方式来实现,例如计算机程序执行的某些方法步骤可以在机车端执行,另一部分可以在移动终端或智能头盔等中执行。对于计算机软件,软件产品可以存储在一个计算机可读的存储介质(可以是cd-rom,u盘,移动硬盘等)中,也可以分布式存储于网络上,只要其能使得电子装置执行根据本发明的方法。
通过以上对实施方式的描述,本领域的技术人员易于理解,本发明本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子装置固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
下面总结本发明的主要技术方案:
方案1、一种题册识别方法,包括:获取题册图像的文本信息;根据所述文本信息,进行检索,确定文字区分点;基于所述文字区分点对检索的结果进行处理,以获得对应所述题册图像的识别结果。
方案2、根据方案1所述的题册识别方法,获取题册的文本信息,具体包括:获得待识别的题册图像;对所述题册图像进行ocr识别,得到所述题册图像的所述文本信息;其中,所述图像包括非完整的图像或完整的图像。
方案3、根据方案2所述的题册识别方法,对所述题册的图像进行ocr识别,具体包括:基于卷积神经网络定位每一个文本行并识别所述每一个文本行的内容;按照文本行排版顺序将识别的每一行文本内容进行串联得到ocr识别的所述文本信息的结果;其中,所述文本信息的内容包括下列至少一项或多项:文字、字符、图形、背景。
方案4、根据方案1至3中任一项所述的题册识别方法,
获取题册图像的文本信息之前还包括:预先对所述题册的图像中题目所在位置进行初步确定,以清除所述题册的图像中并非题目的干扰信息;
和/或,
所述根据所述文本信息,进行检索并确定文字区分点,具体包括:分析所述文本信息以获取关键词;根据所述关键词进行检索,得到具有相同关键词的资源题册的文本信息;分析所述文本信息与每个资源题册的文本信息之间的共有文字并抽取共有文字对应的独有特征,以确定一个或多个文字区分点对;对一个或多个所述文字区分点对进行选择,以将最具代表性的一个或多个所述文字区分点对中的文字区分点确定为对检索的结果进行处理的文字区分点;所述独有特征包括下列中的一种或多种:文字内容、文字周围的图像像素、文字内容和/或文字周围的图像的综合信息。
方案5、根据方案4所述的题册识别方法,所述对一个或多个所述文字区分点对进行选择至少包括:根据文字区分点对的文字周围像素变化梯度最大和/或文字处于特殊位置进行选择。
方案6、根据方案1至5中任一项所述的题册识别方法,基于所述文字区分点对检索的结果进行处理,以获得对应所述题册的识别结果,具体包括:至少基于最长公共子串和/或所述文字区分点的各个特征信息,将检索的结果进行排序,确定最终的检索结果候选集;输出所述最终的检索结果候选集给用户作为所述题册的识别结果。
方案7、根据方案6所述的题册识别方法,还包括:对检索的结果进行处理之前,至少通过整体文本信息匹配、基于文字区分点匹配概率和/或图像像素匹配概率指标确定检索的结果是否正确;或者,对输出所述最终的检索结果候选集之前,至少通过整体文本信息匹配、基于文字区分点匹配概率和/或图像像素匹配概率指标确定检索结果候选集中的结果是否正确。
方案8、一种电子装置,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行如方案1至7中任一项所述的题册识别方法。
方案9、一种计算机可读介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现如方案1至7中任一项所述的题册识别方法。
方案10、一种题册识别系统,包括:输入处理模块,用于获取题册图像的文本信息;检索确定模块,用于根据所述文本信息,进行检索并确定文字区分点;输出处理模块,用于基于所述文字区分点对检索的结果进行处理,以获得对应所述图像的识别结果。
方案11、根据方案10所述的题册识别系统,输入处理模块,具体执行:获得输入的待识别的题册的图像;对所述题册的图像进行ocr识别,得到所述题册的图像的所述文本信息;其中,所述图像包括非完整的图像或完整的图像。
方案12、根据方案11所述的题册识别系统,输入处理模块执行对所述题册的图像进行ocr识别,具体包括:基于卷积神经网络定位每一个文本行并识别所述每一个文本行的内容;按照文本行排版顺序将识别的每一行文本内容进行串联得到ocr识别的所述文本信息的结果;其中,所述文本信息的内容包括下列至少一项或多项:文字、字符、图形、背景。
方案13、根据方案10至12中任一项所述的题册识别系统,
输入处理模块中在获取题册图像的文本信息之前还执行:预先对所述题册的图像中题目所在粗略位置进行确定,以清除所述题册的图像中并非题目的干扰信息;
和/或,
所述检索确定模块,具体执行:分析所述文本信息以获取关键词;根据所述关键词进行检索,得到具有相同关键词的资源题册的文本信息;分析所述文本信息与每个资源题册的文本信息之间的共有文字并抽取共有文字对应的独有特征,以确定一个或多个文字区分点对;对一个或多个所述文字区分点对进行选择,以将最具代表性的一个或多个所述文字区分点对中的文字区分点确定为对检索的结果进行处理的文字区分点;所述独有特征包括下列中的一种或多种:文字内容、文字周围的图像像素、文字内容和/或文字周围的图像的综合信息。
方案14、根据方案13所述的题册识别系统,所述检索确定模块执行对一个或多个所述文字区分点对进行选择,至少包括:根据文字区分点对的文字周围像素变化梯度最大和/或文字处于特殊位置进行选择。
方案15、根据方案10至14中任一项所述的题册识别系统,输出处理模块,具体执行:至少基于最长公共子串和/或所述文字区分点的各个特征信息,将检索的结果进行排序,确定最终的检索结果候选集;输出所述最终的检索结果候选集给用户作为所述题册的识别结果。
方案16、根据方案15所述的题册识别系统,输出处理模块还执行:对检索的结果进行处理之前,至少通过整体文本信息匹配、基于文字区分点匹配概率和/或图像像素匹配概率指标确定检索的结果是否正确;或者,对输出所述最终的检索结果候选集之前,至少通过整体文本信息匹配、基于文字区分点匹配概率和/或图像像素匹配概率指标确定检索结果候选集中的结果是否正确。
1.一种题册识别方法,其特征在于,包括:
获取题册图像的文本信息;
根据所述文本信息,进行检索,确定文字区分点;
基于所述文字区分点对检索的结果进行处理,以获得对应所述题册图像的识别结果。
2.根据权利要求1所述的题册识别方法,其特征在于,获取题册的文本信息,具体包括:
获得待识别的题册图像;
对所述题册图像进行ocr识别,得到所述题册图像的所述文本信息;
其中,所述图像包括非完整的图像或完整的图像。
3.根据权利要求2所述的题册识别方法,其特征在于,对所述题册的图像进行ocr识别,具体包括:基于卷积神经网络定位每一个文本行并识别所述每一个文本行的内容;按照文本行排版顺序将识别的每一行文本内容进行串联得到ocr识别的所述文本信息的结果;其中,所述文本信息的内容包括下列至少一项或多项:文字、字符、图形、背景。
4.根据权利要求1至3中任一项所述的题册识别方法,其特征在于,
获取题册图像的文本信息之前还包括:
预先对所述题册的图像中题目所在位置进行初步确定,以清除所述题册的图像中并非题目的干扰信息;
和/或,
所述根据所述文本信息,进行检索并确定文字区分点,具体包括:
分析所述文本信息以获取关键词;
根据所述关键词进行检索,得到具有相同关键词的资源题册的文本信息;
分析所述文本信息与每个资源题册的文本信息之间的共有文字并抽取共有文字对应的独有特征,以确定一个或多个文字区分点对;
对一个或多个所述文字区分点对进行选择,以将最具代表性的一个或多个所述文字区分点对中的文字区分点确定为对检索的结果进行处理的文字区分点;
所述独有特征包括下列中的一种或多种:文字内容、文字周围的图像像素、文字内容和/或文字周围的图像的综合信息。
5.根据权利要求4所述的题册识别方法,其特征在于,所述对一个或多个所述文字区分点对进行选择至少包括:
根据文字区分点对的文字周围像素变化梯度最大和/或文字处于特殊位置进行选择。
6.根据权利要求1至5中任一项所述的题册识别方法,其特征在于,基于所述文字区分点对检索的结果进行处理,以获得对应所述题册的识别结果,具体包括:
至少基于最长公共子串和/或所述文字区分点的各个特征信息,将检索的结果进行排序,确定最终的检索结果候选集;
输出所述最终的检索结果候选集给用户作为所述题册的识别结果。
7.根据权利要求6所述的题册识别方法,其特征在于,还包括:
对检索的结果进行处理之前,至少通过整体文本信息匹配、基于文字区分点匹配概率和/或图像像素匹配概率指标确定检索的结果是否正确;
或者,
对输出所述最终的检索结果候选集之前,至少通过整体文本信息匹配、基于文字区分点匹配概率和/或图像像素匹配概率指标确定检索结果候选集中的结果是否正确。
8.一种电子装置,包括处理器和存储器,所述存储器用于存储计算机可执行程序,其特征在于:当所述计算机程序被所述处理器执行时,所述处理器执行如权利要求1至7中任一项所述的题册识别方法。
9.一种计算机可读介质,存储有计算机可执行程序,其特征在于,所述计算机可执行程序被执行时,实现如权利要求1至7中任一项所述的题册识别方法。
10.一种题册识别系统,其特征在于,包括:
输入处理模块,用于获取题册图像的文本信息;
检索确定模块,用于根据所述文本信息,进行检索并确定文字区分点;
输出处理模块,用于基于所述文字区分点对检索的结果进行处理,以获得对应所述图像的识别结果。
技术总结