本发明涉及人工智能,具体而言,涉及一种面向ocr识别的大数据分析方法及系统。
背景技术:
1、随着信息技术的飞速发展,大数据和人工智能技术已经渗透到各个领域,特别是在文本处理和信息分析方面,ocr(optical character recognition,光学字符识别)技术作为重要的信息提取手段,其应用范围和深度不断拓展。然而,传统的ocr技术主要关注于单个文档的识别与转换,缺乏对大量文档、图片中信息的深度分析和关联挖掘能力。
技术实现思路
1、为了至少克服现有技术中的上述不足,本技术实施例的目的在于提供一种面向ocr识别的大数据分析方法及系统。
2、根据本技术的一个方面,提供一种面向ocr识别的大数据分析方法,所述方法包括:
3、依据ocr识别元素在大数据分析区间内所参与互动的互动主题内容,确定所述ocr识别元素的扩展识别数据,依据所述扩展识别数据中所包含的互动主题内容,确定与所述大数据分析区间存在联系的互动主题知识点;所述互动主题知识点包括第一互动主题知识点和第二互动主题知识点;
4、在所述ocr识别元素中,确定与所述第一互动主题知识点存在联系的第一ocr识别元素的第一识别元素规模,确定与所述第二互动主题知识点存在联系的第二ocr识别元素的第二识别元素规模,并确定与所述第一互动主题知识点和所述第二互动主题知识点均存在联系的第三ocr识别元素的第三识别元素规模;
5、依据所述第一识别元素规模、所述第二识别元素规模和所述第三识别元素规模,确定所述第一互动主题知识点与所述第二互动主题知识点之间的关联参数值;
6、如果所述关联参数值表征所述第二互动主题知识点为所述第一互动主题知识点的联动主题知识点,则将所述第一互动主题知识点和所述第二互动主题知识点作为用于优化基础数据挖掘神经网络的样例学习知识点组合;
7、将所述样例学习知识点组合中的第一互动主题知识点加载到所述基础数据挖掘神经网络,通过所述基础数据挖掘神经网络估计所述第一互动主题知识点的联动主题知识点,将估计的所述第一互动主题知识点的联动主题知识点输出为所述第一互动主题知识点的样例联动互动主题知识点;
8、依据所述样例联动互动主题知识点和所述样例学习知识点组合中的第二互动主题知识点对所述基础数据挖掘神经网络进行参数学习,生成目标数据挖掘神经网络。
9、譬如,在第一方面的一种可能的实施方式中,所述关联参数值用于确定所述第二互动主题知识点对于所述第一互动主题知识点的知识点联系层级;
10、所述将所述样例学习知识点组合中的第一互动主题知识点加载到所述基础数据挖掘神经网络,通过所述基础数据挖掘神经网络估计所述第一互动主题知识点的联动主题知识点,将估计的所述第一互动主题知识点的联动主题知识点输出为所述第一互动主题知识点的样例联动互动主题知识点,包括:
11、依据所述知识点联系层级生成与所述第一互动主题知识点存在联系的样本网络学习线索;
12、将所述样本网络学习线索加载到所述基础数据挖掘神经网络,通过所述基础数据挖掘神经网络依据所述样本网络学习线索,估计与所述第一互动主题知识点之间的联系层级为所述知识点联系层级的联动主题知识点,将估计的与所述第一互动主题知识点之间的联系层级为所述知识点联系层级的联动主题知识点输出为所述第一互动主题知识点的样例联动互动主题知识点。
13、譬如,在第一方面的一种可能的实施方式中,所述依据所述样例联动互动主题知识点和所述样例学习知识点组合中的第二互动主题知识点对所述基础数据挖掘神经网络进行参数学习,生成目标数据挖掘神经网络,包括:
14、依据所述样例联动互动主题知识点和所述第二互动主题知识点,确定针对所述基础数据挖掘神经网络的训练误差参数;
15、依据所述训练误差参数对所述基础数据挖掘神经网络进行参数学习,生成所述目标数据挖掘神经网络。
16、譬如,在第一方面的一种可能的实施方式中,所述方法还包括:
17、在获取到针对目标ocr识别元素的关联主题查询指令时,获取所述目标ocr识别元素在过往分析区间内所参与互动的互动主题内容;
18、依据所述目标ocr识别元素在过往分析区间内所参与互动的互动主题内容,确定与所述目标ocr识别元素存在联系的目标互动主题知识点;
19、将所述目标互动主题知识点加载到所述目标数据挖掘神经网络,通过所述目标数据挖掘神经网络估计所述目标互动主题知识点的联动主题知识点,将估计的所述目标互动主题知识点的联动主题知识点输出为所述目标互动主题知识点的目标估计联动主题知识点;
20、从所述目标估计联动主题知识点下的互动主题内容中,选取待反馈至所述目标ocr识别元素的互动主题内容。
21、譬如,在第一方面的一种可能的实施方式中,所述将所述目标互动主题知识点加载到所述目标数据挖掘神经网络,通过所述目标数据挖掘神经网络估计所述目标互动主题知识点的联动主题知识点,将估计的所述目标互动主题知识点的联动主题知识点输出为所述目标互动主题知识点的目标估计联动主题知识点,包括:
22、获取用于估计所述目标估计联动主题知识点的目标知识点联系层级;
23、依据所述目标知识点联系层级生成与所述目标互动主题知识点存在联系的目标网络学习线索;
24、将所述目标网络学习线索加载到所述目标数据挖掘神经网络,通过所述目标数据挖掘神经网络依据所述目标网络学习线索,估计与所述目标互动主题知识点之间的联系层级为所述目标知识点联系层级的联动主题知识点,将估计的与所述目标互动主题知识点之间的联系层级为所述目标知识点联系层级的联动主题知识点输出为所述目标互动主题知识点的目标估计联动主题知识点。
25、依据本技术实施例的一个方面,提供了一种人工智能系统,所述人工智能系统包括处理器和机器可读存储介质,所述机器可读存储介质中存储有机器可执行指令,所述机器可执行指令由所述处理器加载并执行以实现前述任意一种可能的实施方式中的面向ocr识别的大数据分析方法。
26、依据本技术实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述三方面的各种可选实现方式中提供的方法。
27、在本技术的一些实施例所提供的技术方案中,本技术实施例通过ocr技术识别图像中的文本信息,进而在大数据分析区间内确定与互动主题内容相关的知识点,有效地捕捉了用户讨论和关注的热点主题。通过精确计算第一识别元素规模、第二识别元素规模和第三识别元素规模,并据此确定互动主题知识点之间的关联参数值,能够准确识别出主题之间的联动关系,为用户提供了更加深入和全面的主题分析。进一步地,当关联参数值表明某主题知识点为另一主题的联动知识点时,将其作为样例学习知识点组合,用于优化基础数据挖掘神经网络,不仅增强了神经网络的预测能力,使其能够更准确地估计联动主题知识点,而且通过不断学习和优化,神经网络能够逐步提升其对于复杂主题关系的识别和理解能力。最终,通过依据样例联动互动主题知识点和第二互动主题知识点对基础数据挖掘神经网络进行参数学习,生成了目标数据挖掘神经网络,这一网络在继承了基础网络优势的同时,具备了更强的主题关联分析能力,能够更好地服务于技术趋势预测、用户兴趣推荐等实际应用场景。由此,不仅为用户提供了更加个性化、精准的服务,也为相关技术领域的发展注入了新的活力。
1.一种面向ocr识别的大数据分析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的面向ocr识别的大数据分析方法,其特征在于,所述在所述ocr识别元素中,确定与所述第一互动主题知识点存在联系的第一ocr识别元素的第一识别元素规模,包括:
3.根据权利要求2所述的面向ocr识别的大数据分析方法,其特征在于,所述第一ocr识别元素包括x个第一候选ocr识别元素;x为正整数;
4.根据权利要求1所述的面向ocr识别的大数据分析方法,其特征在于,所述确定与所述第二互动主题知识点存在联系的第二ocr识别元素的第二识别元素规模,包括:
5.根据权利要求1所述的面向ocr识别的大数据分析方法,其特征在于,所述扩展识别数据包括所述第一ocr识别元素的第一扩展识别数据以及所述第二ocr识别元素的第二扩展识别数据;所述第一扩展识别数据表示所包含的互动主题内容对应于所述第一互动主题知识点的扩展识别数据;所述第二扩展识别数据表示所包含的互动主题内容对应于所述第二互动主题知识点的扩展识别数据;
6.根据权利要求5所述的面向ocr识别的大数据分析方法,其特征在于,所述第三ocr识别元素包括z个中间ocr识别元素;z为正整数;
7.根据权利要求1所述的面向ocr识别的大数据分析方法,其特征在于,所述依据所述第一识别元素规模、所述第二识别元素规模和所述第三识别元素规模,确定所述第一互动主题知识点与所述第二互动主题知识点之间的关联参数值,包括:
8.根据权利要求1所述的面向ocr识别的大数据分析方法,其特征在于,所述依据所述第一识别元素规模、所述第二识别元素规模和所述第三识别元素规模,确定所述第一互动主题知识点与所述第二互动主题知识点之间的关联参数值,包括:
9.根据权利要求1所述的面向ocr识别的大数据分析方法,其特征在于,所述ocr识别元素对所述互动主题内容的互动参与事件包括第一互动参与事件和第二互动参与事件;所述第一识别元素规模包括:与所述第一互动参与事件存在联系的第一中间识别元素规模、与所述第二互动参与事件存在联系的第二中间识别元素规模;所述第二识别元素规模包括:与所述第一互动参与事件存在联系的第三中间识别元素规模、与所述第二互动参与事件存在联系的第四中间识别元素规模;所述第三识别元素规模包括:与所述第一互动参与事件存在联系的第五中间识别元素规模、与所述第二互动参与事件存在联系的第六中间识别元素规模;
10.一种人工智能系统,其特征在于,所述人工智能系统包括处理器和机器可读存储介质,所述机器可读存储介质中存储有机器可执行指令,所述机器可执行指令由所述处理器加载并执行以实现权利要求1-9中任意一项所述的面向ocr识别的大数据分析方法。