本发明涉及表格检索领域,特别是涉及基于细化特征与权重的表格检索方法。
背景技术:
::1、随着数字化时代的到来,大量的文档数据被创建和存储,涵盖了各种主题和领域,如工程设计报告、知识百科文档等。这些文档中通常包含大量的表格数据。用户通常希望能够通过自然语言查询来检索文档中的信息,而不仅仅局限于文档的标题或摘要。因此,将自然语言处理技术应用于文档中的表格数据,可以帮助用户更有效地检索到他们感兴趣的信息。技术实现思路1、为解决现有技术中存在的问题,本发明提供了基于细化特征与权重的表格检索方法,解决了工作人员对相关表格任务信息检索,检索时间长,检索慢等问题。2、本发明的技术方案如下:3、基于细化特征与权重的表格检索方法,包括以下步骤:4、步骤s1:以表格为搜索出发点,相关文档进一步搜索关联信息,构建表格检索任务数据库人机接口;5、步骤s2:构建表格检索任务模型;6、步骤s3:对构建的表格检索任务模型进行试验,对结果进行分析;7、步骤s4:验证表格检索任务模型相对于其他模型在表格检索任务模型上的优越性。8、优选地,步骤s1的表格检索任务模型包括查询语句、表头、表格内容、表格描述以及表格存在的其它标题。9、优选地,步骤s2包括以下子步骤:10、子步骤s21:选择fw-tabr模型为表格检索任务模型;11、子步骤s22:对表格检索任务的特征进行细化;12、子步骤s23:对表格的内容进行建模,得到表格内部信息与查询之间的相似度sim1;13、子步骤s24:对表格的外部信息进行建模,计算得到表格外部信息与查询之间的相似度sim2;14、子步骤s25:对表格内外部信息相似度进行加权求和,利用遗传算法搜索最优分配,得到总的相似度sim,得到最终最优的结果。15、优选地,步骤s3包括以下子步骤:16、子步骤s31:设置实验参数;17、子步骤s32:设置cementing tables和wiki tables数据集参数;18、子步骤s33:选取实验的评估方法;19、子步骤s34:对比现有模型与fw-tabr模型;20、子步骤s35:在cementing tables数据集上进行试验结果及分析;21、子步骤s36:在wiki tables数据集上进行试验结果及分析;22、子步骤s37:评估fw-tabr模型中几个关键模块的有效性。23、优选地,子步骤s22的特征细化包括以下子步骤:24、子步骤s221:查询语句的扩展;25、子步骤s222:查询语句的映射;26、子步骤s223:处理表格的内容。27、优选地,子步骤s33的评估方法包括:用问句平均精度值、多个查询语句的排名倒数的均值和归一化折损累积增益。28、本发明基于细化特征与权重的表格检索方法的有益效果如下:29、1.本发明可以快速进行表格检索,且检索结果准确。30、2.本发明相对于现有检索表格的检索方法,更准确,更优越。31、3.本发明无需大量的人力物力进行检索,且节约了大量时间。技术特征:1.基于细化特征与权重的表格检索方法,其特征在于,包括以下步骤:2.根据权利要求1所述的基于细化特征与权重的表格检索方法,其特征在于,所述步骤s1的表格检索任务模型包括查询语句、表头、表格内容、表格描述以及表格存在的其它标题。3.根据权利要求1所述的基于细化特征与权重的表格检索方法,其特征在于,所述步骤s2包括以下子步骤:4.根据权利要求1所述的基于细化特征与权重的表格检索方法,其特征在于,所述步骤s3包括以下子步骤:5.根据权利要求3所述的基于细化特征与权重的表格检索方法,其特征在于,所述子步骤s22的特征细化包括以下子步骤:6.根据权利要求4所述的基于细化特征与权重的表格检索方法,其特征在于,所述子步骤s33的评估方法包括:用问句平均精度值、多个查询语句的排名倒数的均值和归一化折损累积增益。技术总结本发明公开了基于细化特征与权重的表格检索方法,包括以下步骤:步骤S1:以表格为搜索出发点,相关文档进一步搜索关联信息,构建表格检索任务数据库人机接口;步骤S2:构建表格检索任务模型;步骤S3:对构建的表格检索任务模型进行试验,对结果进行分析;步骤S4:验证表格检索任务模型相对于其他模型在表格检索任务模型上的优越性;解决了工作人员对相关表格任务信息检索,检索时间长,检索慢等问题。技术研发人员:杨铮,王开心,耿立威,胡龙彪受保护的技术使用者:四川大学技术研发日:技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1823324.html