本发明涉及核电厂经验反馈信息检索,尤其涉及一种基于词向量的核电厂经验反馈信息快速检索方法。
背景技术:
1、目前,经验反馈系统积累了大量内外部经验反馈数据,诸如:状态报告(cr)、经验反馈专题报告、工单信息、设备产生的历史缺陷等,为了能够让不同专业的工程师通过状态报告系统填报时,能够根据填入信息,快速实现历史经验反馈案例的精准检索、分类、推送,促进经验反馈信息得到有效的利用。经验推荐的主要功能是通过将用户输入的经验反馈主题、描述等作为条件,对关联的经验反馈进行检索,同时辅以人工智能技术,并以用户行为分析为基础对检索结果处理,通过服务的方式为其他系统提供最优经验推荐。
2、现有检索经验反馈信息的方法主要通过特定组合字段的模糊查询或者通过全文检索的方式进行,但这些方式只能通过文字分词的匹配进行搜索,准确性比较低,无法捕获语义与相似性,无法通过不断学习来提升准确率。
技术实现思路
1、本发明的目的在于提供一种基于词向量的核电厂经验反馈信息快速检索方法,解决无论是通过结构化数据库的模糊查询,还是通过非结构化数据库的全文检索,都无法准确检索到匹配相似度最高的经验反馈信息的问题。
2、为了实现上述目的,本发明提供如下技术方案:
3、一种基于词向量的核电厂经验反馈信息快速检索方法,包括以下步骤:
4、步骤1:生成存储表结构;
5、步骤2:构建倒排索引;
6、步骤3:构建近义词表;
7、步骤4:根据输入执行检索算法。
8、进一步地,存储表数据包括存储剔除停用词后有意义的词的词表、存储词与经验反馈关系的倒排索引表、每个词在整个语料库中的权重的近义词表。
9、步骤2具体包括:
10、步骤21:读取词表和倒排索引表;
11、步骤22:读取没有生成向量的经验反馈集合,对每一个经验反馈执行步骤23-步骤29
12、步骤23:利用分词工具对经验反馈信息分词;
13、步骤24:去除停用词,得到词集合w;
14、步骤25:对每一个词wi,如果该词不在词表中,执行步骤26-步骤28;
15、步骤26:给每个词分配唯一单词编号(wid),并记录每个单词对应的经验反馈频率;
16、步骤27:在倒排索引中加入单词编号(wid)、经验反馈编号(tid);
17、步骤28:把该词加入词表;
18、步骤29:最后将经验反馈处理标识位设为1,表示经验反馈信息已处理。
19、进一步地,将词表和倒排索引表初始值设为空表。
20、步骤3具体包括:
21、步骤31:利用word2vector得到每一个词的词向量,并保存word2vector词向量模型;
22、步骤32:调用相似性计算函数计算每一个词和其他的词的相似度,如果相似度大于阈值α,则两个词是近义词,添加到近义词表中。
23、步骤4具体包括:
24、步骤41:根据输入经验反馈t,利用分词工具分词;
25、步骤42:去除停用词;
26、步骤43:根据分词和近义词,检索出包含这些词的经验反馈,如果经验反馈出现多次,则得到对应经验反馈的次数,检索得到的经验反馈集合为t;
27、步骤44:对t中每一个经验反馈ti,执行步骤45-步骤47;
28、步骤45:计算经验反馈中匹配的词的个数;
29、步骤46:计算该经验反馈出现的次数;
30、步骤47:计算ti和t的余弦相似度;
31、步骤48:对t中每一个经验反馈的向量归一化处理;
32、步骤49:根据权重计算每一个经验反馈的相似度值;
33、步骤410:对步骤49中的结果进行排序;
34、步骤411:选择top k个经验反馈推荐。
35、与现有技术相比,本发明提供的基于词向量的核电厂经验反馈信息快速检索方法具有以下有益效果:
36、本发明提供的基于词向量的核电厂经验反馈信息快速检索方法替代了传统通过模糊查询、全文检索方法查询相似经验反馈信息的手段,提高了核电厂经验反馈信息的检索准确率。
37、本发明建立经验反馈智能推送模型,在经验反馈填报页面推送相似的经验反馈信息,为经验反馈填报人员填写当前经验反馈提供参考;推送的经验反馈信息涉及qdr、ncr、状态报告、缺陷类的工单完工报告、外部事件信息。
1.一种基于词向量的核电厂经验反馈信息快速检索方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于词向量的核电厂经验反馈信息快速检索方法,其特征在于,存储表包括存储剔除停用词后有意义的词的词表、存储词与经验反馈关系的倒排索引表、每个词在整个语料库中的权重的近义词表。
3.根据权利要求1所述的基于词向量的核电厂经验反馈信息快速检索方法,其特征在于,步骤2具体包括:
4.根据权利要求3所述的基于词向量的核电厂经验反馈信息快速检索方法,其特征在于,将词表和倒排索引表初始值设为空表。
5.根据权利要求1所述的基于词向量的核电厂经验反馈信息快速检索方法,其特征在于,步骤3具体包括:
6.根据权利要求1所述的基于词向量的核电厂经验反馈信息快速检索方法,其特征在于,步骤4具体包括: