一种大模型问答系统的自动评价方法和系统与流程

专利2026-02-09 19

本发明涉及计算机，具体是一种大模型问答系统的自动评价方法和系统。

背景技术：

1、现有的问答系统根据用户的问题从大量的文本集中确定出相关答案，这些答复一般都是对用户的问题进行匹配得到的。根据与用户问题文本的匹配度，输出对应的答案。

2、但是上述问答方法中，问答系统只会根据用户的问题文本输出单次回答，也就是说，只会输出匹配度最高的答案。这种匹配方式并没有考虑用户特征，由于不同用户群体对于不同实体的喜好不同，因此回答可能会引起用户的反感。

技术实现思路

1、有鉴于此，本发明的目的是提供一种大模型问答系统的自动评价方法和系统，以解决现有技术中用户容易对问答系统输出答案不满意的问题。

2、为了实现上述目的，本发明采用了如下技术方案：

3、本发明的一种大模型问答系统的自动评价方法，包括：

4、获取问答模型输出的多个答案材料以及多个答案材料的匹配度，并获取外部用户的用户信息，其中，所述多个答案材料是问答模型基于外部用户输入的问题文本生成的；

5、提取所述用户信息中的用户特征；

6、基于所述用户特征从所述预先建立的用户词库中确定所述外部用户的目标用户群体以及目标用户群体的情感倾向词库，其中，所述用户词库包括多种用户群体的情感倾向词库，所述情感倾向词库包括多个情感倾向词以及多个情感倾向词的权重；

7、将所述多个答案材料与所述目标用户群体的情感倾向词库进行匹配；

8、在所述多个答案材料中存在与所述情感倾向词库匹配的情感倾向词时，基于所述多个答案材料的匹配度以及情感倾向词对所述多个答案材料进行评分。

9、在本技术一实施例中，获取问答模型输出的多个答案材料以及多个答案材料的匹配度，包括：

10、获取用户的问题文本；

11、提取所述问题文本中的关键词，并将所述关键词转换为查询向量；

12、将所述查询向量与预先构建的知识库进行匹配，得到匹配度最高的多个答案材料以及多个答案材料的匹配度，其中，所述知识库中包括多个问答模板，所述问答模板。

13、在本技术一实施例中，所述用户词库的构建方法包括：

14、获取多个用户的历史问答数据和用户信息，其中，所述历史问答数据包括多个用户的一组或者多组问答对，每组问答对均包括问题文本、回答文本和再提问文本；

15、基于所述用户信息中的用户特征对多个用户进行聚类，得到多个用户群体以及多个用户群体的历史问答数据；

16、对每个用户群体对应的再提问文本进行情感标注，得到再提问文本的情感状态，并将所述再提问文本的情感状态作为对应回答文本的情感状态，其中，所述情感状态分为正面、负面以及中性；

17、对多个回答文本进行实体提取，得到多个实体词；

18、将出现频率超过预设频次阈值的第i个实体词作为目标词wi，并基于所有包含所述目标词wi的回答文本的情感状态确定所述目标词wi的权重；

19、基于所述目标词的权重对所述目标词进行筛选，得到情感倾向词，并基于多个用户群体的情感倾向词以及情感倾向词的权重构建用户词库。

20、在本技术一实施例中，基于所有包含所述目标词wi的回答文本的情感状态确定所述目标词wi的权重，包括：

21、将包含所述目标词wi的第t个回答文本的情感状态赋值给对应的目标词wi，得到目标词wi的情感状态值其中，目标词wi的情感状态分为正面时，目标词wi的情感状态分为负面时，目标词wi的情感状态分为中性时，

22、基于目标词wi的所有情感状态值计算所述目标词wi的权重所述目标词wi的权重的数学表达式为：

23、

24、式中，n为包含目标词wi的回答文本的数量。

25、在本技术一实施例中，基于所述目标词的权重对所述目标词进行筛选，得到情感倾向词，包括：

26、将所述目标词的权重与预设的过滤范围进行对比；

27、将权重值大于所述预设的过滤范围的上限、以及权重值小于所述预设的过滤范围的下限的目标词作为情感倾向词。

28、在本技术一实施例中，基于所述用户特征从所述预先建立的用户词库中确定所述外部用户的目标用户群体以及目标用户群体的情感倾向词库，包括：

29、从所述预先建立的用户词库中确定所述用户特征的每个特征因子对应的用户群体以及用户群体的情感倾向词库；

30、将所有的用户群体的情感倾向词库进行合并，得到目标用户群体的情感倾向词库。

31、在本技术一实施例中，将所述多个答案材料与所述目标用户群体的情感倾向词库进行匹配，包括：

32、从所述多个答案材料中进行分词，得到多个单词；

33、将所述多个单词与所述目标用户群体的情感倾向词库进行匹配，得到所述多个答案材料中所述外部用户的情感倾向词。

34、在本技术一实施例中，基于所述多个答案材料的匹配度以及情感倾向词对所述多个答案材料进行评分，包括：

35、确定情感倾向词w′i在多个答案材料中的情感状态m(w′i)，其中，情感状态为正面时，m(w′i)＝1；情感状态为负面时，m(w′i)＝-1；情感状态为中性时，m(w′i)＝0；

36、基于情感倾向词w′i的权重g(w′i)、情感倾向词w′i在多个答案材料中的情感状态m(w′i)以及多个答案材料的匹配度对所述多个答案材料进行评分，评分s(a)的数学表达式为：

37、s(a)＝α×md(a)+β×∑g(w′i)×m(w′i)

38、式中，α为第一权重，β为第二权重，md(a)为答案材料a的匹配度。

39、在本技术一实施例中，还包括：

40、为多个用户群体的情感倾向词库添加禁忌词，并设定所述禁忌词的权重。

41、本技术还提供一种大模型问答系统的自动评价系统，包括：

42、获取模块，用于获取问答模型输出的多个答案材料以及多个答案材料的匹配度，并获取外部用户的用户信息，其中，所述多个答案材料是问答模型基于外部用户输入的问题文本生成的；

43、特征提取模块，用于提取所述用户信息中的用户特征；

44、划归模块，用于基于所述用户特征从所述预先建立的用户词库中确定所述外部用户的目标用户群体以及目标用户群体的情感倾向词库，其中，所述用户词库包括多种用户群体的情感倾向词库，所述情感倾向词库包括多个情感倾向词以及多个情感倾向词的权重；

45、匹配模块，用于将所述多个答案材料与所述目标用户群体的情感倾向词库进行匹配；

46、评分模块，用于在所述多个答案材料中存在与所述情感倾向词库匹配的情感倾向词时，基于所述多个答案材料的匹配度以及情感倾向词对所述多个答案材料进行评分。

47、本发明的有益效果是：本发明的一种大模型问答系统的自动评价方法和系统，通过对用户信息进行特征提取，从而将当前执行问答外部用户划分至对应的用户群体中，并得到对应的情感倾向词库。在进行问答时，将语言模型输出的答案材料与情感倾向词库中的情感倾向词进行匹配。在答案材料中存在情感倾向词库中对应的情感倾向词时，利用情感倾向词的权重以及答案材料的匹配度，对多个答案材料进行评分。本技术不仅基于答案的匹配度，还基于用户对答案材料的情感倾向来对模型输出的答案材料进行评分，以使得最后输出的答案能使用户的满意度增加。

技术特征：

1.一种大模型问答系统的自动评价方法，其特征在于，包括：

2.根据权利要求1所述的一种大模型问答系统的自动评价方法，其特征在于，获取问答模型输出的多个答案材料以及多个答案材料的匹配度，包括：

3.根据权利要求1所述的一种大模型问答系统的自动评价方法，其特征在于，所述用户词库的构建方法包括：

4.根据权利要求3所述的一种大模型问答系统的自动评价方法，其特征在于，基于所有包含所述目标词wi的回答文本的情感状态确定所述目标词wi的权重，包括：

5.根据权利要求3所述的一种大模型问答系统的自动评价方法，其特征在于，基于所述目标词的权重对所述目标词进行筛选，得到情感倾向词，包括：

6.根据权利要求1所述的一种大模型问答系统的自动评价方法，其特征在于，基于所述用户特征从所述预先建立的用户词库中确定所述外部用户的目标用户群体以及目标用户群体的情感倾向词库，包括：

7.根据权利要求1所述的一种大模型问答系统的自动评价方法，其特征在于，将所述多个答案材料与所述目标用户群体的情感倾向词库进行匹配，包括：

8.根据权利要求1所述的一种大模型问答系统的自动评价方法，其特征在于，基于所述多个答案材料的匹配度以及情感倾向词对所述多个答案材料进行评分，包括：

9.根据权利要求1所述的一种大模型问答系统的自动评价方法，其特征在于，还包括：

10.一种大模型问答系统的自动评价系统，其特征在于，包括：

技术总结
本发明涉及一种大模型问答系统的自动评价方法和系统，通过对用户信息进行特征提取，从而将当前执行问答外部用户划分至对应的用户群体中，并得到对应的情感倾向词库。在进行问答时，将语言模型输出的答案材料与情感倾向词库中的情感倾向词进行匹配。在答案材料中存在情感倾向词库中对应的情感倾向词时，利用情感倾向词的权重以及答案材料的匹配度，对多个答案材料进行评分。本申请不仅基于答案的匹配度，还基于用户对答案材料的情感倾向来对模型输出的答案材料进行评分，以使得最后输出的答案能使用户的满意度增加。

技术研发人员：钟晓斌
受保护的技术使用者：北京环球医疗救援有限责任公司
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1827329.html

专利

最新回复(0)