一种基于强化学习的人机对话方法及系统与流程

专利2025-11-04  3


本发明涉及人机对话领域,更具体地,涉及一种基于强化学习的人机对话方法及系统。


背景技术:

1、人机对话是指人类与计算机程序之间进行的一种交流方式,在这种对话中,人类用户通过输入文本或语音与计算机程序进行沟通,而计算机程序则根据预先设定的规则和算法生成相应的回应,人机对话在许多领域都有广泛应用,如客户服务、教育、医疗、娱乐等,随着人工智能技术的不断发展,人机对话系统在各领域得到了广泛应用,然而,如何提高人机对话的质量和效率,以及实现更加智能、个性化的对话策略,仍然是一个具有挑战性的问题,为了解决这一问题,研究人员开始探索将强化学习应用于人机对话系统的方法,人机对话仍存在一些挑战,如情感识别和适应、语境理解、多模态交互等。

2、现有技术的人机对话系统在对话中缺乏对用户输入信息情感的深入理解和动态适应,缺乏根据情感类别调整对话策略,导致对话体验不够自然流畅和用户满意度降低。


技术实现思路

1、为了克服现有技术在对话中缺乏对用户情感的深入理解和动态适应,缺乏根据情感类别调整对话策略,导致对话体验不够自然流畅和用户满意度降低问题,本发明设计一种基于强化学习的人机对话方法及系统能够有效解决上述问题。

2、为解决上述技术问题,本发明的技术方案如下:

3、一种基于强化学习的人机对话系统,包括识别模块、历史对话数据库模块、策略生成模块、强化学习模块和回应选择模块;

4、所述识别模块用于接收用户的输入信息内容并识别其问题领域和情感倾向;所述历史对话数据库模块用于存储和管理大量关于特定领域的问题和答案,以及存储每次对话的记录包括用户输入信息、系统回应内容及相应的情感识别结果;所述策略生成模块基于识别模块的输出和历史对话数据库模块的存储信息,生成多个可能的对话策略;所述强化学习模块用于评估各个对话策略的效果,并根据评估结果动态调整策略生成模块生成的策略;所述回应选择模块根据强化学习模块的输出选择最佳的对话策略,生成系统的回应并发送给用户。

5、优选地,所述识别模块包括:

6、问题领域识别子模块,根据用户的输入信息,识别用户输入信息中的问题领域;

7、情感识别子模块,根据用户的输入信息,识别用户输入信息中的情感倾向。

8、优选地,所述情感识别子模块包括:

9、输入分析单元,用于接收并解析用户的输入信息,识别用户的情感倾向;

10、情感分类单元,用于将用户的情感倾向分类为预设的情感类别,包括正面情感、反面情感和中性情感;

11、情感强度评估单元,根据情感分类单元的情感分类结果计算用户的情感强度;具体为统计正面情感和负面情感在用户的输入信息文本中出现的次数;分别计算正面情感和负面情感在总情感数量中的占比;如果正面情感占比大于负面情感占比,则认为用户的情感较为积极,反之,则认为用户的情感较为消极。

12、优选地,所述情感分类方法为:

13、对用户输入信息进行去除无关字符和标点符,并对其进行分词处理;

14、从处理后的用户输入信息中提取关键词和短语;

15、将提取出的关键词和短语与情感词典中的条目进行匹配,查找与之相关的情感;情感词典是一种包含各种词汇以及它们相关情感标签的资源库,这些词汇可以根据它们所表达的情感进行分类,情感词典通常用于自然语言处理和文本挖掘领域,以帮助分析和理解文本中的情感倾向。

16、根据匹配到的关键词和短语的情感,根据关键词和短语出现频率分别分配权重,将匹配到的关键词和短语的情感进行加权平均计算用户输入信息的整体情感得分;

17、根据计算得到的整体情感得分,将用户输入信息情感类别分为正面情感、反面情感和中性情感。

18、优选地,所述历史对话数据库模块包括:

19、数据存储子模块,用于将用户的输入信息、情感识别结果和系统回应内容存储到历史对话数据库中,也用于存储和管理大量关于特定领域的问题和答案;

20、数据分析子模块,用于分析用户的历史对话记录,获取历史对话中的话题分布和情感类别;

21、对历史对话数据进行分词和去停用词处理;

22、根据处理后的历史对话数据使用命名实体识别为每个句子和段落分配一个或多个话题标签,对于每个话题,统计其在所有对话记录中出现的次数;;

23、基于情感词典对每个句子和段落进行情感分类,包括正面情感、反面情感和中性情感;

24、根据情感分类结果,分别计算每个情感类别下每个话题在历史对话数据中的分布比例;

25、数据检索子模块,用于根据用户需求检索对应问题领域和历史对话记录,为当前对话内容提供参考回应。

26、优选地,所述策略生成模块包括:

27、策略生成子模块,根据用户输入信息的情感类别和数据检索子模块检索相应情感类别下话题的对话数据作为参考回应,生成一系列可能的对话策略;

28、策略评估子模块,用于在线评估生成的对话策略的有效性和适宜性,同时运行生成的多个对话策略,通过比较它们的表现来评估性能并保留排名靠前的对话策略;通过对用户输入信息的情感识别和分类结合历史对话数据库中的历史对话数据的情感识别分类和计算话题分布比例生成多个对话策略同时运行这些对话策略并保留排名靠前的对话策略用于强化学习中优化值函数生成更好的对话策略,使得用户输入信息情感得到深入理解和动态适应。

29、优选地,所述强化学习模块包括:

30、学习引擎子模块,用于将策略评估子模块排名靠前的对话策略用在实际对话过程中进行不断试错;

31、奖励子模块,用于在实际对话过程中根据排名靠前的对话策略的效果给予奖励,根据奖励更新值函数从而使得系统生成更好的对话策略,具体为:

32、为所有状态-动作对初始化一个值;

33、在当前对话策略的指导下与用户进行对话,生成一个对话序列;

34、根据生成对话序列,计算状态-动作对的奖励;

35、使用计算得到的奖励来更新值函数,对于状态-动作值函数,可以使用以下公式:

36、[q(s,a)\leftarrow q(s,a)+\alpha[r+\gamma\max_{a'}q(s',a')-q(s,a)]]

37、其中,(r)是在状态(s)下采取动作(a)后获得的实际奖励,(q(s,a))是当前的状态-动作值函数,表示在状态(s)下采取动作(a)的预期回报,(\alpha)是学习率,(\gamma)是折扣因子决定了未来奖励的重要性,'(\max{a'}q(s',a'))表示在下一个状态(s')下采取的最优动作(a')的预期回报;

38、使用更新后的值函数来优化对话策略,对于每个状态选择具有最高值函数的动作,重复以上步骤直到值函数达到预设迭代次数,通过对策略生成模块生成的排名靠前的进行奖励学习来优化值函数,选择具有最高值函数的动作生成优化的对话策略,使得对话体验更加自然流畅和用户满意度更高。

39、优选地,一种基于强化学习的人机对话方法及系统,包括以下步骤:

40、s1、接收用户的输入信息并解析识别其问题领域和情感倾向并储存在历史数据库;

41、s2、从所述的历史对话数据库确定特定领域问题的答案和情感类别;

42、s3、根据s2的特定领域和情感类别分析生成多个对话策略;

43、s4、根据多个对话策略应用值函数进行强化学习,选取在对话过程能获得最大奖励的对话策略;

44、s5、将最大奖励对话策略作为回答内容输出给用户。

45、与现有技术相比,本发明技术方案的有益效果是:本发明设计一种基于强化学习的人机对话方法及系统通过对用户输入信息的情感识别和分类结合历史对话数据库中的历史对话数据的情感识别分类和计算话题分布比例生成多个对话策略同时运行这些对话策略并保留排名靠前的对话策略对其进行强化学习,通过每个对话的奖励来优化值函数,选择具有最高值函数的动作生成优化的对话策略,使得用户输入信息情感得到深入理解和动态适应,根据具体的情感类别调整对话策略,使得对话体验更加自然流畅和用户满意度更高。


技术特征:

1.一种基于强化学习的人机对话及系统,其特征在于,包括识别模块(1)、历史对话数据库模块(2)、策略生成模块(3)、强化学习模块(4)和回应选择模块(5);

2.根据权利要求1所述一种基于强化学习的人机对话系统,其特征在于,所述识别模块(1)包括:

3.根据权利要求2所述一种基于强化学习的人机对话系统,其特征在于,所述情感识别子模块(12)包括:

4.根据权利要求3所述一种基于强化学习的人机对话系统,其特征在于,所述情感分类方法为:

5.根据权利要求4所述一种基于强化学习的人机对话系统,其特征在于,所述历史对话数据库模块(2)包括:

6.根据权利要求5所述一种基于强化学习的人机对话系统,其特征在于,所述策略生成模块(3)包括:

7.根据权利要求6所述一种基于强化学习的人机对话系统,其特征在于,所述强化学习模块(4)包括:

8.一种基于强化学习的人机对话方法及系统,用于实现上述权利要求1-7中任一项,其特征在于,包括以下步骤:


技术总结
本发明设计一种基于强化学习的人机对话方法及系统,包括识别模块、历史对话数据库模块、策略生成模块、强化学习模块和回应选择模块;通过解析用户输入信息的情感识别和分类结合历史对话数据库中的历史对话数据的情感识别分类和计算话题分布比例生成多个对话策略同时运行这些对话策略并保留排名靠前的对话策略对其进行强化学习,通过每个对话的奖励来优化值函数,选择具有最高值函数的动作生成优化的对话策略,使得用户输入信息情感得到深入理解使得对话体验更加自然流畅和用户满意度更高。

技术研发人员:吴石松,李轩昂,李成,舒斌,董召杰,陈骞,郑桦,林全郴,赵必美,梁寿愚,姚森敬,于力,卢志良
受保护的技术使用者:南方电网人工智能科技有限公司
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1824432.html

最新回复(0)