本发明涉及人工智能,尤其涉及一种应用于呼吸科领域的大型语言模型的评估方法和装置。
背景技术:
1、随着人工智能的飞速发展,在自然语言处理领域,大型语言模型已表现出了卓越的能力和广泛的应用价值。其能够理解和生成人类的语言,从而可以在多个领域发挥重要作用。特别是在呼吸科领域,利用大型语言模型可以实现辅助诊断、治疗计划制定和医疗知识的普及。
2、但是,在应用大型语言模型实现各项功能时,由于模型的性能决定了其在对应领域的表现,因此,其性能的评估至关重要。然而,当下的模型性能评估方法主要是在一般性能指标上进行评估,例如,评估处理速度、响应时间、语言生成流畅性等,即多聚焦于模型的一般性能,而忽略了其在特定领域的应用,并且,往往也无法考虑到领域的特殊性,因而,特定领域上模型的评估结果的可靠性和全面性堪忧。
技术实现思路
1、本发明提供一种应用于呼吸科领域的大型语言模型的评估方法和装置,用以解决现有技术中通用的模型性能评估方法难以应用于特定领域,未能考虑到领域特殊性,以致评估准确性、可靠性和实用性欠佳的缺陷,能够聚焦于特定领域,评估模型在特定领域的应用效果。
2、本发明提供一种应用于呼吸科领域的大型语言模型的评估方法,包括:
3、获取评估试题集,所述评估试题集包括呼吸科领域下的多个试题;
4、基于大型语言模型,解答所述评估试题集中的各个试题,得到所述各个试题的试题答案;
5、基于各个试题答案进行模型性能评估,得到所述大型语言模型在所述呼吸科领域的性能。
6、根据本发明提供的一种应用于呼吸科领域的大型语言模型的评估方法,所述基于大型语言模型,解答所述评估试题集中的各个试题,得到所述各个试题的试题答案,包括:
7、基于所述呼吸科领域下的亚专科领域,确定所述呼吸科领域下的多个目标专科领域;
8、基于各目标专科领域,对所述评估试题集中的各个试题进行分类,得到所述各目标专科领域下的试题;
9、基于所述大型语言模型,分别解答所述各目标专科领域下的试题,得到所述各目标专科领域下试题的试题答案。
10、根据本发明提供的一种应用于呼吸科领域的大型语言模型的评估方法,所述基于所述大型语言模型,分别解答所述各目标专科领域下的试题,得到所述各目标专科领域下试题的试题答案,包括:
11、确定所述各目标专科领域下试题的题干文本;
12、基于各题干文本,确定对应的生成提示语句;
13、基于各生成提示语句,应用所述大型语言模型,分别进行试题解答,得到所述各目标专科领域下试题的试题答案;
14、其中,所述生成提示语句用于提示所述大型语言模型基于试题的题干文本解答所述试题,并生成对应的试题答案。
15、根据本发明提供的一种应用于呼吸科领域的大型语言模型的评估方法,所述评估试题集中试题的题型包括选择题和问答题;任一试题对应的生成提示语句基于如下步骤确定:
16、在任一目标专科领域下任一试题的题型为选择题的情况下,确定所述任一试题的试题选项,并基于所述任一试题的题干文本和试题选项,确定所述任一试题对应的生成提示语句;
17、在任一目标专科领域下任一试题的题型为问答题的情况下,基于所述任一试题的题干文本,确定所述任一试题对应的生成提示语句。
18、根据本发明提供的一种应用于呼吸科领域的大型语言模型的评估方法,任一试题的试题答案基于如下步骤确定:
19、在任一目标专科领域下任一试题的题型为选择题的情况下,基于所述任一试题对应的生成提示语句,应用所述大型语言模型,进行试题解答,得到所述任一试题对应于试题选项的概率分布;
20、基于所述任一试题对应的概率分布,以及所述任一试题的试题题型,确定所述任一目标专科领域下所述任一试题的试题答案。
21、根据本发明提供的一种应用于呼吸科领域的大型语言模型的评估方法,基于各个试题答案进行模型性能评估,得到所述大型语言模型在所述呼吸科领域的性能,包括:
22、在任一试题的题型为选择题的情况下,基于所述任一试题的试题答案和标准答案,确定所述大型语言模型对所述任一试题的答题结果,并基于所述任一试题及其答题结果,确定所述大型语言模型对所述任一试题的答题情况;
23、在任一试题的题型为问答题的情况下,获取医学专家评估的所述任一试题的试题答案所表征的所述任一试题的答题情况,所述答题情况包括所述大型语言模型在各评估指标下的评估结果,所述评估指标包括答题准确度、答题全面性、答题实用性、答题专业性以及答题有益性中的至少两种;
24、基于所述各个试题的答题情况进行模型性能评估,得到所述大型语言模型在所述呼吸科领域的性能。
25、根据本发明提供的一种应用于呼吸科领域的大型语言模型的评估方法,基于所述大型语言模型,分别解答所述各目标专科领域下的试题,得到所述各目标专科领域下试题的试题答案,之后还包括:
26、分别对所述各目标专科领域下试题的答题情况进行展示,所述答题情况基于对应目标专科领域下试题的试题答案确定;
27、所述答题情况包括所述大型语言模型在各评估指标下的评估结果,所述评估指标包括答题准确度、答题全面性、答题实用性、答题专业性以及答题有益性中的至少两种。
28、本发明还提供一种应用于呼吸科领域的大型语言模型的评估装置,包括:
29、获取单元,用于获取评估试题集,所述评估试题集包括呼吸科领域下的多个试题;
30、答题单元,用于基于大型语言模型,解答所述评估试题集中的各个试题,得到所述各个试题的试题答案;
31、评估单元,用于基于各个试题答案进行模型性能评估,得到所述大型语言模型在所述呼吸科领域的性能。
32、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的应用于呼吸科领域的大型语言模型的评估方法。
33、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的应用于呼吸科领域的大型语言模型的评估方法。
34、本发明提供的应用于呼吸科领域的大型语言模型的评估方法和装置,通过大型语言模型,解答评估试题集中的各个试题,得到各个试题的试题答案;基于各个试题答案进行模型性能评估,得到大型语言模型在呼吸科领域的性能,克服了传统方案中通用的模型性能评估方法未能考虑到领域特殊性,以致在特定领域上评估结果的准确性、可靠性和实用性欠佳的缺陷,利用大型语言模型对特定的呼吸科领域下的多个试题进行解答,并通过试题答案进行性能评估,不仅能够聚焦于呼吸科领域,实现准确可靠的性能评估,还能使得评估过程更为专业,从而可以为后续大型语言模型在呼吸科领域的安全应用提供依据。
1.一种应用于呼吸科领域的大型语言模型的评估方法,其特征在于,包括:
2.根据权利要求1所述的应用于呼吸科领域的大型语言模型的评估方法,其特征在于,所述基于大型语言模型,解答所述评估试题集中的各个试题,得到所述各个试题的试题答案,包括:
3.根据权利要求2所述的应用于呼吸科领域的大型语言模型的评估方法,其特征在于,所述基于所述大型语言模型,分别解答所述各目标专科领域下的试题,得到所述各目标专科领域下试题的试题答案,包括:
4.根据权利要求3所述的应用于呼吸科领域的大型语言模型的评估方法,其特征在于,所述评估试题集中试题的题型包括选择题和问答题;任一试题对应的生成提示语句基于如下步骤确定:
5.根据权利要求3所述的应用于呼吸科领域的大型语言模型的评估方法,其特征在于,任一试题的试题答案基于如下步骤确定:
6.根据权利要求1至3中任一项所述的应用于呼吸科领域的大型语言模型的评估方法,其特征在于,所述基于各个试题答案进行模型性能评估,得到所述大型语言模型在所述呼吸科领域的性能,包括:
7.根据权利要求2或5所述的应用于呼吸科领域的大型语言模型的评估方法,其特征在于,所述基于所述大型语言模型,分别解答所述各目标专科领域下的试题,得到所述各目标专科领域下试题的试题答案,之后还包括:
8.一种应用于呼吸科领域的大型语言模型的评估装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的应用于呼吸科领域的大型语言模型的评估方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的应用于呼吸科领域的大型语言模型的评估方法。
