本技术涉及计算机,尤其涉及一种故障根因的定位方法、计算设备及计算机程序产品。
背景技术:
1、计算设备是企业、组织机构中的关键基础设施,承担了支撑业务运行的使命。计算设备的可靠性和稳定性关系到企业、组织机构的运转。然而,计算设备在长时间的运行过程中,不可避免地会出现故障,如硬件故障、软件故障等。
2、计算设备出现故障会导致业务中断和数据丢失等严重后果。因此,提高故障检测和定位的准确率,能够增强计算设备的可靠性和稳定性,为企业和组织机构提供可靠和稳定的服务。
3、因此,亟需一种故障定位方法来提高计算设备的故障定位的准确率,增强计算设备的可靠性和稳定性。
技术实现思路
1、本技术实施例提供了一种故障根因的定位方法、计算设备及计算机程序产品,能够提高故障根因的定位的准确率,从而提高计算设备的可靠性和稳定性。
2、第一方面,本技术实施例提供了一种故障根因的定位方法,所述方法包括:
3、根据计算设备的故障日志,确定所述计算设备中每个模块的特征信息,所述特征信息用于表示所述模块的故障信息;
4、关联所述每个模块的特征信息与所述计算设备的设备连接图中的节点,得到节点图结构,所述设备连接图是预先配置的,用于表示所述计算设备中每个模块之间的连接关系;所述设备连接图中的节点用于指示所述计算设备中的模块;
5、将所述节点图结构输入到预先训练的图神经网络模型中,所述图神经网络模型对所述计算设备的多个节点和多个节点的特征信息进行特征分析,从所述多个节点中确定导致所述计算设备故障的根因节点。
6、根据本方案,通过将计算设备的故障日志转换成节点图结构,如此,通过节点图结构表示计算设备中模块之间的物理关系以及模块之间的特征,无需构建模块之间复杂的转化和依赖关系,就能够通过节点图结构来表示计算设备在发生故障时,模块之间的信息传递。通过图神经网络模型分析节点图结构,能够通过节点图结构所隐含的模块之间的信息传递,得到故障根因,能够提高故障根因定位的准确率,从而提高计算设备的可靠性和稳定性。
7、在一种可能的实现方式中,所述方法还包括:
8、获取所述计算设备的设备日志,所述设备日志包括设备配置文件和串口日志文件;
9、解析所述设备配置文件,得到所述计算设备中配置的模块信息;
10、解析所述串口日志文件,得到所述计算设备中模块之间的连接关系信息;
11、根据所述模块信息和所述模块之间的连接关系信息,构建所述计算设备的设备连接图。
12、如此,通过构建设备连接图,能够简单清晰的表征设备中各个模块之间的连接关系。
13、在一种可能的实现方式中,所述根据计算设备的故障日志,确定所述计算设备中每个模块的特征信息,包括:
14、获取所述故障日志;
15、解析所述故障日志,得到多个键值对,所述多个键值对中的每个键值对包括模块的身份标识和特征信息。
16、如此,能够精准地抽取节点的特征信息,从而提高节点特征的构建效率。
17、在一种可能的实现方式中,所述对所述设备连接图中的每个节点和所述每个节点的特征信息进行关联,得到节点图结构,包括:
18、根据所述节点的身份标识,将所述节点的特征信息映射至所述设备连接图中的节点,对所述节点的特征信息进行编码,得到所述节点图结构。
19、在一种可能的实现方式中,所述节点的特征信息包括模块多次出现故障的时间信息,所述方法还包括:
20、根据所述模块出现故障的时间信息,对所述节点的特征信息进行整合去重。
21、如此,能够提高节点图架构的构建效率。
22、在一种可能的实现方式中,所述节点的特征信息还包括:
23、节点故障发生的时间、故障类型、机器检查架构错误的代码(machine checkarchitecture error code,mcacode)和机器检查异常状态的代码(machine check statuscode,mscode)。
24、在一种可能的实现方式中,所述根因节点包括至少一个节点。
25、如此,能够提高计算设备故障排查的效率,从而提高计算设备的稳定性和可靠性。
26、在一种可能的实现方式中,所述图神经网络模型是通过不同计算设备的样本故障日志和每个所述计算设备中节点的标签信息训练得到的,所述标签信息用于指示节点是否为根因节点。
27、第二方面,本技术实施例提供了一种故障根因的定位装置,所述装置包括:
28、确定模块,用于根据计算设备的故障日志,确定所述计算设备中每个模块的特征信息,所述特征信息用于表示所述模块的故障信息;
29、关联模块,用于关联所述每个模块的特征信息与所述计算设备的设备连接图中的节点,得到节点图结构,所述设备连接图是预先配置的,用于表示所述计算设备中每个模块之间的连接关系;所述设备连接图中的节点用于指示所述计算设备中的模块;
30、分析模块,用于将所述节点图结构输入到预先训练的图神经网络模型中,所述图神经网络模型对所述计算设备的多个节点和多个节点的特征信息进行特征分析,从所述多个节点中确定导致所述计算设备故障的根因节点。
31、根据本方案,通过将计算设备的故障日志转换成节点图结构,如此,通过节点图结构表示计算设备中模块之间的物理关系以及模块之间的特征,无需构建模块之间复杂的转化和依赖关系,就能够通过节点图结构来表示计算设备在发生故障时,模块之间的信息传递。通过图神经网络模型分析节点图结构,能够通过节点图结构所隐含的模块之间的信息传递,得到故障根因,能够提高故障根因定位的准确率,从而提高计算设备的可靠性和稳定性。
32、在一种可能的实现方式中,所述装置还包括:
33、获取模块,用于获取所述计算设备的设备日志,所述设备日志包括设备配置文件和串口日志文件;
34、解析模块,用于解析所述设备配置文件,得到所述计算设备中配置的模块信息;
35、解析模块还用于解析所述串口日志文件,得到所述计算设备中模块之间的连接关系信息;
36、构建模块,用于根据所述模块信息和所述模块之间的连接关系信息,构建所述计算设备的设备连接图。
37、如此,通过构建设备连接图,能够简单清晰的表征设备中各个模块之间的连接关系。
38、在一种可能的实现方式中,确定模块用于:
39、获取所述故障日志;
40、解析所述故障日志,得到多个键值对,所述多个键值对中的每个键值对包括模块的身份标识和特征信息。
41、如此,能够精准地抽取节点的特征信息,从而提高节点特征的构建效率。
42、在一种可能的实现方式中,关联模块用于:
43、根据所述节点的身份标识,将所述节点的特征信息映射至所述设备连接图中的节点,对所述节点的特征信息进行编码,得到所述节点图结构。
44、在一种可能的实现方式中,所述节点的特征信息包括模块多次出现故障的时间信息,所述装置还包括整合模块,用于根据所述模块出现故障的时间信息,对所述节点的特征信息进行整合去重。
45、如此,能够提高节点图架构的构建效率。
46、在一种可能的实现方式中,所述节点的特征信息还包括以下各项中的至少一项:
47、节点故障发生的时间、故障类型、mcacode、mscode。
48、在一种可能的实现方式中,所述根因节点包括至少一个节点。
49、如此,能够提高计算设备故障排查的效率,从而提高计算设备的稳定性和可靠性。
50、在一种可能的实现方式中,所述图神经网络模型是通过不同计算设备的样本故障日志和每个所述计算设备中节点的标签信息训练得到的,所述标签信息用于指示节点是否为根因节点。
51、第三方面,本技术实施例提供了一种计算设备,包括:
52、至少两个存储器,用于存储程序;
53、至少两个处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第一方面中所提供的方法。
54、第四方面,本技术实施例提供了一种计算设备,所述装置运行计算机程序指令,以执行第一方面中所提供的方法。示例性的,该装置可以为芯片,或处理器。
55、在一个例子中,该装置可以包括处理器,该处理器可以与存储器耦合,读取存储器中的指令并根据该指令执行第一方面中所提供的方法。其中,该存储器可以集成在芯片或处理器中,也可以独立于芯片或处理器之外。
56、第五方面,本技术实施例提供了一种计算机存储介质,所述计算机存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行第一方面中所提供的方法。
57、第六方面,本技术实施例提供了一种包含指令的计算机程序产品,当指令在计算机上运行时,使得计算机执行第一方面中所提供的方法。
1.一种故障根因的定位方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述设备连接图中的每个节点和所述每个节点的特征信息进行关联,得到节点图结构,包括:
3.根据权利要求1或2所述的方法,其特征在于,所述根据计算设备的故障日志,确定所述计算设备中每个模块的特征信息,包括:
4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1-4任一项所述的方法,其特征在于,所述节点的特征信息包括模块多次出现故障的时间信息,所述方法还包括:
6.根据权利要求1-4任一项所述的方法,其特征在于,所述节点的特征信息还包括:
7.根据权利要求1-4任一项所述的方法,其特征在于,所述根因节点包括至少一个节点。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述图神经网络模型是通过不同计算设备的样本故障日志和每个所述计算设备中模块的标签信息训练得到的,所述标签信息用于指示根因节点。
9.一种计算设备,其特征在于,包括
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令指示计算设备执行权利要求1-8任一所述的方法。