一种基于日志构建支持环境的系统故障处理方法及系统与流程

专利2022-05-10  28



1.本发明属于故障运维技术领域,具体涉及一种基于日志构建支持环境的系统故障处理方法及系统。


背景技术:

2.随着信息技术发展和我国信息化建设进程的持续推进,信息技术应用已深度融入到国民经济各领域中。企业利用信息系统来支撑生产、经营、管理各领域业务运行已成为趋势和常态。在一些信息化应用覆盖度较高的企业或机构,各种应用系统间业务关联、数据交互、技术交织,形成了庞大且复杂的it生态环境。一方面,广泛业务对信息化系统的依赖使得企业(机构)对运维保障工作提出更高要求。另一方面,日益复杂的信息化环境又造成更多的故障点、更多的故障类型及更广泛的故障影响。在此情形下,传统的单点系统运维模式已经难以应付,需要寻找新的解决方案。
3.目前流行的运维优化方案大致分为两个方向。其一以it监控系统为典型,着眼于整体环境运维,重在对it基础设施的运行状态监控,也涉及一些通用产品、标准化中间件故障的分析。其二是利用大数据、人工智能等新兴技术构建自动化、智能化的故障处理机制,一般针对特定领域或场景发挥作用。在广泛而繁杂的业务应用系统层面,除了较为标准化的设施故障、产品故障以外,故障的发生往往还与业务逻辑、功能设计、系统配置、集成模式甚至用户操作等因素有关,这种故障成因的广泛性和特异性使得故障难以通过上述两种方案获得广泛而有效的解决,还是必须依赖运维人员基于对系统相关业务、技术的理解和实践经验来处理故障。因此如何支持运维人员提升处理故障的效率和能力成为一种新的解决思路。
4.各种应用系统运行时故障相关的线索通常会在服务器运行日志中记录。所以故障排除过程一般从获取、分析日志入手,依托系统技术原理和环境因素排查定位原因。实践经验表明,影响故障处理效率的障碍主要有:
5.(1)集群、分布式、系统集成等技术的广泛应用造成故障服务器节点定位困难,进而导致难以方便快捷获取相应的运行日志信息。
6.(2)集成环境中,故障排查可能延申到关联系统,需要跨系统协查并获取信息。
7.(3)故障涉及的技术领域宽泛,往往需要协调不同技术领域专家参与协力处理。
8.(4)故障处理知识、经验、技能掌握在个人手中,难以共享形成技术支持。导致一些重复、相似或相关故障因缺乏知识、经验积累及复用而大费周章。
9.针对这些问题来寻找解决方案,即可实现复杂应用系统环境中各种故障问题处理效率及能力的显著提升。


技术实现要素:

10.本发明要解决的技术问题是:在复杂应用系统环境中为运维人员处理各种系统故障提供一种能有效提升处理效率及处理能力的基于日志构建支持环境的系统故障处理方
法及系统,具体问题又包括:(1)寻求针对复杂应用系统环境中各类应用系统故障,提供一种普适性强且便于集中管理的处理方案。(2)处理系统故障时,故障日志信息收集困难问题。(3)处理系统故障时,恰当的技能人员组织及协作问题。(4)处理故障时,获取已有知识经验支持的问题,以及知识经验持续积累的问题。
11.为实现上述目的,本发明采用的技术方案如下:
12.一种基于日志构建支持环境的系统故障处理系统,包括故障处理中心服务器,与故障处理中心服务器连接的日志检测采集端、故障处理客户端;
13.日志检测采集端用于读取应用服务器日志,根据故障处理中心服务器采集点配置模块定义的常规检测规则、故障日志采集规则,采集指令模块中的临时采集指令识别和采集潜在故障日志信息,并反馈给故障处理中心服务器进行处理;
14.故障处理客户端,用于接收故障处理中心服务器发送的通知消息,并且运维人员通过该客户端访问故障处理中心服务器参与故障处理;
15.故障处理中心服务器包括采集点配置模块、采集指令模块、日志处理模块、故障日志特征库、标签库、案例知识库、故障处理模块和消息分发模块;
16.采集点配置模块,分别与日志检测采集端、日志处理模块相连,用于供日志检测采集端、日志处理模块访问获取信息,还用于定义与各日志检测采集端运行环境相匹配的常规检测规则、故障日志采集规则和关联服务器信息;
17.采集指令模块,分别与日志检测采集端、日志处理模块相连;用于存储日志处理模块创建的临时采集指令,供日志检测采集端获取;
18.日志处理模块,还分别与日志检测采集端、故障日志特征库、案例知识库、故障处理模块、消息分发模块相连;
19.日志检测采集端将采集到的日志信息存储于日志处理模块生成待处理故障日志记录;
20.日志处理模块从采集点配置模块获取故障日志服务器的关联服务器采集点配置信息,用于获取辅助处理的补充日志;日志处理模块创建收集关联服务器补充日志的临时日志采集指令存储到采集指令模块,用于采集关联服务器的补充日志信息;
21.日志处理模块从故障日志特征库获取与当前待处理日志适配的所有故障日志特征模式配置并进行匹配,识别出反映故障特征的标签关键字;
22.日志处理模块利用当前故障日志中识别出的标签关键字对案例知识库进行检索,获取可用的参考案例文档;日志处理模块汇总故障日志信息、补充日志信息、服务器关联关系描述、已识别的故障标签关键字、可参考的案例知识在故障处理模块中创建故障处理支持上下文环境;
23.日志处理模块接收到待处理故障日志记录时,通过消息分发模块向对应的责任人发送通知消息至其故障处理客户端,在责任人确定故障处理参与人时也通过消息分发模块向对应的参与人发送通知消息至其故障处理客户端;
24.故障日志特征库,还分别与标签库、故障处理模块相连;用于配置和存储预定义的故障日志特征匹配模式;日志处理模块从故障日志特征库获取适配的所有特征模式进行匹配运算来得出描述故障特征的标签关键字;
25.标签库,还分别与案例知识库、故障处理模块相连;用于配置和存储按多个维度分
类的故障特征描述标签;故障日志特征库中存储预定义的的每个故障日志特征匹配模式需指定标签库中适配的标签与之关联;案例知识库中的案例知识文档会与标签库至少一个适配的标签关联;
26.案例知识库,还与故障处理模块相连;用于存储故障处理的案例知识文档;案例知识库中的案例知识文档都至少与标签库中的一个标签形成关联;日志处理模块会获取案例知识库中符合标签检索条件的案例文档作为参考材料;
27.故障处理模块,还与消息分发模块相连;用于为故障处理人提供故障处理交互支持环境,提供故障处理有关的信息参考,收集故障处理的过程信息及总结信息;责任人在故障处理模块中进行故障处理时通过消息分发模块邀约补充的参与人并发送通知消息至其故障处理客户端;
28.消息分发模块,还与故障处理客户端相连,用于处理日志处理模块、故障处理模块传入的消息分发请求,将故障处理通知消息发送到故障处理客户端。
29.进一步,优选的是,日志检测采集端是安装定时采集程序的应用服务器节点计算机;计算机存储文件系统上应包含由应用服务器输出的文本型日志文件。
30.进一步,优选的是,故障处理客户端是故障处理人手机和/或可通过浏览器访问故障处理服务器的计算机。
31.进一步,优选的是,常规检测规则包括对日志文件每次检测时间间隔及检测范围;故障日志采集规则配置定义特定日志格式中反映故障的信息的格式特征,用于发现检测范围的日志中是否包含故障日志信息。
32.进一步,优选的是,故障处理模块完成故障处理过程时可能更新或新建故障日志特征匹配模式到故障日志特征库中;故障处理模块在故障处理过程结束后,根据处理总结的情况可能在标签库中更新或新建标签;故障处理模块工作完成时,根据处理总结的情况可能形成新的案例文档存储到案例知识库中。
33.一种基于日志构建支持环境的系统故障处理方法,采用上述基于日志构建支持环境的系统故障处理系统,包括如下步骤:
34.a、配置故障信息检测、采集节点;
35.b、检测并采集故障日志信息;
36.c、进行故障特征识别,获取相关案例知识;
37.d、通知运维责任人做处理方案判断及收集补充信息;
38.e、构建故障处理支持环境,并邀约参与人协助;
39.f、进行故障分析处理,收集过程信息;
40.g、总结故障处理经验,更新积累故障识别特征及案例知识。
41.进一步,优选的是,所述步骤a包括:
42.a1、收集采集目标节点服务器特征属性,在故障处理中心服务器建立对应的常规检测规则和故障日志采集规则;
43.a2、将采集程序安装、部署到目标节点服务器,按一定的时间间隔周期运行;
44.所述步骤b包括:
45.b1、从故障处理中心服务器获取自身对应的常规检测规则;
46.b2、从故障处理中心服务器获取自身对应的日志故障信息采集规则;
47.b3、从故障处理中心服务器获取自身对应的临时采集指令;
48.b4、按常规检测规则、故障日志采集规则、临时采集指令将采集到的日志信息连同本采集点的环境标识信息返回给故障处理中心服务器,形成待处理的故障记录;并生成一条执行记录,用于标识本采集点的本次运行活动信息。
49.进一步,优选的是,步骤c包含:
50.c1、从预定义的故障日志特征库中检索适用于当前采集点特性的所有故障特征模式与当前故障日志进行匹配,获取满足匹配的特征模式所对应的标签关键字,并将标签关键字记录到当前待处理故障日志记录中;
51.c2、根据获取的标签关键字检索案例知识库,获取适配关键字的案例文档作为参考资料并挂接到当前待处理的故障日志记录中。
52.步骤d包含:
53.d1、故障处理中心服务器根据待处理故障日志记录中的责任人信息,发送通知消息给责任人;
54.d2、责任人访问故障处理中心服务器中的待处理故障日志记录,根据已有信息判断和确定后续处理方案;若故障轻微无需处理则直接结案;若需要补充收集补充日志信息则创建临时采集指令进行日志采集。
55.进一步,优选的是,步骤e包括:
56.e1、整合获取的补充日志信息,创建故障处理支持环境;故障处理支持环境中包括故障日志信息、补充日志信息、服务器关联关系描述、已识别的故障标签关键字、可参考的案例知识;
57.e2、若需其他技术人员协同处理,则通过支持环境中挂接的案例文档中记录的参与人信息,确定适当的具有专门知识和经验的人员并发送请求参与故障处理的通知消息;
58.步骤f包括:
59.f1、各收到通知的参与人访问故障处理中心服务器中的当前故障支持环境,了解故障有关信息;
60.f2、各参与人发表意见及讨论,开展故障排查处理过程;其中,意见形成痕迹化记录。
61.进一步,优选的是,步骤g包括:
62.g1、故障处理完毕后,负责人总结过程经验形成文字描述;
63.g2、若故障处理过程中总结出新的故障日志特征,则定义新的故障日志特征匹配模式更新到故障日志特征库中,并关联或创建对应的标签关键字;
64.g3、将本次处理过程生成案例知识文档,存储到案例知识库中并关联或创建对应的标签关键字。
65.本发明故障处理客户端是可通过网络连接故障处理中心服务器的用户pc计算机或安装了app客户端程序的移动终端或可接收短信的手机,用于接收故障处理中心服务器发送的通知消息,并通过web地址链接(pc计算机)或app(移动终端)访问故障处理服务器参与故障处理;
66.故障日志信息由日志检测采集端从应用服务器日志中采集得到,补充日志信息根据采集点配置模块中配置的服务器关联信息,从关联服务器获取的日志信息,用于辅助故
障判断,服务器关联关系描述从采集点配置模块中的配置获取。
67.本发明中故障处理有关的信息参考指日志处理模块收集汇总的故障日志信息、关联服务器补充日志信息、服务器关联关系描述、已识别的故障标签关键字、可参考的案例知识。这些信息在故障处理模块中整合提供人机交互界面,创建故障处理支持上下文环境。
68.故障处理模块是一个汇总信息和功能操作的人机交互支持环境,从动作上看邀约通知是负责人执行操作发起,从数据流上看是故障处理模块收集邀约通知的操作指令内容通过消息分发模块进行发送。
69.日志处理模块收集到故障日志时自动生成通知,通过消息分发模块发送通知给故障负责人;在故障处理过程中负责人在故障处理模块中可以手动执行通知发送,邀约其他人作为故障处理人。
70.本发明中故障日志服务器为应用服务器中出现故障日志的服务器,关联服务器是指和该出现故障日志的服务器相关联的服务器,例如,同一个集群的服务器。
71.本发明b4步骤中,本采集点是指的目标节点服务器。环境标识信息具体就是采集点配置中描述的采集点ip地址、日志类型等,用于告知服务器当前执行了采集任务的节点是哪一个。
72.本发明的第一目的在于提供一种基于日志构建支持环境的系统故障处理方法。其包括下列各步骤:
73.a、配置故障信息检测、采集节点;
74.b、检测并采集故障日志信息;
75.c、进行故障特征识别,获取相关案例知识;
76.d、通知运维责任人做处理方案判断及收集补充信息;
77.e、构建故障处理支持环境,并邀约参与人协助。
78.f、进行故障分析处理,收集过程信息。
79.g、总结故障处理经验,更新积累故障识别特征及案例知识。
80.进一步的,所述步骤a包括:
81.a1、收集采集目标节点服务器特征属性,在故障处理中心服务器建立对应的常规检测规则、故障日志采集规则和关联服务器信息。目标节点服务器可以是各种类型的能在磁盘文件系统输出文本型运行日志的应用服务器(如web应用服务器、消息中间件服务器、流程引擎服务器、数据库服务器等),可以包括隶属于不同应用系统架构下的服务器节点。
82.a2、将采集程序安装、部署到目标应用服务器节点,按一个恰当的时间间隔周期运行。运行间隔可以是一个较短时间,以便提高与故障中心服务器的联络效率,实际检测、采集活动的时间间隔可以是一个更长的时间间隔,通过故障处理中心中建立的检测规则来定义。
83.进一步的,所述步骤b包括:
84.b1、采集程序从故障处理中心服务器获取自身对应的常规检测规则。检测规则描述对特定日志文件中指定时间范围的日志信息进行检测。检测规则可以配置多个,对应到多个(种)日志文件,执行检测时顺序批量执行。
85.b2、采集程序从故障处理中心服务器获取自身对应的日志故障信息采集规则。故障信息采集规则定义特定日志格式中反映故障的信息的格式特征。用于发现检测范围的日
志中是否包含故障信息。检测规则可以定义多个,用于匹配各种故障日志格式,执行采集时顺序批量执行。
86.b3、采集程序从故障处理中心服务器获取自身对应的临时采集指令。采集指令描述对特定日志文件指定时间范围的日志信息进行采集。采集的信息不一定是故障信息,主要用于对一个故障信息发生的背景做参考。
87.b4、采集程序按常规检测规则、故障日志采集规则、临时采集指令将采集到的日志信息连同本采集点的环境标识(采集点服务器ip地址、日志类型)信息返回给故障处理中心服务器,形成待处理的故障记录。并生成一条执行记录,用于标识本采集点的本次运行活动信息。
88.进一步的,步骤c包含:
89.c1、从预定义的故障日志特征库中检索适用于当前采集点特性的所有故障特征模式与当前故障日志进行匹配,获取满足匹配的特征模式所对应的标签关键字,并将标签关键字记录到当前待处理故障日志记录中。标签关键字是预先定义和存储于标签库中的一些列配置,每个关键字配置被按多个维度分类,用自然语言描述一个针对特定系统或特定类型的特定故障特征。每个故障日志特征模式建立时都被指定了对应的特征标签。
90.c2、根据获取的标签关键字检索案例知识库,获取适配关键字的案例文档作为参考资料并挂接到当前待处理的故障日志记录中。案例文档是预先整理和存储于案例知识库的历史故障处理信息描述。案例文档创建时也被指定了一个或多个标签库中的标签关键字作为检索标识。检索结果的排序规则是优选与当前故障日志相同系统的案例,其次选择与当前故障日志相同日志类型的其他系统案例。
91.进一步的,步骤d包含:
92.d1、故障处理中心服务器根据待处理故障日志记录中的责任人信息,发送通知消息给责任人。
93.d2、责任人访问故障处理中心服务器中的待处理故障日志记录,根据已有信息判断和确定后续处理方案。若故障轻微无需处理则直接结案。若需要补充收集补充日志信息则创建临时采集指令进行日志采集。临时采集指令可以针对当前故障服务器节点采集更大时间范围的日志信息作为背景,也可以针对与当前故障服务器有关联关系的其他服务器节点(如同一集群的服务器节点、有集成关系的其他系统服务器节点、独立的数据库服务器节点)采集与故障日志同时段的日志信息。服务器间的关联关系是在上述a1步骤中配置的。
94.进一步的,步骤e包括:
95.e1、整合获取的补充日志信息,创建故障处理支持环境。故障处理支持环境是一个主题论坛式的交互界面。其中包括了故障日志信息、补充日志信息、服务器关联关系描述、已识别的故障标签关键字、可参考的案例知识。
96.e2、若需其他技术人员协同处理,则可通过支持环境中挂接的案例文档中记录的参与人信息,确定适当的具有专门知识和经验的人员并发送请求参与故障处理的通知消息。
97.进一步的,步骤f包括:
98.f1、各收到通知的参与人访问故障处理中心服务器中的当前故障支持环境,了解故障有关信息。
99.f2、各参与人发表意见及讨论,开展故障排查处理过程。意见以论坛回帖形式痕迹化记录,直到整个过程结束。
100.进一步的,步骤g包括:
101.g1、故障处理完毕后,负责人总结过程经验形成文字描述。
102.g2、若故障处理过程中总结出新的故障日志特征,则定义新的故障日志特征匹配模式更新到故障日志特征库中,并关联或创建对应的标签关键字。
103.g3、将本次处理过程生成案例知识文档,存储到案例知识库中并关联或创建对应的标签关键字。
104.本发明与现有技术相比,其有益效果为:
105.本发明在复杂应用系统环境中为运维人员处理各种系统故障提供一种普适性强且便于集中管理的支持环境,能有效解决故障处理过程中故障日志信息收集困难问题、人员组织及协作问题、共享知识经验以及知识经验持续积累的问题。能大幅优化系统故障处理的效率,不断提升运维人员的故障处理能力。依据经验统计,目前传统运维方式下故障处理过程约60%以上工作量(或工作时间)消耗在故障信息收集、知识经验收集、人员组织协助等环节中,采用本方案可以极大消除这些消耗。
附图说明
106.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
107.图1为本发明系统结构示意图;
108.图2为本发明方法流程示意图;
109.图中:s001

采集点配置模块,s002

采集指令模块,s003

故障日志特征库,s004

日志处理模块,s005

故障日志特征库,s006

标签库,s007

案例知识库,s008

故障处理模块,s009

消息分发模块,s010

故障处理客户端。
具体实施方式
110.下面结合实施例对本发明作进一步的详细描述。
111.本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用材料或设备未注明生产厂商者,均为可以通过购买获得的常规产品。
112.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”到另一元件时,它可以直接连接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”可以包括无线连接。这里使用的措辞“和/或”包括一个或更多个相关联
的列出项的任一单元和全部组合。
113.在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。术语“内”、“上”、“下”等指示的方位或状态关系为基于附图所示的方位或状态关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
114.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“连接”、“设有”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,根据具体情况理解上述术语在本发明中的具体含义。
115.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
116.如图1所示,一种基于日志构建支持环境的系统故障处理系统,包括故障处理中心服务器,与故障处理中心服务器连接的日志检测采集端s003、故障处理客户端s010;
117.日志检测采集端s003用于读取应用服务器日志,根据故障处理中心服务器采集点配置模块s001定义的常规检测规则、故障日志采集规则,采集指令模块s002中的临时采集指令识别和采集潜在故障日志信息,并反馈给故障处理中心服务器进行处理;
118.故障处理客户端s010,用于接收故障处理中心服务器发送的通知消息,并且运维人员通过该客户端访问故障处理中心服务器参与故障处理;
119.故障处理中心服务器包括采集点配置模块s001、采集指令模块s002、日志处理模块s004、故障日志特征库s005、标签库s006、案例知识库s007、故障处理模块s008和消息分发模块s009;
120.采集点配置模块s001,分别与日志检测采集端s003、日志处理模块s004相连,用于供日志检测采集端s003、日志处理模块s004访问获取信息,还用于定义与各日志检测采集端s003运行环境相匹配的常规检测规则、故障日志采集规则和关联服务器信息;
121.采集指令模块s002,分别与日志检测采集端s003、日志处理模块s004相连;用于存储日志处理模块s004创建的临时采集指令,供日志检测采集端s003获取;
122.日志处理模块s004,还分别与日志检测采集端s003、故障日志特征库s005、案例知识库s007、故障处理模块s008、消息分发模块s009相连;
123.日志检测采集端s003将采集到的日志信息存储于日志处理模块s004生成待处理故障日志记录;
124.日志处理模块s004从采集点配置模块s001获取故障日志服务器的关联服务器采集点配置信息,用于获取辅助处理的补充日志;日志处理模块s004创建收集关联服务器补充日志的临时日志采集指令存储到采集指令模块s002,用于采集关联服务器的补充日志信息;
125.日志处理模块s004从故障日志特征库s005获取与当前待处理日志适配的所有故障日志特征模式配置并进行匹配,识别出反映故障特征的标签关键字;
126.日志处理模块s004利用当前故障日志中识别出的标签关键字对案例知识库s007
进行检索,获取可用的参考案例文档;日志处理模块s004汇总故障日志信息、补充日志信息、服务器关联关系描述、已识别的故障标签关键字、可参考的案例知识在故障处理模块s008中创建故障处理支持上下文环境;
127.日志处理模块s004接收到待处理故障日志记录时,通过消息分发模块s009向对应的责任人发送通知消息至其故障处理客户端s010,在责任人确定故障处理参与人时也通过消息分发模块s009向对应的参与人发送通知消息至其故障处理客户端s010;
128.故障日志特征库s005,还分别与标签库s006、故障处理模块s008相连;用于配置和存储预定义的故障日志特征匹配模式;日志处理模块s004从故障日志特征库s005获取适配的所有特征模式进行匹配运算来得出描述故障特征的标签关键字;
129.标签库s006,还分别与案例知识库s007、故障处理模块s008相连;用于配置和存储按多个维度分类的故障特征描述标签;故障日志特征库s005中存储预定义的的每个故障日志特征匹配模式需指定标签库s006中适配的标签与之关联;案例知识库s007中的案例知识文档会与标签库s006至少一个适配的标签关联;
130.案例知识库s007,还与故障处理模块s008相连;用于存储故障处理的案例知识文档;案例知识库s007中的案例知识文档都至少与标签库s006中的一个标签形成关联;日志处理模块s004会获取案例知识库s007中符合标签检索条件的案例文档作为参考材料;
131.故障处理模块s008,还与消息分发模块s009相连;用于为故障处理人提供故障处理交互支持环境,提供故障处理有关的信息参考,收集故障处理的过程信息及总结信息;责任人在故障处理模块s008中进行故障处理时通过消息分发模块s009邀约补充的参与人并发送通知消息至其故障处理客户端s010;
132.消息分发模块s009,还与故障处理客户端s010相连,用于处理日志处理模块s004、故障处理模块s008传入的消息分发请求,将故障处理通知消息发送到故障处理客户端s010。
133.优选,日志检测采集端s003是安装定时采集程序的应用服务器节点计算机;计算机存储文件系统上应包含由应用服务器输出的文本型日志文件。
134.优选,故障处理客户端是故障处理人手机和/或可通过浏览器访问故障处理服务器的计算机。
135.优选,常规检测规则包括对日志文件每次检测时间间隔及检测范围;故障日志采集规则配置定义特定日志格式中反映故障的信息的格式特征,用于发现检测范围的日志中是否包含故障日志信息。
136.优选,故障处理模块s008完成故障处理过程时可能更新或新建故障日志特征匹配模式到故障日志特征库s005中;故障处理模块s008在故障处理过程结束后,根据处理总结的情况可能在标签库s006中更新或新建标签;故障处理模块s008工作完成时,根据处理总结的情况可能形成新的案例文档存储到案例知识库s007中。
137.如图2所示,一种基于日志构建支持环境的系统故障处理方法,采用上述基于日志构建支持环境的系统故障处理系统,包括如下步骤:
138.a、配置故障信息检测、采集节点;
139.b、检测并采集故障日志信息;
140.c、进行故障特征识别,获取相关案例知识;
141.d、通知运维责任人做处理方案判断及收集补充信息;
142.e、构建故障处理支持环境,并邀约参与人协助;
143.f、进行故障分析处理,收集过程信息;
144.g、总结故障处理经验,更新积累故障识别特征及案例知识。
145.优选,所述步骤a包括:
146.a1、收集采集目标节点服务器特征属性,在故障处理中心服务器建立对应的常规检测规则和故障日志采集规则;
147.a2、将采集程序安装、部署到目标节点服务器,按一定的时间间隔周期运行;
148.所述步骤b包括:
149.b1、从故障处理中心服务器获取自身对应的常规检测规则;
150.b2、从故障处理中心服务器获取自身对应的日志故障信息采集规则;
151.b3、从故障处理中心服务器获取自身对应的临时采集指令;
152.b4、按常规检测规则、故障日志采集规则、临时采集指令将采集到的日志信息连同本采集点的环境标识信息返回给故障处理中心服务器,形成待处理的故障记录;并生成一条执行记录,用于标识本采集点的本次运行活动信息。
153.优选,步骤c包含:
154.c1、从预定义的故障日志特征库中检索适用于当前采集点特性的所有故障特征模式与当前故障日志进行匹配,获取满足匹配的特征模式所对应的标签关键字,并将标签关键字记录到当前待处理故障日志记录中;
155.c2、根据获取的标签关键字检索案例知识库,获取适配关键字的案例文档作为参考资料并挂接到当前待处理的故障日志记录中。
156.步骤d包含:
157.d1、故障处理中心服务器根据待处理故障日志记录中的责任人信息,发送通知消息给责任人;
158.d2、责任人访问故障处理中心服务器中的待处理故障日志记录,根据已有信息判断和确定后续处理方案;若故障轻微无需处理则直接结案;若需要补充收集补充日志信息则创建临时采集指令进行日志采集。
159.优选,步骤e包括:
160.e1、整合获取的补充日志信息,创建故障处理支持环境;故障处理支持环境中包括故障日志信息、补充日志信息、服务器关联关系描述、已识别的故障标签关键字、可参考的案例知识;
161.e2、若需其他技术人员协同处理,则通过支持环境中挂接的案例文档中记录的参与人信息,确定适当的具有专门知识和经验的人员并发送请求参与故障处理的通知消息;
162.步骤f包括:
163.f1、各收到通知的参与人访问故障处理中心服务器中的当前故障支持环境,了解故障有关信息;
164.f2、各参与人发表意见及讨论,开展故障排查处理过程;其中,意见形成痕迹化记录。
165.优选,步骤g包括:
166.g1、故障处理完毕后,负责人总结过程经验形成文字描述;
167.g2、若故障处理过程中总结出新的故障日志特征,则定义新的故障日志特征匹配模式更新到故障日志特征库中,并关联或创建对应的标签关键字;
168.g3、将本次处理过程生成案例知识文档,存储到案例知识库中并关联或创建对应的标签关键字。
169.应用实例
170.如图1所示,本发明所述系统包括:故障处理中心服务器,与故障处理中心服务器连接的日志检测采集端s003、故障处理客户端s010。
171.所述日志检测采集端s003是安装定时采集程序的应用服务器节点计算机。计算机存储文件系统上应包含由应用服务器输出的文本型日志文件。定时采集程序工作时读取日志文件检测和采集需要的日志信息。
172.具体,日志检测采集端s003用于读取应用服务器日志,根据故障处理中心服务器采集点配置模块s001定义的常规检测规则、故障日志采集规则,采集指令模块s002中的临时采集指令识别和采集潜在故障日志信息,并反馈给故障处理中心服务器进行处理;
173.所述故障处理客户端s010是故障处理人手机和/或可通过浏览器访问故障处理服务器的计算机。手机可通过短信、app等形式接收故障处理服务器发送的故障处理通知消息。具体,故障处理客户端s010,用于接收故障处理中心服务器发送的通知消息,并且运维人员通过该客户端访问故障处理中心服务器参与故障处理;
174.所述的连接是通过计算机可用的有线网络、无线网络,手机(或移动终端)可用的无线网络、电信运营商提供的移动通信网络实现的。
175.所述的故障处理中心服务器包括采集点配置模块s001、采集指令模块s002、日志处理模块s004、故障日志特征库s005、标签库s006、案例知识库s007、故障处理模块s008、消息分发模块s009,其中:
176.采集点配置模块s001分别与日志检测采集端s003、日志处理模块s004相连,供日志检测采集端s003、日志处理模块s004访问获取信息。本模块用于定义与各日志检测采集端s003运行环境相匹配的个性化常规检测规则和故障日志采集规则。常规检测规则配置用于定义采集点及各采集点执行采集任务时对日志文件的检测范围(按时间间隔)。常规检测规则配置主要包含如表1所示信息:
177.表1
[0178][0179]
故障日志采集规则配置定义特定日志格式中反映故障的信息的格式特征,用于发现检测范围内的日志中是否包含故障日志信息,主要包含如表2信息:
[0180]
表2
[0181][0182][0183]
采集指令模块s002分别与日志检测采集端s003、日志处理模块s004相连。存储日志处理模块s004创建的临时采集指令,供日志检测采集端s003获取。本模块用于存储临时性的日志采集指令。临时日志采集指令主要包含如表3所示信息:
[0184]
表3
[0185]
采集点ip地址日志类型日志文件路径日志开始时间日志结束时间10.2.1.112tomcat/data/

/logs/catalina.out2020

12

03 09:10:002020

12

03 09:15:0010.2.1.111tomcat
………
10.2.1.200mysql
………
[0186]
日志处理模块s004分别与日志检测采集端s003、采集点配置模块s001、采集指令模块s002、故障日志特征库s005、案例知识库s007、故障处理模块s008、消息分发模块s009相连。日志检测采集端s003将采集到的日志信息存储于本模块生成待处理故障日志记录;本模块可从采集点配置模块s001获取所需的采集点配置信息;本模块可创建临时日志采集指令存储到采集指令模块s002,用于采集补充的日志信息;本模块从故障日志特征库s005获取与当前待处理日志适配的所有故障日志特征模式配置并进行匹配,识别出反映故障特
征的标签关键字;本模块利用当前故障日志中识别出的标签关键字对案例知识库s007进行检索,获取可用的参考案例文档;本模块汇总故障日志信息、补充日志信息、服务器关联关系描述、已识别的故障标签关键字、可参考的案例知识在故障处理模块s008中创建故障处理支持上下文环境(处理界面);本模块接收到待处理故障日志记录时通过消息分发模块s009向对应的责任人发送通知消息至其故障处理客户端s010,在责任人确定故障处理参与人时也通过消息分发模块s009向对应的参与人发送通知消息至其故障处理客户端s010。
[0187]
故障日志特征库s005分别与标签库s006、日志处理模块s004、故障处理模块s008相连。用于配置和存储预定义的故障日志特征匹配模式。日志特征匹配模式是对一个已识别的故障日志特征的技术性表达式描述。本模块中一个故障日志特征匹配模式和标签库s006中适配的标签关联,并因此被分门别类;日志处理模块s004从本模块获取适配的所有特征模式进行匹配运算来得出描述故障特征的标签关键字;故障处理模块s008完成故障处理过程时可更新或新建故障日志特征匹配模式到本模块中。本模块存储的故障日志特征模式记录主要包含的信息如表4所示:
[0188]
表4
[0189]
所属系统日志类型故障特征模式说明标签关键字oa系统tomcat故障特征文本匹配正则表达式匹配空指针错误java空指针异常oa系统tomcat

匹配文件编号错误发文编号异常oa系统tomcat

匹配oom异常tomcat内存溢出oa数据库系统mysql
………
[0190]
标签库s006分别与故障日志特征库s005、案例知识库s007、故障处理模块s008相连。用于配置和存储按多个维度分类的故障特征描述标签。标签的作用是面向故障以便于人理解的方式描述故障特征,作为检索关键字。故障日志特征库s005中存储预定义的的每个故障日志特征匹配模式需指定本模块适配的标签与之关联;案例知识库s007中的案例知识文档会与本模块至少一个适配的标签关联;故障处理模块s008在故障处理过程结束后,根据处理总结可能在本模块中更新或新建标签。标签配置包含的主要信息如表5所示:
[0191]
表5
[0192]
所属系统类型标签名称说明oa系统tomcatjava空指针异常

oa系统tomcat发文编号异常

oa系统tomcattomcat内存溢出

oa数据库系统mysql
……
[0193]
案例知识库s007分别与标签库s006、日志处理模块s004、故障处理模块s008相连。用于存储故障处理的案例知识文档。案例知识文档是具有特定格式的历史故障处理过程信息描述文档,收集了采集点信息、原始日志信息、补充日志信息、故障特征标签、故障处理人列表、故障处理过程描述、关联知识参考信息,用于积累故障处理知识,为后续故障处理提供参考。本模块中的案例知识文档都至少与标签库s006中的一个适配的标签形成关联;日志处理模块s004会获取本模块中符合标签检索条件的案例文档作为参考材料;
[0194]
故障处理模块s008工作完成时,根据处理总结可能形成新的案例文档存储到本模块中。案例知识文档包含的主要信息如表6所示:
[0195]
表6
[0196][0197]
故障处理模块s008分别与日志处理模块s004、故障日志特征库s005、标签库s006、案例知识库s007、消息分发模块s009相连。用于为故障处理人提供故障处理交互支持环境,提供故障处理有关的信息参考,收集故障处理的过程信息及总结信息。日志处理模块s004汇总故障日志信息、补充日志信息、服务器关联关系描述、已识别的故障标签关键字、可参考的案例知识在本模块中创建故障处理交互支持环境(处理界面);本模块完成故障处理过程时可更新或新建故障日志特征匹配模式到故障日志特征库s005中;本模块完成故障处理过程时可更新或新建故障特征标签到标签库s006中;本模块完成故障处理过程时可生成新的案例知识文档到案例知识库s007中;本模块进行故障处理时可通过消息分发模块s009邀约补充的参与人并发送通知消息。
[0198]
消息分发模块s009与日志处理模块s004、故障处理模块s008、故障处理客户端s010相连。用于处理日志处理模块s004、故障处理模块s008传入的消息分发请求,将故障处理通知消息通过短信、app消息等形式发送到故障处理客户端s010。
[0199]
如图2所示,本发明所述方法包含以下步骤:
[0200]
a、配置故障信息检测、采集节点;
[0201]
b、检测并采集故障日志信息;
[0202]
c、进行故障特征识别,获取相关案例知识;
[0203]
d、通知运维责任人做处理方案判断及收集补充信息;
[0204]
e、构建故障处理支持环境,并邀约参与人协助。
[0205]
f、进行故障分析处理,收集过程信息。
[0206]
g、总结故障处理经验,更新积累故障识别特征及案例知识。
[0207]
实施例:
[0208]
如图1、2所示,图1系统是按图2方法步骤运行的,一个具体实例如下:
[0209]
步骤a:收集待采集的目标服务器特征属性,包括ip地址、日志类型、日志路径、所属系统、运维责任人、关联的服务器信息在故障处理中心服务器(本例中是一个java ssh技术构建的web系统)采集点配置模块s001中建立采集点常规检测配置,并设置检索时间间隔(如30分钟)和日志记录日期格式匹配模式(用java正则表达式技术根据日志格式特点定义)。将利用java跨平台技术制作的定时采集程序安装部署到目标服务器运行,构成一个日志检测采集端s003,为平衡联络效率及对服务器性能影响,设置定时运行间隔时间为5分钟(通常小于配置的检测时间间隔,即以一个较小时间间隔与故障处理中心服务器联络以便及时获取配置及指令变化,但不一定执行日志检测,日志检测按配置的规则执行),运行周期间隔和故障中心服务器地址信息以本地配置文件方式定义。
[0210]
步骤b:日志检测采集端s003运行,连接到故障处理中心服务器,访问采集点配置
模块s001,获取自身对应的常规检测规则和检测活动执行记录,根据当前时间和上次检测记录时间判断是否达到或超过了配置的检测间隔,若是,则读取日志文件(可逐行倒读),按检测规则配置的日志日期时间格式匹配模式进行文本匹配,直到日志记录行中日期时间符合配置范围。日志检测采集端s003访问采集点配置模块s001,获取自身对应的所有日志故障信息采集规则,并针对获取的检测范围内日志信息进行批量顺序匹配,若匹配成功则截取相应段落作为采集到的故障日志信息。日志检测采集端s003访问采集指令模块002检查是否有临时性日志采集指令需要执行,若有则获取指令,按指令定义的规则获取指定时间段日志信息。日志检测采集端s003完成所有采集任务后,将信息返回故障处理中心服务器日志处理模块s004,形成待处理的故障日志记录。
[0211]
步骤c:日志处理模块s004检索故障日志特征库s005中预定义的适配(适配规则可按所属系统进行严格适配,也可按相同日志类型进行宽泛的适配)当前采集点日志的所有故障特征模式与当前故障日志进行匹配,获取满足匹配的特征模式所对应的标签关键字,并将标签关键字记录到当前待处理故障日志记录中。日志处理模块s004根据获取的故障关键字检索案例知识库s007获取适配关键字的案例文档作为参考资料并挂接到当前待处理的故障日志记录中。
[0212]
步骤d:日志处理模块s004根据待处理故障日志记录中的责任人信息,通过消息分发模块s009,发送通知消息给责任人。责任人访问故障处理中心服务器中的待处理故障日志记录,根据已有信息判断和确定后续处理方案。若故障无需处理则直接结案。若需要补充收集补充日志信息则通过指令采集模块s002创建与本故障记录相关的临时采集指令,在日志检测采集端s003下次联系故障处理中心服务器时获取并进行日志采集,并反馈采集的日志与当前待处理日志记录进行关联。
[0213]
步骤e:日志处理模块s004整合获取的补充日志信息,在故障处理模块s008中创建故障处理支持环境。故障处理支持环境是一个主题论坛式的交互界面。其中包括了故障日志信息、补充日志信息、服务器关联关系描述、已识别的故障标签关键字、可参考的案例知识。若需其他技术人员协同处理,则可通支持环境中挂接的案例文档中记录的参与人信息,确定适当的具有专门知识和经验的人员并通过消息分发模块s009发送请求参与故障处理的通知消息到参与人故障处理客户端s010(手机)。
[0214]
步骤f:参与人收到故障处理通知,通过故障处理客户端s010(手机或可访问故障处理中心服务器系统的带浏览器的计算机)访问故障处理中心服务器故障处理模块s009中的当前故障支持环境界面,了解故障有关信息。各参与人在故障处理模块s009中的当前故障支持环境界面中发表意见及讨论,开展故障排查处理过程。意见以论坛回帖形式在支持环境界面中痕迹化记录,直到整个过程结束。
[0215]
步骤g:故障处理完毕后,运维负责人总结过程经验在故障处理模块s009中的当前故障支持环境界面中形成文字总结描述。若故障处理过程中总结出新的故障日志特征,则定义新的故障日志特征匹配模式通过故障处理模块s009中相关操作更新到故障日志特征库s005中,并在标签库s006中关联或创建对应的标签关键字。通过故障处理模块s009中相关操作将本次处理过程生成案例知识文档,存储到案例知识库s007中并在标签库s006中关联或创建对应的标签关键字。
[0216]
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术
人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
转载请注明原文地址:https://doc.8miu.com/index.php/read-1722391.html

最新回复(0)