集群自动化巡检方法及装置与流程

专利2022-05-09  39


本发明涉及云计算技术领域,尤其涉及集群自动化巡检方法及装置。



背景技术:

随着银行在云计算领域的不断深入发展,每天会有海量的日志产生,这些日志会以一定的标准格式上送到elasticsearch,有部分是直接上送到elasticsearch的,有部分是先上送到kafka然后再通过logstash消费到elasticsearch的,不管是哪种方式,日志最终都保存在elasticsearch中进行可视化配置的,因此,必须保证elasticsearch集群的持久稳定可靠运行。

虽然elasticsearch本身提供了相应的查看集群状态的相关命令,但当集群很大很多时,其中包含的节点很多,情况相对复杂,采用人工巡检的方式就显得不可取,无法快速有效的分析出集群的状态,集群出现问题也无法及时处理。

因此,亟需一种可以克服上述问题的集群自动化巡检方案。



技术实现要素:

本发明实施例提供一种集群自动化巡检方法,用以快速有效分析集群状态,以便及时处理出现问题的集群,该方法包括:

获得各elasticsearch集群在至少两个时间点上的健康度指标和对应的ip状态指标,所述ip状态指标包括:各elasticsearch集群中每个ip的存储指标,cpu使用率指标和线程拒绝指标;

对每个时间点,分别将所述各elasticsearch集群的健康度指标和对应的ip状态指标写入该时间点对应的csv文件;

根据所述健康度指标,将各时间点对应的csv文件进行比对;

根据比对的结果,进行集群自动化巡检。

本发明实施例提供一种集群自动化巡检装置,用以快速有效分析集群状态,以便及时处理出现问题的集群,该装置包括:

指标获得模块,用于获得各elasticsearch集群在至少两个时间点上的健康度指标和对应的ip状态指标,所述ip状态指标包括:各elasticsearch集群中每个ip的存储指标,cpu使用率指标和线程拒绝指标;

文件写入模块,用于对每个时间点,分别将所述各elasticsearch集群的健康度指标和对应的ip状态指标写入该时间点对应的csv文件;

文件比对模块,用于根据所述健康度指标,将各时间点对应的csv文件进行比对;

集群巡检模块,用于根据比对的结果,进行集群自动化巡检。

本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述集群自动化巡检方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述集群自动化巡检方法的计算机程序。

本发明实施例通过获得各elasticsearch集群在至少两个时间点上的健康度指标和对应的ip状态指标,所述ip状态指标包括:各elasticsearch集群中每个ip的存储指标,cpu使用率指标和线程拒绝指标;对每个时间点,分别将所述各elasticsearch集群的健康度指标和对应的ip状态指标写入该时间点对应的csv文件;根据所述健康度指标,将各时间点对应的csv文件进行比对;根据比对的结果,进行集群自动化巡检。本发明实施例通过对至少两个时间点上健康度指标和对应的ip状态指标对应的csv文件进行比对,比较各时间点之间的指标状态的浮动情况,并根据比对的结果实现了集群自动化巡检,无需进行人工巡检,快速有效分析集群状态,提高巡检效率,以便及时处理出现问题的集群。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1为本发明实施例中集群自动化巡检方法示意图;

图2为本发明具体实施例中集群自动化巡检方法示意图;

图3为本发明实施例中集群自动化巡检装置结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。

为了快速有效分析集群状态,以便及时处理出现问题的集群,本发明实施例提供一种集群自动化巡检方法,如图1所示,该方法可以包括:

步骤101、获得各elasticsearch集群在至少两个时间点上的健康度指标和对应的ip状态指标,所述ip状态指标包括:各elasticsearch集群中每个ip的存储指标,cpu使用率指标和线程拒绝指标;

步骤102、对每个时间点,分别将所述各elasticsearch集群的健康度指标和对应的ip状态指标写入该时间点对应的csv文件;

步骤103、根据所述健康度指标,将各时间点对应的csv文件进行比对;

步骤104、根据比对的结果,进行集群自动化巡检。

由图1所示可以得知,本发明实施例通过获得各elasticsearch集群在至少两个时间点上的健康度指标和对应的ip状态指标,所述ip状态指标包括:各elasticsearch集群中每个ip的存储指标,cpu使用率指标和线程拒绝指标;对每个时间点,分别将所述各elasticsearch集群的健康度指标和对应的ip状态指标写入该时间点对应的csv文件;根据所述健康度指标,将各时间点对应的csv文件进行比对;根据比对的结果,进行集群自动化巡检。本发明实施例通过对至少两个时间点上健康度指标和对应的ip状态指标对应的csv文件进行比对,比较各时间点之间的指标状态的浮动情况,并根据比对的结果实现了集群自动化巡检,无需进行人工巡检,快速有效分析集群状态,提高巡检效率,以便及时处理出现问题的集群。

实施例中,获得各elasticsearch集群在至少两个时间点上的健康度指标和对应的ip状态指标,所述ip状态指标包括:各elasticsearch集群中每个ip的存储指标,cpu使用率指标和线程拒绝指标。

本实施例中,获得各elasticsearch集群在至少两个时间点上的健康度指标和对应的ip状态指标,包括:

分别在至少两个时间点上,利用elasticsearch提供的查询集群状态命令获得该时间点上各elasticsearch集群的健康度指标和对应的ip状态指标。

具体实施时,利用elasticsearch提供的查询集群状态的若干命令,依次获取到elasticsearch集群的health、allocation、_nodes等状态值,从而得到各elasticsearch集群的健康度指标和对应的ip状态指标。

实施例中,对每个时间点,分别将所述各elasticsearch集群的健康度指标和对应的ip状态指标写入该时间点对应的csv文件。

具体实施时,逐个将各elasticsearch集群中对应ip状态指标进行提取,依次写入csv文件,采用同样的方式将多个elasticsearch集群的相关内容写入,以此来得到对各elasticsearch集群的巡检结果,一方面可以从巡检结果文件中去判断elasticsearch集群是否异常,另一方面随着巡检次数的增加,下次(下一时间点)巡检结果可以与上次(上一时间点)的巡检结果进行比对,得到某一项的上升与下滑,进而为集群的可持续运行提供支撑。

实施例中,根据所述健康度指标,将各时间点对应的csv文件进行比对,根据比对的结果,进行集群自动化巡检。

本实施例中,根据所述健康度指标,将各时间点对应的csv文件进行比对,包括:

若健康度指标为异常状态,则将各时间点对应的csv文件中的ip状态指标进行逐一比对,确定指标浮动数据。

本实施例中,根据比对的结果,进行集群自动化巡检,包括:

将所述指标浮动数据与预设的浮动阈值进行比较;

若所述指标浮动数据超出浮动阈值,则进行报警。

下面给出一个具体实施例,说明本发明集群自动化巡检方案的具体应用。在本具体实施例中,如图2所示,具体步骤如下:

1):利用elasticsearch提供的查询集群health、allocation、_nodes等状态的命令获取各集群的相关指标(健康度、存储、cpu使用率、线程拒绝等);

2):提取每个集群的健康度,写入csv文件a;

3):提取集群中每个ip的存储、线程拒绝等,并按顺序写入csv文件;

4):查看csv文件a,得到对各elasticsearch集群的巡检结果,集群健康度为red或yellow时则要详细参考各项指标进行处理;

5):在一段时间后,重复之前的步骤,得到巡检结果csv文件b;

6):csv文件b与csv文件a各项数值进行对比,设置各项指标的浮动阈值,超出阈值,则需要进行一定的报警,进一步分析。

在时间点1和时间点2对各集群分别进行自动化巡检,得到巡检结果csv文件a和csv文件b,可以单独对csv文件a和csv文件b结果进行分析,也可进行对比分析,设置指标阈值,超出阈值进行报警提醒,从而减少elasticsearch集群人工巡检带来的负担以及效率问题,减少了人工的使用,提升巡检效率,可以更直观的查看各elasticsearch集群的各项指标,巡检结果可以与上一次巡检进行比对,指标超出所设置的阈值可报警。

基于同一发明构思,本发明实施例还提供了一种集群自动化巡检装置,如下面的实施例所述。由于这些解决问题的原理与集群自动化巡检方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

图3为本发明实施例中集群自动化巡检装置的结构图,如图3所示,该装置包括:

指标获得模块301,用于获得各elasticsearch集群在至少两个时间点上的健康度指标和对应的ip状态指标,所述ip状态指标包括:各elasticsearch集群中每个ip的存储指标,cpu使用率指标和线程拒绝指标;

文件写入模块302,用于对每个时间点,分别将所述各elasticsearch集群的健康度指标和对应的ip状态指标写入该时间点对应的csv文件;

文件比对模块303,用于根据所述健康度指标,将各时间点对应的csv文件进行比对;

集群巡检模块304,用于根据比对的结果,进行集群自动化巡检。

一个实施例中,所述指标获得模块301进一步用于:

分别在至少两个时间点上,利用elasticsearch提供的查询集群状态命令获得该时间点上各elasticsearch集群的健康度指标和对应的ip状态指标。

一个实施例中,所述文件比对模块303进一步用于:

若健康度指标为异常状态,则将各时间点对应的csv文件中的ip状态指标进行逐一比对,确定指标浮动数据。

一个实施例中,所述集群巡检模块304进一步用于:

将所述指标浮动数据与预设的浮动阈值进行比较;

若所述指标浮动数据超出浮动阈值,则进行报警。

综上所述,本发明实施例通过获得各elasticsearch集群在至少两个时间点上的健康度指标和对应的ip状态指标,所述ip状态指标包括:各elasticsearch集群中每个ip的存储指标,cpu使用率指标和线程拒绝指标;对每个时间点,分别将所述各elasticsearch集群的健康度指标和对应的ip状态指标写入该时间点对应的csv文件;根据所述健康度指标,将各时间点对应的csv文件进行比对;根据比对的结果,进行集群自动化巡检。本发明实施例通过对至少两个时间点上健康度指标和对应的ip状态指标对应的csv文件进行比对,比较各时间点之间的指标状态的浮动情况,并根据比对的结果实现了集群自动化巡检,无需进行人工巡检,快速有效分析集群状态,提高巡检效率,以便及时处理出现问题的集群。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。


技术特征:

1.一种集群自动化巡检方法,其特征在于,包括:

获得各elasticsearch集群在至少两个时间点上的健康度指标和对应的ip状态指标,所述ip状态指标包括:各elasticsearch集群中每个ip的存储指标,cpu使用率指标和线程拒绝指标;

对每个时间点,分别将所述各elasticsearch集群的健康度指标和对应的ip状态指标写入该时间点对应的csv文件;

根据所述健康度指标,将各时间点对应的csv文件进行比对;

根据比对的结果,进行集群自动化巡检。

2.如权利要求1所述的集群自动化巡检方法,其特征在于,获得各elasticsearch集群在至少两个时间点上的健康度指标和对应的ip状态指标,包括:

分别在至少两个时间点上,利用elasticsearch提供的查询集群状态命令获得该时间点上各elasticsearch集群的健康度指标和对应的ip状态指标。

3.如权利要求1所述的集群自动化巡检方法,其特征在于,根据所述健康度指标,将各时间点对应的csv文件进行比对,包括:

若健康度指标为异常状态,则将各时间点对应的csv文件中的ip状态指标进行逐一比对,确定指标浮动数据。

4.如权利要求3所述的集群自动化巡检方法,其特征在于,根据比对的结果,进行集群自动化巡检,包括:

将所述指标浮动数据与预设的浮动阈值进行比较;

若所述指标浮动数据超出浮动阈值,则进行报警。

5.一种集群自动化巡检装置,其特征在于,包括:

指标获得模块,用于获得各elasticsearch集群在至少两个时间点上的健康度指标和对应的ip状态指标,所述ip状态指标包括:各elasticsearch集群中每个ip的存储指标,cpu使用率指标和线程拒绝指标;

文件写入模块,用于对每个时间点,分别将所述各elasticsearch集群的健康度指标和对应的ip状态指标写入该时间点对应的csv文件;

文件比对模块,用于根据所述健康度指标,将各时间点对应的csv文件进行比对;

集群巡检模块,用于根据比对的结果,进行集群自动化巡检。

6.如权利要求5所述的集群自动化巡检装置,其特征在于,所述指标获得模块进一步用于:

分别在至少两个时间点上,利用elasticsearch提供的查询集群状态命令获得该时间点上各elasticsearch集群的健康度指标和对应的ip状态指标。

7.如权利要求5所述的集群自动化巡检装置,其特征在于,所述文件比对模块进一步用于:

若健康度指标为异常状态,则将各时间点对应的csv文件中的ip状态指标进行逐一比对,确定指标浮动数据。

8.如权利要求7所述的集群自动化巡检装置,其特征在于,所述集群巡检模块进一步用于:

将所述指标浮动数据与预设的浮动阈值进行比较;

若所述指标浮动数据超出浮动阈值,则进行报警。

9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一所述方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至4任一所述方法的计算机程序。

技术总结
本发明公开了一种集群自动化巡检方法及装置,可用于云计算技术领域,方法包括:获得各Elasticsearch集群在至少两个时间点上的健康度指标和对应的ip状态指标,所述ip状态指标包括:各Elasticsearch集群中每个ip的存储指标,CPU使用率指标和线程拒绝指标;对每个时间点,分别将所述各Elasticsearch集群的健康度指标和对应的ip状态指标写入该时间点对应的csv文件;根据所述健康度指标,将各时间点对应的csv文件进行比对;根据比对的结果,进行集群自动化巡检。本发明可以快速有效分析集群状态,以便及时处理出现问题的集群。

技术研发人员:吴庭栋;任政;郑杰;程鹏
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:2021.04.30
技术公布日:2021.07.30

转载请注明原文地址:https://doc.8miu.com/read-950104.html

最新回复(0)