基于遗传算法的数据重构自动调参方法、系统及存储介质与流程

专利2022-05-09 108

本发明属于数据恢复领域，具体涉及一种基于遗传算法的数据重构自动调参方法、系统及存储介质。

背景技术：

存储系统最为关键的是存储数据，分布式存储最主要的特点是大规模集群可能就是成千上万块磁盘组成的大容量存储池，存储池的数据量可达到pb甚至eb的级别，而对故障或者扩容，缩容后的重构数据恢复是一项很重要的流程。故障磁盘承载的数据重新被分配到新磁盘中，故障磁盘中的数据在其他正常磁盘中被恢复出来的过程被称为重构数据。现有技术中，采用gluster默认集群重构方案，缺少对特殊场景进行优化处理，如海量小文件场景、对普通硬盘和nvme硬盘不同硬件配置进行优化。此为现有技术中存在的技术问题。

有鉴于此，本发明给出一种基于遗产算法的数据重构自动调参方法、系统及存储介质的技术方案；针对分布式gluster存储复杂场景快速重构恢复的改进，结合集群规模与硬件磁盘配置相结合，对小对象场景的数据恢复参数进行优化，大幅度提高对小对象的数据恢复性能，充分利用nvme硬盘的性能优势，提高nvme存储池的数据恢复性能。以解决现有技术中存在的缺陷和问题。

技术实现要素：

针对现有技术中存在gluster默认集群重构方案，缺少对特殊场景进行优化处理，导致小场景恢复性能低的问题；本发明提供一种基于遗传算法的数据重构自动调参方法、系统及存储介质，以解决上述技术问题。

为实现上述目的，本发明给出以下技术方案：

第一方面，本发明提供一种基于遗传算法的数据重构自动调参方法，包括以下步骤：

s1：引入遗传算法，在数据恢复控制算法中，累加恢复对象的大小，以及记录恢复对象的总数和恢复的小对象的数目；

s2：判断数据恢复场景的类型，根据步骤s1中得到的恢复的不同方式下，恢复个数占总的恢复对象个数的比例，确定选择最佳参数处理方式；

s3：针对步骤s2确定不同的恢复场景，选用算法权衡权重，匹配不同的参数，从而进行优化不同场景下的恢复参数，提高单次恢复的对象的个数，从而达到提高复杂场景数据恢复每秒的读写次数；

s4：在遗传算法训练器中最后清空步骤s1中计数，以便进行下一周期对恢复场景优化恢复参数；

s5：遗传算法下nvme硬盘的处理步骤；

s6：根据集群规模调整重构速度步骤。

作为优选，所述步骤s2中，数据恢复场景类型包括文件、块、对象；通过定时器定时计算下个恢复周期内，数据恢复总的数据恢复量，然后根据遗传算法规则进行数据训练，获得单次恢复的对象个数最佳参数。

作为优选，所述步骤s5中，引入图形处理器多线程思想机制，获取图形处理器线程数，nvme硬盘的大小和gluster存储的总存储量的比例信息，根据获取信息设置多线程训练学习的模型比例，在重构结束恢复默认处理机制。

作为优选，所述步骤s6中，包括以下步骤：

s6.1：根据遗传算法，计算出的当前需要重构的数据量的计算方式；学习出当前周期需要重构的数据量的计算方式，集群重构的总由监控器根据重构的硬盘个数进行遗传算法的计算，不再是根据训练参数补全；

s6.2：在不同重构优先级下，监控器根据重构的主硬盘的个数以及单个硬盘，计算出总的重构数据恢复量，并将总发送给硬盘；

s6.3：在遗传算法训练识别参数的流程中，对每个对象处理，并对已恢复的对象计数，若该对象是小对象，则小对象的计数加一；若未能识别该对象的大小，则将该对象插入未知大小的地图结构中，并记录未知大小的对象个数；

s6.4：若对象已在补偿地图中，还需要判断该对象是否在未知大小的地图中，再判断该对象是否是小对象，若是，则小对象计数加一。

第二方面，本发明提供一种基于遗传算法的数据重构自动调参系统，包括：区分恢复场景模块，所述区分恢复场景模块将区分信号发送至计数模块，计数模块在不同的恢复场景下，记录恢复对象的总数和恢复的小对象的数目，以及恢复对象的大小，计数模块将计数信息发送至匹配参数模块，匹配参数模块确定选择最佳参数处理方式。

作为优选，本系统还包括nvme硬盘的处理模块和调整重构速度模块，所述nvme硬盘的处理模块引入图形处理器多线程思想机制，获取图形处理器线程数，nvme硬盘的大小和gluster存储的总存储量的比例信息，根据获取信息设置多线程训练学习的模型比例，在重构结束恢复默认处理机制。

作为优选，所述调整重构速度模块中，根据遗传算法，计算出的当前需要重构的数据量的计算方式；学习出当前周期需要重构的数据量的计算方式，集群重构的总由监控器根据重构的硬盘个数进行遗传算法的计算，不再是根据训练参数补全；在不同重构优先级下，监控器根据重构的主硬盘的个数以及单个硬盘，计算出总的重构数据恢复量，并将总发送给硬盘；

作为优选，所述调整重构速度模块中，在遗传算法训练识别参数的流程中，对每个对象处理，并对已恢复的对象计数，若该对象是小对象，则小对象的计数加一；若未能识别该对象的大小，则将该对象插入未知大小的地图结构中，并记录未知大小的对象个数；若对象已在补偿地图中，还需要判断该对象是否在未知大小的地图中，再判断该对象是否是小对象，若是，则小对象计数加一。

第三方面，本发明提供一种计算机存储介质，所述计算机存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述方法。

第四方面，提供一种终端，包括：

处理器、存储器，其中，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得终端执行上述方法。

本发明的有益效果在于，本发明对复杂场景进行快速重构恢复的优化，并结合集群规模与硬件磁盘配置相结合，对小对象场景的数据恢复参数进行优化，大幅度提高小对象的数据恢复性能，并充分利用nvme的性能优势，提高nvme存储池的数据恢复性能。此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的一种基于遗传算法的数据重构自动调参方法的流程图。

图2是本发明实施例2提供的一种基于遗传算法的数据重构自动调参系统的原理框图。

图3是本发明提供的监控器处理流程图。

其中，1-一种基于遗传算法的数据重构自动调参系统，2-区分恢复场景模块，3-计数模块，4-匹配参数模块，5-nvme硬盘的处理模块，6-调整重构速度模块。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例1：

如图1所示，本实施例提供一种基于遗传算法的数据重构自动调参方法包括以下步骤：

s1：引入遗传算法，在数据恢复控制算法中，累加恢复对象的大小，以及记录恢复对象的总数和恢复的小对象的数目；

s2：判断数据恢复场景的类型，根据步骤s1中得到的恢复的不同方式下，恢复个数占总的恢复对象个数的比例，确定选择最佳参数处理方式；

所述步骤s2中，数据恢复场景类型包括文件、块、对象；通过定时器定时计算下个恢复周期内，数据恢复总的数据恢复量，然后根据遗传算法规则进行数据训练，获得单次恢复的对象个数最佳参数。

s3：针对步骤s2确定不同的恢复场景，选用算法权衡权重，匹配不同的参数，从而进行优化不同场景下的恢复参数，提高单次恢复的对象的个数，从而达到提高复杂场景数据恢复每秒的读写次数。

s4：在遗传算法训练器中最后清空步骤s1中计数，以便进行下一周期对恢复场景优化恢复参数。

s5：遗传算法下nvme硬盘的处理步骤；

所述步骤s5中，引入图形处理器多线程思想机制，获取图形处理器线程数，nvme硬盘的大小和gluster存储的总存储量的比例信息，根据获取信息设置多线程训练学习的模型比例，在重构结束恢复默认处理机制。

s6：根据集群规模调整重构速度步骤。

所述步骤s6中，包括以下步骤：

s6.2：在不同重构优先级下，监控器根据重构的主硬盘的个数以及单个硬盘，计算出总的重构数据恢复量，并将总发送给硬盘；

s6.4：若对象已在补偿地图中，还需要判断该对象是否在未知大小的地图中，再判断该对象是否是小对象，若是，则小对象计数加一。

如图3所示，监控器处理流程步骤如下：

步骤1：监控器接收遗传算法获取的权重，进行设置参数，并对参数进行保存；

步骤2：调用中断函数，对当前gluster底层进行中断保存；

步骤3：触发响应中断，判断宕机节点是否down，则置硬盘为out状态，并进行海量小文件重构算法的模型设置；

步骤4：重构完成后，触发回调函数，恢复断点配置信息。

本实施例1中，硬盘处理流程步骤如下：

步骤1：定时器触发后首先获取集群的恢复优先级以及各存储池的恢复优先级；

步骤2：根据已恢复的小对象和已恢复对象总数、小对象占比，确定根据遗传算法规则进行训练，根据场景不同选用算法，权衡权重匹配不同的参数；

步骤3：判断挂载的磁盘是nvme硬盘还是普通硬盘分别选用不同的硬盘参数；

步骤4：动态获取当前集群的降级对象个数以及各存储池的降级对象个数，同时获取本硬盘降级对象总数；

步骤5：如果本硬盘中没有配置过恢复优先级的存储池则计算整个硬盘的本定时周期允许恢复的数据量，否则执行步骤6；

步骤6：计算各个存储池本定时器周期运行恢复的数据量；

步骤7：获取上个周期分配的数据量和实际恢复的数据量；并将获取的两个量的差值加到或减到本周期计算的运行恢复的数据总量中；

步骤8：对硬盘所述的存储池进行遍历，并计算恢复数据，得出每个所述存储池的恢复速度；

步骤9：根据上述步骤1至8获取的参数，进行遗传算法训练并进行预测。

实施例2：

如图2所示，本实施例提供一种基于遗传算法的数据重构自动调参系统1，包括：区分恢复场景模块2，所述区分恢复场景模块2将区分信号发送至计数模块3，计数模块3在不同的恢复场景下，记录恢复对象的总数和恢复的小对象的数目，以及恢复对象的大小，计数模块3将计数信息发送至匹配参数模块4，匹配参数模块4确定选择最佳参数处理方式。

本实施例提供的系统还包括nvme硬盘的处理模块5和调整重构速度模块6，所述nvme硬盘的处理模块5引入图形处理器多线程思想机制，获取图形处理器线程数，nvme硬盘的大小和gluster存储的总存储量的比例信息，根据获取信息设置多线程训练学习的模型比例，在重构结束恢复默认处理机制；所述调整重构速度模块6中，在遗传算法训练识别参数的流程中，对每个对象处理，并对已恢复的对象计数，若该对象是小对象，则小对象的计数加一；若未能识别该对象的大小，则将该对象插入未知大小的地图结构中，并记录未知大小的对象个数；若对象已在补偿地图中，还需要判断该对象是否在未知大小的地图中，再判断该对象是否是小对象，若是，则小对象计数加一。

实施例3：

本实施例提供一种计算机存储介质，所述计算机存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述方法。

实施例4：

本实施例提供一种终端，包括：

处理器、存储器，其中，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得终端执行上述方法。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

技术特征：

1.一种基于遗传算法的数据重构自动调参方法，其特征在于，包括以下步骤：

s1：引入遗传算法，在数据恢复控制算法中，累加恢复对象的大小，以及记录恢复对象的总数和恢复的小对象的数目；

s2：判断数据恢复场景的类型，根据步骤s1中得到的恢复的不同方式下，恢复个数占总的恢复对象个数的比例，确定选择最佳参数处理方式；

s3：针对步骤s2确定不同的恢复场景，选用算法权衡权重，匹配不同的参数，从而进行优化不同场景下的恢复参数；

s4：在遗传算法训练器中最后清空步骤s1中计数，以便进行下一周期对恢复场景优化恢复参数；

s5：遗传算法下nvme硬盘的处理步骤；

s6：根据集群规模调整重构速度步骤。

2.根据权利要求1所述的一种基于遗传算法的数据重构自动调参方法，其特征在于，所述步骤s2中，数据恢复场景类型包括文件、块、对象；通过定时器定时计算下个恢复周期内，数据恢复总的数据恢复量，然后根据遗传算法规则进行数据训练，获得单次恢复的对象个数最佳参数。

3.根据权利要求2所述的一种基于遗传算法的数据重构自动调参方法，其特征在于，所述步骤s5中，引入图形处理器多线程思想机制，获取图形处理器线程数，nvme硬盘的大小和gluster存储的总存储量的比例信息。

4.根据权利要求3所述的一种基于遗传算法的数据重构自动调参方法，其特征在于，所述步骤s6中，包括以下步骤：

s6.1：根据遗传算法，计算出的当前需要重构的数据量的计算方式；学习出当前周期需要重构的数据量的计算方式，集群重构的总由监控器根据重构的硬盘个数进行遗传算法的计算；

s6.2：在不同重构优先级下，监控器根据重构的主硬盘的个数以及单个硬盘，计算出总的重构数据恢复量，并将总发送给硬盘；

s6.4：若对象已在补偿地图中，还需要判断该对象是否在未知大小的地图中，再判断该对象是否是小对象，若是，则小对象计数加一。

5.一种基于遗传算法的数据重构自动调参系统，其特征在于，包括：区分恢复场景模块，所述区分恢复场景模块将区分信号发送至计数模块，计数模块在不同的恢复场景下，记录恢复对象的总数和恢复的小对象的数目，以及恢复对象的大小，计数模块将计数信息发送至匹配参数模块，匹配参数模块确定选择最佳参数处理方式。

6.根据权利要求5所述的一种基于遗传算法的数据重构自动调参系统，其特征在于，还包括nvme硬盘的处理模块和调整重构速度模块，所述nvme硬盘的处理模块引入图形处理器多线程思想机制，获取图形处理器线程数，nvme硬盘的大小和gluster存储的总存储量的比例信息，根据获取信息设置多线程训练学习的模型比例，在重构结束恢复默认处理机制。

7.根据权利要求6所述的一种基于遗传算法的数据重构自动调参系统，其特征在于，所述调整重构速度模块中，根据遗传算法，计算出的当前需要重构的数据量的计算方式；学习出当前周期需要重构的数据量的计算方式，集群重构的总由监控器根据重构的硬盘个数进行遗传算法的计算。

8.根据权利要求7所述的一种基于遗传算法的数据重构自动调参系统，其特征在于，所述调整重构速度模块中，在不同重构优先级下，监控器根据重构的主硬盘的个数以及单个硬盘，计算出总的重构数据恢复量，并将总发送给硬盘。

9.根据权利要求8所述的一种基于遗传算法的数据重构自动调参系统，其特征在于，所述调整重构速度模块中，在遗传算法训练识别参数的流程中，对每个对象处理，并对已恢复的对象计数，若该对象是小对象，则小对象的计数加一；若未能识别该对象的大小，则将该对象插入未知大小的地图结构中，并记录未知大小的对象个数；若对象已在补偿地图中，还需要判断该对象是否在未知大小的地图中，再判断该对象是否是小对象，若是，则小对象计数加一。

10.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有指令，当其在计算机上运行时，使得计算机执行权利要求1-4中任一权利要求所述的方法。

技术总结
本发明涉及一种基于遗传算法的数据重构自动调参方法、系统及存储介质，包括以下步骤：S 1：引入遗传算法，在数据恢复控制算法中，累加恢复对象的大小，以及记录恢复对象的总数和恢复的小对象的数目；S2：判断数据恢复场景的类型，根据步骤S 1中得到的恢复的不同方式下，恢复个数占总的恢复对象个数的比例，确定选择最佳参数处理方式；S3：针对步骤S2确定不同的恢复场景，选用算法权衡权重，匹配不同的参数，从而进行优化不同场景下的恢复参数；S4：在遗传算法训练器中最后清空步骤S 1中计数，以便进行下一周期对恢复场景优化恢复参数；S5：遗传算法下NVME硬盘的处理步骤；S6：根据集群规模调整重构速度步骤。

技术研发人员：毛贝贝
受保护的技术使用者：济南浪潮数据技术有限公司
技术研发日：2021.05.27
技术公布日：2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-9470.html

专利

最新回复(0)