本技术涉及联邦学习,具体而言,涉及数据管理系统和方法。
背景技术:
1、联邦学习是一个机器学习框架,能帮助不同机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据联合使用和建模。具体地说,联邦学习可以在企业各自数据不出本地的前提下,通过加密机制下的参数交换与优化,建立一个虚拟的共有模型。
2、基于现有的联邦学习框架,在对同一数据集文件进行多次模型训练的过程中,会对同一数据集文件进行多次加载,尤其在数据集文件过大的情况下,数据加载占用时间较长。
技术实现思路
1、有鉴于此,本技术实施例的目的在于提供一种数据管理系统和方法,用以解决现有的联邦学习框架,在对同一数据集文件进行多次模型训练的过程中,数据加载占用时间较长的技术问题。
2、第一方面,本技术实施例提供了一种数据管理系统,所述系统包括:管理节点、多个计算节点和多个数据缓存管理器;
3、所述管理节点配置为根据所接收的数据训练任务对应的待训练数据,确定数据标识值;根据所述数据标识值,确定用于完成所述数据训练任务的计算节点;
4、所述计算节点配置为执行所述数据训练任务;在完成所述数据训练任务的过程中,根据所述待训练数据的数据加载实例,对与所述计算节点所对应的数据缓存管理器进行维护;
5、所述数据缓存管理器配置为管理所述数据标识值以及相应的所述数据加载实例之间的第一对应关系。
6、在上述的实现过程中,该数据管理系统包括:管理节点、多个计算节点和多个数据缓存管理器。通过管理节点根据待训练数据,确定数据标识值;并根据数据标识值,确定出用于完成所述数据训练任务的计算节点;通过计算节点可以在完成数据训练任务的过程中,根据待训练数据的数据加载实例,对与计算节点所对应的数据缓存管理器进行维护;通过数据缓存管理器管理数据标识值以及相应的数据加载实例之间的第一对应关系。如此,在待训练数据并非第一次加载的情况下,可以根据第一对应关系从数据缓存管理器中确定出“与待训练数据对应的数据加载实例”;进而基于数据加载实例跳过待训练数据多次加载的过程,降低数据加载占用时间。解决了现有的联邦学习框架,在对同一数据集文件进行多次模型训练的过程中,数据加载占用时间较长的技术问题。
7、可选地,在本技术实施例中,所述系统还包括:节点缓存管理器;所述节点缓存管理器配置为管理所述数据标识值以及相应的所述计算节点之间的第二对应关系;所述管理节点具体还配置为根据所述数据标识值以及所确定出的用于完成所述数据训练任务的计算节点,对所述第二对应关系进行维护;以及根据所述数据标识值和所述第二对应关系,确定用于完成所述数据训练任务的计算节点。
8、在上述的实现过程中,该数据管理系统还包括节点缓存管理器,通过节点缓存管理器可以实现对“数据标识值以及相应的所述计算节点之间的第二对应关系”的管理;进而根据数据标识值和第二对应关系,快速确定出用于完成数据训练任务的计算节点。
9、可选地,在本技术实施例中,所述管理节点具体还配置为在所述第二对应关系中存在与所述数据标识值所对应的计算节点的情况下,将与所述数据标识值所对应的计算节点确定为用于完成所述数据训练任务的计算节点。
10、可选地,在本技术实施例中,所述计算节点具体还配置为在执行所述数据训练任务之前,检查所述数据缓存管理器中是否存在与所述数据标识值对应的所述数据加载实例;以及,若存在所述与所述数据标识值对应的所述数据加载实例,则从所述数据缓存管理器中读取与所述数据标识值对应的所述数据加载实例;若不存在所述与所述数据标识值对应的所述数据加载实例,则加载所述待训练数据,根据所述待训练数据执行所述数据训练任务。
11、在上述的实现过程中,通过对数据缓存管理器中是否存在与数据标识值对应的数据加载实例进行检查,并在存在对应的数据加载实例的情况下,读取对应的数据加载实例;且在不存在对应的数据加载实例的情况下,加载待训练数据,以根据待训练数据执行数据训练任务;在降低数据加载占用时间的情况下,保证了模型训练任务的正常进行。
12、可选地,在本技术实施例中,所述计算节点具体还配置为在第一次加载所述待训练数据的情况下,在与所述待训练数据对应的操作文件夹中创建数据锁文件;其中,所述数据锁文件用于锁定所述操作文件夹。
13、在上述的实现过程中,通过计算节点在第一次加载待训练数据的情况下,在与待训练数据对应的操作文件夹中创建数据锁文件,可以避免多个计算节点同时调用上述待训练数据。
14、可选地,在本技术实施例中,所述待训练数据包括数据库类型数据和结构化类型数据;所述管理节点具体还配置为在所述待训练数据为所述数据库类型数据的情况下,根据所述待训练数据对应的数据表名称和第一存储地址,确定所述数据标识值;以及在所述待训练数据为所述结构化类型数据的情况下,根据所述待训练数据的第二存储地址,确定所述数据标识值。
15、在上述的实现过程中,提供了用于确定与待训练数据所对应的数据标识值的方法,基于上述方法可以确定出与待训练数据对应的唯一标识值。
16、可选地,在本技术实施例中,所述管理节点具体还配置为在所述待训练数据为所述数据库类型数据的情况下,根据所述数据表名称和所述第一存储地址,确定与所述数据库类型数据对应的第一特征数据;根据所述第一特征数据和所述数据表名称,确定所述数据标识值;其中,所述第一特征数据包括:与所述数据库类型数据所对应的数据表最新修改时间;以及,在所述待训练数据为所述结构化类型数据的情况下,根据所述第二存储地址,确定与所述结构化类型数据对应的第二特征数据;根据所述第二特征数据和所述第二存储地址,确定所述数据标识值;其中,所述第二特征数据包括:与所述结构化类型数据对应的文件最新修改时间。
17、在上述的实现过程中,通过在待训练数据为数据库类型数据的情况下,根据第一特征数据(即与数据库类型数据所对应的数据表最新修改时间)和数据表名称确定的数据标识值,可以对数据修改前与修改之后的待训练数据进行区别;进而及时发现待训练数据的修改情况,以基于计算节点实现对模型训练任务的准确执行。
18、可选地,在本技术实施例中,所述第一特征数据还包括:与所述数据库类型数据对应的数据表创建时间、数据表大小;所述第二特征数据还包括:与所述结构化类型数据对应的文件创建时间、文件大小。
19、在上述的实现过程中,通过与数据库类型数据对应的数据表创建时间、数据表大小,或者与结构化类型数据对应的文件创建时间、文件大小,可以进一步提高所确定出的数据标识值的唯一性。
20、可选地,在本技术实施例中,所述数据缓存管理器基于lru缓存算法实现对所述第一对应关系的管理;和/或所述节点缓存管理器基于lru缓存算法实现对所述第二对应关系的管理。
21、在上述的实现过程中,由于数据缓存管理器和/或节点缓存管理器基于lru缓存算法实现对应关系的管理,可以降低计算节点对于第一对应关系和/或第二对应关系的维护难度。
22、第二方面,本技术实施例提供了一种数据管理方法,所述方法应用于如上述第一方面任一所述的数据管理系统,所述方法包括:
23、基于所述数据管理系统中的管理节点,根据所接收的数据训练任务对应的待训练数据,确定数据标识值;
24、基于所述管理节点根据所述数据标识值,确定用于完成所述数据训练任务的计算节点;
25、基于所述数据管理系统中的计算节点,执行所述数据训练任务;
26、基于所述计算节点在完成所述数据训练任务的过程中,根据所述待训练数据的数据加载实例,对与所述计算节点所对应的数据缓存管理器进行维护。
27、本技术的有益效果为:通过管理节点根据待训练数据,确定数据标识值;并根据数据标识值,确定出用于完成所述数据训练任务的计算节点;通过计算节点可以在完成数据训练任务的过程中,根据待训练数据的数据加载实例,对与计算节点所对应的数据缓存管理器进行维护;通过数据缓存管理器管理数据标识值以及相应的数据加载实例之间的第一对应关系。如此,在待训练数据并非第一次加载的情况下,可以根据第一对应关系从数据缓存管理器中确定出“与待训练数据对应的数据加载实例”;进而基于数据加载实例跳过待训练数据多次加载的过程,降低数据加载占用时间。解决了现有的联邦学习框架,在对同一数据集文件进行多次模型训练的过程中,数据加载占用时间较长的技术问题。
1.一种数据管理系统,其特征在于,所述系统包括:管理节点、多个计算节点和多个数据缓存管理器;
2.根据权利要求1所述的系统,其特征在于,所述系统还包括:节点缓存管理器;
3.根据权利要求2所述的系统,其特征在于,所述管理节点具体还配置为在所述第二对应关系中存在与所述数据标识值所对应的计算节点的情况下,将与所述数据标识值所对应的计算节点确定为用于完成所述数据训练任务的计算节点。
4.根据权利要求3所述的系统,其特征在于,所述计算节点具体还配置为在执行所述数据训练任务之前,检查所述数据缓存管理器中是否存在与所述数据标识值对应的所述数据加载实例;以及,
5.根据权利要求4所述的系统,其特征在于,所述计算节点具体还配置为在第一次加载所述待训练数据的情况下,在与所述待训练数据对应的操作文件夹中创建数据锁文件;其中,所述数据锁文件用于锁定所述操作文件夹。
6.根据权利要求1所述的系统,其特征在于,其中,所述待训练数据包括数据库类型数据和结构化类型数据;
7.根据权利要求6所述的系统,其特征在于,所述管理节点具体还配置为在所述待训练数据为所述数据库类型数据的情况下,根据所述数据表名称和所述第一存储地址,确定与所述数据库类型数据对应的第一特征数据;根据所述第一特征数据和所述数据表名称,确定所述数据标识值;其中,所述第一特征数据包括:与所述数据库类型数据所对应的数据表最新修改时间;以及,
8.根据权利要求7所述的系统,其特征在于,其中,所述第一特征数据还包括:与所述数据库类型数据对应的数据表创建时间、数据表大小;
9.根据权利要求2所述的系统,其特征在于,所述数据缓存管理器和/或所述节点缓存管理器基于lru缓存算法实现对所述数据标识值以及相应的所述数据加载实例的管理。
10.一种数据管理方法,其特征在于,所述方法应用于如上述权利要求1-9任一所述的数据管理系统,所述方法包括: