数据处理任务执行进度的监测方法及装置与流程

专利2022-05-09  95


本申请涉及数据处理领域,具体而言,涉及一种数据处理任务执行进度的监测方法及装置。



背景技术:

客户数据平台(customerdataplatform,cdp)系统中最主要的功能就是数据洞察,客户上传人群包数据到系统中,设定分析维度进行分析得出想要的结果。而系统分析出结果的速度是客户最为关注的,目前对任务执行的时间进度没有监控,任务什么时候执行完什么时候客户才能看到结果,或者等了很久最终任务执行失败没有得出想要的结果,用户体验较差且经常耽误客户使用。

目前只能对任务执行的最终结果(成功/失败)进行报警,缺点是滞后不及时、不智能,不能预先通知相关人员对任务进行及时处理。因为如果任务的执行时间大大超过了客户要求拿到结果时间,从业务层面来讲也是属于失败的。

针对目前利用cdp系统对客户上传的人群包数据进行处理分析的过程中,无法实时动态地对数据处理任务的执行进度进行监控,导致无法掌控数据处理任务的执行进度,影响用户的使用体验的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请实施例提供了一种数据处理任务执行进度的监测方法及装置,以至少解决目前利用cdp系统对客户上传的人群包数据进行处理分析的过程中,无法实时动态地对数据处理任务的执行进度进行监控,导致无法掌控数据处理任务的执行进度,影响用户的使用体验的技术问题。

根据本申请实施例的一个方面,提供了一种数据处理任务执行进度的监测方法,包括:获取数据处理任务的标识,并依据标识查找数据处理任务对应的待处理数据;确定待处理数据的数据量以及执行数据处理任务的设备的当前可用计算资源;依据待处理数据的数据量以及当前可用计算资源对数据处理任务的执行进度进行监测。

可选地,依据待处理数据的数据量以及当前可用计算资源对数据处理任务的执行进度进行监测,包括:依据待处理数据的数据量以及当前可用计算资源,确定在当前可用计算资源下,执行完成数据处理任务所需的第一时长;比较第一时长与第一预设时长,如果第一时长超过第一预设时长,减少待处理数据的数据量或者增加执行数据处理任务的设备的可用计算资源。

可选地,依据待处理数据的数据量以及当前可用计算资源对数据处理任务的执行进度进行监测,还包括:获取数据处理任务完成第一目标进度时所需的第二时长;比较第二时长与第二预设时长,其中,第二预设时长是预估的数据处理任务完成第一目标进度时所需的时长;如果第二时长与第二预设时长不匹配,生成报警信号。

可选地,获取数据处理任务完成第一目标进度时所需的第二时长,包括如下至少之一:按照数据处理任务执行进度的预设进度间隔获取数据处理任务完成第一目标进度时所需的第二时长;按照预设时间间隔获取数据处理任务完成第一目标进度时所需的第二时长。

可选地,确定执行数据处理任务的设备的当前可用计算资源,包括:依据队列空闲资源值、设备的集群整体空闲资源值以及设备在预设时间段内即将释放的资源值确定设备的集群算力值,其中,集群算力值用于表征设备的当前可用计算资源,队列用于处理数据处理任务。

可选地,上述方法还包括:如果可用计算资源增加,依据数据处理任务的当前完成进度以及新增加的可用计算资源,确定执行数据处理任务的剩余进度时,完成第二目标进度时所需的第三时长;比较第三时长与第三预设时长,其中,第三预设时长是预估的数据处理任务完成第二目标进度时所需的时长;如果第三时长与第三预设时长不匹配,生成报警信号。

根据本申请实施例的另一方面,还提供了一种数据处理任务执行进度的监测装置,包括:获取模块,用于获取数据处理任务的标识,并依据标识查找数据处理任务对应的待处理数据;确定模块,用于确定待处理数据的数据量以及执行数据处理任务的设备的当前可用计算资源;监测模块,用于依据待处理数据的数据量以及当前可用计算资源对数据处理任务的执行进度进行监测。

可选地,监测模块,包括:确定单元,用于依据待处理数据的数据量以及当前可用计算资源,确定在当前可用计算资源下,执行完成数据处理任务所需的第一时长;比较单元,用于比较第一时长与第一预设时长,如果第一时长超过第一预设时长,减少待处理数据的数据量或者增加执行数据处理任务的设备的可用计算资源。

根据本申请实施例的再一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行以上的数据处理任务执行进度的监测方法。

根据本申请实施例的再一方面,还提供了一种处理器,处理器用于运行存储在存储器中的程序,其中,程序运行时执行以上的数据处理任务执行进度的监测方法。

在本申请实施例中,采用获取数据处理任务的标识,并依据标识查找数据处理任务对应的待处理数据;确定待处理数据的数据量以及执行数据处理任务的设备的当前可用计算资源;依据待处理数据的数据量以及当前可用计算资源对数据处理任务的执行进度进行监测的方式,通过待处理数据的数据量以及执行数据处理任务的设备的当前可用计算资源对数据处理任务的执行进度进行监测,从而实现了能够实时动态地监控数据处理任务的执行进度,大大提升了对重要任务的掌控度,以及客户的使用体验的技术效果,进而解决了目前利用cdp系统对客户上传的人群包数据进行处理分析的过程中,无法实时动态地对数据处理任务的执行进度进行监控,导致无法掌控数据处理任务的执行进度,影响用户的使用体验技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的一种数据处理任务执行进度的监测方法的流程图;

图2是根据本申请实施例的一种数据处理任务执行进度的监测装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:

cdp(customerdataplatform),以企业第一方数据为主的客户数据平台。

数据洞察,通过数据分析/挖掘,将数据转换为信息,结合业务场景,梳理出影响业务结果的因素和作用链路,从而正确地对于问题进行归因和得出改进的方向。

人群包,就是将用户进行分类。一般根据用户的设备号、手机号等,将用户分为几个类别,当然之间可以重复。例如,常用的人群包种类包括:电商人群包、学生人群包、美容人群包等等。

根据本申请实施例,提供了一种数据处理任务执行进度的监测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种数据处理任务执行进度的监测方法的流程图,如图1所示,该方法包括如下步骤:

步骤s102,获取数据处理任务的标识,并依据标识查找数据处理任务对应的待处理数据;

根据本申请的一个可选的实施例,数据处理任务为数据洞察任务,数据洞察是通过数据分析/挖掘,将数据转换为信息,结合业务场景,梳理出影响业务结果的因素和作用链路,从而正确地对于问题进行归因和得出改进的方向。

步骤s104,确定待处理数据的数据量以及执行数据处理任务的设备的当前可用计算资源;

当有任务创建后,数据库中即生成任务id(即任务标识),监控模块扫描到新的任务id后,到对应的存储路径下计算上传人群包的数据量大小。同时,计算执行数据处理任务的设备的当前可用计算资源。

步骤s106,依据待处理数据的数据量以及当前可用计算资源对数据处理任务的执行进度进行监测。

通过上述步骤,通过待处理数据的数据量以及执行数据处理任务的设备的当前可用计算资源对数据处理任务的执行进度进行监测,从而实现了能够实时动态地监控数据处理任务的执行进度,大大提升了对重要任务的掌控度,以及客户的使用体验的技术效果。

根据本申请的一个可选的实施例,步骤s106通过以下方法实现:依据待处理数据的数据量以及当前可用计算资源,确定在当前可用计算资源下,执行完成数据处理任务所需的第一时长;比较第一时长与第一预设时长,如果第一时长超过第一预设时长,减少待处理数据的数据量或者增加执行数据处理任务的设备的可用计算资源。

在本步骤中,通过算法公式计算出数据处理任务在当前可用计算资源下的预计完成时间并通知相关人员。然后比较该预计完成时间与第一预设时长(第一预设时长是根据业务要求预先设定的),如果该预计完成时间超过第一预设时长,可以考虑增加计算资源或减少数据量输入。

通过上述方法可以预测数据处理任务的预计完成时间,并且判断该数据处理任务是否可以在规定的时间内执行完成。

根据本申请的另一个可选的实施例,步骤s106还可以通过以下方法实现:获取数据处理任务完成第一目标进度时所需的第二时长;比较第二时长与第二预设时长,其中,第二预设时长是预估的数据处理任务完成第一目标进度时所需的时长;如果第二时长与第二预设时长不匹配,生成报警信号。

需要说明的是,上述第一目标进度为数据处理任务的任意一个执行进度。任务开始执行后,持续监控数据处理任务的执行进度(可以通过api获取任务的执行进度)是否与预估时间匹配,在到达设定的进度节点如不能匹配,则会报警通知(如任务进度刚刚完成30%,但耗时达到预估时间的50%)。

需要说明的,第二时长与第二预设时长不匹配可以是第二时长与第二预设时长不相等,也可以是二者的差值超过预设范围。

通过上述方法可以实现数据处理任务的执行进度地实时动态监控。

在本申请的一些可选的实施例中,获取数据处理任务完成第一目标进度时所需的第二时长,包括如下至少之一:按照数据处理任务执行进度的预设进度间隔获取数据处理任务完成第一目标进度时所需的第二时长;按照预设时间间隔获取数据处理任务完成第一目标进度时所需的第二时长。

在本步骤中,可以按照预设进度间隔获取数据处理任务完成第一目标进度时所需的第二时长,例如,获取完成30%进度时所需的时间,获取完成50%进度时所需的时间,以及获取完成70%进度时所需的时间(即预设进度间隔为20%)。

还可以按照预设时间间隔获取数据处理任务完成第一目标进度时所需的第二时长,例如,每隔10s中获取数据处理任务完成第一目标进度时所需的第二时长。

在本申请的另一些可选的实施例中,执行步骤s104时,通过以下方法确定执行数据处理任务的设备的当前可用计算资源:依据队列空闲资源值、设备的集群整体空闲资源值以及设备在预设时间段内即将释放的资源值确定设备的集群算力值,其中,集群算力值用于表征设备的当前可用计算资源,队列用于处理数据处理任务。

在本步骤中,通过计算执行数据处理任务的设备的集群算力值确定设备的当前可用计算资源,具体的,设备的集群算力值=队列空闲资源值 设备的集群整体空闲资源值*队列超用百分比 即将完成任务释放的资源值。

需要说明的是,集群算力值包括设备cpu和内存的剩余计算资源,队列用于执行数据处理任务,一个队列可执行一个或多个任务。

通过上述方法,可以准确计算出执行数据处理任务的设备的剩余计算资源。

根据本申请的一个可选的实施例,在计算出设备的集群算力值后,根据集群当前算力值、人群包数据量、查询维度复杂系数、经验时间系数得出该任务在当前资源情况下的预计完成的时间。

根据本申请的一个可选的实施例,如果可用计算资源增加,依据数据处理任务的当前完成进度以及新增加的可用计算资源,确定执行数据处理任务的剩余进度时,完成第二目标进度时所需的第三时长;比较第三时长与第三预设时长,其中,第三预设时长是预估的数据处理任务完成第二目标进度时所需的时长;如果第三时长与第三预设时长不匹配,生成报警信号。

需要说明的是,第二目标进度是数据处理任务剩余进度中的任意一个处理进度,例如,已经完成了30%的进度,50%的进度、70%的进度均是数据处理任务剩余进度中的第二目标进度,此处之所以称为第二目标进度,主要是为了和上文中的第一目标进度进行区分。

在设备对数据处理任务进行执行的过程中,如果设备的集群空闲资源得到扩充(其他任务完成后释放计算资源),由于设备的集群空闲资源增多,设备执行数据处理任务的速度会增快,此时根据当前任务进度以及新加入的计算资源重新计算执行数据处理任务的剩余进度时,完成第二目标进度所需的第三时长。然后利用第三时长与第三预设时长进行比较,如果能够在预定时间内完成任务,则不再报警;若不能,则按最新的进度匹配值进行报警。

通过上述方法,在执行数据处理任务的设备的计算资源发生扩充的时候,可以实现任务执行进度监控阈值的自动调整。

本申请提供的上述方法的整体思路为开发一个监控模块,使用监控通用接口接入到cdp系统中,同时对数据洞察任务进度、计算集群资源情况进行实时监控,并通过智能算法和动态监控逻辑来实现数据洞察任务进度的动态监控。填补了对cdp系统中任务完成进度预测和动态报警的空白,让使用者和运营者对任务完成时间有一个明确的、相对准确的概念,并实时能够获取任务的进度情况,及时收到任务滞后的报警,让相应的负责人可以提前做出判断及措施,并告知使用方。大大提升了对重要任务的掌控度,以及用户的使用体验。

图2是根据本申请实施例的一种数据处理任务执行进度的监测装置的结构框图,如图2所示,该装置包括:

获取模块20,用于获取数据处理任务的标识,并依据标识查找数据处理任务对应的待处理数据;

确定模块22,用于确定待处理数据的数据量以及执行数据处理任务的设备的当前可用计算资源;

监测模块24,用于依据待处理数据的数据量以及当前可用计算资源对数据处理任务的执行进度进行监测。

根据本申请的一个可选的实施例,监测模块24包括:确定单元,用于依据待处理数据的数据量以及当前可用计算资源,确定在当前可用计算资源下,执行完成数据处理任务所需的第一时长;比较单元,用于比较第一时长与第一预设时长,如果第一时长超过第一预设时长,减少待处理数据的数据量或者增加执行数据处理任务的设备的可用计算资源。

需要说明的是,图2所示实施例的优选实施方式可以参见图1所示实施例的相关描述,此处不再赘述。

本申请实施例还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行以上的数据处理任务执行进度的监测方法。

上述非易失性存储介质用于存储执行以下功能的程序:获取数据处理任务的标识,并依据标识查找数据处理任务对应的待处理数据;确定待处理数据的数据量以及执行数据处理任务的设备的当前可用计算资源;依据待处理数据的数据量以及当前可用计算资源对数据处理任务的执行进度进行监测。

本申请实施例还提供了一种处理器,处理器用于运行存储在存储器中的程序,其中,程序运行时执行以上的数据处理任务执行进度的监测方法。

上述处理器用于运行执行以下功能的程序:获取数据处理任务的标识,并依据标识查找数据处理任务对应的待处理数据;确定待处理数据的数据量以及执行数据处理任务的设备的当前可用计算资源;依据待处理数据的数据量以及当前可用计算资源对数据处理任务的执行进度进行监测。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。


技术特征:

1.一种数据处理任务执行进度的监测方法,其特征在于,包括:

获取数据处理任务的标识,并依据所述标识查找所述数据处理任务对应的待处理数据;

确定所述待处理数据的数据量以及执行所述数据处理任务的设备的当前可用计算资源;

依据所述待处理数据的数据量以及所述当前可用计算资源对所述数据处理任务的执行进度进行监测。

2.根据权利要求1所述的方法,其特征在于,依据所述待处理数据的数据量以及所述当前可用计算资源对所述数据处理任务的执行进度进行监测,包括:

依据所述待处理数据的数据量以及所述当前可用计算资源,确定在所述当前可用计算资源下,执行完成所述数据处理任务所需的第一时长;

比较所述第一时长与第一预设时长,如果所述第一时长超过所述第一预设时长,减少所述待处理数据的数据量或者增加执行所述数据处理任务的设备的可用计算资源。

3.根据权利要求1所述的方法,其特征在于,依据所述待处理数据的数据量以及所述当前可用计算资源对所述数据处理任务的执行进度进行监测,还包括:

获取所述数据处理任务完成第一目标进度时所需的第二时长;

比较所述第二时长与第二预设时长,其中,所述第二预设时长是预估的所述数据处理任务完成所述第一目标进度时所需的时长;

如果所述第二时长与所述第二预设时长不匹配,生成报警信号。

4.根据权利要求3所述的方法,其特征在于,获取所述数据处理任务完成第一目标进度时所需的第二时长,包括如下至少之一:

按照所述数据处理任务执行进度的预设进度间隔获取所述数据处理任务完成第一目标进度时所需的第二时长;

按照预设时间间隔获取所述数据处理任务完成第一目标进度时所需的第二时长。

5.根据权利要求1所述的方法,其特征在于,确定执行所述数据处理任务的设备的当前可用计算资源,包括:

依据队列空闲资源值、所述设备的集群整体空闲资源值以及所述设备在预设时间段内即将释放的资源值确定所述设备的集群算力值,其中,所述集群算力值用于表征所述设备的当前可用计算资源,队列用于处理所述数据处理任务。

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

如果所述可用计算资源增加,依据所述数据处理任务的当前完成进度以及新增加的所述可用计算资源,确定执行所述数据处理任务的剩余进度时,完成第二目标进度时所需的第三时长;

比较所述第三时长与第三预设时长,其中,所述第三预设时长是预估的所述数据处理任务完成所述第二目标进度时所需的时长;

如果所述第三时长与所述第三预设时长不匹配,生成报警信号。

7.一种数据处理任务执行进度的监测装置,其特征在于,包括:

获取模块,用于获取数据处理任务的标识,并依据所述标识查找所述数据处理任务对应的待处理数据;

确定模块,用于确定所述待处理数据的数据量以及执行所述数据处理任务的设备的当前可用计算资源;

监测模块,用于依据所述待处理数据的数据量以及所述当前可用计算资源对所述数据处理任务的执行进度进行监测。

8.根据权利要求7所述的装置,其特征在于,所述监测模块,包括:

确定单元,用于依据所述待处理数据的数据量以及所述当前可用计算资源,确定在所述当前可用计算资源下,执行完成所述数据处理任务所需的第一时长;

比较单元,用于比较所述第一时长与第一预设时长,如果所述第一时长超过所述第一预设时长,减少所述待处理数据的数据量或者增加执行所述数据处理任务的设备的可用计算资源。

9.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至6中任意一项所述的数据处理任务执行进度的监测方法。

10.一种处理器,其特征在于,所述处理器用于运行存储在存储器中的程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的数据处理任务执行进度的监测方法。

技术总结
本申请公开了一种数据处理任务执行进度的监测方法及装置。其中,该方法包括:获取数据处理任务的标识,并依据标识查找数据处理任务对应的待处理数据;确定待处理数据的数据量以及执行数据处理任务的设备的当前可用计算资源;依据待处理数据的数据量以及当前可用计算资源对数据处理任务的执行进度进行监测。本申请解决了目前利用CDP系统对客户上传的人群包数据进行处理分析的过程中,无法实时动态地对数据处理任务的执行进度进行监控,导致无法掌控数据处理任务的执行进度,影响用户的使用体验的技术问题。

技术研发人员:郭家杰;李松
受保护的技术使用者:北京深演智能科技股份有限公司
技术研发日:2021.05.27
技术公布日:2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-8671.html

最新回复(0)