视听数据集制作方法和系统与流程

专利2025-07-14  5


本发明涉及数据处理领域,尤其涉及一种视听数据集制作方法和系统。


背景技术:

1、视听数据集是进行机器学习和人工智能工作的基石,对于数字人构建也是如此。

2、传统的视听数据集构建方法一般都是纯手工或者半自动化的方式进行的,在完成视听数据的下载之后,制定一些数据集构建的标准要求,再通过人工的手段去分割、标注和过滤数据,这种方法耗时耗力,制作周期长,因为是基于人工的判断,也带有一定的主观性,导致数据质量不一,这也决定了无法同时使用大量人力在短时间内完成大规模数据集的制作这一要求。

3、有鉴于此,特提出本发明。


技术实现思路

1、为了解决上述技术问题,本发明提供了一种视听数据集制作方法和系统,实现了异步协同高并发的视听数据处理,可以快速的生成所需的视听数据集。

2、本发明实施例提供了一种视听数据集制作方法,应用于视听数据集制作系统的中央引擎,该方法包括:

3、在接收到数据操作请求时,确定所述数据操作请求的请求来源信息;其中,所述请求来源信息包括下载器信息、处理器信息以及存储器信息;

4、将所述请求来源信息发送至调度器,以使所述调度器根据所述请求来源信息,确定目标任务队列,将所述目标任务队列中的目标任务反馈至所述中央引擎,并更新所述目标任务队列;

5、接收所述调度器反馈的目标任务,确定所述请求来源信息对应的空闲来源,将所述目标任务发送至所述空闲来源,以使所述空闲来源执行所述目标任务,并将所述目标任务的操作结果反馈至所述中央引擎;

6、若所述请求来源信息为下载器信息或者处理器信息,则将所述目标任务的操作结果发送至所述调度器,以使所述调度器更新所述操作结果对应的操作任务队列。

7、本发明实施例还提供了一种视听数据集制作系统,所述视听数据集制作系统包括:中央引擎、下载器、调度器、处理器以及存储器;其中,

8、所述中央引擎,分别与所述下载器、所述调度器、所述处理器以及所述存储器相连接,用于执行任一实施例所述的视听数据集制作方法;

9、所述存储器,用于在目标存储空间中存储目标视听数据集。

10、本发明实施例具有以下技术效果:

11、中央引擎在接收到数据操作请求时,确定数据操作请求的请求来源信息,将请求来源信息发送至调度器,以使调度器根据请求来源信息,确定目标任务队列,将目标任务队列中的目标任务反馈至中央引擎,并更新目标任务队列,接收调度器反馈的目标任务,确定请求来源信息对应的空闲来源,将目标任务发送至空闲来源,以使空闲来源执行目标任务,并将目标任务的操作结果反馈至中央引擎,若请求来源信息为下载器信息或者处理器信息,则将目标任务的操作结果发送至调度器,以使调度器更新操作结果对应的操作任务队列,由于上述各步骤均为接收触发,因此,可以实现全自动且高并发的效果,提高了视听数据集的制作效率以及质量。



技术特征:

1.一种视听数据集制作方法,其特征在于,应用于视听数据集制作系统的中央引擎,包括:

2.根据权利要求1所述的方法,其特征在于,所述数据操作请求包括下载请求、处理请求以及存储请求,所述目标任务队列包括下载任务队列、处理任务队列以及存储任务队列,所述目标任务包括下载任务、待处理任务以及存储任务,所述将所述请求来源信息发送至调度器,以使所述调度器根据所述请求来源信息,确定目标任务队列,将所述目标任务队列中的目标任务反馈至所述中央引擎,并更新所述目标任务队列,包括:

3.根据权利要求2所述的方法,其特征在于,所述确定所述请求来源信息对应的空闲来源,将所述目标任务发送至所述空闲来源,以使所述空闲来源执行所述目标任务,并将所述目标任务的操作结果反馈至所述中央引擎,包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述目标任务的操作结果发送至所述调度器,以使所述调度器更新所述操作结果对应的操作任务队列,包括:

5.根据权利要求1所述的方法,其特征在于,还包括:

6.一种视听数据集制作系统,其特征在于,所述视听数据集制作系统包括:中央引擎、下载器、调度器、处理器以及存储器;其中,

7.根据权利要求6所述的系统,其特征在于,所述数据操作请求包括下载请求,所述下载器用于:

8.根据权利要求6所述的系统,其特征在于,所述处理器包括至少两种处理器类型的子处理器,所述数据操作请求包括处理请求,所述子处理器用于:

9.根据权利要求8所述的系统,其特征在于,所述针对所述处理器类型对应的每个空闲子处理器,基于所述待处理任务对应的待处理视听数据进行处理,得到所述待处理任务的处理结果,包括:

10.根据权利要求9所述的系统,其特征在于,所述对筛选后的待处理视听数据进行同源检测,得到所述待处理任务的处理结果,包括:


技术总结
本发明涉及数据处理领域,公开了一种视听数据集制作方法和系统,该方法应用于视听数据集制作系统的中央引擎,包括:在接收到数据操作请求时,确定请求来源信息,发送至调度器,以使调度器根据请求来源信息,确定目标任务队列,将目标任务队列中的目标任务反馈至中央引擎,更新目标任务队列;接收调度器反馈的目标任务,确定请求来源信息对应的空闲来源,将目标任务发送至空闲来源,以使空闲来源执行目标任务,将目标任务的操作结果反馈至中央引擎;若请求来源信息为下载器信息或者处理器信息,则将目标任务的操作结果发送至调度器,以使调度器更新操作结果对应的操作任务队列。本发明实现了并行的大规模的视听数据处理,快速的生成视听数据集。

技术研发人员:吴玲,孟祥飞,张森乐,庞晓磊,傅浩,赵欣婷,徐悦然,吴琪
受保护的技术使用者:国家超级计算天津中心
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1822461.html

最新回复(0)