本公开涉及计算机,尤其涉及分布式系统、深度学习模型、大模型、人工智能、芯片。
背景技术:
1、随着大模型的规模逐渐增大,基于分布式大模型训练的开销成为提升模型训练效率的瓶颈之一。分布式大模型训练的开销受分布式设备的交互效率的影响,当分布式设备之间的交互机制复杂时,会导致分布式大模型训练效率低下。
技术实现思路
1、本公开提供了一种报文传输方法、报文传输设备、电子设备、存储介质以及程序产品。
2、根据本公开的一方面,提供了一种报文传输方法,包括:接收来自发送端的报文序列;响应于检测到报文序列包括指定标识,获取第一基地址,第一基地址指示了内存单元中的第一存储区域;以及将指定标识写入第一存储区域,以确认已接收到报文序列的目标报文和目标报文的在前报文;其中,指定标识设置于目标报文中。
3、根据本公开的另一方面,提供了一种报文传输方法,包括:响应于报文发送请求,获取多个报文;根据多个报文的发送顺序,确定多个报文中的最后一个报文;将指定标识添加到最后一个报文中,得到报文序列;以及发送报文序列。
4、根据本公开的另一方面,提供了一种一种报文传输设备,包括:服务器;以及网卡,被配置为:接收来自发送端的报文序列;响应于检测到报文序列包括指定标识,获取第一基地址,第一基地址指示了内存单元中的第一存储区域;以及将指定标识写入第一存储区域;其中,服务器被配置为基于第一存储区域内的指定标识,确认已接收到报文序列的目标报文和目标报文的在前报文;指定标识设置于目标报文中。
5、根据本公开的另一方面,提供了一种报文传输设备,包括:服务器,被配置为:响应于报文发送请求,获取多个报文;根据多个报文的发送顺序,确定多个报文中的最后一个报文;以及将指定标识添加到最后一个报文中,得到报文序列;以及网卡,被配置为发送报文序列。
6、根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开实施例所示的报文传输方法。
7、根据本公开的另一方面,提供了一种电子设备,包括:至少一个权利要求本公开实施例所示发送数据的报文传输设备和至少一个本公开实施例所示接收数据的报文传输设备。
8、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开实施例所示的方法。
9、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现本公开实施例所示方法的步骤。
10、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种报文传输方法,包括:
2.根据权利要求1所述的方法,其中,所述获取第一基地址,包括:
3.根据权利要求1所述的方法,其中,所述获取第一基地址,包括:
4.根据权利要求1所述的方法,还包括,在接收来自发送端的报文序列之前:
5.根据权利要求4所述的方法,还包括:
6.根据权利要求1所述的方法,其中,所述响应于检测到所述报文序列包括指定标识,获取第一基地址,包括:
7.根据权利要求1所述的方法,还包括:
8.根据权利要求1所述的方法,其中,所述接收来自发送端的报文序列,包括:
9.一种报文传输方法,包括:
10.根据权利要求9所述的方法,其中,所述将指定标识添加到所述最后一个报文中,得到报文序列,包括:
11.根据权利要求9所述的方法,其中,所述将指定标识添加到所述最后一个报文中,包括:
12.根据权利要求9所述的方法,还包括,在发送所述报文序列之前:
13.根据权利要求9所述的方法,其中,所述发送所述报文序列,包括:
14.一种报文传输设备,包括:
15.根据权利要求14所述的设备,其中,所述网卡被配置为获取第一基地址,包括:
16.根据权利要求14所述的设备,其中,所述网卡包括:
17.根据权利要求14所述的设备,其中,所述网卡还被配置为:
18.根据权利要求17所述的设备,其中,所述网卡包括:
19.根据权利要求14所述的设备,其中,所述网卡还被配置为:
20.根据权利要求14所述的设备,其中,所述网卡包括:
21.一种报文传输设备,包括:
22.根据权利要求21所述的设备,其中,所述服务器被配置为将指定标识添加到所述最后一个报文中,包括:
23.根据权利要求21所述的设备,其中,所述服务器被配置为将指定标识添加到所述最后一个报文中,包括:
24.根据权利要求21所述的设备,其中,所述网卡包括:
25.一种电子设备,包括:
26.一种电子设备,包括至少一个权利要求14至20任一项所述的报文传输设备和至少一个21至24任一项所述的报文传输设备。
27.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-13中任一项所述的方法。
28.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-13中任一项所述方法的步骤。