一种三维标注的音视频通话方法和系统与流程

专利2022-05-09 63

本申请涉及增强现实技术领域，特别是涉及一种三维标注的音视频通话方法和系统。

背景技术：

增强现实(augmentedreality，简称为ar)技术是一种将虚拟信息与真实世界巧妙融合的技术。在一些使用ar设备通话的场景下，通常需要ar设备对真实环境进行实时跟踪，以在真实环境中获取更多准确的信息，

相关技术中，在需要跟踪通话的视频画面时，一般只能在该视频画面的二维空间上进行标注，在画面对应的三维图像上进行标注是难以实现的，因此，导致视频通话中对视频画面的标注不够准确的技术问题。

目前针对相关技术中在视频通话中对视频场景标注不够准确的问题，尚未提出有效的解决方案。

技术实现要素：

本申请实施例提供了一种三维标注的音视频通话方法、系统、计算机设备和计算机可读存储介质，以至少解决相关技术中在视频通话中对视频场景标注不够准确的问题。

第一方面，本申请实施例提供了一种三维标注的音视频通话方法，所述方法包括：

第一终端通过网络与第二终端建立通信联系以实现音视频通话；

所述第一终端中的摄像单元获取目标场景的视频图像并将所述视频图像发送给所述第二终端；

所述第二终端接收用户在所述视频图像中添加的二维标注信息，并将所述二维标注信息转换为二维坐标数据，通过所述网络将所述二维坐标数据发送给所述第一终端；

所述第一终端通过环境跟踪算法将所述二维坐标数据映射到所述视频图像对应的三维场景中，生成三维坐标数据，将所述三维坐标数据添加在所述视频图像中生成三维标注信息；

所述第一终端通过3d渲染引擎显示所述视频图像和所述三维标注信息，并通过所述网络将所述视频图像和所述三维标注信息发送给所述第二终端。

在其中一些实施例中，所述第一终端通过环境跟踪算法将所述二维坐标数据映射到所述视频图像对应的三维场景中，生成三维坐标数据包括：

所述环境跟踪算法计算所述摄像单元在实际空间中的位姿数据；

在所述二维坐标数据中获取与所述位姿数据对应的二维点坐标，根据所述位姿数据和所述二维点坐标，按照预设规则计算与所述二维点坐标对应的三维点坐标；

集合所述三维点坐标生成所述三维坐标数据。

在其中一些实施例中，所述根据所述位姿数据和所述二维点坐标，按照预设规则计算与所述二维点坐标对应的三维点坐标包括：通过如下计算公式计算所述三维点坐标：

pw＝twc*k^(-1)*p

其中，pw为真实环境中标注的所述三维点坐标，twc为摄像单元的所述位姿数据，k为所述摄像单元的内参，p为所述二维点坐标。

在其中一些实施例中，所述第二终端接收用户在所述视频图像中添加的二维标注信息包括：

接收用户在所述第二终端显示界面的触控信号，将所述触控信号转换为所述二维标注信息，其中，所述显示界面显示所述视频图像，所述视频图像包括所述目标环境中的真实物体。

在其中一些实施例中，所述第一终端通过网络与第二终端间建立通信联系以实现音视频通话之前，所述方法还包括：在所述第一终端中部署环境跟踪算法，其中，所述环境跟踪算法是slam算法。

第二方面，本申请实施例提供了一种三维标注的音视频通话系统，所述系统包括：现场端和专家端；

所述现场端用于通过网络与专家端建立通信联系以实现音视频通话，

所述现场端或者用于通过摄像单元获取目标场景的视频图像并将所述视频图像发送给专家端；

所述专家端用于接收用户在所述视频图像中添加的二维标注信息，将所述二维标注信息转换为二维坐标数据，通过所述网络将所述二维坐标数据发送给所述现场端；

所述现场端用于通过环境跟踪算法将所述二维坐标数据映射到与所述视频图像对应的三维场景中，生成三维坐标数据，将所述三维坐标数据加入所述视频图像中生成三维标注信息；

所述现场端或者用于通过3d渲染引擎显示所述视频图像和所述三维标注信息，并通过所述网络将所述视频图像和所述三维标注信息发送给所述专家端。

在其中一些实施例中，所述环境跟踪算法用于：获取所述摄像单元在实际空间中的位姿数据；

在所述二维坐标数据中获取与所述位姿数据对应的每个二维点坐标，根据所述位姿数据和所述二维点坐标，计算得到与所述二维点坐标对应的三维点坐标；

集合所述三维点坐标生成所述三维坐标数据。

在其中一些实施例中，所述环境跟踪算法用于通过如下计算公式计算所述三维点坐标：

pw＝twc*k^(-1)*p

其中，pw为真实环境中标注的所述三维点坐标，twc为所述位姿数据，k为所述摄像单元的内参，p为所述二维点坐标。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的一种三维标注的音视频通话方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的一种三维标注的音视频通话方法。

相比于相关技术，本申请实施例提供的一种三维标注的音视频通话方法，第一终端通过网络与第二终端建立通信联系以实现音视频通话；第一终端中的摄像单元获取视频图像并将视频图像发送给第二终端；第二终端接收用户在视频图像中添加的二维标注信息，并将二维标注信息转换为二维坐标数据；第一终端通过环境跟踪算法将二维坐标数据映射到视频图像对应的三维场景中，生成三维坐标数据，将三维坐标数据加入视频图像中生成三维标注信息；第一终端通过3d渲染引擎显示视频图像和三维标注信息。解决了在视频通话中对视频场景中的物体标注不够准确的问题，实现了在视频通话场景下对真实环境中的物体进行三维的标注，提升视频中对于物体标注的准确度，提升了用户体验。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种三维标注的音视频通话方法的应用环境示意图；

图2是根据本申请实施例的一种三维标注的音视频通话方法的流程图；

图3是根据本申请实施例的一种三维标注的音视频通话系统的结构框图；

图4是根据本申请实施例的三维标注的音视频通话系统示意图；

图5是根据本申请实施例的电子设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请提供的一种三维标注的音视频通话方法，可以应用于如图1所示的应用环境中，图1是根据本申请实施例的一种三维标注的音视频通话方法的应用环境示意图，如图1所示，用户a和用户b分别通过第一终端10和第二终端11进行音视频通话，其中，第一终端10与第二终端11通过网络连接。第一终端10通过摄像单元获取用户a所在实际场景的视频图像，将该视频图像发送至第二终端11。用户b可以通过触控第二终端11的显示界面对上述实际场景中的物体进行二维标注并将二维标注发送至第一终端10，进一步的，第一终端10内置的环境跟踪算法将该二维标注转换为三维标注，再将该三维标注添加在视频图像中实时发送给第二终端11。用户a可以通过第一终端10获取用户b添加的三维标注并进行ar显示，以进行后续诸如物体识别、场景分割等处理步骤。需要说明的是，该第一终端10和第二终端11可以是智能手机、平板电脑、智能ar眼镜、智能可穿戴设备或其他可供视频资源获取和ar场景展示的终端等。

本申请提供了一种三维标注的音视频通话方法，图2是根据本申请实施例的一种三维标注的音视频通话方法的流程图，如图2所示，该流程图包括如下步骤：

s201，第一终端10通过网络与第二终端11建立通信联系以实现音视频通话；其中，第一终端10可以是设置在工作现场下的现场端ar设备，第二终端11可以是设置在远端的专家端ar设备。可以理解的是，在专家端与现场端建立音视频通话之后，专家端的通话方可以对现场端的通话方进行信息指示或者技术指导；

s202，第一终端10中的摄像单元获取目标场景的视频图像并将视频图像发送给第二终端11；本实施例中，第一终端10可以设置在工作现场，对应的其获取的视频图像即工作场景的视频图像。通过在上述步骤已建立的音视频通话，实时发送该视频图像至远程的第二终端11即专家端。其中，该视频图像反映工作现场的实际场景，可选的，其中可包括室内场景中的小动物、家居用品；也可以包括室外场景中的汽车、建筑和景观等；

s203，第二终端11接收用户在视频图像中添加的二维标注信息，并将二维标注信息转换为二维坐标数据，通过网络将二维坐标数据发送给第一终端10；可选的，二维标注信息由用户触控第二终端11的显示界面生成，用户通过触控正在显示上述视频画面的显示界面生成触控信息，该触控信息再经过第二终端11内部的信号转换及处理后生成二维点击信号。其中，本实施例中的二维标注的生成方式是直观的，通过用户触控视频画面中需要标注的对象后经过终端处理后即可生成；在该第二终端11是手机设备时，该触控信息就是用户手指触摸屏幕的信号，在该第二终端11是电脑设备时，该触控信息就是用户使用鼠标点击电脑屏幕时的信号。进一步的，将用户添加的二维标注信息再转换为由多个二维坐标点组成的二维坐标数据；

s204，第一终端10通过环境跟踪算法将二维坐标数据映射到视频图像对应的三维场景中，生成三维坐标数据，将三维坐标数据加入视频图像中生成三维标注信息；其中，将二维点坐标映射到三维场景中生成三维坐标数据包括：首先，第一终端10利用环境跟踪算法确定每个二维点坐标对应的摄像单元的位姿数据；其次，依次根据具体的二维点坐标和与其对应的位姿数据计算得到三维点坐标；最后，集合所有的三维点坐标生成三维坐标数据。需要说明的是，本实施例中采用的环境跟踪算法是slam算法，但是，其他的环境跟踪本实施例也是同样适用的。环境跟踪算法具备估计相机在空间中位姿的功能，其中，相机位姿估计是指给定若干图像，在图像中估计相机运动的过程，通常通过特征点法和直接法计算；

s205，第一终端10通过3d渲染引擎显示视频图像和三维标注信息，并通过网络将视频图像和三维标注信息发送给第二终端11。其中，在三维空间中显示ar内容，属于3d渲染引擎的常规操作，其对于本申请发明点并无核心影响，在本实施例对于渲染显示的具体步骤不再赘述。

通过上述步骤s201至s205，相比较于相关技术中在视频通话中采用二维信息对目标场景中的对象进行标注的方法，本申请实施例通过在音视频通话的终端设备中部署环境跟踪算法，在接收到用户在目标场景视频图像中的二维标注信息后，通过环境跟踪算法获取相机的位姿数据，之后再根据该位姿数据以及其对应的二维坐标点计算得到对应三维场景的三维坐标点，将三维坐标点集合后添加在目标场景的三维图像中作为三维标注信息。解决了相关技术中在视频通话中只能对视频图像中的物体进行二维标注导致标注准确性较低的问题；实现了在视频通话场景下，对真实场景中的物体进行三维的标注，提升了标注的准确性和真实性，同时也提升了用户的使用体验。需要说明的是，在本实施例中的第一终端10和第二终端11是可以互相调换位置的，也就是说，也可以是第二终端11获取目标场景的视频画面并通过环境跟踪算法进行二维坐标数据和三维坐标数据的转换，也可以是第一终端10接收用户的标注信息；相当于，通话的双方都可以对目标环境中的物体进行三维的标注并实时传输给对方。

在其中一些实施例中，第二终端11通过环境跟踪算法将二维坐标数据映射到视频图像对应的三维场景中，生成三维坐标数据包括：第二终端11通过环境跟踪算法获取摄像单元在实际空间中的位姿数据，进一步的，在二维坐标数据中获取与位姿数据对应的二维点坐标，根据位姿数据和二维点坐标，按照预设规则计算二维点坐标对应的三维点坐标，最后，集合所有三维点坐标生成三维坐标数据。其中，按照预设规则计算二维点坐标对应的三维点坐标可以通过如下公式：pw＝twc*k^(-1)*p，其中，pw为真实环境中的三维点坐标，twc为摄像单元的位姿数据，k为摄像单元的内参，p为二维点坐标。

在其中一些实施例中，第二终端11接收用户在视频图像中添加的二维标注信息包括：获取用户在第二终端11显示界面的触控信号，将触控信号转换为二维标注信息，其中，终端的显示界面显示视频图像，视频图像中则包括真实场景和真实物体。需要说明的是，本实施例中的二维标注的生成方式是直观的，通过用户触控视频画面中需要标注的对象后经过终端处理后即可生成；在该第二终端11是手机设备时，该触控信息就是用户手指触摸屏幕的信号，在该第二终端11是电脑设备时，该触控信息就是用户使用鼠标点击电脑屏幕时的信号。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种三维标注的音视频通话系统，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本申请实施例提供了一种三维标注的音视频通话系统，图3是根据本申请实施例的一种三维标注的音视频通话系统的结构框图，如图3所示，该系统包括现场端31和专家端32；

现场端31用于通过网络与专家端32端建立通信联系以实现音视频通话，

现场端31或者用于通过摄像单元获取目标场景的视频图像并将视频图像发送给专家端32；

专家端32用于接收用户在视频图像中添加的二维标注信息，将二维标注信息转换为二维坐标数据，通过网络将二维坐标数据发送给现场端31；

现场端31或者用于通过环境跟踪算法将二维坐标数据映射到与视频图像对应的三维场景中，生成三维坐标数据，将三维坐标数据加入视频图像中生成三维标注信息；

现场端31或者用于通过3d渲染引擎显示视频图像和三维标注信息，并通过网络将视频图像和所述三维标注信息发送给专家端32。

在其中一些实施例中，环境跟踪算法用于：获取摄像单元在实际空间中的位姿数据；在二维坐标数据中获取与位姿数据对应的每个二维点坐标，根据位姿数据和二维点坐标，计算得到与二维点坐标对应的三维点坐标；集合三维点坐标生成三维坐标数据。其中，环境跟踪算法用于通过如下计算公式计算三维点坐标：pw＝twc*k^(-1)*p，pw为三维点坐标，twc为位姿数据，k为摄像单元的预设参数，p为二维点坐标。

在其中一些实施例中，图4是根据本申请实施例的三维标注的音视频通话系统示意图，如图4所示，专家端32与现场端31进行双向音视频通话，现场端31的后置相机获取目标场景的视频图像并将该视频图像实时发送至专家端32，专家端32则通过显示器显示该视频图像，专家端32的用户可以在显示界面中点击以实现对视频图像中的物体进行二维标注，将二维标注信息发送给现场端31，之后，现场端31再通过环境跟踪算法将二维标注转换为三维标注，并在将三维标注添加到视频画面之后进行ar显示并且将该视频画面发送至专家端32，以实现专家端32用户对现场端31用户的信息指示或技术指导。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的三维标注的音视频通话方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种三维标注的音视频通话的方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种三维标注的音视频通话方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，图5是根据本申请实施例的电子设备的内部结构示意图，如图5所示，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图5所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器，其中，该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，内存储器用于为操作系统和计算机程序的运行提供环境，计算机程序被处理器执行时以实现一种三维标注的音视频通话方法，数据库用于存储数据。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

转载请注明原文地址:https://doc.8miu.com/read-150182.html

专利

最新回复(0)