以对象为中心的高效新视图合成的无几何神经场景表示的制作方法

专利2025-12-18 17

本公开总体上涉及机器学习。更具体地，本公开涉及训练机器学习模型以通过新视图合成生成无几何神经场景表示。

背景技术：

1、计算机视觉中的经典问题是从一个或多个图像推断三维(3d)场景表示(例如，使得场景表示可以用于以交互速率渲染新视图)。以前的方法重构了显式3d表示(例如，纹理化网格)或隐式表示(例如，辐射场)。然而，它们对于每个新场景通常需要具有精确的相机姿态的输入图像和较长的处理时间。

2、传统方法已经建立了显式3d表示，诸如彩色点云、网格、体素、八叉树和多平面图像。尽管它们对于交互式渲染是高效的，但是通常需要昂贵且脆弱的重构过程，并产生分辨率有限的离散表示。

3、最近的研究已经探讨了用纯隐式表示来表示场景。例如，神经辐射场(nerf)训练多层感知器(mlp)，该mlp为可通过体积渲染从中合成新视图的任何5d射线产生密度和出射rgb辐射。然而，nerf需要非常昂贵的训练和渲染过程，因为它们是针对每个场景独立学习的，并且需要许多mlp评估来对每条射线进行体积渲染。

4、光场网络(lfn)训练mlp以为4d射线输入产生rgb辐射，并使用元学习框架通过在示例的数据库上进行训练来学习场景表示的先验。然而，lfn对于每个新场景都需要精确的相机姿态和昂贵的自动解码器优化过程。它仅针对独立shapenet对象的合成图像进行了演示。

5、具体地，以对象为中心的几何世界理解的发展被认为是人类认知的基石。在机器学习模型中复制这些功能一直是计算机视觉和相关领域中的主要焦点。然而，常规的监督学习范式带来了若干挑战。例如，显式监督需要大量仔细注释的数据，并且受到诸如稀有或新对象类别的障碍的影响。此外，获得准确的真实值3d场景和对象几何极具挑战性。因而，需要一种高效方法来实现用于以对象为中心的新视图合成的机器学习模型。

技术实现思路

1、本公开的实施例的各方面和优点将部分地在以下描述中阐述，或者可以在描述中得到学习，或者可以通过实施例的实践来学习。

2、一个示例方面涉及一种用于更高效地生成场景的新视图的计算机实现的方法。该方法包括：由包括一个或多个计算装置的计算系统获得描绘场景的一个或多个输入图像；由计算系统分别为一个或多个输入图像生成一个或多个图像嵌入；由计算系统利用机器学习编码器模型来处理一个或多个图像嵌入以生成表示场景的场景嵌入；由计算系统获得描述用于场景的预测图像的一次或多次射线投射的射线数据；由计算系统利用机器学习解码器模型来处理场景嵌入和射线数据以生成用于场景的预测图像的一次或多次射线投射的合成图像数据；以及由计算系统提供场景的预测图像作为输出。

3、在一些实现方式中，机器学习编码器模型和机器学习解码器模型中的一者或两者包括自注意力模型。

4、在一些实现方式中，机器学习编码器模型和机器学习解码器模型已经使用共享损失函数进行了联合训练。

5、在一些实现方式中，至少机器学习编码器模型已经使用描绘不同场景的不同图像进行了预训练。

6、在一些实现方式中，由计算系统分别为一个或多个输入图像生成一个或多个图像嵌入包括由计算系统利用卷积神经网络来处理一个或多个输入图像以分别生成一个或多个图像嵌入。

7、在一些实现方式中，由计算系统分别为一个或多个输入图像生成一个或多个图像嵌入包括由计算系统为一个或多个输入图像生成一个或多个学习位置嵌入。

8、在一些实现方式中，机器学习解码器模型包括自注意力模型；并且由计算系统利用机器学习解码器模型来处理场景嵌入和射线数据包括：从场景嵌入生成键和值数据元素；从射线数据生成查询数据元素；以及由计算系统利用机器学习解码器模型来处理键、值和查询数据元素以生成用于一次或多次射线投射的合成图像数据。

9、在一些实现方式中，用于每次射线投射的合成图像数据包括用于与射线投射相对应的预测图像的像素的颜色数据。

10、在一些实现方式中，一个或多个输入图像包括分别以相对于场景的多个不同姿态捕获的多个输入图像。

11、在一些实现方式中，一个或多个输入图像包括相对于场景具有未指定姿态的未摆位图像。

12、在一些实现方式中，该方法包括：由计算系统评估损失函数，该损失函数将用于一次或多次射线投射的合成图像数据与用于一次或多次射线投射的真实值图像数据进行比较；以及由计算系统至少部分地基于损失函数来修改机器学习解码器模型的一个或多个参数的一个或多个值。

13、在一些实现方式中，该方法包括：由计算系统评估损失函数，该损失函数将用于一次或多次射线投射的合成图像数据与用于一次或多次射线投射的真实值图像数据进行比较；以及由计算系统至少部分地基于损失函数来修改机器学习解码器模型和机器学习编码器模型两者的一个或多个参数的一个或多个值。

14、另一个示例方面涉及一种用于更高效地生成场景特定预测图像的计算系统，该计算系统包括：一个或多个处理器；以及共同存储指令的一种或多种非暂时性计算机可读介质，这些指令在由一个或多个处理器执行时使计算系统执行操作。这些操作包括：从场景的一个或多个图像获得由机器学习编码器模型生成的场景嵌入，其中场景嵌入表示场景；由计算系统获得描述用于场景的预测图像的一次或多次射线投射的射线数据；由计算系统利用机器学习解码器模型来处理场景嵌入和射线数据以生成用于场景的预测图像的一次或多次射线投射的合成图像数据；以及由计算系统提供场景的预测图像作为输出。

15、在一些实现方式中，机器学习编码器模型和机器学习解码器模型中的一者或两者包括自注意力模型。

16、在一些实现方式中，机器学习编码器模型和机器学习解码器模型已经使用共享损失函数进行了联合训练。

17、在一些实现方式中，至少机器学习编码器模型已经使用描绘不同场景的不同图像进行了预训练。

18、另一个示例方面涉及一种或多种存储指令的非暂时性计算机可读介质，这些指令在由计算系统执行时使计算系统执行操作。这些操作包括：由计算系统获得描绘场景的一个或多个输入图像；由计算系统分别为一个或多个输入图像生成一个或多个图像嵌入；由计算系统利用机器学习编码器模型来处理一个或多个图像嵌入以生成表示场景的场景嵌入；由计算系统获得描述用于场景的预测图像的一次或多次射线投射的射线数据；由计算系统利用机器学习解码器模型来处理场景嵌入和射线数据以生成用于场景的预测图像的一次或多次射线投射的合成图像数据；由计算系统评估损失函数，该损失函数将用于一次或多次射线投射的合成图像数据与用于一次或多次射线投射的真实值图像数据进行比较；以及由计算系统至少部分地基于损失函数来修改机器学习解码器模型的一个或多个参数的一个或多个值。

19、在一些实现方式中，这些操作还包括由计算系统至少部分地基于损失函数来修改机器学习编码器模型的一个或多个参数的一个或多个值。

20、在一些实现方式中，机器学习编码器模型和机器学习解码器模型中的一者或两者包括自注意力模型。

21、在一些实现方式中，至少机器学习编码器模型已经使用描绘不同场景的不同图像进行了预训练。

22、本公开的另一个示例方面涉及一种用于以对象为中心的高效新视图合成的计算机实现的方法。该方法包括由包括一个或多个计算装置的计算系统获得表示描绘多个对象的场景的一个或多个输入图像的多个潜在表示编码，其中多个潜在表示编码对应于场景的多个部分，其中多个部分的至少一个子集描绘多个对象。该方法包括：对于分别与多个像素相关联的多次查询射线投射中的每一者，由计算系统利用机器学习解码模型的transformer子模型来处理多个潜在表示编码和相应的查询射线投射以生成特征嵌入。该方法包括由计算系统利用机器学习解码模型的加权子模型来处理特征嵌入和多个潜在表示编码的固定排序，以获得用于相应的查询射线投射的多个潜在表示编码的加权平均值。该方法包括由计算系统利用机器学习解码模型的渲染子模型来处理相应的查询射线投射和加权平均值以获得对多个像素中的相应像素的颜色预测。

23、本公开的另一个示例方面涉及一种用于以对象为中心的高效新视图合成的计算系统。该计算系统包括一个或多个处理器。该计算系统包括存储指令的一种或多种非暂时性计算机可读介质，这些指令在由一个或多个处理器执行时使计算系统执行操作。这些操作包括获得表示描绘多个对象的场景的一个或多个输入图像的多个潜在表示编码，其中多个潜在表示编码对应于场景的多个部分，其中多个部分的至少一个子集描绘多个对象。这些操作包括：对于分别与多个像素相关联的多次查询射线投射中的每一者，利用机器学习解码模型的transformer子模型来处理多个潜在表示编码和相应的查询射线投射以生成特征嵌入。这些操作包括利用机器学习解码模型的加权子模型来处理特征嵌入和多个潜在表示编码的固定排序，以获得用于相应的查询射线投射的多个潜在表示编码的加权平均值。这些操作包括利用机器学习解码模型的渲染子模型来处理相应的查询射线投射和加权平均值以获得对多个像素中的相应像素的颜色预测。

24、本公开的另一个示例方面涉及一种或多种存储指令的非暂时性计算机可读介质，这些指令在由一个或多个处理器执行时使计算系统执行操作。这些操作包括获得表示描绘多个对象的场景的一个或多个输入图像的多个潜在表示编码，其中多个潜在表示编码对应于场景的多个部分，其中多个部分的至少一个子集描绘多个对象。这些操作包括：对于分别与多个像素相关联的多次查询射线投射中的每一者，利用机器学习解码模型的transformer子模型来处理多个潜在表示编码和相应的查询射线投射以生成特征嵌入。这些操作包括利用机器学习解码模型的加权子模型来处理特征嵌入和多个潜在表示编码的固定排序，以获得用于相应的查询射线投射的多个潜在表示编码的加权平均值。这些操作包括利用机器学习解码模型的渲染子模型来处理相应的查询射线投射和加权平均值以获得对多个像素中的相应像素的颜色预测。

25、本公开的另一个示例方面涉及一种用于以对象为中心的高效新视图合成的计算机实现的方法。该方法包括由包括一个或多个计算装置的计算系统利用机器学习编码模型来处理一个或多个输入图像以获得由一个或多个输入图像描绘的场景的场景嵌入，其中场景描绘多个对象。该方法包括由计算系统利用机器学习注意力模型来从场景嵌入确定多个潜在表示编码，其中多个潜在表示编码对应于场景的多个部分，其中多个部分的至少一个子集描绘多个对象。该方法包括由计算系统利用机器学习解码模型的transformer子模型来处理多个潜在表示编码和相应的查询射线投射以生成特征嵌入。该方法包括由计算系统利用机器学习解码模型的加权子模型来处理特征嵌入和多个潜在表示编码的固定排序，以获得用于相应的查询射线投射的多个潜在表示编码的加权平均值。该方法包括由计算系统利用机器学习解码模型的渲染子模型来处理相应的查询射线投射和加权平均值以获得对多个像素中的相应像素的颜色预测。

26、本公开的其他方面涉及各种系统、设备、非暂时性计算机可读介质、用户界面和电子装置。

27、参考以下描述和随附权利要求将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书中并且构成本说明书的一部分的附图示出了本公开的示例实施例，并且连同描述一起用于解释相关原理。

技术特征：

1.一种用于更高效地生成场景的新视图的计算机实现的方法，所述方法包括：

2.如任一前述权利要求所述的计算机实现的方法，其中所述机器学习编码器模型和所述机器学习解码器模型中的一者或两者包括自注意力模型。

3.如任一前述权利要求所述的计算机实现的方法，其中所述机器学习编码器模型和所述机器学习解码器模型已经使用共享损失函数进行了联合训练。

4.如任一前述权利要求所述的计算机实现的方法，其中至少所述机器学习编码器模型已经使用描绘不同场景的不同图像进行了预训练。

5.如任一前述权利要求所述的计算机实现的方法，其中由所述计算系统分别为所述一个或多个输入图像生成所述一个或多个图像嵌入包括由所述计算系统利用卷积神经网络来处理所述一个或多个输入图像以分别生成所述一个或多个图像嵌入。

6.如任一前述权利要求所述的计算机实现的方法，其中由所述计算系统分别为所述一个或多个输入图像生成所述一个或多个图像嵌入包括由所述计算系统为所述一个或多个输入图像生成一个或多个学习位置嵌入。

7.如任一前述权利要求所述的计算机实现的方法，其中：

8.如任一前述权利要求所述的计算机实现的方法，其中每次射线投射的所述合成图像数据包括与所述射线投射相对应的所述预测图像的像素的颜色数据。

9.如任一前述权利要求所述的计算机实现的方法，其中所述一个或多个输入图像包括分别以相对于所述场景的多个不同姿态捕获的多个输入图像。

10.如任一前述权利要求所述的计算机实现的方法，其中所述一个或多个输入图像包括相对于所述场景具有未指定姿态的未摆位图像。

11.如任一前述权利要求所述的计算机实现的方法，还包括：

12.如任一前述权利要求所述的计算机实现的方法，还包括：

13.一种用于更高效地生成场景特定预测图像的计算系统，所述计算系统包括：

14.如权利要求13所述的计算系统，其中所述机器学习编码器模型和所述机器学习解码器模型中的一者或两者包括自注意力模型。

15.如权利要求13或14所述的计算系统，其中所述机器学习编码器模型和所述机器学习解码器模型已经使用共享损失函数进行了联合训练。

16.如权利要求13、14或15所述的计算系统，其中至少所述机器学习编码器模型已经使用描绘不同场景的不同图像进行了预训练。

17.一种或多种非暂时性计算机可读介质，其存储指令，所述指令在由计算系统执行时使所述计算系统执行操作，所述操作包括：

18.如权利要求17所述的一种或多种非暂时性计算机可读介质，其中所述操作还包括由所述计算系统至少部分地基于所述损失函数来修改所述机器学习编码器模型的一个或多个参数的一个或多个值。

19.如权利要求17或18所述的一种或多种非暂时性计算机可读介质，其中所述机器学习编码器模型和所述机器学习解码器模型中的一者或两者包括自注意力模型。

20.如权利要求17、18或19所述的一种或多种非暂时性计算机可读介质，其中至少所述机器学习编码器模型已经使用描绘不同场景的不同图像进行了预训练。

21.一种用于进行以对象为中心的高效新视图合成的计算机实现的方法，包括：

22.如权利要求21所述的计算机实现的方法，其中：

23.如权利要求22所述的计算机实现的方法，其中所述方法还包括：

24.如权利要求21所述的计算机实现的方法，其中在获得所述多个潜在表示编码之前，所述方法包括：

25.如权利要求24所述的计算机实现的方法，其中在确定所述多个潜在表示编码之前，所述方法包括：

26.如权利要求25所述的计算机实现的方法，其中处理所述一个或多个输入图像包括：

27.如权利要求25所述的计算机实现的方法，其中所述机器学习编码模型、所述机器学习注意力模型或所述机器学习解码模型中的一者或多者已经使用共享损失函数进行了联合训练。

28.如权利要求21至27中任一项所述的计算机实现的方法，其中所述机器学习编码模型包括自注意力模型。

29.如权利要求21至28中任一项所述的计算机实现的方法，其中所述机器学习解码模型包括自注意力模型。

30.如权利要求21至29中任一项所述的计算机实现的方法，其中所述特征嵌入指示所述多个潜在表示编码中的每一者与所述相应的查询射线投射的相关性。

31.如权利要求21至30中任一项所述的计算机实现的方法，其中利用所述机器学习解码模型的所述加权子模型来处理所述特征嵌入和所述多个潜在表示编码的所述固定排序包括：

32.如权利要求21至31中任一项所述的计算机实现的方法，其中所述渲染子模型包括一个或多个多层感知器。

33.如权利要求21至32中任一项所述的计算机实现的方法，其中所述多次查询射线投射表示所述场景的六维光场参数化。

34.如权利要求21至33中任一项所述的计算机实现的方法，其中查询射线投射对应于相机位置和从所述相机指向通过分别与所述查询射线投射相关联的像素的中心的归一化射线方向。

35.一种用于进行以对象为中心的高效新视图合成的计算系统，包括：

36.一种或多种非暂时性计算机可读介质，其存储指令，所述指令在由一个或多个处理器执行时使计算系统执行操作，所述操作包括：

37.一种用于进行以对象为中心的高效新视图合成的计算机实现的方法，包括：

38.如权利要求37所述的计算机实现的方法，其中：

39.如权利要求38所述的方法，其中所述方法还包括：

技术总结
提供了通过以对象为中心的高效新视图合成来生成无几何神经场景表示的机器学习模型。具体地，本公开的一个示例方面提供了一种新框架，其中编码器模型(例如，编码器Transformer网络)处理(具有或不具有姿态的)一个或多个RGB图像以产生可以传递给解码器模型(例如，解码器Transformer网络)的完全潜在场景表示。鉴于一个或多个目标姿态，解码器模型可以在单次正向传递中合成图像。在一些示例实现方式中，因为使用了Transformer而不是卷积或MLP网络，所以编码器可以学习注意力模型，该注意力模型从一小组图像中提取关于场景的足够的3D信息，以在无需显式几何的情况下渲染具有正确投影、视差、遮挡、以及甚至语义的新视图。

技术研发人员：S·M·M·萨加迪,H·迈耶,E·F·R·波特,U·M·伯格曼,K·格雷夫,N·拉德万,S·D-R·沃拉,M·卢奇克,D·C·达克沃思,T·A·方克豪泽,A·塔格利亚萨奇,T·基普,F·帕维蒂克,L·J·吉巴斯,A·马亨德兰,S·J·范斯蒂恩基斯特
受保护的技术使用者：谷歌有限责任公司
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1825564.html

专利

最新回复(0)