一种用于根据预测器预测数据点的控制设备及其方法与流程

专利2026-01-21  5


本发明涉及一种根据预测器预测数据点的方法。本发明还涉及一种用于根据预测器预测数据点的控制设备、系统和计算机程序产品。


背景技术:

1、监督学习(supervisedlearning)是一类机器学习算法,它试图利用大量带标签的训练数据来学习输入和输出之间的关系。这通常是一个两步骤过程:在第一步骤中,系统学习一个模型/函数,该模型/函数可以从可用的数据集中准确地将输入映射到输出。该步骤的目标是训练一个模型,该模型能够从训练数据中归纳出未被看见的情形。一旦模型准备好,在第二步骤中,该模型就被部署并用于预测针对现实世界中问题的结果。部署的模型归纳了对未被看见的数据点的预测。

2、us7460735b1公开了一种系统,其使用直方图、图像强度、边缘检测器或小波来分析多个图像以标识相似的图像。该系统检索分配给所标识的相似图像的标签,并选择性地串接所提取的标签。该系统将串接标签分配给所标识的相似图像中的每一个,并在执行多个图像的关键字搜索时使用串接标签。


技术实现思路

1、发明人已经意识到训练模型的步骤与部署已训练模型的步骤没有联系。发明人还已经意识到,如果已经被已训练模型“看到”的数据点(即,包括在训练数据集中的数据点)通过已训练模型,则取决于模型如何被训练,它可能仍然不能够以100%的准确度进行预测。这可能使用户遭受很大的挫败感,并降低已训练模型的整体可用性。

2、因此,本发明的目的是改善已训练模型的整体可用性,并进一步改善对数据预测的准确性。

3、根据第一方面,该目的通过一种根据预测器预测数据点的标签的方法来实现,其中该预测器包括已训练机器,该已训练机器已经基于包括至少一个带标签数据点的训练数据集进行了训练;其中该方法包括(由控制设备执行的步骤):将第一函数分配给至少一个带标签数据点,和将第二函数分配给数据点;基于第一函数和第二函数的比较和/或基于至少一个带标签数据点和数据点的比较来确定相似度水平,其中相似度水平基于第一函数和第二函数之间的和/或至少一个带标签数据点和数据点之间的共同信息;确定至少一个带标签数据点和数据点之间的相似度信息,其中相似度信息包括数据点和至少一个带标签数据点之间的至少共同信息的标签;将第一权重分配给来自已训练机器的对数据点的预测,和将第二权重分配给相似度信息;根据相似度水平来确定对第一和/或第二权重的调整;以及确定针对数据点的标签的预测,其中该预测基于将来自已训练机器的预测与经调整的第一权重相组合以及将相似度信息与经调整的第二权重相组合。

4、该方法涉及根据预测器预测数据点的标签。预测可以包括算法的在其已经在历史(训练)数据集上训练后的输出,并在预计特定结果的可能性时应用于新数据。数据可以包括音频数据、文本数据、时间序列、图像、视频等中的一种或多种。数据点可以包括来自数据的至少一个(单个)数据点,例如来自一组图像的至少一个(单个)图像等。换句话说,数据点可以包括至少单条信息。在机器学习中,数据点被称为来自数据集的(至少)单个数据点。

5、预测器可以包括被训练用于预测数据的结果的模型或算法。结果可以包括数据的标签。预测器可以包括已训练机器,该已训练机器已经基于包括至少一个带标签数据点的训练数据集进行了训练。训练机器可以包括监督学习,其是学习基于输入-输出数据对将输入映射到输出的函数或模型的机器学习任务。它从包括一组训练数据的带标签的训练数据集中推断函数。该方法包括将第一函数分配给至少一个带标签数据点,和将第二函数分配给数据点。可以将第一函数分配给训练数据集中的至少一个带标签数据点中的每一个。在一个示例中,第一函数和第二函数是相同的。第一函数和第二函数的定义可能不是唯一的,并且两个函数的选择可能取决于例如训练数据集的类型(图像、文本等)、训练数据集中的数据量等。在一个示例中,第一函数和第二函数的目的是将数据点和至少一个带标签数据点变换到变换域以进行有效比较。第一和/或第二函数可以分别是至少一个带标签数据点和数据点,例如,函数是(带标签的)数据点,并且例如因此不将至少一个带标签数据点和/或数据点变换到不同的(向量/函数)空间。

6、该方法可以进一步包括基于第一函数和第二函数的比较确定相似度水平和/或基于带标签数据点和数据点的比较确定相似度水平。确定相似度水平的步骤可以进一步包括比较第一函数和第二函数和/或带标签数据点和数据点并为该比较分配度量的子步骤。相似度水平可以基于第一函数和第二函数和/或至少一个带标签数据点和数据点之间的共同信息。共同信息可以包括带标签数据点和数据点之间和/或函数之间的重叠。度量的选择可以基于所选择的函数、数据类型等。基于该比较,可以确定相似度水平。相似度水平可以包括例如0和1之间的值,其中1表示最相似的数据并且0表示没有相似度。不排除相似度水平的任何其他定义。在一个示例中,确定相似度水平的步骤包括确定相似度水平的所有必要步骤,例如包括比较步骤、分配度量步骤等。该比较可以基于将至少一个带标签数据点(中的每一个)的第一函数与数据点的第二函数进行比较。例如,如果存在100个带标签数据点和1个数据点,那么该比较涉及将100个带标签点与1个数据点进行比较。

7、该方法进一步包括确定至少一个带标签数据点和数据点之间的相似度信息。在一个示例中,相似度信息可以包括数据点和至少一个带标签数据点共同的信息。在另一个示例中,相似度信息可以包括数据点和至少一个带标签数据点中的共同信息的“标签”。标签可以从至少一个带标签数据点确定。因为相似度信息基于例如至少一个数据点和那个数据点之间的比较(或相似度水平),所以相似度信息可以是信息向量,其中向量的一个或多个元素是与每个比较相关的信息。例如,对于图像数据,共同信息可以是图像的一部分,其存在于两个图像中。对于时间序列数据,共同信息可以是包含相似信息的时间序列的子集。相似度可以是文字匹配、重叠或相关项目,而相似度信息可以是该匹配、重叠或相关项目的标签。

8、该方法进一步包括将第一权重分配给来自已训练机器的对数据点的预测,和将第二权重分配给相似度信息;并且进一步包括根据相似度水平来确定对第一和/或第二权重的调整。在一个示例中,确定调整可以包括零变化,即权重以零变化进行调整。在替代示例中,调整第一权重和第二权重或者第一权重和第二权重两者。该调整可以被确定为相似度水平和/或相似度信息的函数。

9、因为,该方法进一步包括确定对数据点的预测,其中该预测基于将来自已训练机器的预测与经调整的第一权重相组合以及将相似度信息与经调整的第二权重相组合,来自训练数据集的信息被包括在该预测中,因此改善了对数据预测的准确性。例如,如果数据点也存在于训练数据集中,则预测可以直接基于相似度信息(其包括数据点的标签),并且较少基于来自已训练机器的预测。

10、在一个实施例中,第一权重和第二权重的总和可以小于或等于第一权重或第二权重的预定最大值。

11、在一个示例中,第一权重或第二权重的预定最大值可以是1,因此在一个示例中,这两个权重之和小于或等于1,即w1+w2≤1。通过这样预定最大值和总和的选择,改善了确定第一权重和第二权重的调整的步骤。

12、在一个实施例中,至少一个带标签数据点和数据点可以包括一个或多个图像,其中至少一个带标签数据点可以包括区域a;并且数据点可以包括来自区域c的n个样本;其中k是a和c共同的样本的数量,并且其中相似度水平(ρ)可以包括ρ=k/n。

13、相似度水平可以根据两个图像的重叠内容来定义。图像可以是2d图像或3d图像。区域可以定义为物体的表面或任何(平面)形状所占据的空间。例如,区域可以定义为长度和宽度的乘积。不同形状的区域的不同定义在几何和数学领域中是已知的,这并不排除在外,并且为了简洁起见,这里不进一步讨论。该区域可以被划分为多个样本。如果重叠样本由k表示,并且总样本为n,则相似性水平可以定义为ρ=k/n。例如,如果没有重叠,使得k=0,则相似度水平为零,即ρ=0/n=0。类似地,如果两个图像完全重叠,因此k=n,则相似度水平为1,即ρ=n/n=1。不排除相似度水平的进一步定义。

14、在一个实施例中,该方法可以进一步包括如果相似度水平超过第一阈值,则确定对第一权重的调整小于第二权重。

15、在该示例中,如果两个图像相似,例如在数据点至少部分地与至少一个带标签数据点重叠的情况下,与来自已训练机器的预测相比,有利地给予相似度信息更大的权重。以此方式,预测精度进一步改善,因为与数据点相似的至少一个带标签数据点已经具有附加到它的标签,使得预测更加准确。

16、在一个实施例中,该方法可以进一步包括:如果相似度水平没有超过第一阈值,则确定对第一权重的调整大于第二权重。

17、如果相似度水平没有超过第一阈值,即数据点和至少一个带标签数据点之间的相似度低到没有相似度,则带标签数据点的(一个或多个)标签不能用于预测,因此,该方法有利地将第一权重调整为大于第二权重,使得来自已训练机器的预测被给予更高的权重。

18、在一个实施例中,至少一个带标签数据点和数据点可以包括一个或多个卫星图像,并且来自预测器的预测可以包括预测一个或多个卫星图像中的一个或多个灯柱(lighting pole)。

19、在该示例中,数据包括一个或多个卫星图像。卫星图像是由世界各地政府和企业运营的成像卫星收集的地球图像。卫星图像可以包括城市不同街道的图像。在该示例中,预测器的任务之一可以是从卫星图像中标识给定感兴趣区域中的灯柱(路灯)。这减少了用户在地图中手动搜索(路)灯的努力,并使其更加用户友好。

20、在一个实施例中,第一函数和第二函数可以包括基于一个或多个卫星图像的纬度和经度信息的哈希函数。

21、第一函数和第二函数的定义之一可以包括哈希函数。每个图像可以使用其纬度(l)和经度(w)坐标来标识。因此,哈希函数h可以定义为:

22、

23、哈希函数的这种定义允许数据点和至少一个带标签数据点之间的有效比较。不排除哈希函数的其他定义。

24、在一个实施例中,相似度水平可以基于数据点卫星图像和至少一个带标签数据点卫星图像中的灯柱的重叠。

25、对于卫星图像的示例以及标识图像中的一个或多个灯柱(路灯)的问题,在数据点和至少一个带标签数据点两者中标识的灯柱的数量可以定义相似度水平。例如,共同的灯柱的数量越多,相似度水平越大。

26、在一个实施例中,该方法可以进一步包括确定数据点卫星图像和至少一个数据点卫星图像之间的重叠,确定重叠区域中的一个或多个灯柱的数量,基于所确定的一个或多个灯柱的数量确定对第一权重和第二权重的调整。

27、该方法可以包括确定卫星图像之间的重叠,并对重叠区域中的灯柱的数量进行计数。因为权重是基于确定的灯柱数量来调整的,所以预测的准确性进一步改善。该方法可以包括增加重叠区域中共同的灯柱的相似度信息(例如,与两个图像中的共享灯柱相关的信息)的权重,使得预测直接基于相似度信息,并且增加来自已训练机器的数据点中(一个或多个)剩余灯柱的预测的权重。

28、在一个实施例中,该方法可以进一步包括如果相似度水平超过第一阈值,并且如果来自已训练机器的预测的置信度没有超过置信度阈值,则重新训练已训练机器。

29、在该示例中,如果相似度水平超过第一阈值,并且如果来自已训练机器的预测置信度没有超过置信度阈值,则保留该机器以进一步改善预测准确度。置信度阈值可以是预定的。

30、在一个实施例中,已训练机器已经基于测试数据集被进一步训练;并且其中测试数据集包括至少一个带标签的测试数据点;其中该方法包括:将第三函数分配给至少一个带标签的测试数据点;基于第二函数和第三函数的比较来确定测试相似度水平;确定至少一个带标签的测试数据点和数据点之间的测试相似度信息;将第三权重分配给测试相似度信息;根据测试相似度水平确定对第二权重和/或第三权重的调整;以及确定对数据点的预测,其中该预测基于将来自已训练机器的预测与经调整的第一权重相组合以及将测试相似度信息与经调整的第三权重相组合。

31、与训练数据集类似,测试数据集可以用于比较。由于测试数据集也被已训练机器“看到”并且也带标签,因此可以利用与测试数据的任何相似度(例如,通过使用相似图像的标签)来增加预测准确度。

32、根据第二方面,该目的通过一种用于根据预测器预测数据点的控制设备来实现,其中该预测器包括已训练机器,该已训练机器已经基于包括至少一个带标签数据点的训练数据集进行了训练;其中控制设备包括处理器,该处理器被布置用于执行根据第一方面的方法的步骤中的至少一些。

33、根据第三方面,该目的通过一种用于根据预测器预测数据点的系统来实现,其中该预测器包括已训练机器,该已训练机器已经基于包括至少一个带标签数据点的训练数据集进行了训练;其中该系统包括:训练数据集和/或测试数据集;用于确定至少一个带标签数据点和数据点之间的相似度水平和/或相似度信息的比较器;根据第二方面的控制设备。

34、根据第四方面,该目的通过一种包括指令的计算机程序产品来实现,当该程序由计算机执行时,该指令使得计算机执行第一方面的方法的步骤。

35、应当理解,计算机程序产品、控制设备和系统可以具有与上述方法相似和/或相同的实施例和优点。


技术特征:

1.一种根据预测器预测数据点的标签的方法,其中所述预测器包括已训练机器,所述已训练机器已经基于包括至少一个带标签数据点的训练数据集进行了训练;其中所述方法包括由控制设备执行的步骤:

2.根据权利要求1所述的方法,其中所述第一权重和所述第二权重之和小于或等于所述第一权重或所述第二权重的预定最大值。

3.根据前述权利要求中任一项所述的方法,其中所述至少一个带标签数据点和所述数据点包括一个或多个图像,其中所述至少一个带标签数据点包括区域a;并且所述数据点包括来自区域c的n个样本;其中k是a和c共同的样本的数量,并且其中所述相似度水平(ρ)包括:ρ=k/n。

4.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:

5.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:

6.根据前述权利要求中任一项所述的方法,其中所述至少一个带标签数据点和所述数据点包括一个或多个卫星图像,并且根据所述预测器的预测包括预测一个或多个卫星图像中的一个或多个灯柱。

7.根据权利要求6所述的方法,其中所述第一函数和第二函数包括基于所述一个或多个卫星图像的纬度和经度信息的哈希函数。

8.根据权利要求7所述的方法,其中所述相似度水平基于所述数据点卫星图像和所述至少一个带标签数据点卫星图像中的灯柱的重叠。

9.根据权利要求6所述的方法,其中所述方法进一步包括:

10.根据前述权利要求中任一项所述的方法,其中所述方法进一步包括:

11.根据前述权利要求中任一项所述的方法,其中所述已训练机器已经基于测试数据集被进一步训练;并且其中所述测试数据集包括至少一个带标签的测试数据点;其中所述方法包括:

12.一种用于根据预测器预测数据点的控制设备,其中所述预测器包括已训练机器,所述已训练机器已经基于包括至少一个带标签数据点的训练数据集进行了训练;其中所述控制设备包括处理器,所述处理器被布置用于执行根据前述权利要求中任一项所述的方法的步骤中的至少一些。

13.一种用于根据预测器预测数据点的系统,其中所述预测器包括已训练机器,所述已训练机器已经基于包括至少一个带标签数据点的训练数据集进行了训练;其中所述系统包括:

14.一种包括指令的计算机程序产品,当由计算机执行该程序时,所述指令使所述计算机执行根据权利要求1-11中任一项所述的方法的步骤。


技术总结
一种根据预测器预测数据点的方法,其中预测器包括已训练机器,所述已训练机器已经基于包括至少一个带标签数据点的训练数据集进行了训练。其中该方法包括:将第一函数分配给至少一个带标签数据点,和将第二函数分配给数据点;基于第一函数和第二函数的比较来确定相似度水平;确定至少一个带标签数据点和数据点之间的相似度信息;将第一权重分配给来自已训练机器的对数据点的预测,和将第二权重分配给相似度信息;根据相似度水平来确定对第一和/或第二权重的调整;以及确定对数据点的预测,其中该预测基于将来自已训练机器的预测与经调整的第一权重相组合以及将相似度信息与经调整的第二权重相组合。

技术研发人员:R·库马尔,D·亚达夫,S·马哈蒂扎德哈格达姆,T·万加拉帕特,赵南辰
受保护的技术使用者:昕诺飞控股有限公司
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1826473.html

最新回复(0)