一种倾斜矩形范围框标注方式的制作方法

专利2022-05-09  88



1.本发明涉及到计算机视觉中的目标检测和跟踪算法,特别是基于监督学习的目标检测和跟踪算法,属于目标检测和跟踪算法中范围框标注方式的一种。该矩形范围框标注方式可以用于目标检测和跟踪算法的范围框输出、锚点框设置、样本标注。


背景技术:

2.目标检测和跟踪算法具有巨大的价值,一直以来都是热门研究领域。现阶段绝大多数目标检测算法只能支持边平行于图像像素行和列的矩形范围框(后文中称之为正框),其记录的是中心点坐标、宽、高。对于倾斜范围框(后文称之为斜框),目前也有多种标注方式。第一种,记录中心点坐标、宽、高、旋转角,这是非常常见的标注方式。第二种,记录中心点到四边的距离以及旋转角,参考论文《east:an efficient and accurate scene text detector》。第三种,记录四个顶点坐标,也很常见,优势是可以表示任意四边形,如果用来表示矩形会有三个冗余量。第四种,按顺时针顺序记录矩形四个顶点中的前两个和第二个顶点到第三个顶点的距离,参考论文《r2cnn:rotational region cnn for orientation robust scene text detection》。第五种,记录斜框的外接正框以及斜框四个顶点与正框四个顶点顺时针方向的偏移量,参考论文《gliding vertex on the horizontal bounding box for multi

oriented object detection》。
3.背景技术的问题
4.对于正框,缺陷是显而易见的。对于宽高比大、密集排列、朝向任意的目标,该种标注方式会导致交并比(iou)不能反映真实的情况。尤其是航空影像、卫星影像上容易出现宽高比大、密集排列、朝向任意的目标,比如停车场里的大汽车,港口里停靠的轮船。
5.对于斜框的第一种标注方式,如果交换w和h的值,再将θ加上或者减去2kπ π/2,就能够表示同一个范围框。由于同一个范围框有多种不同的数值表示方式,会导致近似范围框之间的数值差异有大大小小多种情况。如果近似范围框之间的数值差异大,对于基于监督分类的方法来说,就是损失函数的取值异常,不利于模型训练。关于该缺陷的更详细情况可以参考论文《scrdet:towards more robust detection for small,cluttered and rotated objects》。斜框的第二种和第一种本质是一样的,宽高的一半就是中心点离四边的距离,他们有相同的缺陷。
6.对于斜框的第三种标注方式,也会出现同一个范围框有多种数值表示的情况。避免损失异常的现行方式是按照坐标值排序顶点,然后计算对应顶点之间的差异,详情可以参考论文《dota:a large

scale dataset for object detection in aerial images》。这种处理方式也是有问题的,对坐标值排序会改变数值维度间的对应关系,也就是说,在某次损失计算过程中预测向量的第一维对应真值向量的第二维,在另外一次损失计算过程中第一维可能对应第三维。这种对应关系的随机性同样不利于模型训练。斜框的第四种标注方式就是将第三种标注方式表示矩形框时的冗余量去除后的结果,同样会出现同一个范围框有多种数值表示的情况。
7.第五种斜框标注方式的目的是为了先预测正框再进一步预测真实的斜框,在预测正框时将正锚点框向斜框的外接正框回归。但是要想斜框预测得准确,正框也得预测准确,增加了预测目标数量,也就增加了预测(回归)难度,同样不利于模型训练。


技术实现要素:

8.为了避免背景技术中的问题,本发明提供了一种倾斜矩形范围框标注方式,其用于标注的量是“中心点c的坐标、中心点到任意一个顶点d的向量c到d的一个相邻顶点e的向量在上的投影向量与的比例系数”,代数表示为(x
c
,y
c
,u,v,ρ),其中(x
c
,y
c
)为中心点c的坐标,(u,v)为向量的坐标,ρ为向量与的比例系数。
9.为了减少同一个范围框对应的数值表示,要求ρ的取值范围为[0,1),也就是与同向,另外要求从到的夹角只能是顺时针方向或者逆时针方向中的一种。如此一来,同一个范围框仅有两种数值表示。也就是说,将向量取反,但保持其它值不变,仍然表示同一个范围框。
[0010]
由于同一个范围框仍有两种数值表示,需要采用某种手段避免损失异常,也就说让模型的预测结果与这两种数组表示之间求得一样的损失值。因为这两种表示之间仅有向量是相反的,只需要让预测值与和的损失值相同即可。设在上的投影为那么一种可行的损失值如下。
[0011][0012]
参考附图2,为预测向量与其在上的投影向量的差向量的模,为的模与的模之差的绝对值。
[0013]
更进一步,由于同一个范围框的两种表示之间仅有向量是相反的,可以引入一个量s表示的两个分量是同正负的还是一正一负的(后文将称之为同号或异号,可见s仅有两种取值),那么可以用(|u|,|v|,s)表示和当同号时,和分别为(|u|,|v|)和(

|u|,

|v|);当异号时,和分别为(

|u|,|v|)和(|u|,

|v|)。此时就可以将同一个范围框的数值表示减少到一个,其代数表示为(x
c
,y
c
,|u|,|v|,s,ρ)。
[0014]
既然数值表示减少到了一个,损失的计算也会更加方便。当从特征向量直接预测一个目标框时,x
c
,y
c
,|u|,|v|,ρ的损失可以采用回归的方式计算,也就是直接计算数值之间的差异,如smooth l1、l2等。s的损失可以采用分类的方式计算,让模型为s输出两个值,分别表示取同号和异号的可能性,代表同号的值大就是同号,否则就是异号,具体的损失值则可以用corss entropy、l2等。
[0015]
当用特征向量预测锚点框到目标框的回归参数时,可以直接人为规定同号的锚点框向同号的目标框回归,异号的锚点框向异号的目标框回归。那么就不用计算s的损失。
[0016]
如果是正框,显然向量的坐标就是范围框宽高的一半。可以通过令使该标注方式与正框兼容。
[0017]
要获得范围框四个顶点的坐标,可以通过求解以下方程组的方式实现。方程组中的的坐标是未知的,求解出后可以通过向量加减运算求出顶点坐标。
[0018][0019]
方程组中的第一个式子表示向量与向量垂直,第二个式子表示向量与向量的长度相等,第三个式子表示从到的夹角只能是顺时针方向或者逆时针方向中的一种。在使用时第三个式子只取用一个即可。
附图说明
[0020]
图1是标注方式的示意图;
[0021]
图2是计算与其预测值之间损失值的示意图。
[0022]
图1中x表示表示图像行方向上的坐标轴,y表示图像列方向上的坐标轴,c表示范围框的中心点,d、e为范围框的某两个顶点,p为在上的投影点。
[0023]
图2中表示范围框中心点到顶点d的向量,表示的预测值,表示在上的投影向量,e
p
表示e
a
表示
[0024]
有益效果
[0025]
本发明提供的倾斜矩形范围框标注方式解决了背景技术的问题,对于模型训练有重大积极意义。本发明提供了同一个范围框仅有两种数值表示的标注方式,且这两种数值表示中仅有(u,v)互为相反数,其它数值都相等。再引入一个量s表示的两个分量是同号还是异号,就可以将同一个范围框的数值表示减少到一个。该标注方式能够有效避免损失异常,有利于模型训练。另外本发明提供的标注方式在计算损失时不需要调整维度之间的对应关系。
具体实施方式
[0026]
下面是本发明的实施例。本发明不局限于下面的优选实施方式,任何人应该得知在本发明的启示下做出的结构变化,凡是与本发明具有相同或者相近似的技术方案,均属于本发明的保护范围。
[0027]
【实施例1】
[0028]
对样本图像进行标注时对其中x
c
,y
c
,u,v的取值按照图像的宽(w
i
)高(h
i
)进行归一化。为了与正框兼容,将|u|,|v|扩大至原来的2倍。那么标注文件中对应的取值为x
c
/w
i
,
y
c
/h
i
,2|u|/w
i
,2|v|/h
i
,s,ρ。
[0029]
【实施例2】
[0030]
规定同号的锚点框向同号的目标框回归,异号的锚点框向异号的目标框回归,从锚点框到目标框的回归参数可以用如下公式定义。
[0031][0032]
t
u
=ln(|u|
*
/|u|
a
),t
v
=ln(|v|
*
/|v|
a
),t
ρ
=ln(ρ
*

a
)
[0033]
其中|u|
*
,|v|
*

*
是目标框的值,|u|
a
,|v|
a

a
是预设锚点框的值,t
x
,t
y
,t
u
,t
v
,t
ρ
为将锚点框变换为目标框的回归参数,也是模型需要直接预测的值。

技术特征:
1.一种倾斜矩形范围框标注方式,其特征在于:用于标注范围框的量是中心点c的坐标、中心点到任意一个顶点d的向量c到d的一个相邻顶点e的向量在上的投影向量与的比例系数;要求与同向,以及从到的夹角只能是顺时针方向或者逆时针方向中的一种;范围框的代数表示为(x
c
,y
c
,u,v,ρ),其中(x
c
,y
c
)为中心点c的坐标,(u,v)为向量的坐标,ρ为向量与的比例系数。2.根据权利要求1所述的一种倾斜矩形范围框标注方式,其特征在于:再引入一个量s表示的两个分量是同号或异号,将和表示为(|u|,|v|,s),就可以得到一个范围框仅有一种数值表示的标注方式(x
c
,y
c
,|u|,|v|,s,ρ),其中|u|,|v|为坐标的绝对值。3.根据权利要求1及权利要求2所述的一种倾斜矩形范围框标注方式,其特征在于:令得到与正框兼容的标注方式(x
c
,y
c
,2|u|,2|v|,s,ρ)。
技术总结
一种倾斜矩形范围框标注方式,其用于标注的量是“中心点C的坐标、中心点到任意一个顶点D的向量C到D的一个相邻顶点E的向量在E的投影向量与的比例系数”;同时要求与同向,以及从到的夹角只能是顺时针方向或者逆时针方向中的一种。范围框的基本代数表示为(x


技术研发人员:ꢀ(51)Int.Cl.G06K9/62
受保护的技术使用者:唐锐
技术研发日:2020.03.14
技术公布日:2021/6/29

转载请注明原文地址:https://doc.8miu.com/read-198.html

最新回复(0)