ResNet:视觉跟踪中的应用

发布网友发布时间：2022-11-25 05:41

共1个回答

热心网友时间：2023-10-30 22:13

SiamFC跟踪方法取得了很大的成功，同时也促进了深度学习在跟踪领域的发展。我们知道SiamFC采用的骨干网络是AlexNet，使用该网络来提取图像特征。AlexNet最早实在图像识别任务中被提出，第一次证实了卷积网络在CV领域的有效性，取得了2012年ImageNet竞赛的第一名。自此以后，许多的深度卷积网络被提出，如VGG，GoogLeNet以及ResNet等，可以看出从AlexNet到ResNet，网络的层数越来越多，也即网络的深度越来越深，这也使得网络的性能越来越强大，取得的成绩也越来越好。由此我们自然的可以想到，使用更加强大的backbone是不是也能改进Siamese跟踪方法的性能呢？本文主要讨论SiamRPN++中的骨干网络ResNet。

可以看到残差块中包含2种映射，一种是identity mapping，指的就是上图中的曲线，另一种resial mapping，指的就是除曲线外那部分，所以最后的输出是y = F(x) + x。identity mapping顾名思义，就是指本身，也就是公式中的x，而resial mapping指的是“差”，也就是y − x，所以残差指的就是F(x)部分。因此网络需要学习的F(x)为输入与目标的差值，故称为残差网络。

原始的ResNet主要应用于图像分类和识别任务，对于空间信息不敏感，而在跟踪任务中，空间信息对于目标的准确定位至关重要，所以要在跟踪任务中使用，需要对ResNet进行改进。

上图为SiamRPN++的网络结构图，其采用的backbone为修改的ResNet-50。原始ResNet-50的stride为32，对跟踪不适合。作者对最后两个block的stride进行了修改，将总stride降低到8，并通过空洞卷积来增加感受野。从上图可以看到，采用了ResNet不同深度卷积层的特征，在每个block输出上添加额外的1×1卷积层来将特征通道降低为256。文章将所有层的padding保留了。