siammask 论文阅读

首先拜读一下原作者的paper

https://arxiv.org/abs/1812.05050

摘录中说到本文说明了:

题目

Fast Online Object Tracking and Segmentation: A Unifying Approach 快速的在线对象跟踪和分割:统一方法

1.简介

他们是如何使用简单的方法,实时进行执行视觉对象跟踪和半监督视频对象分割这两个任务。

他们的算法称为SiamMask。

此算法提高了,使用二进制分割增加损失的流行的全卷积siamese目标跟踪算法的离线训练程序。

一旦完成训练,SiamMask算法就会纯粹的依赖于一个单一的边界框(bounding box)的初始化并在线运行,

生成一些与物品类别无关的masks,并且以55帧每秒的速度旋转边界框(bounding box)。

尽管它简单,多功能和快速,我们的策略使我们在实时跟踪器中建立新的技术水平

项目网站在:http://www. robots.ox.ac.uk/˜qwang/SiamMask.0

在所有需要对象特征的视频应用中跟踪是一项基本任务,它允许在帧与帧之间建立对象模型。 它可以应用与很多场景,例如自动监视,车辆导航,视频标签,人机交互和活动识别等。

给定任意感兴趣目标的位置视频的第一帧,视觉物品跟踪的目标就是尽可能的准确的估计对象在后续帧中的位置。

对于许多应用来说,当视频是流的形式的时候,在线实时跟踪是十分重要的。

也就是说,跟踪器不应该使用将来的帧来推断物品的位置。

如下是视觉对象跟踪基准所描绘的场景。 通过简单的轴对齐来表示目标对象或旋转的边界框。

这样简单的定义有助于降低数据标记成本低; 此外,它还允许用户快速执行目标的简单初始化。

本作致力于将视觉跟踪和视频对象分割这两个任务合并去获得更高的实际便利。

向传统的物品追踪一样,它依赖于一个线上实时的一个简单的边界框。

与最新的跟踪器(例如ECO [12](红色))不同,SiamMask(绿色)能够生成二进制分割mask,可以更准确地描述目标对象。

与对象跟踪类似,半监督任务视频对象分段(VOS)需要估算视频第一帧中指定的任意目标的位置。

但是,在这种情况下,对象表示由二进制分割掩码组成,表示像素是否属于目标。

这样的详细表示对于应用程序来说更理想需要像素级信息,例如视频编辑[38]和旋转摄影[37]。

可以理解,生产像素级估算比简单的边界框需要更多的计算资源。

作为结果,传统上,VOS方法运行缓慢,通常需要每帧几秒钟。(vos: video object segementation)

最近,人们对更快的方法产生了浓厚的兴趣.但是,即使最快仍然无法实时运行。

在本文中,我们旨在缩小任意通过提出SiamMask进行对象跟踪和VOS,siammask是一种可以使用的简单多任务学习方法 解决这两个问题的一个方法。

由于看到了基于全卷积的快速跟踪方法的成功,Siamese networks接受了数百万离线培训成对的视频帧,还有YouTube-VOS [58]的最新推出, 具有逐像素注释的视频数据集。

我们旨在保留这些方法的离线可训练性和在线速度同时大大改善了他们的代表性目标对象的数量,仅限于简单轴对齐的边界框。

为了实现这个目标,我们同时训练了一个Siamese network上的三个任务,每个任务对应一个不同的策略,去建立目标对象和新框架中的候选区域之间的对应关系。

与Bertinetto等人的全卷积方法一样。

一个任务是学习目标之间的相似度滑动窗口方式显示对象和多个候选对象。 输出为密集响应图(dense),仅表示对象的位置,但不提供任何信息关于它的空间范围。

为了完善此信息,我们同时学习另外两个任务:边界框回归使用地区提案网络(Region Proposal Network)和类别不可知二进制分割(classagnostic binary segmentation)。

值得注意的是,二进制标签仅在离线培训期间才需要计算分割任务的loss,而不是在在线实时分割追踪时。

在我们提出的架构中,每个任务都由与共享CNN不同的分支最终损失,即将三个输出相加一起。

经过培训后,SiamMask完全依靠单一边界盒初始化,无需更新即可在线运行,并且产生对象分割mask和旋转边界框,每秒55帧。

尽管简单SiamMask以最快的速度建立了一个新的最新技术在VOT-2018上解决了实时对象跟踪问题。

而且,相同的方法对DAVIS-2016上最近的半监督VOS方法和DAVIS-2017,同时大幅提高了速度。

通过简单的边界框即可达到此结果初始化(相对于掩码)并且不采用VOS方法经常使用的昂贵技术,例如微调,数据扩充和光流。

本文的其余部分组织如下。

第二节 简要概述了视觉方面最相关的一些先前工作,目标跟踪和半监督VOS;

第三节 描述我们的建议;

第四节根据四个基准对它进行了评估,并说明了一些简化测试模型

第五部分总结全文。

2.相关工作

在本节中,我们简要介绍了针对本文所解决的两个问题的最具代表性的技术。

视觉对象跟踪。

可以说,直到最近,跟踪任意对象的最流行范例是,仅根据视频第一帧中提供的真实信息在线训练一个有判别力量的分类器(然后在线更新)。

在过去的几年中,Correlation Filter(相关过滤器)是一种简单的算法,用来区别任意目标的模板和他的2d旋转。 由于它表现的非常快速和通过识别来跟踪的非常有效的策略。通过Bolme等人的开创性工作。 这句好长。。。

通过采用多通道公式,空间约束和深层特征,基于相关过滤器的跟踪器的性能得到了显着改善。

最近,已经引入了一种完全不同的方法。

这些方法不是在线学习判别性分类器,而是在成对的视频帧上离线训练相似性函数。

在测试时,可以简单地在新视频上评估此功能,每帧一次。

特别是,通过使用区域提议,硬否定挖掘,集合和存储网络,全卷积Siamese的演变大大改善了跟踪性能。

大多数现代跟踪器,包括上述所有跟踪器,都使用矩形边界框来初始化目标并估计其在后续帧中的位置。

尽管方便,但简单的矩形通常无法正确表示对象,如图1的示例所示。这促使我们提出了一种跟踪器,该跟踪器能够生成二进制分割mask,同时仍仅依赖于边界框初始化。

有趣的是,在过去,跟踪器通常会生成目标对象的粗糙二进制掩码。

然而,据我们所知,最近Yeo等人的跟踪器(与我们的跟踪器一样)能够在线运行并从边界框初始化开始生成二进制mask,它是基于超像素的方法。

但是,以每秒4帧(fps)的速度运行时,其最快变体比我们的建议要慢得多。

此外,当使用CNN功能时,其速度会受到60倍的降低的影响,跌落至0.1 fps以下。

最后,它在现代跟踪或VOS基准测试中没有表现出竞争优势。

与我们类似,Perazzi等人的方法。 和Ci等。 也可以从矩形开始并输出每帧mask。

但是,它们需要微调在测试时,这会使它们变慢。

半监督视频对象分割。 假定进行任意对象跟踪的基准跟踪器按顺序接收输入帧。

通常用以下属性来指代此方面在线或因果关系。

此外,方法通常集中于实现超过典型视频帧速率的速度。

相反,半监督VOS算法传统上更关注准确感兴趣对象的表示。

为了利用视频帧之间的一致性,几种方法通过图形标记方法将第一帧的监督分割mask传播到时间上相邻的帧上。

特别是,鲍等人。最近提出了一种非常精确的方法,该方法利用了时空MRF,其中时间依赖性通过光流建模,而空间依赖性通过CNN表示。

另一种流行的策略是独立处理视频帧,这与大多数跟踪方法中发生的情况类似。

例如,在OSVOS-S中,马尼尼斯等。

不要使用任何时间信息。

他们依靠经过预训练的全卷积网络进行分类,然后在测试时使用第一帧中提供的最真实的mask对其进行微调。

相反,MaskTrack是从头开始对单个图像进行训练的,但是它通过使用最新的mask预测和可见的流作为网络的附加输入,在测试时确实利用了某种形式的时间性。

为了达到最高的准确性,在测试时,VOS方法通常采用计算密集型技术,例如微调,数据增强和光流。

因此,这些方法通常以低帧速率和无法在线操作为特征。

例如,像DAVIS一样,对于只有几秒钟长的视频,要求几分钟甚至几小时的方法并不少见。

最近,VOS社区对更快的方法越来越感兴趣。

据我们所知,Yang等人的方法中,最快的方法具有与最新技术竞争的性能。 和Wug等。

前者使用元网络“调制器”在测试期间快速适应分段网络的参数,而后者不使用任何微调,而是采用经过多阶段训练的编解码器Siamese体系结构。

这两种方法都以每秒10帧的速度运行,而我们的速度要快六倍以上,并且仅依赖于边界框初始化。

3.方法论 Methodology

为了实现在线可操作性和更快的速度,我们采用了完全卷积的Siamese框架。

此外,为了说明我们的方法与作为起点的特定全卷积方法无关,我们将流行的SiamFC和SiamRPN作为两个代表性示例。

我们首先在3.1节中介绍它们,然后在3.2节中描述我们的方法。

3.1. Fullyconvolutional Siamese networks

SiamFC.

Bertinetto等。提出使用脱机训练的全卷积Siamese网络作为跟踪系统的基本构件,该网络将示例图像z与(较大)搜索图像x进行比较,以获得密集的响应图。

z和x分别是以目标对象为中心的wxh的图片区域和以目标的最后估计位置为中心的较大的图片区域。

两个输入由相同的CNN$f_\theta$处理,产生两个互相关的特征图:

$$ g_\theta(z, x) = f_\theta(z) * f_\theta(x) $$

在本文中,我们将响应图的每个空间元素(等式1的左侧)称为候选窗口(RoW)的响应。

RoW: response of a candidate window 候选窗口的相应图

例如,$g_\theta^n(z, x)$即$RoW_n$对示例z与x中的第n个候选窗口之间的相似性进行编码。 对于SiamFC,目标是使响应图的最大值与搜索区域x中的目标位置相对应。

相反,为了允许每个RoW编码有关目标对象的更丰富的信息,我们替换了Eq的简单互相关。 图1具有深度互相关并产生多通道响应图。

SiamFC在数百万个视频帧上进行了脱机训练,我们称损失为Lsim。

SiamRPN.

Li等人依靠区域提议网络(RPN)极大地提高了SiamFC的性能,该网络允许使用可变纵横比的边界框估计目标位置。 特别地,在SiamRPN中,每个RoW编码一组k个锚框建议和相应的对象/背景得分。

因此,SiamRPN会与分类分数并行输出盒预测。 使用平滑L1和交叉熵损失训练两个输出分支。

在下文中,我们分别将它们称为Lbox和Lscore。

3.2. SiamMask

与现有的依赖于低保真度对象表示的跟踪方法不同,我们认为产生每帧二进制分割mask的重要性。

为此目的,我们表明,除了相似性分数和边界框坐标外,全卷积Siamese网络的RoW还可能对产生像素级二进制mask所需的信息进行编码。

这可以通过扩展现有的Siamese跟踪器而增加分支和损失来实现。

SiamMask变体的示意图:(a)三分支体系结构(完整),(b)两分支体系结构(顶部)。 *d表示深度互相关。

为简单起见,这里省略了上采样层和掩模优化模块,并在附录A中进行了详细说明。

我们使用一个简单的两层的神经网络$h_\phi$和一个可以学习的参数$\phi$

为每一个RoW去预测 wxh 的二进制mask。

令$m_n$为对应第n个RoW的预测的mask。

$$ m_n = h_\phi(g_\theta^n(z,x)) $$

从等式我们可以看出等式其实是一个同时分割图像x和z中对象的一个函数

Loss function.

在训练的时候每一个RoW都是用一个真实的二进制标签标记,标签的值$y_n \in {\pm1}$ 并且关联了一个wxh大小的cn,是像素级别的mask。

令$c_n^{ij} \in {\pm1}$表示第n个候选RoW中 (i,j) 这个像素点的mask的标签。

mask预测任务的损失函数Lmask(等式3)是二进制RoWs的逻辑回归损失:

$$ L_{mask}(\theta, \phi) = \sum_{n}(\frac{1+y_n}{2wh}\sum_{ij}log(1+e^{-c_n^{ij}m_n^{ij}})) $$

因此,$h_\phi$的分类层由wxh个分类器组成,每个指示给定像素是否属于候选窗口中的对象。 请注意,Lmask是仅考虑正的RoWs(即yn = 1)。

Mask representation.

与FCN和Mask RCNN风格的语义分割方法相反,后者在整个网络中维护明确的空间信息,而我们的方法则遵循的精神,并从对象的扁平化表示开始生成mask。

特别地,在我们的情况下,该表示对应于由$f_\theta(z)$和$f_\theta(x)$之间的深度互相关产生的(17x17)RoW之一。

重要的是,分割任务的网络$h_\phi$由两个1x1卷积层组成,一个具有256个层,另一个具有$63^2$ 个通道(图2)。

这使每个像素分类器都可以利用整个RoW中包含的信息,从而可以在x中获得其相应候选窗口的完整视图,这对于消除看起来像目标的实例(例如,图4的最后一行)经常是至关重要的。称为干扰物。

为了产生更精确的对象mask,我们遵循[44]的策略,该策略使用多个由上采样层和跳过连接构成的细化模块合并低分辨率和高分辨率特征(请参阅附录A)。

Two variants.

对于我们的实验,我们通过分割分支和损失Lmask增强了SiamFC [3]和SiamRPN [28]的体系结构,获得了我们称为SiamMask的两分支和三分支变体。

这些分别优化了多任务损失L2B和L3B,定义为:

$$ L_{2B} = \lambda_1 \cdot L_{mask} + \lambda_2 \cdot L_{sim} $$

$$ L_{3B} = \lambda_1 \cdot L_{mask} + \lambda_2 \cdot L_{sim} + \lambda_3 \cdot L_{box} $$

对于Lsim,我们请读者参考[3,第2.2节],对于Lbox和Lscore,请参考[28,节3.2]。

对于L3B,如果RoW的其中一个锚点框的IOU与地面真实框的值至少为0.6,则RoW被视为正值(yn = 1),否则为负值(yn = -1)。

对于L2B,我们采用与[3]相同的策略来定义正样本和负样本。

我们没有搜索方程式的超参数。 4和等式 5并像在[43]中那样简单地设置$\lambda_1 = 32$, 而$\lambda_2$ = $\lambda_3$ = 1。

Box和Score输出的任务特定分支由两个1x1卷积层组成。 图2说明了SiamMask的两个变体。

Box generation.

请注意,尽管VOS基准测试需要二进制mask,但典型的跟踪基准测试(例如VOT [26,27])需要边界框作为目标对象的最终表示形式。

我们考虑三种不同的策略来从二进制mask生成边界框(图3):轴对齐的边界矩形(Min-max),旋转的最小边界矩形(MBR)和(3)用于自动边界框的优化策略 VOT-2016 [26](Opt)中提出了这一代。 我们在第4节(表1)中根据经验评估这些替代方案。

图3.为了从二进制掩码(黄色)生成边界框,我们尝试了三种不同的方法。 Minmax:包含对象(红色)的与轴对齐的矩形; MBR:最小边界矩形(绿色);opt:通过VOT-2016 [26](蓝色)中提出的优化策略获得的矩形。

3.3. Implementation details

Network architecture.

对于这两个变量,我们使用ResNet-50直到最后卷积层的4阶段的卷积神经网络$f_\theta$作为我们的主干。

为了在更深的层中获得较高的空间分辨率,我们通过使用步幅为1的卷积将输出步幅减小为8。

此外,我们通过使用扩大的卷积神经网络来增加接受区域。

在我们的模型中,我们将未共享的调整层添加到共享主干$f_\theta$(具有256个输出的1x1的卷积)。

为了简单起见,我们在等式1中将其省略。 我们在附录A中更详细地描述了网络体系结构。

Training.

像SiamFC一样,我们分别使用127x127的范例图像块和255x255的搜索图像块。

在训练期间,我们会随机抖动范例图像块和搜索图像块。

具体说,我们使用随机平移(最多$\pm 8$像素)和随机放缩(对范例图像是$2^{\pm \frac {1}{8}}$, 对搜索图像是 $2^{\pm \frac {1}{4}}$)

网络的主干是在ImageNet-1k classification任务集上预先训练过的。

我们在第一个预热阶段使用SGD, 在该阶段中,前5个学习周期的学习率从$10^{-3}$ 线性增加到$5 * 10^{-3}$ ,然后再对数递减,直到另外15个周期达到$5 * 10^{-4}$ 。

我们全部通过使用COCO,ImageNet-VID和YouTube-VOS来训练我们的模型.

Inference.

在跟踪过程中,仅对每帧SiamMask进行一次评估,而无需进行任何调整。

在我们的两个变体中,我们都使用在分类分支中获得最高分数的位置来选择输出mask。

然后,在对每个像素使用过sigmoid后,我们以0.5的阈值将mask分支的输出二进制化。

在两个分支的变体中,对于第一个之后的每个视频帧,我们将输出mask与“Min-max”框配合,然后将其用作裁剪下一帧搜索区域的参考。

相反,在三分支变体中,我们发现更有效地利用box分支的最高得分输出作为参考。

4. Experiments

在本节中,我们评估我们在两个相关任务上的方法:视觉对象跟踪(在VOT-2016和VOT-2018上)和半监督视频对象分割(在DAVIS-2016和DAVIS-2017上)。 我们分别使用SiamMask-2B和SiamMask来指代两分支模型和三分支模型。

4.1. Evaluation for visual object tracking

Datasets and settings.

我们采用两种广泛使用的基准来评估对象跟踪任务:VOT-2016 [26]和VOT-2018 [27],两者均带有旋转的边界框。 我们使用VOT-2016来了解不同类型的表示形式如何影响性能。

对于第一个实验,我们使用均值相交联合(IOU)和平均精度(AP)@{0.5; 0.7} IOU。

然后,我们使用官方的VOT工具包和Expected Average Overlap(EAO)(预期平均重叠(EAO))与VOT-2018的最新技术进行比较,该方法同时考虑了跟踪器的准确性和鲁棒性[27]。

How much does the object representation matter?

现有的跟踪方法通常以固定的[3,20,13,33]或可变的[28,19,63]长宽比来预测与轴对齐的边界框。

我们有兴趣了解在多大程度上产生每帧二进制掩码可以改善跟踪。

为了专注于表示精度,对于本实验,我们仅忽略时间方面,并随机采样视频帧。

以下段落中描述的方法在VOT-2016序列中的随机裁剪的搜索块(最多$\pm 16$个像素内的随机移位且缩放变形最大为$2^{1 \pm 0.25}$上进行了测试。

在表1中,我们使用Min-max,MBR和Opt方法(在3.2节末尾和图3中进行了描述)比较了三分支变量。

作为参考,我们还报告了SiamFC和SiamRPN的结果,作为固定和可变长宽比方法的代表,以及报告了每帧地基信息并用作不同表示策略上限的三个预言。

(1)固定的宽高比预告片使用每帧的地面面积和中心位置,但将宽高比固定为第一帧中的一个,并生成一个与轴对齐的边界框。

(2)Minmax预言机使用旋转的地面实况边界框的最小包围矩形来生成轴对齐的边界框。

(3)最后,MBR oracle使用旋转的地面真实最小边界矩形。

注意,可以分别将(1),(2)和(3)视为SiamFC,SiamRPN和SiamMask表示策略的性能上限。

表1显示,无论使用哪种box生成策略,我们的方法都能实现最佳的mIOU(图3)。

尽管SiamMask-Opt提供了最高的IOU和mAP,但由于其缓慢的优化过程而需要大量的计算资源[54]。

SiamMask-MBR的[email protected] IOU为85.4,w.r.t分别提高了+29和+9.2点。 两个完全卷积的基线。

有趣的是,当在精度为0.7 IOU:+41.6和+18.4的高精度条件下考虑mAP时,差距显着扩大。

值得注意的是,我们的准确性结果离固定的宽高比预言不远。

此外,通过比较Oracle代表的上限性能,可以注意到通过简单地更改边界框表示,有很大的改进空间(例如,+10.6% 的mIOU提升在固定长宽比与 MBR甲骨文)。

总的来说,这项研究表明,与简单报告轴对齐边界框的流行策略相比,MBR策略如何从对象的二进制mask获得旋转边界框具有显着优势。

Results on VOT-2018 and VOT-2016.

在表2中,我们将采用MBR策略和SiamMask–Opt的SiamMask的两个变体与VOT-2018基准上最近发布的五个最新的跟踪器进行了比较。

除非另有说明,否则SiamMask指的是具有MBR策略的三分支变体。

两种变体均具有出色的性能,并且可以实时运行。

特别是,我们的三分支变体大大优于最近和性能最高的DaSiamRPN [63],在以每秒55帧的速度运行时,实现了0.380的EAO。

即使没有框回归分支,我们更简单的两分支变体(SiamMask-2B)也可以实现0.334的高EAO,这与SA Siam R [15]相当,并且优于已发表文献中的任何其他实时方法 。

最后,在SiamMask-Opt中,在[54]中提出的从二进制掩码中找到最佳旋转矩形的策略带来了最佳的整体性能(特别是非常高的精度),但计算成本却很高。

我们的模型在精度指标下特别强大,相对于基于相关滤波器的跟踪器CSRDCF [33],STRCF [29]而言,它显示出显着优势。 这并不奇怪,因为SiamMask依赖于更丰富的对象表示,如表1所示。有趣的是,与我们相似,He等人。 (SA Siam R)[15]的动机是通过考虑多个旋转和缩放后的边界框来实现更精确的目标表示。 但是,它们的表示仍然限于固定的纵横比框。

表3

表3给出了在VOT-2018和-2016上采用不同盒生成策略的SiamMask的进一步结果。 SiamMask-box表示尽管训练了mask分支,但仍采用SiamMask的box分支进行推理。 通过使用mask分支生成框,我们可以观察到所有评估指标的明显改进。

4.2. Evaluation for semisupervised VOS

我们的模型经过训练后,也可以用于VOS的任务,以实现竞争性性能,而无需在测试时进行任何调整。 重要的是,与典型的VOS方法不同,我们的方法可以在线运行,实时运行,并且只需要简单的边界框初始化即可。

Datasets and settings.

我们报告了SiamMask在DAVIS-2016, DAVIS-2017,和YouTube_VOS基准上的表现。

对于两个DAVIS的基准测试,我们使用了官方提高的测试方法:Jaccard指数(J)表示区域相似度,F量度(F)表示轮廓精度。对于任意一个属于上两种的测试方法c,三个统计量被考虑在内:平均值Cm,召回率Co和衰减Cd,这会告诉我们随着时间的推移获得的性能增益/损耗[40]。

继徐等。 [58],对于YouTube-VOS,我们报告了已看到(JS,FS)和未看到类别(JU,FU)的平均Jaccard指数和Fmeasure。 O是这四个量度的平均值。

为了初始化SiamMask,我们从第一帧中提供的蒙版中提取了与轴对齐的边界框(最小-最大策略,请参见图3)。 与大多数VOS方法类似,如果同一视频中有多个对象(DAVIS-2017),我们只需执行多个推断即可。

Results on DAVIS and YouTube-VOS.

在半监督环境下,VOS方法使用二进制掩码初始化[38],其中许多方法需要在测试时使用计算密集型技术,例如微调[35、39、1、53],数据增强[23、30], MRF / CRF [55、50、36、1]和光流[50、1、39、30、8]。 结果,VOS技术需要几分钟来处理一个短序列并不少见。 显然,这些策略使在线应用(这是我们的重点)成为不可能。 因此,在我们的比较中,我们主要集中于快速的最新方法。

table4

table5

table6

表4、5和6显示了如何将SiamMask视为在线VOS的强基准。 首先,它比诸如OnAVOS [53]或SFL [9]之类的精确方法快两个数量级。 其次,它与不采用微调的最新VOS方法相比具有竞争力,而效率却是最快的VOS方法的四倍(即OSMN [59]和RGMP [57])。 有趣的是,我们注意到SiamMask对于区域相似度(JD)和轮廓精度(FD)都实现了非常低的衰减[40]。 这表明我们的方法具有一定的鲁棒性,因此特别适用于较长的序列。

SiamMask对VOT和DAVIS序列的定性结果如图4、9和10所示。尽管速度很高,但SiamMask甚至在存在干扰物的情况下仍能产生准确的分割蒙版。

4.3. Further analysis

在本节中,我们将说明消融研究,失败案例以及我们方法的时机。

Network architecture.

在表7中,AN和RN表示我们是使用AlexNet还是ResNet-50作为共享主干$f\theta$(图2),而使用“ w/o R”则表示该方法未使用Pinheiro等人的改进策略。 根据表7的结果,可以得出几个结论。 (1)第一组行显示,通过简单地更新$f\theta$的体系结构,可以实现重要的性能改进。 但是,这是以速度为代价的,特别是对于SiamRPN。 (2)SiamMask-2B和SiamMask在其基线(具有相同$f\theta$)下的SiamFC和SiamRPN有了显着改善。 (3)有趣的是,Pinheiro等人的细化方法。 [44]对于轮廓精度FM非常重要,而对于其他指标则不那么重要。

Multi-task training.

我们进行了另外两个实验,以弄清多任务训练的效果。 结果报告在表7中。为实现此目的,我们在推理过程中修改了SiamMask的两个变体,以便分别从分数分支(SiamMask-2B分数)或框分支(SiamMask)报告轴对齐的边界框。 因此,尽管经过了训练,但在推理过程中仍未使用mask分支。 我们可以观察到这两种变体相对于它们的对等物(SiamFC和SiamRPN)如何获得适度但有意义的改进:VOT2018的两分支EAO为0.251至0.265,三分支为EAO 0.359至0.363。

Timing.

SiamMask可以在线运行,而无需适应测试顺序。 在单个NVIDIA RTX 2080 GPU上,我们针对两个分支和三个分支的型号分别测量了每秒55帧和60帧的平均速度。 注意,最大的计算负担来自特征提取器$f\theta$。

Failure cases.

最后,我们讨论了SiamMask失败的两种情况:运动模糊和“非对象”实例(图5)。 尽管本质上有所不同,但这两种情况可以说是由于训练集中完全缺乏相似的训练样本而引起的,它们集中在可以从前景中明确区分的对象上。

5. Conclusion

在本文中,我们介绍了SiamMask,这是一种简单的方法,可以使全卷积的Siamese跟踪器生成目标对象的与类无关的二进制分割掩码。 我们展示了如何将其成功应用于视觉对象跟踪和半监督视频对象分割任务,与最新的跟踪器相比,它显示出更高的准确性,同时,也是VOS方法中最快的速度。 我们提出的SiamMask的两个变体都通过一个简单的边界框进行初始化,可以在线操作,实时运行并且不需要对测试序列进行任何调整。 我们希望我们的工作能够激发进一步的研究,将视觉对象跟踪和视频对象分割这两个问题结合在一起。

Acknowledgements.

这项工作得到了ERC资助ERC-2012-AdG 321162-HELIOS,EPSRC资助Seebibyte EP / M013774 / 1和EPSRC / MURI资助EP / N019474 / 1的支持。 我们还要感谢皇家工程学院和FiveAI Ltd.的支持。王强得到了NSFC的部分支持(授权号61751212、61721004和U1636218)。

A. Architectural details

Network backbone.

table8

表8展示了我们的骨干架构的详细信息(主文件中的$f\theta$)。 对于这两种变体,我们使用ResNet-50 [18]直到第4阶段的最后卷积层。 为了在深层获得更高的空间分辨率,我们通过使用步幅为1的卷积将输出步幅减小为8。此外,我们通过使用膨胀卷积来增加接收场[6]。 具体来说,我们在conv4_1的3x3 conv层中将跨步设置为1,将扩张率设置为2。与原始的ResNet-50不同,conv4_x中没有下采样。 我们还向主干添加了一个调整层(一个具有256个输出通道的1x1卷积层)。 示例和搜索补丁共享从conv1到conv4_x的网络参数,而adjust层的参数则不共享。 然后将调整层的输出要素在深度方向上进行互相关,从而生成尺寸为17x17的要素图。

Network heads.

table9

table10

两种变体的分支的网络体系结构如表9和表10所示。两种变体中的conv5块均包含归一化层和ReLU非线性,而conv6仅由1x1卷积层组成。

Mask refinement module.

figure6

figure8

为了产生更精确的对象蒙版,我们遵循[44]的策略,该策略使用多个由上采样层和跳过连接构成的细化模块合并了低分辨率和高分辨率特征。 图6给出了精炼模块U3的示例,而图8展示了如何使用堆叠的精炼模块生成掩模。

B. Further qualitative results

Different masks at different locations.

figure7

我们的模型为每个RoW生成一个掩码。 在推论过程中,我们依靠分数分支来选择最终的输出掩码(使用获得最大分数的位置)。 图7的示例说明了由掩码分支产生的多个输出掩码,每个掩码对应于不同的RoW。

Benchmark sequences.

VOT和DAVIS序列的定性结果如图9和10所示。

文章目录