DaSiamRPN 论文阅读
论文链接:https://arxiv.org/pdf/1808.06048.pdf
Distractor aware Siamese Networks for Visual Object Tracking
干扰注意的Siamese网络为目标跟踪
1 摘要
大多数的siamese网络只能关注到前景,不关非语义的背景。
有语义的背景常常被视为干扰,这影响了Siamese网络的鲁棒性。
这篇文章我们致力于学习一个干扰注意的Siamese网络去提高准确度和长时目标跟踪。
我们观察到训练数据的不平衡,使得特征不具有较强的判别力。
在线下训练阶段,介绍了一个有效的取样策略去控制分布使模型能够关注到有语义的干扰。
在推理阶段,distractor-aware module被设计去实现增量学习,来实现从general embedding到视频领域的转移。(。。。)
另外,我们引入了一个简单有效的局部到全局的搜索区域策略来实现长时间跟踪。
然后效果很好,布拉布拉布拉,然后论文中给的那个项目也只有推理,代码还写的稀碎。。。
总结一下好像可能是三点:
1 解决训练数据不平衡的一个采样策略
2 distractor aware 模块实现增量学习
3 局部到全局的搜索区域策略实现长时间目标跟踪
介绍
提到了很多算法SINT,GOTURN,SiamFC,RASNet,CFNet,DSiam,SiamRPN。
然后说他们存在三个问题:
1 只能判别背景没有语义的时候的前景信息,当背景有语义时不行
2 不能在线更新模型,无法应对剧烈的外貌变化
3 都是局部搜索策略,不能处理全模糊和不在视野内的情况。
发现不平衡的无语义的背景和有语义的干扰是训练的主要障碍。
对比了一下SiamFC,SiamRPN,SiamRPN++,DaSiamRPN后说高质量的训练数据对于相应图的生成是十分重要的。
另外介绍了从大尺度的检查数据集中获取正样本数据,明确生成了各种各样有语义的负样本对。
为了进一步增强判别力,一个有效的数据增强方法也被发展了。
在离线训练后,代表的网络可以生成大多数的目标类别,这使得追踪通用目标成为可能。
搜索区域相似的物品使得追踪更加困难。
为了解决这个问题,周围的上下文信息和时序信息可以提供一个附加的关于目标的线索,去帮助最大化区分目标的判别能力。
设计了一个distractor-aware module
最近的算法都是为短时跟踪设计的,不行,布拉布拉
我们的DaSiamRPN的啥啥行,不啦不啦
他说他的贡献有三点:
1 对提取获得的特征进行了分析,发现不平衡的无语义的背景和有语义的干扰是阻挡训练一个好模型的最主要障碍
2 提出了一种可以抗干扰的特征提取方式DaSiamRPN
3 通过使用局部到全局的搜索策略,使得算法可以适用于长时跟踪,提升跟踪器在目标模糊和消失时的表现性能。
2 相关工作
跟踪的基础网络Siamese网络,不啦不啦
跟踪的特征,不啦不啦,深度特征好,传统的不好,不啦不啦
长时跟踪 长时跟踪算法可分为两类:
1 早期的局部关键的识别,匹配的几何方法。
2 近期的将检测器和结合短时间跟踪器结合
3 Distractor-aware Siamese Networks
3.1 传统Siamese的优缺点
优点是他们的平均精度和速度
缺点是取样本的时候,负样本太多,并且负样本取得常常没有语义,使得训练出来的Siamese网络更加会区分到底是前景还是背景,在语义信息较多的背景时,表现性能不行。
所以建议负样本引入语义信息,就是那个根据IOU来决定是否是正负样本出现了问题呗。
Siamese网络的作用不就是对比两个目标到底是不是同一个目标嘛,当初的取样方式明显就是不合理的。
3.2 Distractor-aware Training
好的训练数据非常重要,我们介绍一些策略。
不同类别的正样本对可以促进泛化能力。
提到了一些数据集Youtube-BB,ImageNet Detection,COCO Detection。
有语义的负样本可以提升辨别能力
数据增强
平移,放缩,光照变化,运动模糊
3.3 Distractor-aware Incremental Learning
SiamFC和SiamRPN使用余弦窗来抑制干扰,但是在遇到无规律的运动的时候无法保证跟踪性能。
这个潜在的缺陷是导致无法正确将通图像领域与目标领域联系在一起的主要原因。
这里提出了一个解决方法就是distractor-aware module
为了充分利用标签信息,我们将目标环境中的难的阴性样本(干扰因素)整合到了相似性指标中。 在DaSiamRPN中,采用非最大抑制(NMS)来选择每个帧中的潜在干扰物di,然后我们收集一个干扰物集$D:={\forall d_i \in D, f(z, d_i)> h \cap d_i \neq z_t}$, h 表示一个阈值, $z_t$表示在第t帧选择的目标。
意思就是说,一个干扰物应该与目标有着较高的相似度,但是又不是目标。
例如每一帧我们得到17 * 17 * 5个提议,然后我们使用NMS减少多余的候选区域。选出分数最高的那个提议作为目标$z_t$.
对于剩下的提议,score高于那个h阈值的,被当作干扰物。
我们介绍一个新颖的干扰避免的目标函数去给这些top_k个提议区域重排等级,最终的目标选择为:
$$ q = arg\max_{p_k\in P}f(z, p_k)-\frac{\hat\alpha\sum_{i=1}^n\alpha_i f(d_i,p_k)}{\sum_{i=1}^n\alpha_i} $$
$\hat \alpha$代表了干扰物对学习的影响
$\alpha_i$代表了$d_i$这个干扰物的学习权重
这种可识别干扰物的跟踪器可以将现有的相似性度量(常规)调整为新域(特定值)的相似性度量。 可以将权重因子$\alpha_i$视为具有稀疏标准化的对偶变量,并且可以将样本和干扰项视为相关滤波器中的正样本和负样本。 实际上,在线分类器是在我们的框架中建模的。 因此,期望采用的分类器比仅使用一般相似性度量的分类器表现更好。
3.4 DaSiamRPN for Long-term Tracking
当目标消失的时候就无法跟踪了,我们提出了一个简单有效的在短时跟踪和失败状态直接切换的方法。
在失败状态下用一种反复从局部到全局的搜索方法被设计去重新检测到目标。
为了实现转换,我们需要识别到跟踪的丢失的开始到结束。
由于抗干扰的跟踪器被训练,所以可以打出很高质量的分数。
从这个分数可以看出跟踪的状态是正常跟踪还是跟踪丢失。
在跟踪丢失阶段,我们会逐步使用从局部到全局的增大搜索区域的策略。
搜索区域的大小增加是以恒定步长增加的。
当使用从局部到全局的搜索策略找到目标后,又恢复到普通的跟踪状态。
4 实验
4.1 实验细节
首先用ImageNet训练了AlexNet。然后固定前三层,只训练后两层。在50轮的训练中学习率从1e-2降到了1e-4。
从VID数据集和Youtube-BB中选择了图像对不超过100帧的数据。
对于从ImageNet Detection和COCO Detection数据集中选择的数据使用了图像增强。
25%的图像进行了灰度处理。
平移在12个像素。
resize在0.85到1.15
在干扰数据中使用的$\alpha$因子是设置为0.5
$$ \beta_t = \sum_{i=0}^{t=1}{(\frac{\eta}{1-\eta})}^i $$
$$ \eta = 0.01 $$
在长时跟踪中局部到全局的迭代只用一步是可以的。
正常搜索大小是255,失败的搜索大小是767
正常到失败和失败到正常的iou阈值分布是0.8和0.95