想法

我认为目标跟踪需要网络对所跟踪的对象有一个物体概念的认识。

我们在追踪一个物体时,如果遇到遮挡,我们会根据我们之前对目标形象的认知,来试图寻找目标的某一部分,如果寻找不到,我们会等待目标出现,根据之前的认知,重新定位目标。

我去跟踪时,我会记住目标的大小,颜色,形状,判断物体的质地,柔软程度,

大小

当对大小有一个认知时,我们不会将相同类型但大小不同的物品认错。 比如一直小鲨鱼和一群大鲨鱼,大家都特征都一模一样,但是大小不同。 面对同类型混淆时很有用。

同类型混淆时,对象的细节特征显得十分关键,此时需要一些逻辑判断机制,放慢处理速度,去提取细节特征。

这个我们暂时不考虑。

颜色

对于颜色,我认为十分关键。

对于一般生活应用中的目标跟踪,我认为不需要机器具有处理强烈光照变化的能力。这是样的使用是反人类的。

对于特定这样的追踪场景,应该特殊训练。

我们的设计目标应该是一个大多数常见情况下通用的模型。

所以颜色这一因素我认为应当在网络的传播的过程中提取到相关信息。

例如我自己,在追踪某个对象时,首先判断他的颜色是否与背景有较大区别,如果有,那么我仅仅通过分辨颜色,就可以取得很好的追踪效果。

所以不妨做一个颜色的相关滤波,一个形状的相关滤波,二者结合,而不是使用一些其他混合的特征,如HOG,灰度等等。

形状

对于形状就是说这个物体的长宽高比例,是个长条?还是个胖子桶?有圆形的边缘,还是三角状带刺的边缘,就是对于目标外观的一个认知。

质地

物品的质地决定了物品可能的形变程度。当我们追踪的物品发生形变时,这个质地可以帮助我们决定是物品发生了遮挡?还是物品发成了形变,如果是发生形变,那么我们应该以多大的学习速度来修正我们对于目标的认知。

以上4点才是目标追踪真正应该考虑的,而处理速度是算法优化的问题。 关照变化,视频模糊,相机抖动等特定的问题应该有对应的细节处理。

可将RGB转为YIQ,这样可以实现颜色判断

由于网络中大量使用了Batchnorm这种操作,我认为最终提取出来的特征图像只能得到颜色变化的幅度,而不能体现出原来是什么颜色,为此,我们可以对模板区域和搜索区域提取特征颜色,可以使用hanning窗进行加权求和,得到平均的IQ值,忽略亮度变化的同时由可以允许颜色在一定范围内发生漂移。 在最终的loss中加入此项,应该有助于使用颜色来加强对目标位置的判断。

类比5种anchor,我们可以设计5种运动预测函数

文章目录