Paper Reading - 综述系列 - 计算机视觉领域中目标检测任务常见问题与解决方案-天翼云开发者社区

小目标检测

数据方面

将图像resize成不同的大小

对小目标进行数据增强，过采样策略oversampling，重复正样本数

在图片内用实例分割的Mask抠出小目标图片再使用paste等方法

常见的几种数据增强方法如下

cutout：将图片区域随机扣除

cutmix：将cutout扣除后的区域用同一batch中样本进行填充

mixup：随机将两张图片进行融合

mosaic：在将四张样本图片拼接起来，模型在一个batch中看到了4倍更多的信息

分割中常用的8倍+1的输入大小，513 (PASCAL VOC) 或者 769 (Cityscapes)

align_corners=False默认

align_corners =True 分割中常用

Label Smoothing

Label Smoothing Regularization(LSR)，即标签平滑正则化。主要也可以在模型蒸馏里进行soft label学习而不是one hot。

onehot：便于生成、但类别间无关，对错误标签很敏感，易高置信度过拟合

soft label：能够赋予不同类别间的一定相关性。本质上LSR可以降低模型的置信度，抑制正负样本输出差值，防止模型过拟合，从而提高其健壮性和性能

模型方面

提高细节信息，增加空洞卷积，将下采样从32倍改为8倍

传统的分类网络为了减少计算量，都使用到了下采样，而下采样过多，会导致小目标的信息在最后的特征图上只有几个像素（甚至更少），信息损失较多

下采样扩张的感受野比较利于大目标检测，而对于小目标，感受野可能会大于小目标本身，导致效果较差

空洞卷积可以很好的扩大卷积核的感受野，可以很好的保留图像的空间特征,也不会损失图像信息，适用于小目标检测（不过对于像素级任务空洞卷积会导致像素连续信息丢失）

2. 特征金字塔网络FPN

FPN论文链接

保持高分辨率浅层特征图感受野小适合小目标检测，细节信息更加丰富。深层特征图感受野大适合大目标检测，语义信息更丰富

3. Scale Normalization for Image Pyramids

在训练时，每次回传那些大小在预先指定范围内的proposal的gradient，而忽略掉过大或者过小的proposal；在测试时，建立大小不同的Image Pyramid，同样只保留那些大小在指定范围内的输出结果

4. 更多更稠密的Anchor

5. GAN方法

使用GAN对小目标生成一个和大目标很相似的Super-resolved Feature，然后把这个Super-resolved Feature叠加在原来的小目标的特征图上，以此增强对小目标特征表达来提升小目标的检测性能

6. 利用Context信息

检测人脸时，图片中不会仅仅只有一张脸，会有其他部位

7. loss上增加小目标的权重

样本不均衡

子韵如初：Paper Reading - 综述系列 - 语义分割中正负样本不均衡问题

Paper Reading - Loss系列 - OHEM Training Region-based Object Detectors with Online Hard Example Mining - 知乎

目标遮挡

Repulsion Loss: Detecting Pedestrians in a Crowd

行人之间互相遮挡，导致传统的检测器容易受遮挡的干扰。提出了Repulsion Loss来尽可能让预测框贴近真实框的同时，又能与同类排斥

假设我们目标行人是左一，但是他被左二被遮挡了。那么左二的GT会导致模型的预测框去往左二移动shift

其次，NMS操作是为了抑制去除掉多余的框。左一的预测框因为距离左二太近，会被左二的预测框给抑制，导致出现漏检。导致任务对NMS阈值有很强的的敏感性，阈值太低了会带来漏检，阈值太高了会标出错误的目标

现有的方法仅仅要求预测框尽可能靠近目标框，而没有考虑周围附近的物体。因此提出Repulsion Loss，该损失函数在要求预测框Pred靠近目标框Target(吸引)的同时，也要求预测框Pred远离其他不属于目标Target的真实框(排斥)该损失函数很好的提升了行人检测模型的性能，并且降低了NMS对阈值的敏感性

人体姿态识别中，如图，应该怎么样区分那条腿属于哪个人的呢。可通过人体部位距离进行判定

————————————————

原文链接：https://blog.csdn.net/weixin_43953700/article/details/124583254

小目标检测

数据方面

将图像resize成不同的大小

对小目标进行数据增强，过采样策略oversampling，重复正样本数

在图片内用实例分割的Mask抠出小目标图片再使用paste等方法

常见的几种数据增强方法如下

cutout：将图片区域随机扣除

cutmix：将cutout扣除后的区域用同一batch中样本进行填充

mixup：随机将两张图片进行融合

mosaic：在将四张样本图片拼接起来，模型在一个batch中看到了4倍更多的信息

分割中常用的8倍+1的输入大小，513 (PASCAL VOC) 或者 769 (Cityscapes)

align_corners=False默认

align_corners =True 分割中常用

Label Smoothing

Label Smoothing Regularization(LSR)，即标签平滑正则化。主要也可以在模型蒸馏里进行soft label学习而不是one hot。

onehot：便于生成、但类别间无关，对错误标签很敏感，易高置信度过拟合

soft label：能够赋予不同类别间的一定相关性。本质上LSR可以降低模型的置信度，抑制正负样本输出差值，防止模型过拟合，从而提高其健壮性和性能

模型方面

提高细节信息，增加空洞卷积，将下采样从32倍改为8倍

下采样扩张的感受野比较利于大目标检测，而对于小目标，感受野可能会大于小目标本身，导致效果较差

2. 特征金字塔网络FPN

FPN论文链接

保持高分辨率浅层特征图感受野小适合小目标检测，细节信息更加丰富。深层特征图感受野大适合大目标检测，语义信息更丰富

3. Scale Normalization for Image Pyramids

4. 更多更稠密的Anchor

5. GAN方法

6. 利用Context信息

检测人脸时，图片中不会仅仅只有一张脸，会有其他部位

7. loss上增加小目标的权重

样本不均衡

子韵如初：Paper Reading - 综述系列 - 语义分割中正负样本不均衡问题

Paper Reading - Loss系列 - OHEM Training Region-based Object Detectors with Online Hard Example Mining - 知乎

目标遮挡

Repulsion Loss: Detecting Pedestrians in a Crowd

行人之间互相遮挡，导致传统的检测器容易受遮挡的干扰。提出了Repulsion Loss来尽可能让预测框贴近真实框的同时，又能与同类排斥

假设我们目标行人是左一，但是他被左二被遮挡了。那么左二的GT会导致模型的预测框去往左二移动shift

人体姿态识别中，如图，应该怎么样区分那条腿属于哪个人的呢。可通过人体部位距离进行判定

————————————————

原文链接：https://blog.csdn.net/weixin_43953700/article/details/124583254

智算服务

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

Paper Reading - 综述系列 - 计算机视觉领域中目标检测任务常见问题与解决方案

Paper Reading - 综述系列 - 计算机视觉领域中目标检测任务常见问题与解决方案

活动

智算服务

应用商城

定价

合作伙伴

开发者

支持与服务

了解天翼云

Paper Reading - 综述系列 - 计算机视觉领域中目标检测任务常见问题与解决方案

Paper Reading - 综述系列 - 计算机视觉领域中目标检测任务常见问题与解决方案