目标检测

在这里插入图片描述

ILSVRC竞赛

在这里插入图片描述

区域卷积网络R-CNN系列

在这里插入图片描述

两个步骤：1）提取物体区域；2）对区域进行分类识别；
本章所有模型都基于这个思想。但是YOLO不是。

R-CNN

在这里插入图片描述
找到2000个可能出现物体的区域，然后对所有区域进行warped region标准化，变成正方形。第3步就是CNN卷积神经网络，提取特征。第4步是放入SVM进行分类+回归Bounding box regression。

如黄色小猫咪，通过无数个红色小方框，不断地将相似度高的框进行合并，最终形成的绿色框，就是需要进行识别的区域。
selective search只是将有物体的区域找出来，没有任何语义信息。
在这里插入图片描述

ground-truth 真实的，专家标注的。负样本就是没有被框住的。

数据量少时，只训练绿色层就可以了，数据量大，绿色层和上面的3层橘色的一起训练。

每一个类别，有一个自己的SVM。

P的IoU>0.6的意思是：只有P和G差不多，才做校正。差很多的都不考虑了。
在这里插入图片描述

PR曲线随着阈值的改变，曲线也会改变。因为它是Precision和Recall组成的。mAP是因为我们有20个类别，我们要把这20个AP加起来再取平均值，才是mAP。

SPP-NET

在这里插入图片描述

Fast R-CNN

在这里插入图片描述

smooth做x的判断，x>1的话，可能是异常值，所以这个时候就不用平方了，直接绝对值减去0.5.

Faster R-CNN

RON(Region Proposal Network)区域建议网络取代SS。其他部分和Fast R-CNN一样。提供的建议区域变少了，300张。框的也更准了。它是训练出来的。
在这里插入图片描述

注意那里是Conv5的feature map。不是原始图片。

在这些anchor box的基础上，做RON。