如今,当讨论到物体检测时,通常理解的是“区域提议+物体识别”这个组合,零几年的时候出现了类似滑动窗口+HOG+SVM这种检测行人的方案,即做了特征提取后使用分类器将该特征进行分类,这就是传统物体检测的思路。后面深度学习也是这种思路,只是使用了深度神经网络代替传统方法实现了特征提取与分类。
但是,在这种特征提取+分类的思路出现前莫非就不能做物体的识别和检测了?比如:下文提到的模板匹配的方法,模板匹配的关键是有一个或一组事先已经生成的模板。匹配模板图像与目标图像的特征点实现物体检测。特征的也有颜色、纹理、形状等多种定义。比如《基于 Kinect 的物体分割与识别算法研究,D》中介绍了统计模板图像的颜色HSV空间分布直方图,H分为8个Bin,S和V各分为3个,由此形成72维特征向量的模板,在目标图像内先使用分割算法进行区域提议,然后将得到的区域进行颜色特征提取并于模板匹配。
所以,应该宽泛的理解“物体检测”,不是只有“特征提取+分类”这种思路,在很多简单的应用场景下可以使用比较简单的方法达到物体检测的目的。(比如之前识别可乐拉罐直接简单的识别红色色块,这不也是达到了物体检测的目的?)
此处还是记录基于“特征提取+分类”这种通常意义中的物体识别。传统方法做“区域提议”思路也比较多、杂,比如:使用各种方法分割出固定区域、一些颜色聚类方法等,当然最简单还是滑动窗口,区域提议的方法不展开说,主要还是focus在“特征提取+分类”上,所以这篇文章本质上应该叫做传统物体识别。