HOG特征,即方向梯度直方图(Histogram of Oriented Gradient, HOG),是计算机视觉领域中用于目标检测的一种特征描述子。其通过计算图像部分区域的梯度信息,并进行统计梯度信息的直方图来构成特征向量。通常地,将HOG所提取到的特征向量喂入预训练好的SVM分类器,可实现图像识别的功能。HOG+SVM的思路在2005年CVPR上提出,在行人识别检测上表现出了很好的效果。
HOG特征核心思想
(1)基于梯度:HOG特征用于目标检测,为了找到局部目标,寻找其轮廓是可行且必要的方法。一般来说,在物体的边缘部分才有比较明显的梯度(背景或物体内部色彩变化不明显,因此梯度也不明显),所以物体的表象与形状可以较好的被梯度描述。
(2)特征描述子:特征描述子是一种图像特征的表示。在HOG里面,它可以将原来尺寸大小为w*h的图像转化成为一个长度为n的向量,以此来保留原始图像中重要的信息(梯度),并且过滤掉一些不相关的信息(如背景)。例如在OpenCV的API中,一副64*128大小的图像,经过转化后变成一个长度为3780的向量(下文会有详细分析)
(3)划分区域cell:将一副图像划分成若干个连通的小区域(一般为正方形),这些小区域成为细胞单元(cell)。一个cell中包含若干个像素点,如8*8。计算这个cell中每个像素点所对应的梯度,并构成方向梯度直方图,将每一个cell得到的直方图结合起来,即可得到特征描述器。
(4)更大的区域block:为了消除光照和阴影对于图像的影响,需要在更大的区域内,对这些cell对应的直方图进行对比度归一化。
实现步骤
(1)图像灰度化:若输入的图像是RGB三通道的图像,则首先需要将其转化为灰度图。
(2)Gamma矫正法:利用Gamma变换对(1)中得到的灰度图像进行标准化,以减少光照因素的影响。Gamma变换的公式如下:
此处可以取0.5等数值
(3)计算每一个像素的梯度(梯度大小及方向)
通常利用算子与原图像进行卷积,得到每个像素在水平方向的梯度;同时利用算子与原图像卷积,得到每个像素在竖直方向的梯度。利用两个方向的梯度的合成,得到总的梯度大小与方向,其计算公式如下:
其中,表示原图像在水平和竖直方向上的梯度,代表数字图像的像素值,则对于点(x,y)来说,它的梯度计算公式如下:
其中表示梯度大小,表示梯度的方向。
通过梯度的计算,我们不仅仅能够对于物体的边缘轮廓,纹理等特征进行捕捉,同时可以进一步减轻光照的影响。
(4)为每个cell构建梯度直方图
细胞单元中的每一个像素点,都为某个基于方向的直方图通道投票。
假设一个cell中包含8*8个像素,则根据(3)中这64个像素值对应的梯度构建直方图:
一般地,我们把直方图划分为9项(0-8),称之为9个bin,对应了9个梯度的方向区间。在每个像素的梯度中,梯度方向的取值为。对于0-180度的梯度来说,将180度平分为9个区域(bin),即每个bin对应20度。因此,如果在这个cell中,有一个像素的梯度在20-40度之间,则直方图上对应标号为1的bin被投票,其数目就+1(先这么认为);同样的,如果有一个像素值在100-120度之间,则直方图上标号为5的bin的数值+1。
那么梯度的方向用到了,梯度的大小怎么使用呢?其实我们发现,在找到梯度所对应的bin标号之后,加的这个数应该与梯度的的大小相关(不是简单的+1)。例如有个像素梯度方向为45度,大小为3。那么,应该在标号2上面+3。(也有说法是45度与40度相差5度,与60度相差15度,因此按照1:3的比例将梯度大小3加到对应的bin上面,感觉大同小异)
类似的,对于梯度方向为-180-0的部分,先将其+180度以后,与正梯度方向同样计算。
总结一下,就是对于每个8*8的cell,通过每个像素的梯度方向及大小进行直方图的构建。梯度方向决定了该像素为哪一个bin投票,而梯度的大小代表着投票权重的大小。
(5)将cell组合成更大的块(block),进行块内归一化:
为了进一步减轻光照对于梯度特征的影响,应当进行块内归一化操作。
我们之前设定的cell的大小为8*8,在这里,假设一个block的大小为16*16。因此一个block包含2*2个cell。一个cell对应的特征是9维的,因此将一个块中的4个cell所对应的直方图串联起来,得到一个block对应的特征是36维。此时对于梯度强度做归一化处理,得到的向量成为HOG描述符。
(6)关于HOG特征向量的维度
对于一个128*64大小的图像,假设cell的大小为8*8,block的大小为16*16,梯度被平均分为9个bin,窗口每次滑动的步长为8个像素值。那么横向滑动中,总共有 1+(64-16)/8 = 7 个窗口;在纵向滑动中,总共有 1+(128-16)/8 = 15 个窗口。对于每个cell,其特征向量对应9维;而对于每个cell,其HOG特征对应9*4=36维;对于要检测的整张图像来说,其HOG特征的维度为36*7*15 = 3780
(7)通过以上六步的变换,我们从一张128*64*3(3表示channel)的图像中,提取到了一个3780维的向量。随后将该向量投入到与训练好的分类起(如SVM)中,就可以目标检测了。
总结
本文简单介绍了HOG特征的基本原理。目前还处于学习阶段,如有不当的地方,欢迎一起讨论交流~
参考网站: