图像特征提取与特征选择基本方法总结

本文链接：https://blog.csdn.net/zx799959906/article/details/39369543

图像特征的提取和选择是图像处理过程中很重要的环节，对后续图像分类有着重要的影响，并且对于图像数据具有样本少，维数高的特点，要从图像中提取有用的信息，必须对图像特征进行降维处理，特征提取与特征选择就是最有效的降维方法，其目的是得到一个反映数据本质结构、识别率更高的特征子空间。

一.原始特征提取

1.图像的基本特征

颜色特征

形状特征

纹理特征

空间关系特征

2.基于颜色特征的提取方法

颜色直方图

颜色集，是对颜色直方图的一种近似，其将图像表达为一个二进制的颜色索引集

颜色矩，其将图像中任何的颜色分布用它的矩来表示

颜色聚合向量

颜色相关图

颜色特征是一种全局特征，描述了图像或图像区域所对应的景物的表面性质。由于颜色对图像或图像区域的方向、大小等变化不敏感，所以颜色特征不能很好的捕捉图像中对象的局部特征。另外，仅使用颜色特征查询时，如果数据库很大，常会将许多不需要的图像也检索出来。颜色直方图是最常用的表达颜色特征的方法，其优点是不受图像旋转和平移变化的影响，进一步借助归一化还可不受图像尺度变化的影响，基缺点是没有表达出颜色空间分布的信息。

3.基于纹理特征的提取方法

基于统计的灰度共生矩阵和能量谱函数法

几何法，例如基于图像基元的结构化方法

模型法，以图像的构造模型为基础，采用模型参数作为纹理特征，典型的方法有随机场模型法

信号处理法，例如，小波变换

纹理特征也是一种全局特征，它也描述了图像或图像区域所对应景物的表面性质。作为一种统计特征，纹理特征常具有旋转不变性，并且对于噪声有较强的抵抗能力。但纹理只是一种物体表面的特性，无法完全反映出物体的本质属性，所以仅利用纹理特征无法获得高层次图像内容，且纹理特征还有一个很明显的缺点是当图像的分辨率变化的时候，所计算出来的纹理可能会有较大偏差。

4.基于形状特征的提取方法

基于边界的，例如Hough变换，傅里叶变换等

基于区域的，例如矩不变量，几何矩特征，转动惯量等

其他方法，例如有限元法，旋转函数和小波描述符等

基于形状特征的检索方法都可以比较有效地利用图像中感兴趣的目标来进行检索，但也存在一些问题，例如当目标有变形时检索结果就不太可靠，且许多形状特征仅描述了目标的局部特征，对全面描述目标有较高的时间和空间要求等。

5.基于空间关系的特征提取方法

空间关系，是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系，这些关系可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等。提取图像空间关系特征可以有两种方法：一种方法是首先对图像进行自动分割，划分出图像中所包含的对象或颜色区域，然后根据这些区域提取图像特征，并建立索引；另一种方法则简单地将图像均匀地划分为若干规则子块，然后对每个图像子块提取特征，并建立索引。

空间关系特征的使用可加强对图像内容的描述区分能力，但空间关系特征常对图像或目标的旋转、反转、尺度变化等比较敏感。另外，实际应用中，仅仅利用空间信息往往是不够的，不能有效准确地表达场景信息。

6.小结

上述特征提取方法是图像特征的初步获取，其各有利弊。针对不同的实际问题，可选择适当的图像特征提取方法。但有时仅用单一的特征来进行图像检索或匹配，其结果准确度不高，为了提高准确度，有人提出了多特征融合的图像检索或匹配技术。

二.特征提取

对于初步获取的图像特征，可能维数依然很大，且可能包含一定的无关或冗余特征。这里的特征提取是指从初步获取的原始特征中通过一定的数学运算得到一组新的特征也称作特征变换，其可以有效的降低特征空间维数和消除特征之间可能存在的相关性，减少特征中的无用信息。

1.特征提取的基本方法

线性方法，如主成分分析法（PCA），线性判别分析法（LDA），多维尺度法（MDS）

非线性方法，如核方法（KPCA，KDA），流型学习

2.主成分分析法

PCA方法是从一组特征中通过求解最优的正交变换，得到一组相互间方差最大的新特征，它们是原始特征的线性组合，且相互之间是不相关的，再对新特征进行重要性排序，选取前几个主成分。用较少的主成分来表示数据，可以实现特征的降维，还可以消除数据中的噪声。该算法不考虑样本的类别信息，是一种无监督的方法。

3.线性判别方法

该方法基本思想是将高维的数据样本投影到最佳判别的矢量空间，以达到提取分类信息和压缩特征空间维数的效果，投影后保证数据样本在新的子空间类间距离最大和类内距离最小，即样本数据在该空间中有最佳的可分离性。Fisher线性判别分析是最具有代表性的LDA 法。

4.多维尺度法

MDS是一种很经典的数据映射方法，其根据样本之间的距离关系或不相似度关系在低维空间里生成对样本的一种表示。MDS分为度量型和非度量型两种，度量型MDS把样本间的距离关系或不相似度关系看作一种定量的度量，尽可能的在低维空间里保持这种度量关系；非度量型MDS把样本间的距离关系或不相似度关系看作一种定性的关系，在低维空间里只需保持这种关系的顺序。

5.核主成分分析法

该方法对样本进行非线性变换，通过在变换空间进行主成分分析来实现在原空间的非线性主成分分析。根据可再生希尔伯特空间的性质，在变换空间中的协方差矩阵可以通过原空间中的核函数进行运算，从而绕过复杂的非线性变换。核方法对于不同的问题选择合适的核函数类型，不同的核函数类型反映了对数据分布的不同假设，也可以看作是对数据引入了一种非线性距离度量。

6.基于流型学习的方法

其基本思想是通过局部距离来定义非线性距离度量，在样本分布较密集的情况下可以实现各种复杂的非线性距离度量。具体方法有：

等容特征映射（IsoMap）--欧氏距离累加

局部线性嵌入（LLE）--近邻样本线性重构

拉普拉斯特征映射（LE）--邻域选取和样本间相似度表达

其他改进算法

三.特征选择

特征选择也是降低特征空间维数的一种基本方法，它是用计算的方法从一组给定的特征中选出能够有效识别目标的最小特征子集。与特征提取最本质的区别就是特征提取主要是从原特征空间到新特征空间的一种变换，特征提取到的子特征会失去对类别原有主观意义的具体解释，而特征选择可以保持对这中具体意义的解释。

1.特征选择的基本步骤

候选特征子集的生成（搜索策略）

子集评价（评价准则）

停止准则

结果验证

2.特征选择方法分类

根据搜索策略和评价准则的不同，可对特征选择方法进行如下分类：

按搜索策略分：

基于全局寻优的分支定界法

该方法是一种从包含所有候选特征开始，逐步去掉不被选中的特征的自顶向下的方法，具有回溯的过程，能够考虑到所有可能的组合。

其基本思想是：设法将所有可能的特征组合构建成一个树状结构，按照特定的规律对树进行搜索，使得搜索过程尽可能早的达到最优解而不必遍历整棵树。

要做到这一点必须要求准则判据对特征具有单调性，且当处理高维数据时，算法复杂度较高，所以很难广泛使用。

基于启发式搜索的方法

很多情况下，即使采取分支定界法，全局寻优的方法计算量可能仍然很大，因此提出了一些基于启发式搜索的次优选择算法：单独最优特征组合，序列前向选择（SFS）及广义的SFS（GSFS），序列后向选择(SBS)及广义的SBS(GSFS)，增l去r选择及广义的增l去r选择方法，浮动搜索方法及浮动的广义后向选择方法(FGSBS)等。

随机搜索方法

该类方法在计算中将特征选择问题与遗传算法、模拟退火算法、粒子群优化算法，随机森林或一个随机重采样过程结合起来，以概率推理和采样过程作为算法基础，基于分类估计的有效性，在算法运行过程中对每个特征赋予一定的权重，再根据给定的或自适应的阈值对特征的重要性进行评价。例如，Relief及其扩展算法就是一种典型的根据权重选择特征的随机搜索方法，它能有效的去掉无关特征，但不能去除冗余特征，且只能用于两类分类问题。

按评价准则分：

特征选择方法依据是否独立于后续的学习算法可分为过滤式（Filter）和封装式（Wrapper）和嵌入式（Embedded）三种。Filter方式独立于学习算法，直接利用训练数据的统计特性来评估特征。Wrapper方式利用学习算法的训练准确率来评价特征子集。Embedded方式结合了Filter和Wrapper方式。

Filter方式

Filter式的特征选择方法一般使用评价准则来使特征与类别间的相关性最大，特征间的相关性最小。该方式可以很快的排除掉很多不相关的噪声特征，缩小优化特征子集搜索的规模，计算效率高，通用性好，可用作特征的预筛选器。但当特征和分类器息息相关时，该方法不能保证选择出一个优化特征子集，即使能找到一个满足条件的优化子集，其计算规模也比较大。根据评价函数可分为四类：

a.基于距离度量的

常用的距离度量有：欧氏距离，Minkowski距离，Chebychev距离和平方距离等。

Relief及其扩展算法ReliefF和RRelidfF，分支定界法和BFF算法都是基于距离度量的特征选择算法。

b.基于信息度量的

常用信息度量：信息增益与互信息，信息增益：可以有效的选出关键特征，剔除无关特征；互信息：描述两个随机变量之间相互依存关系的强弱，常见算法如下：

基于互信息的MIFS算法

基于最小冗余最大相关（mRMR）的方法

基于互信息的快速滤波算法FCBF

基于条件互信息的CMIM算法

基于动态互信息的特征选择算法

由于信息熵理论不要求假定数据分布是已知的能够以量化的形式度量特征间的不确定程度，且能有效地度量特征间的非线性关系，基于信息度量的特征选择算法成为近年来研究的热点，提出了许多基于信息理论的改进算法。

c.基于依赖性度量的

该方法利用一些统计相关系数，如Pearson相关系数，Fisher得分，方差得分，t检验，秩和检验或Hilbert-Schmidt依赖性准则等来度量特征相对于类别可分离性间的重要性程度。有人提出了一种基于稀疏表示的特征选择方法，且在人脸图像聚类实验中取得了较好的结果。

d.基于一致性度量的

该方法其思想是寻找全集有相同区分能力的最小子集，尽可能保留原始特征的辨识能力。它具有单调、快速、去除冗余和不相关特征、处理噪声等优点，但其对噪声数据敏感，且只适合处理离散特征。

典型的算法有Focus，LVF等。

Wrapper方式

Wrapper方式依据选择子集最终被用于构造分类模型，把特征选择算法作为学习算法的一个组成部分，直接使用训练结果的准确率作为特征重要性程度的评价标准。该方法在速度上要比Filter方式慢，但它所选的优化特征子集规模相对要小的多，非常有利于关键特征的辨识；同时其准确率比较高，但泛化能力较差，时间复杂度较高。

目前，关于Wrapper方式的研究也比较多，例如：

Hsu等人用决策树来进行特征选择，采用遗传算法来寻找使得决策树分类错误率最小的一组特征子集

Chiang等人将Fisher判别分析与遗传算法结合，用于化工故障过程中辨识关键变量，其效果也不错。

Guyon等人利用支持向量机的分类性能衡量特征的重要性，最终构造了一个分类性能较高的分类器。

Krzysztof提出了一种基于相互关系的双重策略的Wrapper特征选择方法FFSR(fast feature subset ranking)，以特征子集作为评价单位，以子集收敛能力作为评价标准

戴平等人提出了一种基于SVM的快速特征选择方法

Embedded方式

针对Filter和Wrapper方式的利弊，提出了Embedded方式的特征选择方法，该方式先用filter方法初步去掉无关或噪声特征，只保留少量特征，减少后续搜索规模，然后再用Wrapper方法进一步优化，选择分类准确率最高的特征子集。例如，Li G-Z等人先使用互信息度量标准和随机重采样技术获取前k个重要特征，再使用SVM构造分类器。

四.总结

从图像中提取特征，首先根据具体的问题，判断选取的图像特征，如颜色或纹理。针对不同的特征选择具体的提取方法，如常用的基于颜色特征的颜色直方图或基于纹理的灰度共生矩阵和小波变换等。这是第一步对图像原始特征的提取。由于原始特征可能维数很高，或包含大量的冗余特征和无关特征，会使后续算法的计算复杂度变得很高，所以进一步进行特征提取和特征选择，抽取样本最相关特征，降低数据维数和消除不相关特征和冗余特征。

统计意义上的特征提取是由获取到的原始特征经过线性或非线性变换得到较少数量且更具有的表达能力的新特征。常用的线性变换有PCA、LDA、MDS，非线性变换有KPCA、流型学习等。有时基本的特征提取方法由于自身的局限性或不能满足在某些具体问题中的要求，就需要对这些方法进行改进。例如，PCA不考虑样本类别，因此得到的低维空间相对判别分类而言不是最优的；在样本类内分布为高斯分布且协方差相同时，LDA可以得到最优线性判别分析转换矩阵，但现实世界中类内分布的复杂度远远超出了高斯分布；MDS方法中目标函数的定义及对该目标函数最小化选择适合的优化方法；KPCA方法中核函数的选择与核函数的参数设定等，都需要根据具体的情况选择与设定；关于流型学习中的各种方法，在样本分布较稀疏时，对近邻样本间距离的度量可能会有较大的偏差。

特征提取技术很难解释新特征与样本类别之间的相互关系，但在某些领域内对这种相互关系的理解却很重要，所以，在这种情况下，特征选择就更加有效。特征选择是指从原始特征中选择最少的特征，使所选特征与类别之间具有最大相关度，特征与特征之间具有最小相关度。根据评价标准是否依赖于具体的学习算法，特征选择算法分为Filter，Wrapper，Embedded三种方式。Filter方式依据数据内在的结构特征选择最相关的特征，该方式主要是选取对样本距离及相关性的度量准则。直接依赖学习算法准确率的Wrapper方式，主要是对学习算法的选择，通常选择SVM作为评估标准。Embeded方式将特征选择视为学习算法的子系统，该算法计算复杂度介于Wrapper和Filter方式之间，选择的特征比Filter方式更准确，但需要与新设计的算法相结合。

最后，获取特征子集的选择策略，在高维样本空间对所有候选子集进行评估测试是不实际的。最优特征选择算法-分支界定法不仅对准则判据有要求，且计算量还是很大，所以又提出了基于启发式的次优选择算法，还可以利用一些群智能的随机搜索算法，例如GA、PSO、SAA，可以更好的提高搜索效率。

图像特征提取与特征选择基本方法总结

推荐阅读更多精彩内容