文章来源:Acm Transactions on Graphics 2012
下载链接:原文下载,MATLAB代码下载
解决的问题:
在这篇论文中,作者提出了一种基于总变差形式的新模型,该模型可以有效的分解图像中的结构信息和纹理,并且无需特别指定纹理是否规则或者对称。
文章内容:
目前,很多自然场景和人工艺术品都包含纹理。比如,墙上,火车和地铁表面上的涂鸦和图案。图1展示了一些代表不同形式场景的实例。它们都有一个共同的特征:图像中有意义的结构和纹理单元融合在一起。所以我们通常称这类图像为“结构+纹理”图像。
在不去除纹理的前提下,人类的视觉感知系统完全有能力理解这些图像,然而让计算机识别该类图像还存在一定的困难。从心里学角度分析,图像的整体结构才是人类视觉感知的主要数据,而不是那些个体细节(纹理)。因此从图像中提取那些有意义的结构数据是一项具有意义的工作,同时对于计算机来说也是一件非常具有挑战性的任务。
针对于此,作者提出了基于总变差形式的新模型。该方法具有一般性和随意性,它适用于非统一的或各向异性的纹理。
该文章主要有两点创新:
(1) 首先作者提出了新的总变差措施来捕捉图像的结构和纹理特征。该方法使纹理和主要结构表现出完全不同的性质,使它们更容易地分解。
原总变差模型为:
其中,I代表输入图像,p代表2D图像像素的索引,S代表输出结构图像。其中可以写成如下各向异性的形式:
改进的模型为:
其中,
q为以p点为中心的一个正方形区域内所有的像素点的索引,gp,q是根据空间亲和力定义的加权函数,其表达式为:
(2) 作者提出了一种新的优化方案,将原始非线性问题转化为更容易解决的一组子问题。
将RTV(Relative Total Variation)分解为非线性项和二次项,优点在于非线性问题可以转换为求解一系列线性方程组,在某种程度上类似于迭代最小二乘法。首先介绍怎么样求解公式(3): 主要讨论X方向,Y方向的计算类似。
由于引入了小εs,上述公式的第二行实际是一个近似计算。同时重新构造二次项和非线性部分。它们可以分别表示为如下形式:
上式中Gσ为标准差为σ的高斯核函数,*为卷积符号。最终可以将公式(3)转化为如下矩阵形式:
其中是vs和vi代表S和I的两个列矢量。Cx和Cy是向前差分梯度算子的Toeplitz Matrices。Ux、Uy、Wx、Wy都为对角矩阵,它们对角线上的值分别为:Ux[i,j]=uxi,Uy[i,j]=uyi,Wx[i,j]=wxi,Wy[i,j]=wyj。然后,对该矩阵求导得到如下线性方程:
公式(11)可以至直接求矩阵的逆运算,或者用预处理共轭梯度法来求解。
文章特点:
(1) 相比于以前方法,本文方法可以更有效的从结构纹理图像中提取出结构数据。
(2) 相比于以前方法,本文算法降低了时间复杂度,提高了结构特征提取的效率。
存在的不足:由于该方法假定没有特定类型的纹理和潜在的结构设置,它不能区分尺度相似的纹理和结构,或相近的新变差措施。
参考博文:基于总变差模型的纹理图像中图像主结构的提取方法、 图像主结构的提取方法
内容说明:
首先,感谢参考博文的两位作者,他们描述的很详细,通俗易懂。他们的工作对我理解该文章起到了很大的作用。另外,上述内容仅个人的点滴粗见,如有不当之处,请同行批评指正。