如何通过多帧影像进行超分辨率重构？

姓名：于川皓学号：16140210089

转载自：https://www.zhihu.com/question/25401250

【嵌牛导读】：通过一系列低分辨率的图像以特定算法得到一幅较高分辨率的图像，有着广泛的应用。

【嵌牛鼻子】：超分辨率重构

【嵌牛提问】：多帧影像图片超分辨率重建的实现方法是什么？

【嵌牛正文】：

取出几帧示意如下：因为手抖，并且相机分辨率低，已经没了样。其实上面是我先把原图的图像随机平移，然后线性插值降采样到8x8分辨率得到的。在这个过程中我模拟了两件事：1) 随机平移模拟视频拍摄过程中的随机抖动，这是从多帧图像中重建超分辨率图像的关键，后面我会讲到，同时这也是符合现实生活规律的，虽然宏观来说拍摄一段静止的视频很容易，可是在像素级别任何微小的画面移动都可以被体现出来。2) 线性插值降采样模拟在CMOS上成像时图像元素小于像素时细节的丢失，线性插值是因为像素记录的值是在像素原件有效感光面积上的平均曝光强度。这两个过程的示意图如下：首先看第一个图中两个圆的例子，这两个圆大小完全一样，因为成像位置不同，圆在每个像素上覆盖的面积也不一样，对应像素的灰度会不一样，最后在像素阵列上对应了不同的图案，而这个信息正是进行超分辨率重建的基础。同样的对于写下的屌字，在不同的抖动位置上，也会得到不一样的低分辨率图案。所以问题可以描述为，一幅高分辨率的图像I_{H}，经过n次某种变换\[{{I}_{L}}=F\left( {{I}_{H}} \right)\]后得到了n幅低分辨率图像，其中第i幅图像为I_{L,i}。而具体到视频录制中，"某种变换"就是每次拍摄每一帧的时候记录图像的过程，具体到这个例子中F()就是手抖导致的图像平移和线性插值的降采样。所以本质上来讲从多帧低分辨率图像中进行超分辨率重建是个Inference的问题，高分辨率图像中的细节信息在录制成低分辨率帧的时候导致了丢失，然而抖动带来的位移相当于给了多一个维度的信息让我们可以通过算法对信息进行恢复，从某种意义上讲抖动保存了原来图像的细节信息。抖动有多重要呢，先来做一个简单的试验，尽管采样到的帧分辨率都低得可怜，可是我们如果把抖动的信息恢复出来，也就是把抖动后的这些低分辨率图片对齐，然后求一个平均，结果如下：这时候已经可以勉强看出屌样了。。进一步的，我们想推断出更高分辨率的图像，一个很自然的想法就是对超分辨率图像进行猜测，把猜测的图像变换后的结果和录制采样到的结果进行对比，然后把差异作为目标函数进行优化：\[\min \sum\limits_{i=1}^{n}{\left| {{I}_{L,i}}-F\left( {{I}_{H,i}} \right) \right|}\]对于上面这个优化问题，如果抖动的范围完美覆盖了一个像素周期以内的所有区域，并且每一帧都采样到了这个区域内的所有的点的话，那么理论上是可以恢复出高分辨率图像的，然而通常情况并非如此，比方说我想把我例子中24帧8x8的视频恢复成一幅48x48的高分辨率图像，也就是6倍的分辨率提升，那么24帧显然不够，这种情况叫做ill-posed，也就是说有无数个解可以满足这个优化问题，所以需要一些regularization。通常而言我们看到的图像一般都是较为平滑的，而不是像老式电视机里没信号是那样满屏的雪花斑噪声，所以可以加入一项抑制图像梯度的项：\[\min \sum\limits_{i=1}^{n}{\left| {{I}_{L,i}}-{{F}_{i}}\left( {{I}_{H}} \right) \right|}+\left| \nabla {{I}_{H}} \right|\]注意我这里用的都是L1 Norm，一般来说L1的优点是使梯度的分布更为稀疏，这样能更好的保存边缘，另外计算量也小。用遗传算法来解这个优化问题试试，得到结果如下：0代：10代20代50代100代200代500代1000代2000代20000代进化过程动图的链接： http://images.cnitblog.com/blog/609274/201411/181506083165247.gif 因为是GA，所以看上去还是有一点瑕疵，不过屌样已经很明显了，如果继续优化应该能得到完美的结果。当然了，如前所述，我只是用一个玩具例子讲一下超分辨率重构的基本思想，具体的问题中，除了抖动和低分辨率采样，还有镜头PSF(Point Spread Function)，图像的转动和其他形变，场景中的物体移动等因素，优化算法也不会是GA这种相比起来漫无目的的搜索（虽然我还修改了变异和交叉函数）。另外降采样我这里用的是线性插值，这包含一个假设，就是每个像素的感光元件的有效感光面积接近这个元件在传感器表面占用的面积，而这个假设通常是很难成立的，尤其是对现在消费级相机和手机中流行的CMOS，还有一种常见的降采样是点采样，这个就比线性采样相对而言简单一些，然而这个通常也不成立，并且一般应用的消费级CMOS还要考虑Bayer阵列的问题。至于楼主问到PS能否实现，据我所知应该没有。不过OpenCV里做这件事已经非常简单了，一个简化版的代码如下：cv::Ptrframes = cv::superres::createFrameSource_Video( "diao.mp4" );cv::Ptrsuper_res = cv::superres::createSuperResolution_BTVL1();

super_res->setInput( frames );

cv::Mat super_resolved_image;

super_res->nextFrame( super_resolved_image );

cv::imshow( "Super Resolved Image", super_resolved_image );

cv::waitKey( 0 );

我用我的高级智能手机拍了一段长达2秒的176x144分辨率的视频测试了一下这段代码：

视频截图(为方便比较用Nearest Neighbor放大到和重建图像等同分辨率)：

重建的超分辨率图像：

效果还行。通常情况下超分辨率重建运算量还是比较大的，所以实际情况代码不会这么简单，一个用到GPU的基于OpenCV的例子可以在OpenCV的sample code里找到。

如何通过多帧影像进行超分辨率重构？

推荐阅读更多精彩内容