这一系列文章是我根据Yasutaka Furukawa教授的论文"Multi-View Stereo: A Tutorial, Yasutaka Furukawa and Carlos Hernandez, Foundations and Trends in Computer Graphics and Vision, 2015."的一些总结资料,希望大家能喜欢上三维重建,让我们一起把这个技术用于生活中的方方面面~
前言:这次主要介绍multi-view stereo技术,我翻译为“多视角立体视觉”技术,加“视觉”这两个字是因为stereo vision这个词在计算机视觉领域里基本是绑在一起的。立体视觉一直都是各大计算机视觉和图形学实验室争抢的研究领域,也是商业化价值最大的地方。
三维重建技术在计算机视觉领域已经被学者们研究了30多年。相对于快速更新的计算机领域,这是一个古老的技术。得益于最近微软,谷歌,脸书的崛起和这些公司对虚拟现实,增强现实,地图和游戏方面的持续性投入,三维重建技术以及相关的三维立体视觉越来越受到关注。
三维技术可以应用于很多场景,比如在线购物,三维技术可以让我们在线试衣服,看效果等等,带来二维图像所无法带来的体验感;比如3D打印,可以用于生产零部件或者家具等等;比如计算机游戏里的三维物体的建模;比如恢复历史遗迹的三维结构;比如地图的精细化重建,用于出行和各种商业场景里。
在科技文献的研究里面,三维重建基本可以这么定义:
给一个物体或场景拍摄一系列照片,三维重建是计算出最能解释这些照片的三维图形,这些计算需要在给定的材料,视角,和光照条件下进行。
值得注意的是,如果材料,视角和光照是未知的,那么三维重建问题就会变得异常艰难,因为不同的材料,视角,和光照组合起来也许可以得到相同的三维几何物体。
在图像里,我们有很多特征可以用来抽取图像里物体的几何关系。比如文理,阴影,轮廓,和立体对应关系。目前,立体对应关系在实际应用里是最鲁邦的。在这个方面,多视角立体视觉(Multi-view Stereo, MVS)是一类运用立体对应关系在多张照片上得到三维几何结构的技术。
所有的MVS技术都是将多张照片和相应的相机参数等数据转换成最终的三维物体的。一般MVS技术的框架是这样的:
1. 拍一系列照片;
2. 计算每张照片的相机参数;
3. 从这一系列照片里重构出照片中场景的三维几何结构,恢复出相机参数;
4. (可选)重构出场景的材料系数。
在之后的文章里,我会分三篇文章介绍MVS技术的前三步主要内容。敬请期待!