相机模型

原创：杨其泓

引言

随着智能手机的发展，用手机拍摄照片已经称为大众日常生活中的一部分。对准被拍摄的物体，按下快门，一张美丽的照片就拍摄完成了。不知你有没有想过，如此简单的一个过程，从原理上是如何实现的呢？三维世界中的物体是怎么映射到二维的图像上的呢？这个映射关系与什么参数相关呢？下面我将针对相机模型的问题，为大家一一进行解答。

四大坐标系

在学习相机模型之前，我们首先要了解“四大坐标系”。有的同学可能会想，不就是从空间映射到图片吗，这么简单的过程怎么会用到四个坐标系？其实还真的用！

世界坐标系：世界坐标系顾名思义，就是我们所生活的三维世界的坐标系，它具备X, Y, Z三个轴，分别对应物体的长宽高，在计算中一般会把这个坐标系标记为 $(X_w, Y_w, Z_w)^T$ ，其中w代表world。世界坐标系的原点和坐标轴方向可以自行选定，坐标系的单位可为米或厘米（现实物理单位即可）。
相机坐标系：相机坐标系与世界坐标系类似，也是以现实世界为尺度的坐标系。它也具备X, Y, Z三个轴，分别对应物体的长宽高，但与世界坐标系不同的是，相机坐标系的原点固定在相机光圈位置，其Z轴指向相机外侧（垂直于光圈），X轴为水平方向（指向无所谓），Y轴为竖直方向（指向无所谓）。在计算中一般会把这个坐标系标记为 $(X_c, Y_c, Z_c)^T$ ，其中c代表camera。
图像坐标系：相机坐标系中的每一个“点”经小孔成像后，就会映射到图像坐标系上（小孔可以理解为相机镜头，坐标系位置可以理解为感光元件位置）。图像坐标系的坐标原点为图像平面的中心点，X轴和Y轴分别平行于图像平面的两条垂直边，图像坐标系是一个二维坐标系，没有X轴，因此图像坐标系在计算中一般用 $(X_i, Y_i)^T$ 来表示，其中i代表image。图像坐标系的单位依旧使用物理单位。
像素坐标系：像素坐标系就是我们实际看到的图片的坐标系，它的原点是左上角，X轴和Y轴分别代表图片的宽和高，像素坐标系在计算中一般用 $(W_p, H_p)^T$ 来表示，其中p代表pixel。像素坐标系就是以像素为单位的坐标系。

坐标运算

了解了四大坐标系分别是什么意思之后，就可以开始进行坐标运算了，我们需要一步步的将世界坐标逐渐转化为像素坐标，转化过程如下：

世界坐标系 ---> 相机坐标系

我们知道，相机坐标系与世界坐标系是十分类似的，唯一的区别就是坐标系原点与坐标轴方向的区别，因此世界坐标系中的任意一个点，都可以通过旋转与平移的方式对应到相机坐标系中。我们称这种变化方式为刚体变换。

二维

同学们在九年义务教育中一定学习过三角函数，下面我将用二维世界中的平移与旋转作为开头，为大家引出三维坐标系下的平移旋转计算方法。

如上图所示，坐标系原点为 $O(0,0)$ ，我们要将坐标系中的 $P(x,y)$ 点，以原点为轴，旋转 $\theta$ 角后到达 $P_1(x_1,y_1)$ 点，由于旋转并不好改变点到原点之间的距离，因此 $P$ 点与 $P_1$ 点到原点的距离都是 $r$ ，我们暂时把 $P_1$ 点与横坐标之间的夹角记为 $\alpha$ ，可得：
$x_1=rcos\alpha$
$y_1=rsin\alpha$
$x=rcos(\alpha-\theta)=r(cos\alpha cos\theta + sin\alpha sin\theta)$
$x=rsin(\alpha-\theta)=r(sin\alpha cos\theta - cos\alpha sin\theta)$

将 $x_1, y_1$ 的表达式带入上式可得：
$x=x_1cos\theta + y_1sin\theta$
$y=y_1cos\theta - x_1sin\theta$
此时可以把上式写做旋转矩阵R：
$\begin{bmatrix} x \\ y \\ 1 \end{bmatrix}=\begin{bmatrix} cos\theta & sin\theta & 0 \\ -sin\theta & cos\theta & 0 \\ 0 & 0 & 1 \end{bmatrix}\begin{bmatrix} x_1 \\ y_1 \\ 1 \end{bmatrix}$
平移就更为简单了：
$x=x_1+a$
$y=y_1+b$
上式可以写作旋转矩阵T：
$\begin{bmatrix} x \\ y \\ 1 \end{bmatrix}=\begin{bmatrix} 1 & 0 & a \\ 0 & 1 & b \\ 0 & 0 & 1 \end{bmatrix}\begin{bmatrix} x_1 \\ y_1 \\ 1 \end{bmatrix}$
如果把旋转与平移合并起来写的话就是：
$\begin{bmatrix} x \\ y \\ 1 \end{bmatrix}=\begin{bmatrix} cos\theta & sin\theta & 0 \\ -sin\theta & cos\theta & 0 \\ 0 & 0 & 1 \end{bmatrix}\begin{bmatrix} 1 & 0 & a \\ 0 & 1 & b \\ 0 & 0 & 1 \end{bmatrix}\begin{bmatrix} x_1 \\ y_1 \\ 1 \end{bmatrix}$
或简写为：
$\begin{bmatrix} x \\ y \\ 1 \end{bmatrix}=RT\begin{bmatrix} x_1 \\ y_1 \\ 1 \end{bmatrix}$

三维

三维旋转与平移的原理与二维相同，只不过是计算较为复杂。三维坐标系中三个轴向的旋转有其特定的名称，一般规定如下：

轴向	符号	名称
x	$\alpha$	roll
y	$\beta$	pitch
z	$\gamma$	yaw

因此三维旋转可表示为：
$M(\alpha,\beta,\gamma)=R_z(\gamma)R_y(\beta)R_x(\alpha)$
故三维旋转矩阵可表示为：

我们可以将上述旋转矩阵，与对应的平移矩阵都写成齐次形式，即为：
$R=\begin{bmatrix} r_11 & r_12 & r_13 & 0\\ r_21 & r_22 & r_23 & 0\\ r_31 & r_32 & r_33 & 0\\ 0 & 0 & 0 & 1 \end{bmatrix}$
$T=\begin{bmatrix} 1 & 0 & 0 & t_1\\ 0 & 1 & 0 & t_2\\ 0 & 0 & 1 & t_3\\ 0 & 0 & 0 & 1 \end{bmatrix}$
此时可将完整的三维旋转过程简写为：
$\begin{bmatrix} x_c \\ y_c \\ z_c \\ 1 \end{bmatrix}=RT\begin{bmatrix} x_w \\ y_w \\ z_w \\ 1 \end{bmatrix}$
一般可称 $RT$ 为“外参矩阵”。这个“外参矩阵”中的外部参数需要通过相机标定获得。通过“外参矩阵”点乘世界坐标系下的值，即可获得相机坐标系中对应的值。也就是完成了世界坐标系到相机坐标系的转换。

相机坐标系 ---> 图像坐标系

相机坐标系到图像坐标系的转换满足小孔成像模型（暂不考虑图像畸变），如下图所示（成像平面放在 $Z_c$ 轴原点前或后都可以，放在原点后侧则图像相反，此处以原点前侧为例），通过简单的相似三角形原理即可得到：

将相机坐标系中的三维坐标 $P(X_c, Y_c, Z_c)$ 映射到成像平面中得到 $p(x,y)$ ，其中 $f$ 为相机焦距，可得三角形 $ABO_c$ 相似于三角形 $oCO_c$ ，三角形 $PBO_c$ 相似于三角形 $pCO_c$ 。故可知：
$\frac{AB}{oC}=\frac{AO_c}{oO_c}=\frac{PB}{pc}=\frac{X_c}{x}=\frac{Y_c}{y}=\frac{Z_c}{f}$
解出其中的 $x,y$ 可得：
$x=f\frac{X_c}{Z_c}$
$y=f\frac{Y_c}{Z_c}$
故可将这一小孔成像过程描述为：
$z_c\begin{bmatrix} x \\ y \\ 1 \end{bmatrix}=\begin{bmatrix} fx_c \\ fy_c \\ z_c \end{bmatrix}=\begin{bmatrix} f&0&0 \\ 0&f&0 \\ 0&0&1 \end{bmatrix} \begin{bmatrix} x_c \\ y_c \\ z_c \end{bmatrix}$

图像坐标系 ---> 像素坐标系

图像坐标系到像素坐标系的转换就是一个简单的仿射变化过程，其目的是根据感光元器件的大小，将连续的物理量分给每一个像素，并将坐标轴原点由图像中心点移动至左上角。

如上图所示，图像坐标系中的坐标是 $x,y$ ，像素坐标系中的坐标是 $u,v$ ，我们设感光芯片上像素实际大小为 $dx,dy$ （单位为像素/平方毫米），可得：
$u=\frac{x}{dx}+u_0$
$v=\frac{y}{dy}+v_0$
而后可以把这一仿射变化过程描述为：
$\begin{bmatrix} u \\ v \\ 1 \end{bmatrix}= \begin{bmatrix} \frac{1}{dx}&0&u_0 \\ 0&\frac{1}{dy}&v_0 \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} x \\ y \\ 1 \end{bmatrix}$

总结

至此，我们就完成了全部的坐标运算过程，完整的运算过程可表示为：
$z_c\begin{bmatrix} u \\ v \\ 1 \end{bmatrix} = \begin{bmatrix} \frac{1}{dx}&0&u_0 \\ 0&\frac{1}{dy}&v_0 \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} f&0&0&0 \\ 0&f&0&0 \\ 0&0&1&0 \end{bmatrix} \begin{bmatrix} R&T \\ \vec1&0 \end{bmatrix} \begin{bmatrix} x_w \\ y_w \\ z_w \\ 1 \end{bmatrix} = \begin{bmatrix} f_x&0&u_0&0 \\ 0&f_y&v_0&0 \\ 0&0&1&0 \end{bmatrix} \begin{bmatrix} R&T \\ \vec1&0 \end{bmatrix} \begin{bmatrix} x_w \\ y_w \\ z_w \\ 1 \end{bmatrix}$