流水线
- 在了解什么是渲染流水线前先看一下现实生活中的流水线。
流水线是一种工业上的生产方式,每一个生产单位只专注处理一个片段的工作。 比如一个制造手机的工厂,一台手机的制造流程可以分为四个步骤:
第一步,制作外壳;
第二步,制作屏幕模组;
第三步,制作主板;
第四步,组装手机并进行产品包装。
注:这里只是举例,并不代表真实的手机生产步骤
在没有流水线时,只有在每台手机四个工序完成后才能开始制作下一台,这是非常耗时的。 如果我们加入流水线,虽然制作一台手机任需要四个步骤,但不需要从头到尾完成全部步骤,而是每个步骤由专人来完成,所有步骤并行进行。 使用流水线的好处在于可以提高单位时间的生产量。
渲染流水线
流水线的概念同样可以用于计算机的图像渲染中。计算机需要从一系列的顶点数据、纹理等信息出发,把这些信息最终转换成一张人眼可以观察到的图像。这个工作通常有CPU和GPU共同完成
渲染流水线通常分为三个阶段:应用阶段 ———> 几何阶段 ————> 光栅化阶段
- 应用阶段: 这个阶段有应用主导,通常由CPU负责实现。这一阶段开发者有三个主要任务,首先,需要准备好场景数据(摄相机位置、视锥体、模型和光源等)。其次,为了提高渲染性能,需要做粗粒度的剔除工作。最后,需要设置好每个模型的渲染状态(使用的材质、使用的纹理、使用的Shader等)这一阶段最重要的输出是渲染所需的几何信息,即渲染图元。
- 几何阶段:几何阶段主要用于处理所有和我们绘制的几何相关的事情。几何阶段负责和每个渲染图元打交道,进行逐顶点、逐多边形的操作。这个阶段可以进一步分成更小的流水线阶段。几何阶段的一个重要任务就是把顶点坐标变换到屏幕空间中,再交给光栅器进行处理。
- 光栅化阶段: 这一阶段会使用上个阶段传递的数据来产生屏幕上的像素,并渲染出最终的图像。
CPU和GPU之间的通信
- 渲染流水线的起点是CPU,即应用阶段。大致可分为三个阶段:
- 把数据加载到显存中:所有渲染所需的数据都需要从硬盘中加载到系统内存,然后,网格和纹理等数据又被加载到显存。
- 设置渲染状态:这些状态定义了场景中的网格如何被渲染。
- 调用Draw Call:Draw Call实际上就是一个命令,它的发起方是CPU,接收方是GPU,这个命令仅仅会指向一个需要被渲染的图元列表,而不会再包含任何材质信息。 当给定一个Draw Call时,GPU就会根据渲染状态和所有输入的顶点数据来进行计算,最终输出成屏幕上显示的像素。
GPU流水线
当GPU从CPU得到渲染命令后,就会进行一系列的流水线操作,最终把图元渲染到屏幕上(就是上边的调用Draw Call)
对于渲染流水线中的后两个阶段(几何阶段和光栅化阶段)开发者无法拥有绝对的控制权,其实现的载体是GPU。GPU通过实现流水线化,大大加快了渲染速度,虽然我们无法完全控制这两个阶段的实现细节,但其向开发者开放了很多控制权。
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">图中展示了不同流水线阶段以及它们的可配执性和可编程性</figcaption>
顶点着色器
顶点着色器是流水线的第一个阶段,它的输入来自于CPU。顶点着色器的处理单位是顶点,输入进来的每个顶点都会调用一次顶点着色器。顶点着色器本身不可以创建或销毁任何顶点,并无法得到顶点与顶点之间的关系
顶点着色器是完全可编程的,它通常用于实现顶点的坐标变换和逐顶点光照。坐标变换:就是对顶点的坐标进行某种变换—把顶点坐标从模型空间转换到齐次裁剪空间。我们可以通过坐标变换来模拟水面、面料等。
曲面细分着色器
- 是一个可选的着色器,主要用于细分图元。
几何着色器
- 是一个可选的着色器,可用于执行逐图元的着色操作,或者被用于产生更多的图元。
裁剪
- 这一阶段是可配置的。目的是把那些不在视野内的顶点裁剪掉,并剔除某些三角形图元的面片。
一个图元与摄像机视野的关系有3种:完全在视野内、部分在视野内、完全在视野外。
- 完全在视野内的图元会继续传递给下一个流水线阶段
- 完全在视野外的图元不会继续向下传递
- 部分在视野内的图元需要做裁剪处理和顶点着色器不同的是,这一步是不可编程的。我们无法通过编程来控制裁剪的过程,而是硬件上的固定操作。
屏幕映射
- 这一阶段是不可配置和编程的,负责把每个图元的坐标转换成屏幕坐标。
这一步输入的坐标仍然是三维坐标系下的坐标。屏幕映射的任务是把每个图元的x和y坐标转换到屏幕坐标系下。
屏幕映射得到的屏幕坐标决定了这个顶点对应屏幕上哪个像素以及距离这个像素的距离。一个需要注意的地方,屏幕坐标系在OpenGL和DirectX中,OpenGL把屏幕左下角当作最小的窗口坐标值,DirectX则在屏幕左上角为最小窗口坐标值。
三角形设置
- 由这一步开始进入光栅化阶段。
上一阶段输出的信息是屏幕坐标系下的顶点位置以及和它们相关的其他信息,如深度值、法线方向、视角方向等。
光栅化阶段的目标:
1.计算每个图元覆盖了哪些像素
2.为这些像素计算它们的颜色
三角形设置作为光栅化的第一个阶段,会计算出光栅化一个三角网格所需要的信息。上一阶段的输出是三角网格的顶点,如果想得到整个三角网格的覆盖情况,就必须计算每条边上的像素坐标,为了计算边界像素的坐标信息,我们就需要得到三角形边界的表示方式。这样一个得到三角形边界表示方式的过程就是三角形设置。
它的输出是为下一个阶段做准备
三角形遍历
- 三角形遍历阶段将会检查每个像素是否被一个三角网格所覆盖。如果被覆盖,就会生成一个片元。而这样一个找到哪些像素被三角网格覆盖的过程,就是三角形遍历,这个阶段也被称为扫描变换。
三角形遍历阶段会根据上一个阶段的计算结果来判断一个三角网格覆盖了哪些像素,并使用三角网格三个顶点的顶点信息对整个覆盖区域的像素进行插值。
这一步的输出就是得到一个片元序列。一个片元并不是真正意义上的像素,而是包含了很多状态的几何,这些状态用于计算每个像素的最终颜色
片元着色器
- 片元着色器是另一个非常重要的可编程着色器阶段,在DirectX中,片元着色器被称为像素着色器。
片元着色器的输入就是上一阶段对顶点信息插值得到的结果,更具体点说,是根据从顶点着色器中输出的数据插值得到的。而其的输出是一个或者多个颜色值。
这一阶段可以完成很多重要的渲染技术,如纹理采样,但是它的局限在于,它仅可以影响单个片元。
逐片元操作
- 这是渲染流水线的最后一步,这一步骤的目的是:合并
这一阶段有几个主要任务:
- 决定每个片元的可见性。这涉及了深度测试、模板测试等
- 如果一个片元通过了所有的测试,就需要把这个片元的颜色值和已经存储在颜色缓冲区中的颜色进行合并,或者说是混合。这一阶段是高度可配置性的
- 这个阶段首先需要解决每个片元的可见性问题。这需要进行一系列的测试。片元 ——> 模版测试 ——> 深度测试 ——> 混合 ——> 颜色缓冲区
<figcaption style="margin-top: 0.66667em; padding: 0px 1em; font-size: 0.9em; line-height: 1.5; text-align: center; color: rgb(153, 153, 153);">深度测试和模版测试的简化流程图</figcaption>
模板测试
如果开启了模板测试,GPU会首先读取模板缓冲区中该片元位置的模板值,然后将该值和读取到的参考值(可以开发者自己指定)进行比较,开发者可以设定成小于时舍弃或者大于等于时舍弃该片元。
模板测试通常用于限制渲染的区域,另外模板测试还有别的高级用法,如渲染阴影,轮廓渲染。
深度测试
如果一个片元幸运的通过了模板测试,那么就会进行深度测试,如果开启了深度深度,GPU就会把该片的深度值和已经存在于深度缓冲区中的深度值进行比较,这个比较函数也是由开发者设定的,可以选择大于此值时舍弃也可以选择小于等于此值时舍弃。
但通常这个比较函数是小于等于的关系,这是因为我们我们总想只显示出离摄像机最近的物体,而那些被其他物体遮挡的片元就不需要出现在屏幕上。和模板测试不同的是,如果一个片元没有通过深度测试,他就没有权利修改深度缓冲区中的值。而如果通过了测试,开发者可以通开启/关闭深度写入来决定是否要利用这个片元的深度值覆盖缓冲区中的值。
合并
我们所讨论的渲染过程是一个物体接着一个物体渲染到屏幕上,而每个像素的颜色信息被存储在一个名为颜色缓冲的地方,因此当我们执行这次渲染时,颜色缓冲中往往已经有了上次渲染的颜色结果,那么我们是使用这次渲染得到的颜色完全覆盖掉之前的结果,还是进行其他处理,这就是合并需要解决的问题。
对于不透明物体,开发者可以关闭混合操作,这样片元着色器计算得到的颜色值就会直接覆盖掉颜色缓冲区中的像素值。但对于半透明的物体,我们就需要开启混合操作来让这个物体看起来是半透明的。混合操作是高度可配置的,开发者可以选择开启/关闭混合功能。
如果开启了,GPU会取出源颜色和目标颜色,将两种颜色进行混合。源颜色是指片元着色器得到的颜色值,而目标颜色则是已经存在于颜色缓冲区中的颜色值。
总结
真正实现渲染流水线的过程远比描述的要复杂,但Unity为我们封装了很多功能,我们只需要在一个Unity Shader设置一些输入、编写顶点着色器和片元着色器、设置一些状态,就可以实现大部分屏幕效果。在最新的unity3D中还集成了Shader蓝图工具供开发者使用和学习。