【GDC 2016】Rendering Rainbow Six Siege

今天大家在讨论GDC 2016中育碧在《彩虹六号（Rainbow Six Siege）》中所介绍的checkerboard rendering方法，认真看了看其中的实现原理，现在分享给大家，这里是原文链接。

看下这里对60FPS的理解：

非战斗模式下能达到60fps（针对的是渲染层面）
CPU侧则是不能超过38ms的linear time（简单搜了下，没发现针对这个的详细介绍）

这里有两个问题：

CPU这个38是怎么来的
38ms的CPU消耗是无法保障真正的60fps体验的，不知道这里的target要如何达到呢？

看后面的描述，给CPU的预算还是14ms，这里可以暂时先不纠结38这个数字。

联机游戏的好处与注意事项，如上所示：

不需要在发布的时候将特性做到极致，只要够看即可，上线后还有足够的事件慢慢调优
不过就是要小心改动会不会引起现有功能的表现或者品质问题

接着之前60fps给GPU设定的14ms的预算来看下具体如何分配：

5ms用于几何体的绘制，重点需要介绍的优化点：

剔除算法的极致优化（无损+有损的）
Shadow Cache

5ms用于光照计算（包括SSR）

采用Checkboard Rendering
SSR ray trace pass跟SSAO放在async（compute shader？）中完成，不占用Graphics Pipeline的资源

4ms用于后处理（包括各种可以看成是后处理的全屏计算）

CPU这边预算的划分则是（从细节描述推测，这里说的是渲染线程，而非游戏线程）：

10ms分配给关键路径

通过fork、join等方式来缩短关键路径
同样借助shadow cache来规避CPU侧的时间消耗

4ms分配给不透明pass

按照从前往后进行绘制
遮挡剔除用的HZB算法，遮挡体是手动设置的，每帧最多选用400+
不知道这里的剔除是在CPU还是GPU完成，CPU的话，还得将HZB数据readback一次，GPU的话，就走indirect draw，不过drawbuffer数据同样也是需要从GPU回到CPU（？）

阴影同样做了HZB Culling以降低GPU压力。
局部光源则针对其贴图分辨率做了降低

方向光阴影是在地图加载的时候构建并cache的（构建一张大的覆盖全图的）
采用的是ESM的计算方案
构建的时候还会构建HiZ，用于实现动态数据的剔除

方向光用的还是CSM的设置，这里做了稍微详细的设计描述：

烘焙的shadowmap将与运行时的CSM（负责动态数据）一起工作
通过XBox的各级是如何配置的，大致可以知道两者是如何结合的：

第一级只考虑动态的
第二三级则动态（CSM）跟静态结合
第四级只用静态的

一个遗留问题是，CSM是相机视角的，而静态的阴影跟frustum的覆盖范围不见得能正好吻合，难道某个cascade需要同时获取到覆盖范围的多张shadowmap吗？

前面其实说过，这是一张覆盖全图的阴影贴图，所以不用考虑这个问题，不过这里带来的另一个问题是，内存会不会有点浪费？而且如果地图尺寸过大，这里也会有问题吧？

局部光源最多只支持8盏灯产生投影，超出的部分呢？怎么选择？

采用的是clustered rendering管线：

z方向的划分是指数分布算法计算得到的
会将局部的cubemap（IBL）看成是灯来做统一处理
阴影、cubemap以及gobos等数据统一放到texture array中，方便合批

破坏系统：

支持墙体跟地面，需要通过程序化的方式来完成unique几何体的生成
挑战在于当我们把物件破坏后，可能会导致遮挡剔除效率受影响
破坏后的残留数据，要么是实例化的，要么是作为单一对象绘制，需要限制后者数量

早期的设计方案在渲染上会存在很大的瓶颈，不论是CPU还是GPU
基于材质来调用DrawCall，通过材质的复用来约束DrawCall
控制对破坏数据裁剪的粒度

这里对基于材质来优化DrawCall做了更进一步展开介绍。

裁剪这里做了分层处理（类似BVH），以提高裁剪效率。

前两层剔除逻辑是一致的，最后一层只考虑法线因素（背面剔除）。

通过这种方式可以在上图所示的场景中，只额外增加了5个DP就完成了破坏后的渲染效果。

下面来看看checkerboard rendering框架（这个方案，Intel有专门的页面进行介绍，还提供了相应的源码，这里是原文传送）介绍。

《彩虹六号》的目标是实现60FPS，这里准备从GDC 2014分享的《Killzone Shadow Fall》中的interlaced rendering方案开始进行尝试。

这个方案的基本思路是将纵向分辨率缩减为原始分辨率的一半，之后通过修改投影矩阵（由于纵向覆盖范围维持不变，因此一个像素在纵向上覆盖的尺寸变为原始覆盖尺寸的两倍，之后单帧投影矩阵与双帧投影矩阵需要各自对应当前像素的前半个像素与后半个像素（也就是此前未降分辨率时奇像素与偶像素），因此需要通过投影矩阵添加半像素偏移）来实现奇偶帧结果的互补。

简单总结一下，其实就是在空间上做了分辨率减半处理，但是为了避免效果减损过于严重，在时间上则通过前后两帧数据的复用来掩盖瑕疵，而为了实现复用，前后两帧的投影矩阵需要做一个偏移，使得正好覆盖奇数跟偶数行的像素。

由于这里对投影矩阵进行了偏移与纵轴缩放，因此在处理梯度的时候需要做相应处理（其实这个还挺麻烦的，所有后处理中需要用到梯度计算的部分都要做处理）。

方案实施过程中遇到的问题，纵轴上的锯齿是一个大问题。

尝试通过checkerboard rendering来修复锯齿，最终发现这个方法比interlaced rendering有着更高的质量，且通过硬件MSAA 2X，可以不需要对渲染做太多修改即可实现。

从质量上来说，很显然checkerboard rendering要更胜一筹，下面看下具体方案。

checkerboard rendering的思路是，直接采用1/2 x 1/2分辨率进行渲染，之后通过MSAA + SV_SampleIndex之类的强制Separate Sample Shading方案实现半分辨率shading。那既然每个sample都渲染一次，这种做法相对于全分辨率不加MSAA渲染有什么优势呢？因为使用的是2x MSAA，因此相对于全分辨率渲染，计算次数还是少了一半，其消耗跟interlaced rendering类似，不过相对而言，具有更好的显示质量，更低的锯齿感（此外，猜测借用了硬件自带的MSAA算法来实现，性能会不会更好一些）。