登录注册写文章

【Siggraph 2012】SOUTHERN ISLANDS IN DEEP DIVE Graphics and Compute - AMD

【Siggraph 2012】SOUTHERN ISLANDS IN DEEP DIVE Graphics and Compute - AMD

今天要介绍的是AMD工程师Christophe Riccio在Siggraph 2012 Tech Talk上关于图形渲染性能优化的技术分享，原文查看与下载链接在参考文献[1]中给出。

先来看下当前图形渲染所面临的一些技术挑战或者说目标，在越来越复杂的场景中，我们需要实现如下几个目标：

消除CPU的性能瓶颈
实现GPU的高效利用
实现内存的合理利用
提升项目开发效率

下面我们逐一来看下对应的细节详情。

1. 消除CPU性能瓶颈

有很多方面都会导致CPU的性能瓶颈，比如GLSL编译时间过长就是其中的一种，对于这种问题，这里给出的解决思路是将整个编译工作改成并行完成：

使用多线程编译机制
避免在单个API调用完成后启动查询，而是尽量在所有编译都完成后再一次性查询（内存访问效率？）
对于program的链接逻辑，也采用上述相同做法

Uniform数据上传到GPU过程消耗过高也是导致CPU性能瓶颈的重要原因，对于这种情况，这里给出的建议是对数据按照需要进行拆分，并进行分别处理：

根据更新频率对Uniform变量进行排序
只对那些必要的数据进行更新
通过合批来降低Draw Call，减少数据传输的overhead

Draw Call数目太多，导致CPU到GPU的数据传输时间消耗过高导致CPU瓶颈，这种情况可以考虑如下两种解决方案：

将多个物件的VAO合并到一个
将具有相同顶点格式的mesh合并到一起，一次性提交（如果材质不同，不能合批渲染，这种一次性提交也没有意义吧？）

下图给出了一个将多个共享材质的Mesh数据塞到一个VB中进行绘制的示意伪代码：

下图给出了不同Draw Call下，使用不同的VB策略对应的时间消耗：

Draw Call数越大，渲染时间越多
相同Draw Call下，Instancing < Shared VAO < Separate VAO

2. 实现GPU的高效利用

AMD出产的南方群岛芯片架构包含了如下一些要素：

两个compute rings（没搜到相关资料，从后面的描述来看，应该是跟Compute Shader相关的，或许指的是用于实现Compute Shader流程的硬件）
一个Graphics Ring（没搜到相关资料）
两个DMA（Direct Memory Access）控制器：双向
所有组件都是并行运行的

两个Compute Rings可以用于如下的一些工作：

光滑粒子的流体动力学计算
全局光照计算
大气效果计算
光线追踪算法
一些物理计算（子弹）
显存管理
可编程Vertex Pulling（参见GPU Pro 4中的介绍，这是一种通过将大量工作放到GPU上来移除CPU瓶颈的渲染管线）

总结来说，就是用来做一些不适合放在GPU（冗长的管线与一些额外的stage）但是在CPU上执行又特别慢的操作。

这里重点介绍了Programmable Vertex Pulling的相关内容：

存在一些专属的API扩展
可以通过CS来构建indirect draw buffer
通过command processor完成绘制指令的提交
可以几乎完全移除CPU向GPU提交渲染指令的overhead
提交的Draw Call上限相对于CPU有显著增加
可以降低每次绘制的尺寸（具体是指？大量小物件绘制？）同时保持GPU的高效利用率，从而实现很好的tessellation质效平衡
在indirect draw buffer中可以将primitive count设置为0来跳过entries的处理
每次绘制都可以使用不同的顶点格式
Meshes doesn't have to be expended to satisfy OpenGL，Mesh不再需要按照OpenGL要求的方式进行处理？
在VS阶段，可以为每次绘制设定不同的vertex pulling方法

后续还可以尝试如下做法来进一步提升性能：

将Draw Call数存储在indirect buffer中（目的是？）
使用Subroutine buffer（子例程buffer，具体怎么用？）
增加gl_DrawID关键字来访问每个Draw的索引
添加一个用于对Vertex Cache中的顶点进行重用的Flag标记

Tessellation主要有如下一些作用：

不仅仅是能添加更为丰富的几何细节
可以实现更细粒度的per-batch culling（具体如何做？在tessellation的过程中，为不同的primitive进行不同程度的tessellation来实现消耗的降低？）
控制每个primitive上的pixel ratio（干啥用的？远景primitive分配较少pixel，近景pixel分配较多pixel？）
实现图形管线的质效平衡。

读懂光栅化pattern有助于如下几项工作：

可以更好的提升fill rate
可以更高效的使用primitive peak rate（没搜到相关描述）
可以实现对tessellation的优化

那么光栅化Pattern代表了什么含义呢：

这是一种为不同的像素分配不同颜色的原子计数器，颜色代表不同的数值
全屏quad由两个三角形组成
2.1 Image based效果则是使用一个全屏三角面片来完成
其扫描方向与framebuffer保持一致（？）
由多个32 x 512 pixels的band组成

光栅化pattern是按照block组织的，每个block包含了4 x 4个像素，并对应了4个quadpixels（quadpixel的意思是指由2 x 2个pixel组成的一个大pixel？），Block是按照深度顺序（Z-order）来规划（Scheduled）的（干啥的？）。

南方群岛的扫描转换器的表现：

每个时钟完成2个primitive的扫描转换
每个primitive包含16个像素

这里假设有一个覆盖8个像素的三角面片，scan converter会从16个可能的位置创建8个fragments

如果某个三角面片横跨两个block，覆盖了12个像素，scan converter就会从32个位置中创建12个fragments

最小的处理粒度是quadpixels，这是为了后面计算贴图Mip层级时的微分数据需要。

在这个过程中，QuadPixel会根据需要创建一些额外的fragments来补齐quadpixel的缺口，比如前面的8个fragments就被补齐到12个fragments了，不过依然还处于同一个primitive中

如果primitive覆盖范围是subpixel级别的，那么每个primitive依然需要创建一个quadpixel，这种情况会使得primitive rate以及fill rate都会受到伤害。

这里的建议是：

每个primitive至少要覆盖8个像素，这个要求可以用在如下两种情况中：
1.1 tessellation实现上
1.2 Mesh LOD制作上
将更多的细节放在PS中完成，而非通过更小的geometry完成

3. 实现内存的合理利用

FirePro W9000虽然提供了6G的显存，但在一些复杂环境中依然不够用，南方群岛则通过一些虚拟内存技术来进一步提升可用存储空间。

一些常见的稀疏贴图或者稀疏buffer使用案例：

Mega Texture
虚拟贴图
一些设计精良的数据结构
3.1 稀疏体素八叉树（SVO，sparse voxel octrees）
3.2 Bounding Volume Hierachies(BVH)
稀疏阴影

这里介绍一下稀疏阴影技术，这里使用了一个测试场景，稀疏引用使用的是一张大尺寸的稀疏贴图

需要为阴影所覆盖的有效区域分配对应的贴图空间

不同的物件的阴影分配的尺寸大小是不一样的（同一物件不同距离分配空间也是不同的）

在这个算法中，可以使用CS来完成如下工作：

为不同物件的阴影分配对应的贴图page
选择需要绘制的物件
2.1 用于阴影绘制
2.2 用于正常的场景绘制

贴图page的分配实现是在CPU上完成的。

4. 提升项目开发效率

提升开发效率主要可以通过如下几个方面来做到：

好用的工具
设计良好的API
内容详实的使用文档

工具有如下几种：

用于检测CPU瓶颈的CodeAnalyst
用于OpenGL调试的gDEBugger
用于OpenCL Profiling的APP Profiler等

API方面则主要关注ARB_debug_output，可以输出对应的错误码

文档则包括如上的一些内容。

参考

[1] SOUTHERN ISLANDS IN DEEP DIVE Graphics and Compute

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Chapter 3 The Graphics Processing Unit 图形处理单元
“The display is the computer”——Jen-Hsun Huang历史上来说，图形加速开始...
龙凕阅读 1,092评论 0赞 1
【Graphics Pipeline 2011】3D管线概览，顶点处理部分
原文链接[https://fgiesen.wordpress.com/2011/07/09/a-trip-thro...
离原春草阅读 304评论 0赞 0

Introduction to Turing Mesh Shaders
原文章直接翻译，未能理解消化，纳为己用，输出的内容晦涩难懂，此处先做报废处理，提供一些其他的参考文章链接用作后续工...
离原春草阅读 1,688评论 0赞 1
【Siggraph 2019】A Scalable Real-Time Many-Shadow...
这里分享的是Bo Li在Siggraph 2019上关于阴影渲染优化的文章，这里是原文传送[https://dl....
离原春草阅读 3,438评论 26赞 3
Real-time Rendering 第三章图形处理单元
历史上，图形加速始于面片上面颜色的值做插值并且显示他们。包括获取图片的数据并且应用到表面上面的能力。添加了硬件插值...
_ArayA_阅读 1,033评论 0赞 2

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文