GPU Framebuffer Memory : Unterstanding Tiling 笔记 2019-11-24

https://developer.samsung.com/game/gpu-framebuffer

render需要大量的memory bandwidth，他的空间和功率开销很大。所以移动设备会使用tile-based rending。

Immediate mode rasterizers

传统的graphics API接口是按顺序submit triangles，也就是GPU依次render每个triangle，所以rasterization是这样的：

corlor frambuffer and corresponding depth buffer 01

corlor frambuffer and corresponding depth buffer 02

如图，triangles被sumitted时立即被hw处理，也就是immediate-mode renderer，IMR。

pipeline of IMR

Memory use in IMR

IMR很耗memory bandwidth，即使是对framebuffer pixels和depth values的很小的cache，在光栅化时都会transfer大量memory。IMR下的内存访问顺序不可预知，由submit triangles的方式决定。

如图，render image上方显示了4个连续image memory的cache lines，cache line是一个小矩形，表示cache line对应的pixel在哪里fall in到fambuffer：

红色代表dirtry cache lines，已经被写入，
绿色代表 clean cache lines，仍然match memory，
亮色代表最近已被访问
dirty cache lines相对应的frambuffer pixels 显示为粉色(framebuffer)和白色(在depth buffer里)：

render in linear cache line 01

render in linear cache line 02

dirty的地方还没有画好，全变绿色就画好了。
这个动图要表达的是，每个cache line需要重新做好几次，因为每行都要画多个三角形（很多个spike尖角）。

Tiled memory

节省带宽的第一步是，把每个cache line当做是覆盖内存的two-dimensional rectangular，也就是tile。因为空间接近的triangles一般submitted的时间也接近。所以这样对cache area分组会提高cache hits命中率。
大小相同的linear cache与square cache，square cache发生的render更多，transfers to memory的频率更小，从而降低的带宽。同样的技术也用在texture storage，因为texture的读取也具有引用的空间局部性(spatial locality of reference)

这里说的很简单，实际的硬件会在pixels 和 memory之间做更复杂的映射，来提高locality of reference，引用的局部性。

render with square cache tiles 01

render with square cache tiles 02

Rasterizing within tiles

实际场景，framebuffer会被cached tiles更大。
一个问题就是如果简单的top-to-bottom order来画，那一个很大的triangle可能会thrash破坏cache。
因为屏幕的每个horizontal line水平线可能覆盖了比 fit in cache 更多的tiles，
所以需要改变triangle内pixels的rasterized 顺序：先画一个tile里的triangle覆盖的所有pixels，再移动到下一个tile。
这里的意思是，相比于cache，framebuffer里面一行含有更多的tile，

未完

最后编辑于：2019.11.25 11:02:11

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

GPU Framebuffer Memory : Unterstanding Tiling 笔记 2019-11-24