GPU Framebuffer Memory : Unterstanding Tiling 笔记 2019-11-24

https://developer.samsung.com/game/gpu-framebuffer

render需要大量的memory bandwidth,他的空间和功率开销很大。所以移动设备会使用tile-based rending。

Immediate mode rasterizers

传统的graphics API接口是按顺序submit triangles,也就是GPU依次render每个triangle,所以rasterization是这样的:

corlor frambuffer and corresponding depth buffer 01
corlor frambuffer and corresponding depth buffer 02

如图,triangles被sumitted时立即被hw处理,也就是immediate-mode renderer,IMR。

pipeline of IMR

Memory use in IMR

IMR很耗memory bandwidth,即使是对framebuffer pixels和depth values的很小的cache,在光栅化时都会transfer大量memory。IMR下的内存访问顺序不可预知,由submit triangles的方式决定。

如图,render image上方显示了4个连续image memory的cache lines,cache line是一个小矩形,表示cache line对应的pixel在哪里fall in到fambuffer:

  • 红色代表dirtry cache lines,已经被写入,
  • 绿色代表 clean cache lines,仍然match memory,
  • 亮色代表最近已被访问
    dirty cache lines相对应的frambuffer pixels 显示为粉色(framebuffer)和白色(在depth buffer里):
render in linear cache line 01
render in linear cache line 02

dirty的地方还没有画好,全变绿色就画好了。
这个动图要表达的是,每个cache line需要重新做好几次,因为每行都要画多个三角形(很多个spike尖角)。

Tiled memory

节省带宽的第一步是,把每个cache line当做是覆盖内存的two-dimensional rectangular,也就是tile。因为空间接近的triangles一般submitted的时间也接近。所以这样对cache area分组会提高cache hits命中率。
大小相同的linear cache与square cache,square cache发生的render更多,transfers to memory的频率更小,从而降低的带宽。同样的技术也用在texture storage,因为texture的读取也具有引用的空间局部性(spatial locality of reference)

这里说的很简单,实际的硬件会在pixels 和 memory之间做更复杂的映射,来提高locality of reference,引用的局部性。

render with square cache tiles 01
render with square cache tiles 02

Rasterizing within tiles

实际场景,framebuffer会被cached tiles更大。
一个问题就是如果简单的top-to-bottom order来画,那一个很大的triangle可能会thrash破坏cache。
因为屏幕的每个horizontal line水平线可能覆盖了比 fit in cache 更多的tiles,
所以需要改变triangle内pixels的rasterized 顺序:先画一个tile里的triangle覆盖的所有pixels,再移动到下一个tile。
这里的意思是,相比于cache,framebuffer里面一行含有更多的tile,

未完

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容