https://developer.samsung.com/game/gpu-framebuffer
render需要大量的memory bandwidth,他的空间和功率开销很大。所以移动设备会使用tile-based rending。
Immediate mode rasterizers
传统的graphics API接口是按顺序submit triangles,也就是GPU依次render每个triangle,所以rasterization是这样的:
如图,triangles被sumitted时立即被hw处理,也就是immediate-mode renderer,IMR。
Memory use in IMR
IMR很耗memory bandwidth,即使是对framebuffer pixels和depth values的很小的cache,在光栅化时都会transfer大量memory。IMR下的内存访问顺序不可预知,由submit triangles的方式决定。
如图,render image上方显示了4个连续image memory的cache lines,cache line是一个小矩形,表示cache line对应的pixel在哪里fall in到fambuffer:
- 红色代表dirtry cache lines,已经被写入,
- 绿色代表 clean cache lines,仍然match memory,
- 亮色代表最近已被访问
dirty cache lines相对应的frambuffer pixels 显示为粉色(framebuffer)和白色(在depth buffer里):
dirty的地方还没有画好,全变绿色就画好了。
这个动图要表达的是,每个cache line需要重新做好几次,因为每行都要画多个三角形(很多个spike尖角)。
Tiled memory
节省带宽的第一步是,把每个cache line当做是覆盖内存的two-dimensional rectangular,也就是tile。因为空间接近的triangles一般submitted的时间也接近。所以这样对cache area分组会提高cache hits命中率。
大小相同的linear cache与square cache,square cache发生的render更多,transfers to memory的频率更小,从而降低的带宽。同样的技术也用在texture storage,因为texture的读取也具有引用的空间局部性(spatial locality of reference)
这里说的很简单,实际的硬件会在pixels 和 memory之间做更复杂的映射,来提高locality of reference,引用的局部性。
Rasterizing within tiles
实际场景,framebuffer会被cached tiles更大。
一个问题就是如果简单的top-to-bottom order来画,那一个很大的triangle可能会thrash破坏cache。
因为屏幕的每个horizontal line水平线可能覆盖了比 fit in cache 更多的tiles,
所以需要改变triangle内pixels的rasterized 顺序:先画一个tile里的triangle覆盖的所有pixels,再移动到下一个tile。
这里的意思是,相比于cache,framebuffer里面一行含有更多的tile,
未完