计算机基础: CPU怎么保证缓存一致性?

CPU缓存一致性

通常情况下,CPU单个时钟周期可以执行 3~9 个指令,CPU一次访问内存需要 200~300 个时钟周期。于是CPU引入了 CPU Cache 帮助CPU减少直接访问内存的次数,从而大大加速程序的执行速度。

但是CPU除了读数据外,还有写数据,这种情况下怎么保持 CPU Cache 与 内存 的数据一致性呢?我们由浅入深,先从单CPU模型开始分析。


写直达写回

单CPU情况下,以下2种方法都可以解决一致性问题:

  • write-through(写直达)
    这是保持 内存 与 CPU Cache 一致性最简单直接的方式,当发生"写操作"时,同时把数据写入 内存 和 CPU Cache

    不过弊端明显,无论数据是否在缓存中,都会往内存中写,这对性能来说是不可接受的。

  • write-back(写回)
    写回机制中,当发生"写操作"时:

    1. CPU先判断数据是否已在 CPU Cache
    2. exist -> 标记dirty
    3. no exist -> (仅当标记dirty)被替换的 Cache Line 对应数据写回内存 -> 新数据写入 CPU Cache

MESI协议

目前计算机CPU都是多核的,由于 CPU CacheL1L2 都是各个CPU核心独占的,因此CPU内会存在多份数据缓存副本,这种情况下单纯的 write-throughwrite-back 方案明显无法保证数据的一致性。

于是大多数CPU实现都使用了 MESI协议 , 这是一个基于失效的缓存一致性协议,是支持写回(write-back)缓存的最常用协议。

MESI协议 中,Cache Line 具有 M, E, S, I 4种状态,CPU读写 CPU Cache 时,根据 Cache Line 的状态变化进行一些列的信号操作,保证缓存一致性。

状态说明:

  • M (Modified 已修改)
  • E (Exclusive 独占)
  • S (Shared 共享)
  • I (Invalid 无效)

核心规则:

  1. Cache Line 状态是 M 时, 说明缓存副本是脏的。
  2. Cache Line 状态是 E 时, 说明缓存副本只存在一个CPU核心中。
  3. Cache Line 状态是 S 时, 说明缓存副本存在于多个CPU核心中。
  4. Cache Line 状态由 M 降级( S / I )时,必然会触发数据先回写到内存。
  5. Cache Line 状态由 S 升级( M )时,必然会将其他 Cache Line 状态置为 I
  6. Cache Line 的数据总是优先从其他有效的 Cache Line 中复制,然后再是从内存复制。

状态变化详细场景 (数据传输以红色绘制,而降级和无效流量以蓝色绘制):

  • 如果线程读取任何缓存中都不存在的数据,它将以独占状态 (E) 将该行提取到其缓存中:


  • 如果一个线程从另一个线程的缓存中处于共享状态 (S) 的缓存行读取数据,它会将该缓存行提取到处于共享状态 (S) 的缓存中:


  • 如果一个线程从另一个线程的缓存中处于独占状态 (E) 的缓存行读取数据,它会将该缓存行提取到其处于共享状态 (S) 的缓存中,并将另一个缓存中的缓存行降级为共享状态 (S):


  • 如果一个线程从另一个线程的缓存中处于修改状态 (M) 的缓存行读取数据,则另一个缓存必须先写回其修改后的缓存行版本并将其降级为共享状态 (S)。然后,执行读取的线程可以将缓存行添加到其处于共享状态 (S) 的缓存中:


  • 当线程拥有处于独占 (E) 或已修改状态 (M) 的缓存行时,它可以以非常低的开销写入该缓存行,因为它知道没有其他线程可以拥有需要使之无效的缓存行的副本。写入独占缓存行会使其处于已修改状态 (M):


  • 当线程写入处于共享状态 (S) 的缓存行时,它必须将该行升级为已修改状态 (M)。为了做到这一点,它必须使其他缓存中该行的任何副本无效 (I),以便它们不会保留过时的副本:


  • 当线程向其缓存中不存在的缓存行写入数据时,它必须获取该行并在所有其他缓存中使其无效 (I)。如果另一个线程有该缓存行的修改副本 (M),则必须先将其写回,然后执行写入的线程才能获取它。



参考:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容