多核处理器把多个CPU(核心)集成到单个集成电路芯片(integrated circuit chip)中。一个双核的CPU有2个中央处理单元,所以2个不同的进程可以分别在不同的核心同时执行,大大加快了系统的速度。由于2个核心都在一个芯片上,因此它们之间的通信也要更快,系统也会有更小的延迟。
CPU Cache
CPU访问内存时,首先查询cache是否已经缓存该数据,如果有则返回数据,无需访问内存,否则需要把数据从内存中载入cache,再返回给处理器。
Cache之所以有效,是因为程序对内存的访问存在一种概率上的局部特征:
- Spatial Locality:对于刚被访问的数据,其相邻的数据在将来被访问的概率高
- Temporal Locality:对于刚被访问的数据,其本身在将来被访问的概率高
Cache信息,单位是byte
- CacheLine size:64byte
- L1 data Cache:32KB
- L1 Instruction Cache:32KB
- L2 Cache:256KB
- L3 Cache:4MB
Cache消耗数据
缓存行
Cache是由很多个Cache Line组成的。Cache Line是Cache和RAM交换数据的最小单位,通常为64Byte。当CPU把内存的数据载入Cache时,会把临近的共64Byte数据一同放入同一个Cache Line,因为空间局部性(Spatial Locality)
CPU缓存在顺序访问连续内存数据是发挥出了最大的优势
public class Main {
static long[][] arr;
public static void main(String[] args) {
arr = new long[1024 * 1024][8];
// 横向遍历
long marked = System.currentTimeMillis();
for (int i = 0; i < 1024 * 1024; i += 1) {
for (int j = 0; j < 8; j++) {
sum += arr[i][j];
}
}
System.out.println("Loop times:" + (System.currentTimeMillis() - marked) + "ms");
marked = System.currentTimeMillis();
// 纵向遍历
for (int i = 0; i < 8; i += 1) {
for (int j = 0; j < 1024 * 1024; j++) {
sum += arr[j][i];
}
}
System.out.println("Loop times:" + (System.currentTimeMillis() - marked) + "ms");
}
}
伪共享
伪共享指的是多个线程同时读写同一缓存行的不同变量时导致的CPU缓存失效。如果多个线程的变量共享了同一个CacheLine,任意一方的修改操作都会使整个CacheLine失效,也就意味着频繁的多线程操作,CPU缓存将会彻底失效,降级为CPU core与内存的直接交互。
伪共享解决方法
Java6中实现字节填充
public class PaddingObject{
public volatile long value = 0L; // 实际数据
public long p1, p2, p3, p4, p5, p6; // 填充
}
缓存问题
CPU有了高速缓存之后,在程序运行时,会将运算需要的数据从主内存复制一份到CPU的高速缓存中,接着在高速缓存中进行读取与写入操作,当运算结束后,会将高速缓存中的数据刷新到主内存中。
由于是多线程,可能多个线程会同时拷贝一份主存中的对应变量,接着在线程中不断对自己线程的副本进行读取写入操作,当多个线程执行完成之后,重新刷新高速缓存中的数据到主存,此时就会出现缓存不一致问题。
解决方案
-
总线探测(锁总线)
通过在总线上加锁的方式对整个内存进行加锁。因为锁的是IO总线,所有操作就变成串行的了,会带来性能问题。 -
缓存一致性协议(锁缓存行)
通过对单个缓存行的数据进行加锁,不会影响到内存中其他数据的读写。锁粒度变小,性能提高。如果锁的数据超过缓存行大小,这个锁也会失效,退化成锁总线。
内存屏障
为了防止Store Buffer造成的CPU对内存的乱序访问,引入内存屏障来保证数据的可见性。
CPU层面的内存屏障包括:
-
写屏障
告诉处理器在写屏障之前的所有已经存储到存储缓存(Store Buffer)中的数据同步到主内存中 -
读屏障
使高速缓存中的数据失效,强制从主内存中读取数据 -
全屏障
写屏障 + 读屏障