利用周末的时间总结一下对java内存模型的认识
原子性
其实去了解java内存模型主要是为java并发打下基础。我刚学编程接触多线程的时候,关于多线程并发为什么会有并发问题有过一些思考,老师或者网上的例子都会给出一个类似这样的例子:
输出结果:
可以看到,老婆往账户上存钱,自己从账户上取钱,两个线程同时发生,(为了保证获得演示效果,我们让取钱过程卡了一秒),结果苦逼了,账户上余额为零了,跟老婆解释不清了。
分析一下出现问题的原因:
出现这个问题的原因就在于两个人操作同一个账户,在一个人修改账户余额的时候另一个人也在修改账户余额,造成结果混乱。账户余额就是共享变量,操作账户的人就是并发线程,我们把这两个线程叫做自己线程和老婆线程。
这就涉及到线程并发的第一个问题:原子性。
我们可以看出来,出现上面的问题的主要原因其实有两部分:取钱和设置余额。取钱和设置余额这两个动作并不是原子操作,他们是分开执行的。如果在取完
钱之后自己线程被挂起(这个挂起跟线程调度有关,我们在程序中模拟了这个挂起操作),老婆线程开始存钱。老婆线程存完钱后,自己线程又把刚刚的
tempAccount设回余额,使旧的tempAccount覆盖了新的accountBalance,造成结果错误。
为了实现这种错误的效果,我故意把
拆成了上面的两行。其实accountBalance -= accountBalance;本身就不是一个原子操作,拆成两行是为了放大这种效果。
通过上面的分析,我们得出,某些读写共享变量的操作如果不是原子操作,多线程并发的情况下会出现并发问题。如何判断是否需要进行原子操作,跟业务逻辑有关,需要我们自己去判断。注意,常见的x=y,x++等都不是原子操作。
原子性是出现并发问题的重要因素,大多数情况下多线程并发出现问题都跟没有实现原子操作有关。原子性实现了多个线程并发访问某段代码的时候,使这些线程能够有序访问。因为实现原子操作代码的一旦被执行,就不能被打断,其他线程想要访问的时候,只能阻塞等待。
java中实现原子性使用了synchronized关键字,在synchronized块之间的代码具备原子性。把上面代码中的两个run方法声
明为synchronized的,这样的话,这段代码中涉及到的对共享变量的操作就不会随意被打断,要么存完钱再去取,要么取完钱再去存,不会有上述代码
提到的问题。
那么,该段代码出现并发问题仅仅是因为没有对共享变量实现原子操作吗?下面看内存可见性。
组
成原理中学过,为了更充分的利用CPU的性能,往往要在内存与处理器之间加一层:Cache(缓存),来作为内存与处理器之间的缓冲:将处理器需要的数据
复制到缓存当中,当运算结束后再从缓存同步回内存当中。因为缓存的速度远远快于内存,这样处理器无需等待缓慢的内存读写,解决了处理器与内存的速度矛盾。
Java虚拟机也有类似的机制,每个线程有其自己的工作内存(类似前面的Cache),线程对变量的读写必须在工作内存中进行,而不能直接读写主存中的变量。(这里的变量指被各个线程共享的变量,比如堆中的对象和方法区中的变量。)
画个图:
这样的机制会带来另一个问题:缓存一致性。多个线程共同处理同一个变量时,各自的缓存中的数据并不一致,同步回主内存的数据以谁的缓存数据为准呢?这就带来了并发问题。
我们回到上述的例子:
上面例子中的代码出现并发问题仅仅是因为没有对共享变量实现原子操作吗?现在我们知道自己线程和老婆线程有各自的工作内存,他们各自对accountBalance 的读写都是基于工作内存的。然后在恰当的时机同步回主内存。现在我们假设类似accountBalance -= accountBalance;这样的操作是原子性操作,设想以下的场景:
1.老婆线程向账户中存10000,此时操作老婆线程工作内存中的accountBalance~(我们使用~来表明这个变量是工作内存当中的),此时accountBalance~ = 20000;accountBalance = 10000;
2.自己线程现在向账户中取10000,此时操作自己线程工作内存中的accountBalance~(注意此accountBalance~跟老婆线程中的accountBalance~不是同一个),此时accountBalance~ = 0;accountBalance = 10000;
3.现在老婆线程把自己的accountBalance~刷回主内存,此时accountBalance = 20000;
4.现在自己线程把自己的accountBalance~刷回主内存,此时accountBalance = 0;
通过以上的分析,看到了即使我们使对共享变量的写操作实现了原子性,但由于内存可见性的问题,依然存在并发问题。这就是造成多线程并发的第二个原因:内存可见性。
我们在原子性分析最后还说了,通过使用synchronized关键字可以保证不存在并发问题,是因为synchronized不仅实现了代码原子
性操作,还保证了内存可见性。每次执行加锁和释放锁的同时,都会把线程的工作内存和主内存进行同步。一方面,它使自己线程和老婆线程只能串行操作账户余
额,另一方面,他保证了当老婆线程存完钱之后会把自己工作内存中的accountBalance~刷回主内存。设想synchronized没有实现内存
可见性的话,上面的问题依旧存在,注意这和互斥没有什么关系,此时两个线程依旧是串行访问。解释这么啰嗦主要是让大家明白原子操作和内存可见是造成并发问
题的两个不同因素,但是通过锁可以同时解决这两个因素带来的问题。
Cpu在执行指令的时候,为了优化提高Cpu运行程序的速度,会将多条指令不按程序规定的顺序分发给各个不同的电路单元处理,叫做指令重排序。注意乱序执行的指令之间没有数据依赖关系,因为乱序执行的结果必须保证结果的正确性。理解起来比较麻烦,通过一个例子来看一下。
以下例子来自《深入理解Java虚拟机》:
Map configOptions;
char[] configText;
booleaninitialized =false;
//假设以下代码在线程A中执行
//模拟读取配置信息,当读取完成后将initialized设置为true通知其他线程配置可用
publicsynchronizedvoidinit(){
configOptions =newHashMap();
configText = readConfigFile(flieName);
processConfigOptions(configText,configOptions);
initialized =true;
}
//假设以下代码在线程B中执行
//等待initialized为true,代表线程A已经把配置信息初始化完成
publicsynchronizedvoiddoSomething(){
while(!initialized){
sleep();
}
//使用线程A中初始化好的配置信息
doSomethingWithConfig();
}
注意上面两个方法在同一个类中实现。
至此,我们分析出了造成多线程并发问题的三个原因:原子性、可见性、原子性。并且知道了通过synchronized可以解决这三个因素带来的并发问题。java中大部分的并发控制都能通过synchronized来实现。
先行发生原则
没有理解先行发生原则之前,看到网上很多博客提到这个,感觉很高深有木有~~~,理解了他
之后,发现其实也挺简单。理解先行发生原则有助于我们判断线程是否安全,并发环境下两个操作之间是否存在数据冲突的问题。通过阅读《深入理解java虚拟
机》和参阅网上的一些博客,我认为通过先行发生原则可以使我们知道自己写的多线程程序是否会因为可见性、原子性两个因素导致并发问题产生。至于原子性带来
的问题,应该是程序员自己去分析具体的业务逻辑场景,并不能通过套用先行发生原则来判断自己的程序是否有并发问题。
比如我想到了一个bug:
在JDBC中获取日期之后通过一个静态的SimpleDateFormat对象把日期类型转换为字符串返回给用户。高并发情况下出现了这样一个问题:返回的日期是错误的,跟用户期待的日期不一致。
后来通过反复排查,最后发现是这个静态SimpleDateFormat对象造成的并发问题,他内部有一个Calendar对象,每次执行format方法的时候会调用calendar.setTime(date);,很明显当某个线程中在日期转换过程中被挂起的时候,恰好另一个线程也在执行转换日期的代码,他们调用同一个SimpleDateFormat对象中的同一个calendar.setTime(date);,结果肯定就变得混乱了。
上面的问题就是静态SimpleDateFormat对象被共享带来的结果,实际上也是原子性的问题,跟有序性和可见性并没有太大的关系。这就是所谓的业务逻辑相关,需要我们自己去分析。
解释了半天先行发生原则的作用和使用条件,下面该说说先行发生原则本身。
先行发生原则是指:如果说操作A先行发生于操作B,也就是发生在操作B之前,操作A产生的影响能被操作B观察到。