所谓的串行,就是程序会按照你编写的代码,一步一步往下进行执行,只有执行完前面的方法,才会进入下一个方法。这种程序是最常见的,也是最易编写的代码。但是随着技术的发展,硬件的进步,我们的CPU越来越强,核心越来越多,内存也越来越大,如果我们还使用这种编程方式的话,本身程序是不会有问题的,但是会大量的浪费硬件的性能。由此引入了并发编辑,主要是为了充分利用多核的CPU,充分的利用我们所拥有的一切资源。
并发的目的是为了让程序运行的更快,但是,并不是启动更我的纯种就能让程序最大限度地并发执行。在进行并发编辑时,如果希望通过多纯种执行任务让程序运行的更快,会面临非常多的挑战,比如上下文切换的问题,以及受限于硬件和软件的资源限制问题。
此处我会记录几个比较常见的并发挑战:
1.上下文切换
即使是单核处理器也支持多线程执行代码,CPU通过给每个线程分配CPU时间片来实现这个机制。时间片是CPU分配给各个线程的时间,因为时间片非常短,所以CPU通过不停的切换线程执行,让我们感觉多个线程是同时执行的,时间片一般是几十毫秒(ms)。
CPU通过时间片分配算法来循环执行任务,当前任务执行一个时间片后会切换到下一个任务。但是,在切换前会保存上一个任务的状态,以便下次切换回这个任务时,可以再加载这个任务的状态,所以任务从保存到再加载的过程就是一次上下文切换。
1.1 多线程一定快吗?
我们使用下面的代码来进行演示,看一下结果。
package com.hexy.java8;
public class ConcurrencyTest {
private static final long count = 1000001;
public static void main(String[] args) throws InterruptedException {
concurrency();
serial();
}
private static void concurrency() throws InterruptedException {
long start = System.currentTimeMillis();
Thread thread = new Thread(new Runnable() {
@Override
public void run() {
int a = 0;
for(long i=0;i<count;i++){
a += 5;
}
}
});
thread.start();
int b = 0;
for(long i=0;i<count;i++){
b--;
}
thread.join();
long time = System.currentTimeMillis()-start;
System.out.println("concurrency:"+time+"ms,b="+b);
}
private static void serial(){
long start = System.currentTimeMillis();
int a=0;
for(long i=0;i<count;i++){
a+=5;
}
int b=0;
for(long i=0;i<count;i++){
b--;
}
long time = System.currentTimeMillis() - start;
System.out.println("serial:"+time+"ms,b="+b+",a="+a);
}
}
当count=100000时:
concurrency:2ms,b=-100000
serial:2ms,b=-100000,a=500000
当count=1000000时:
concurrency:3ms,b=-1000000
serial:6ms,b=-1000000,a=5000000
结论是不一定,具体的也可以根据以上代码进行自行调试。
1.2测试上下文切换次数和时长
使用Lmbench3可以测量上下文切换的时长。
使用vmstat可以测量上下文切换的次数。
使用方法
1.3减少上下文切换
减少上下文切换的方法有无锁并发编程、CAS算法、使用最少线程和使用协程。
无锁并发编辑。多线程竞争锁时,会引起上下文切换,所以多线程处理数据时,可以用一些办法来避免使用锁,如将数据的ID按照Hash算法取模分段,不同的线程处理不同段的数据。
CAS算法。Java的Atomic包使用CAS算法来更新数据,而不需要加锁。
使用最少线程。避免创建不需要的线程,比如任务很少,但是创建了很多线程来处理,这样会造成大量线程都处于等待状态。
协程:在单线程里实现多任务的调度,并在单线程里维持多个任务间的切换。
2.死锁
锁是个非常有用的工具,运用多场景非常多,因为它使用起来非常简单,而且易于理解。但同时它也会带来一些困扰,那就是可能会引起死锁,一旦产生死锁,就会造成系统功能不可用。避免一个线程同时获取多个锁。
避免一个线程在锁内同时占用多个资源,尽量保证每个锁只占用一个资源。
尝试使用定时锁,使用 lock.tryLock(timeout)来替代使用内部锁机制。
对于数据库锁,加锁和解锁必须在一个数据库连接里,否则会出现解锁失败的情况。
3.资源限制的挑战
(1)什么是资源限制
资源限制是指在进行并发编程时,程序的执行速度受限于计算机硬件资源或软件资源。例如,服务器的带宽只有2M/s,某个资源的下载速度是1M/s每秒,系统启动10个线程下载资源,下载速度不会变成10M/s,所以在进行并发编程时,要考虑这些资源的限制。硬件资源限制有带宽的上传/下载速度、硬盘读写速度和CPU的处理速度。软件资源限制有数据库的连接数和socket连接数等。
(2)资源限制引发的问题
在并发编程中,将代码执行速度和加快的原则是将代码中串行的部分变成并发执行,但是如果将某段串行的代码并发执行,因为受限于资源,仍然在串行执行,这时候程序不仅不会加快执行,反而会更慢,因为增加了上下文切换和资源调度的时间。例如,之前看到一段程序使用多程在办公网并发地下载和处理数据时,导致CPU利用率达到100%,几个小时都不能运行完成任务,后来修改单线程,一个小时就执行完成了。
(3)如何解决资源限制的问题
对于硬件资源限制,可以考虑使用集群并行执行程序。既然单机的资源有限制,那么就让程序在多机上运行。比如使用ODPS、Hadoop或者自己搭建服务器集群,不同的机器处理不同的数据。可以通过“数据ID%机器数",计算得到一个机器编号,然后由对应编号的机器处理这笔数据。
对于软件资源限制,可以考虑使用资源池将资源复用。比如使用连接池将数据库和Socket连接利用,或者在调用对方webservice接口获取数据时,只建立一个连接。
(4)在资源限制情况下进行并发编辑
如何在资源限制的情况下,让程序执行得更快呢?方法就是,根据不同的资源限制调整程序的并发度,比如下载文件程序依赖于两个资源--带宽和硬盘读写速度。有数据库操作时,涉及数据库连接数、如果SQL语句执行非常快,而线程的数量比数据库连接数大很多,则某些线程会被阻塞,等待数据库连接。