理解superscalar和multi-threading（涉及hyperthreading）和multi-core区别

title: 理解superscalar和multithreading和multi-core区别
date: 2020-05-24 17:32:29
tags:

看到网上有一篇文章用汽车收费站来解释这三个概念，想法很好，但是感觉没说那么清楚，于是我自己来说一遍

0. 一般情况

normal.jpg

想象一下你是公路的设计者，现在要对车子进行收费，你怎么办？

最一般的情况就很简单了：让所有车子排一排，依次通过一个收费站，结束。

如果车流很少的话当然没有问题，但是高速公路（CPU）很贵，为了不浪费我们会让尽可能多的车上高速，这样所有的车都会堵在收费站。那么怎么加速呢？

1. 多收费站

hyperthreading.jpg

很多地方采取的解决办法就是多加几个收费站（当然可以不止两个）。这样一次就能进来两辆车，两个收费站无论哪个空了就会有新的车子不补上去，理论上如果有n个收费站速度就加快了n倍（实际上当然做不到）。

2. 多开几条车道

superscalar.jpg

如果你真正在高速上开过车你就会发现：实际上一条路上有多个车道（快车道、慢车道），而在临近收费站的时候甚至会被突然扩展成更多的车道，让车子能够分流。

车子到达收费站的时候，实际上你就能看到有多个车道，那个空去那里，理论上设立n条车道也能提高n倍效率。

3. 另开一条路

multicore.jpg

比如A地到B地的公路很堵，恰巧政府有很有钱的话，那就很简单了：再铺一条公路。两条路是完全互不干涉的（independent），人们看着那条路比较空就往哪条路走就行了。

最终你就得到了现在实际运行中的收费站模式

结合CPU

上面已经说的很明白了：

方法1就是multithreading,方法2就是superscalar，方法3就是multicore。

multithreading就是在一个CPU core上设立n条thread让多个程序同时进行。那么可能就有人问了：CPU一个core不是只能同时跑一个程序吗，为什么现在能同时跑多个了？其实这里要明白一个核心问题：CPU core很贵但是同时也非常快，拖累你运行速度的其实很多是与memory之间的交互。

打个比方就是收费员算你要交多少钱很快，但是你拿钱和收费员找零就很慢了。那么对于cpu而言所谓的设立多个收费站其实就是在你拿钱的时候让收费员去算下一个人的钱--有可能下一个人拿etc卡很快就过去了，而这个时候正好可以等你拿钱。CPU core实际上就是在多个程序之间跳来跳去，如果有人需要与memory交互，让就交给memory去办，cpu先去跑别的程序。

multithreading本质上是对CPU core性能的高效利用，尽可能让CPU core始终满负荷运行。所以这种方法受限于cpu本身的性能。

这里额外提一句hyperthreading，这个技术比较复杂而且实际表现也没有那么好（在intel顶级CPU上还在使用，追求极致效率），用比较模糊的话说就是把一个CPU核心掰成两半 (其实还是thread的优化)，模拟出多个 logical units，本质上是建立在multithreading中每个thread利用率不高的前提下进一步提高效率。

superscalar是risc的技术，需要硬件的支持是用空间换效率，在一个core上需要放多个functional units（ALU, FPU, etc）但是又共享一部分硬件，这样一个CPU core一次clock cycle里就能执行多个指令。其中当然还有很多细节问题，但是大体上逻辑如此。
multi-core这个就很简单了，堆CPU核心就完事儿了（实际上如何堆核心是很大的一个难题--如何把一个本来单线程的程序均匀地分布到多个核心上运算，最后还能合回来，很难），这也是现在的发展主流。相反过去疯狂提升频率的方法被逐渐抛弃，甚至有些cpu主动降频来获得更好的发热表现。

总结

虽然基本的原理就是如此，但是上述三种提高性能的方法都需要程序员来协调如何分配车流（有些东西最底层的硬件已经完成）

最后编辑于：2020.05.24 19:25:43