计算机的历史
算盘和机械计算机
有很多民族自豪感爆棚的兄弟会把算盘当成计算机的起源,还有爆破天的兄弟会把阴阳当成二进制0和1的起源,我觉得这件事儿就有点儿不靠谱了
如果非要追究计算机的鼻祖,那就得讲讲17世纪前欧洲的故事,最早的计算机其实是计算器,就是算数用的,在欧洲工业工业革命的时候,大量的工业模具需要计算,欧洲又没有中国传统的计算器 - 算盘,就催生了很多科学家发明自己的计算器(对,就是计算器,就是以前菜市场还在使用的那种,还不能称之为现在的计算机),这其中有个NB的人物,这个人叫布莱士帕斯卡,我们的压强单位(帕,千帕,百帕,兆帕)等等,就是以这哥们儿的名字命名,还有,计算机语言里面有一种叫做Pascal,就是为了纪念他。

就是这么个NB的人物,发明了最早的机械计算器,长这样儿:
经过后人的逐步改进,机械计算机的最后发展堪称精美,有长这样儿的:
还有长成这样儿的:
还有更NB的:
机械计算机改进者中有个人值得一提,他就是德国百科全书式的天才,17世纪的亚里士多德 -- 莱布尼茨!

莱伯尼兹这个人又是个大牛,他既懂物理又懂数学(物理数学不分家),著名的微积分基本定理,牛顿莱布尼茨公式,就是莱布尼茨发明的,当然这里面是牛顿跟莱布尼茨或者说英国跟欧洲大陆的恩怨情仇。简单说,莱布尼茨发表论文创立微积分公式,牛顿当时是英国皇家学会的老大,话语权影响力比较大。牛顿说莱布尼茨发表的公式是参考了牛顿三年前的笔记,莱布尼茨嗓门不够响,争不过牛顿,所以没有办法,后人就把这个公式称为牛顿莱布尼茨公式。
一个人想在社会取得回报或者想发挥巨大作用,就必须要明白这个社会的运行机制,通过这件事儿,大家应该明白话语权的(传媒、笔杆子)重要性,如果还不能理解,参考美国把上个世纪的美国病毒命名为西班牙病毒这件事儿,当然最近又想把新冠病毒扣在我们脑袋上,就是因为他把控了话语权。衍生出来你应该明白的是,历史是个任人打扮的小姑娘,你看到的,你听到的,都是别人想让你看到和听到的,所以你要进行深度的思考,他是谁?为什么这么说?他说的是真的吗?对我有没有什么企图?多问自己几个为什么,你会慢慢从白痴成为智者。
扯远了,还说回来莱布尼茨,他除了改进机械计算机以外,还有一个重要的发明,那就是大名鼎鼎的二进制!(这里终于跟现代IT技术关联起来了)据说二进制的发明是参考中国古代的阴阳太极图而创作出来的,对此,我觉得倒是真的有可能。因为莱布尼茨有一本著名的著作,叫做《论中国人的自然哲学》,说明这个人对中国是有研究的。而且,他发明了二进制以后,还通知了当时的康熙大帝,因为他认为康熙大帝是个数学迷(对此我深表怀疑)。
当然,机械计算机又大又笨重,早就被现代的电子计算机所取代,不过说句题外话,机械计算机也有电子计算机所不具备的优点,就是结实耐用,几百年都不坏,而且,还不用电 ,谁要是大学食堂里面打饭收费做计算的时候来这么一台,那绝对是学妹眼中最酷的仔!
顺便也来一张现代电子计算机的鼻祖(当然,第一台电子计算机这件事儿也是见仁见智,美国嗓门大,所以现在资料大多认为1946诞生于美国宾夕法尼亚大学的“ENIAC”是世界上第一台电子计算机),它长这样儿:
这是个庞然大物,它大概占地一个别墅,跟一辆前苏联虎式坦克一样重,每个小时耗电150度,但是,每秒钟的计算量仅区区的5000次,要知道现在手机上的芯片的计算速度可以达到每秒10 0000 0000 0000次。不过就是这样一台还比上菜市场计算器的东西,开启了20世纪最NB的数字化革命!从此之后,计算机行业飞速发展,造就了现在所谓的信息化大革命。
严格讲,这台机器应该称作电子管计算机,因为,这里面用的零件全部都是电子管,电子管如果开关的速度太快,很容易就会坏掉,据说这台机器每天都会有电子管冒烟儿,工程师在寻找和修复每一个电子管中疲于奔命,想象一天24小时,计算时间仅有半小时,剩下的23个半小时都是在寻找和修复坏掉的点,这是多么让人抓狂的一件事。如果你不能理解这件事儿,想象一下一个灯泡每秒不停地开关5000次,它会不会坏掉。而且,电子管还有很严重的发热问题,需要把风扇进行紧密的排布,这也是一个工艺难题。
不过,幸运的是,在这台又笨重毛病又多的计算机问世的第二年,也就是1947年,美国贝尔实验室研究发明了晶体管,和电子管相比,晶体管体积又小,耗电还低,最重要每秒开关几十万上亿次都不带坏的,从这一刻开始,计算机革命才真正的进入了突飞猛进的时代。
这堂课,我们要讲的就是计算机的原理。
CPU的原理
为什么讲线程要讲CPU?因为线程和CPU有一对一的对应关系!(超线程除外)
当然,现代的计算机的核心,也就是芯片,是由10 0000 0000 零件构成,我没有办法带你走遍这里面的每一个细节,不过,作为高级语言的程序员,我会带你走到足够深的深度,让你能够深入理解你写的每一行代码到底在计算机内部是怎么转换成电信号,从而被精密执行的。这一点很重要,因为这会给你带来“通透感”(原谅我找不到更好的形容词,现在很多程序员是没有经过科班训练的,是根据业务进行速成的,对这样的小伙伴儿来说,你写的代码虽然可以工作,但是它对你是一个黑盒子,你看不到代码背后的一切,从而也就无法进行更深入的理解和更准确的调优,总之,我个人非常喜欢这种通透感,我不喜欢一个技术对我来说是黑盒,是秘密,希望你也能理解和享受这种通透感)
好吧,让我们揭开代码背后的神秘世界吧。
还要从一个故事谈起。
我小时候最喜欢的女同学叫小芳,长得好看又善良,我们俩情投意合,每天放学后都约会共同进步,童年的时候山青水白,鸟语花香,环境特别好,我们的年纪都很小,我爱谈天她爱笑,有一回并肩坐在桃树下,风在林梢鸟在叫,不知怎么就睡着了,梦里花落知多少...
不要打断我,让我陷在美好的回忆中不可自拔一会儿。
只不过后来大人发现了我们的联系,用他们自带的污秽的思想,认为我们的关系是污秽的,是不纯洁的,我们当时还没有罗密欧与朱丽叶,梁山伯与祝英台这样的觉悟,不懂得以死相争,所以就被双方家长棒打鸳鸯,各自关了禁闭。
不过这个难不倒刚刚学了电学的我,我们就设立了这样入门级别的电路:

我还发明了灯泡语言:
亮亮 = 放
亮灭 = 学
灭亮 = 等
灭灭 = 我
当然你会发现如果只有两个信号的组合,就最多表示四个字,如果想沟通更顺畅,我只要增加信号的组合长度就可以了,比如三个信号,我就可以表示八个字
亮亮亮 = 放
亮亮灭 = 学
亮灭亮 = 等
亮灭灭 = 我
灭灭亮 = 一
灭灭灭 = 起
灭亮灭 = 电
灭亮亮 = 影
如果想交流的更加复杂,我可以增加更长的信号组合,比如我如果用16个长度的信号,就可以表示2^16个汉字,这个数字是65536,要知道,我们日常的汉字常用的话也就4000个左右,整个康熙字典的总字数也仅仅47000个,我用灯泡信号的长度仅需要16个信号长,就足矣涵盖中文的交流了。
思考题:如果仅需要覆盖日常交流(4000个汉字),我需要的信号组合的长度至少是多少?
灯泡语言有些复杂,我结合莱布尼茨的二进制,用1来代表灯泡亮(通电),用0来代表灯泡灭(断电),这样我和小芳就有了自己的通信语言,比如下面这句话,你猜我说了什么?
111 110 001 000 = (? )把答案写到括号里。
话说到这里,不知道大家有没有发现,我发明了一种汉字编码,就是把特定的汉字用0和1的组合表示出来,注意,汉字的编码并不是只有一种方式,完全有可能发生的是,在一种的编码方式中,111代表'我',而在另外一种编码方式中111代表'中',如果我们在解析一段编码的用错了编码格式,就会出现平时经常遇见的'乱码'问题。
思考题:A编码中,111 = 我 110 = 你,B编码中 111 = 沙 110 = 雕,那么下面这段话究竟代表什么呢?
110 111 110
再有了第一个电路的基础之上,我有设计了下面的电路:

这里就有了输入和输出的概念了
输入1输入2输出
000
010
100
111
可以用这样的符号表示:

也可以有这样的电路:
加法器
输入1输入2加和输出进位输出
0000
0110
1010
1101
时钟
ram 保存信号
程序 - 自动化(时钟信号 +
荐书
《编码 隐匿在计算机软硬件背后的语言》《Code: The Hidden Language of Computer Hardware and Software》
程序的执行
进程与线程
一个程序,读入内存,全是0和1构成
从内存读入到CPU计算,这个时候要通过总线
怎么区分一段01的数据到底是数据还是指令?
总线分类为三种:控制线 地址线 数据线
一个程序的执行,首先把可执行文件放到内存,找到起始(main)的地址,逐步读出指令和数据,进行计算并写回到内存。
什么是进程?什么是线程?
一个程序进入内存,被称之为进程?一个QQ.exe可以运行多份儿吗?
同一个进程内部:有多个任务并发执行的需求(比如,一边计算,一边接收网络数据,一边刷新界面)
能不能用多进程?可以,但是毛病多,最严重的毛病是,我可以很轻易的搞死别的进程
线程的概念横空出世:共享空间,不共享计算
进程是静态的概念:程序进入内存,分配对应资源:内存空间,进程进入内存,同时产生一个主线程
线程是动态的概念:是可执行的计算单元(任务)
一个ALU同一个时间只能执行一个线程
同一段代码为什么可以被多个线程执行?
线程的切换
保存上下文,保存现场
问题:是不是线程数量越多,执行效率越高?(初级)
展开:调度算法怎么选?(难)
问题:单核CPU多线程执行有没有意义?(初级)
问题:对于一个程序,设置多少个线程合适?(线程池设定多少核心线程?)(中高级)
线程调度器算法(平均时间片、CFS(考虑权重))
CPU的并发控制
关中断
缓存一致性协议
CPU的速度和内存的速度(100 :1)
这里的速度值得是ALU访问寄存器的速度比访问内存的速度快100倍
为了充分利用CPU的计算能力,在CPU和内存中间引入缓存的概念(工业上的妥协,考虑性价比)
现在的工业实践,多采用三级缓存的架构
缓存行:一次性读取的数据块
程序的局部性原理:空间局部性 时间局部性
如果缓存行大:命中率高,但读取效率低。如果缓存行小:命中率低,但读取效率高。
工业实践的妥协结果,目前(2021)的计算机多采用64bytes (64 * 8bit)为一行
由于缓存行的存在,我们必须有一种机制,来保证缓存数据的一致性,这种机制被称为缓存一致性协议。
系统屏障
程序真的是按照“顺序”执行的吗?
CPU的乱序执行
Disorder这个程序,证明乱序执行的确存在
为什么会乱序?主要是为了提高效率(在等待费时的指令执行的时候,优先执行后面的指令)
线程的as-if-serial
单个线程,两条语句,未必是按顺序执行
单线程的重排序,必须保证最终一致性
as-if-serial:看上去像是序列化(单线程)
会产生的后果
多线程会产生不希望看到的结果
ThisEscape(this 溢出问题)
推荐《Effective Java》- 不要在构造方法中启动线程!
哪些指令可以互换顺序
hanppens-before原则(JVM规定重排序必须遵守的规则)
JLS17.4.5 (不需要记住)
•程序次序规则:同一个线程内,按照代码出现的顺序,前面的代码先行于后面的代码,准确的说是控制流顺序,因为要考虑到分支和循环结构。
•管程锁定规则:一个unlock操作先行发生于后面(时间上)对同一个锁的lock操作。
•volatile变量规则:对一个volatile变量的写操作先行发生于后面(时间上)对这个变量的读操作。
•线程启动规则:Thread的start( )方法先行发生于这个线程的每一个操作。
•线程终止规则:线程的所有操作都先行于此线程的终止检测。可以通过Thread.join( )方法结束、Thread.isAlive( )的返回值等手段检测线程的终止。
•线程中断规则:对线程interrupt( )方法的调用先行发生于被中断线程的代码检测到中断事件的发生,可以通过Thread.interrupt( )方法检测线程是否中断
•对象终结规则:一个对象的初始化完成先行于发生它的finalize()方法的开始。
•传递性:如果操作A先行于操作B,操作B先行于操作C,那么操作A先行于操作C