X86处理器架构--Nehalem

处理器发展历史

最开始的处理器比较简单,8086处理器是评估当前的指令指针(CS:IP)指向的指令,然后再执行解码、执行、退出,并移动指令指针到下一个位置,每一个新的芯片都做了改进,大多数的芯片增加了新的功能,一些增加了新的寄存器,基于本篇文章的目的,我主要关注在对指令集运行方面有很大影响的变化,其它的例如新增了虚拟内存空间或者平行处理器等也非常值得一说和有用,但是这篇文章不会讨论。

指令集缓存在1982年被加入到CPU中,取代了每次执行一个指令都要去访问主内存,CPU只要读取当前指令指针指向的数据即可,但是指令集缓存很小,仅仅可以缓存很少的指令,但是确实通过减少了来回访问主内存的次数提高了性能。

1985年,386新增了数据缓存,同时扩展了指令集缓存,通过读取数据之外的层面提高了性能,在这点上指令集缓存和数据缓存大大小也从几个字节上升到几千的字节层面。

1989年,i486升级到了5层流水线,相对于以前每个CPU只有一个指令处理的流水线,现在每一层都有一个指令处理流水线,在相同的时钟频率下,486的性能是386的2倍,每一个流水线都从缓存中获取指令(当时的指令集缓存大部分都是8KB),第2层的流水线会解码指令集,3层会解析指令执行需要的内存地址(要理解这一点需要明白计算机中的内存地址表示方式),第4层会执行指令,第5层执行退出,如果需要的话把结果写回到寄存器和主内存。在CPU可以一次处理多个指令之后,程序可以运行的更快了。

1993年,奔腾处理器诞生,由于法律诉讼原因处理器的名字由数字被变为名称,这就是为什么叫奔腾而不叫586的原因,奔腾架构新增了一个二级独立超大流水线,主流水线和i486类似,但是二级流水线执行一些简单指令,例如整数的运算,并行并且变得更快了。

1995年,Intel发布了奔腾专业版,这是一个完全不同的处理器设计,这个芯片有几个最新的特性包括无序执行核心(OOOcore)和随机执行,流水线被扩展到了12层,它包括一个叫做超级流水线的东西,许多指令可以被并行同时处理,这个OOO核心我们后面会深入讨论一下。在1995年OOO被引进到2002年我们的下一个阶段出现之间,有很多变化,新增了额外的寄存器,一条指令处理多条数据(单指令多数据或者叫SIMD),缓存被不断添加,已有的缓存被不断增大,流水线有时被拆分了有时被固定,这些改变对性能翻倍提升都特别重要,但是这些改变对于通过芯片的数据流的改变都不大(这块不太理解)。

2002年,奔腾4核心处理器引入了一项新的技术:”超线程“,OOO核心在提升CPU处理指令流的方面太成功了以至于处理的速度要比指令发送给核心的速度还要快,甚至在(高)负载的情况下,对于大多数的用户来说OOO核心因为效率太高了所以大部分时间都是空闲,为了更稳定和高效的给OOO核心发送指令,他们设计了第2层的front-end,操作系统会识别到2个CPU,有2组的寄存器,有2组的指令集解码器在遍历指令集指针和处理结果(相当于要加速给核心发送指令集的速度),结果集被一个共享的OOO核心处理,但是这个过程应用程序是不知道的,然后指令就像以前那样执行退出,结果被发送给他们来的那个对应的核心。(这里翻译的不好,大家有时间可以看看原文。)

2006年,Intel发布了微核心架构,更长远来看,它被称为“core 2”(因为人们知道core2 肯定比core1要好),有一个让人惊讶的改动,CPU的时钟频率被降低了,超线程也被移除了,通过降低时钟频率,Intel才可以扩展了所有的流水线平台,OOO核心被扩展了,缓存和缓冲区被加大了,处理器被重新设计成为专注于具有共享高速缓存的双核和四核芯片。

2008年,Intel发布了一系列的酷睿i3、i5和i7处理器,被设计成为重新引入了带有共享OOO核心的超线程处理器,这3款处理器最大的区别就是内部的缓存大小不一样。

未来的处理器,下一代的微架构处理器更新现在叫做HasWell,大概会在2013年发布,到目前为止公布的文档显示这款处理器采用了14-stage的OOO核心流水线,所以数据流的设计很可能仍然在遵循奔腾专业的设计

Intel Nehalem是Intel研发的中央处理器微架构之代号,该架构取代了前代的Core微处理器架构。使用Nehalem架构的微处理器采用45纳米 制程(后期改用32纳米制程),在2007年的Intel开发者论坛上Intel官方展示了一个采用两颗INehalem微架构的处理器的系统平台。首款采用Intel Nehalem架构的处理器是2008年11月正式发售的桌面型处理器Intel Core i7 。

Inter Core i7架构

目前Inter Core i7使用Nehalem微架构来实现CPU内部结构,而ARM微架构依然沿用Cortex。

Nehalem是一款OOO(Out of Order)乱序执行的Superscaler(超标量)的X86处理器。

超标量意味着CPU中有多个执行单元,可以在同一时刻执行多条无相关依赖性的指令,从而达到提升ILP(Instruction Level Parallelism)指令并行化的目的。

乱序执行则是指在多个执行单元的超标量设计中,一系列的执行单元可以同时运行一些没有数据以及逻辑关联的若干指令,只有需要等待其他指令运算结果的数据会依照顺序执行,从而提升执行效率。

Intel Nehalem arch
Inter Core i5

CPU PipeLine执行流程

取指与解码(Front-End In-Order)

  • Instruction Fetch:将主存中的指令集合(4K左右)加载到L1的Instruction Cache中
  • Prefetch Buffer:从L1的指令缓存装载16Byte长度的指令到Buffer
  • Predecode&Instruction Length Decoder:将上过程中Buffer的指令进行指令长度解析(确定指令长度,解码指令前缀,为解码器标注指令类型等)以及进行分支预测的处理(确定分支指令的的跳转,使用BTB保存分支预测指令的地址)避免处理器在执行预测路径上的时候不会'"stalling"

由于X86是CISC指令集的处理器,CISC的指令是变长指令集,所以在解码之前,需要将指令进行解析,确定指令的前缀、长度等等,而RISC指令集则不需要进行该处理,因为RISC是等长指令集。

  • Instruction Queue:将Predecode处理过后的指令进行指令对齐以及宏指令的融合(将可融合的指令送到解码器,生成新的指令,如比较判的分支X86指令集最终解码成单条micro Op,从而提升解码器的带宽,降低指令数量,提高运行效率)
  • Complex&Simple Decorder:将Instruction Queue中的指令进行解析,Complex Decoder负责解码复杂指令,将单条复杂的x86指令翻译成1-4条Micro Ops,Simple Decoder负责解码简单指令,将单条简单的x86指令翻译成1条类RISC指令的Micro Op

X86的CPU属于CISC指令集,由于CISC的指令长度不固定,而且执行时间也不固定,所以Nehalem架构会将CISC指令通过Predecode以及Decode处理成类RISC指令(也就是Decode完的MicroOp),因为RISC指令长度等长,执行时间恒定,通常一个cycle就能执行完,因此后续处理器设计就会比较简单,并且流水线的长度可以达到很长,使得CPU可以到达很高的频率。

  • Decoded Instruction Queue:接收到了解码后的Micro Ops后,会经过Loop Stream Decoder以及Micro Instruction Sequencer

Loop Stream Decoder会对循环段(如for,while,do...while)少于28个ops的情况下,会保存起来,而不需要再重新取指,进行分支预测以及解码等操作,并且Instruction Sequencer会将指令进行序列化

  • MicroOp Fusion:将多条Micro Ops进行融合,用于降低Micro Ops的数量,提高指令执行的吞吐量,以及Reorder Buffer的使用效率

执行引擎(Out-Of-Order Executor)

OOOE是为了直接提升ILP(Instruction Level Parallelism)指令集并行化的设计,在多个执行单元的超标量设计中,一系列执行单元可以同时执行一些没有数据关联性的若干指令,只有需要等待其他指令运算结果的数据会按照顺序执行。

  • 2 x Register Allocation Table:不同的指令可能都会需要用到相同的通用寄存器(GPR,General Purpose Registers),为了在这种情冲突的况下指令们也能并行工作,处理器需要准备解决方法。一般的RISC架构准备了大量的GPR,而x86架构天生就缺乏GPR(x86具有8个GPR,x86-64具有16个,一般RISC具有32个,IA64则具有128个),为此Intel开始引入重命名寄存器(Rename Register),不同的指令可以通过具有名字相同但实际不同的寄存器来解决(为了SMT同步多线程,这些寄存器还要准备双份,每个线程具有独立的一份)

寄存器重命名避免了机器指令或者微操作不必要的顺序化执行,从而提高了处理器的指令级并行的能力。

  • ReOrder Buffer:只能存放128条指令,将寄存器重命名后的指令按照编程的原始顺序重新排序成一个队列,把打乱了次序的指令们依次插入队列中。
  • Reservation Station:指令保留站,等待源数据到来,以进行OOOE乱序执行,而没有数据的指令,则在Reservation Station中等待,直到等待到了数据后,通过各个端口发送到ALU中进行运算和执行,最终将运算数据通过MOB存入L1的数据缓存中,并且将结果通过Result Bus分发到ROB中,如果运算已经完成,则会更新ROB中的指令结果,并且从ROB中移除已经完成的指令,将该指令放到RRF中。除了存放指令之外,保留站的作用是监听内部结果总线上是否有保留站内指令所需要的参数。需要读取L1/L2缓存乃至内存的指令或者需要等待其他指令结果的指令必须在此等待
  • Retirement Register File:从ROB中移出一条指令就意味着指令执行完毕了,这个阶段叫做Retire回退,相应地ROB往往也叫做Retirement Unit(回退单元),并将其画为流水线的最后一部分。该部件存储了被提交的体系寄存器的状态,通过逻辑寄存器的号来查询这个寄存器堆,用于进行寄存器是否可用的标识,为寄存器重命名查询寄存器状态以便提供空闲寄存器。

重要部件

CPU中分为以下重要的部件:

  • PipeLine
  • 超标量&超线程
  • Hardware Prefetch:根据历史操作预先加载以后会用到的指令来提高性能
  • 分支预测(Branch Prediction)
  • Macro Ops && Micro Ops指令融合(MicroOp Fusion)
  • LSD
  • Register Allocation Table
  • ROB
  • RRF
  • MOB
  • Cache:L1,L2,L3缓存
    • L1:分为指令缓存(Instruction Cache,32K)以及数据缓存(Data Cache,32K):(N路集合关联)
    • L2:每个核超线程共享一个256K缓存(N路组相连(N Way Set-Associative))等
    • L3:所有核共用同一个8M的缓存
  • 多核CPU的总线:QPI

参考资料

http://blog.jobbole.com/40844/
https://commons.wikimedia.org/wiki/File:Intel_Nehalem_arch.svg
http://wsfdl.com/linux/2016/06/11/%E7%90%86%E8%A7%A3CPU%E7%9A%84cache.html
http://igoro.com/archive/gallery-of-processor-cache-effects/
http://cyningsun.github.io/06-01-2016/nehalem-arch.html
https://classroom.udacity.com/courses/ud007/lessons/fecc80f7-8a59-4708-af48-80d2c6453747/concepts/c71890f8-b128-4c5d-86dd-a704e99e09af
https://compas.cs.stonybrook.edu/~nhonarmand/courses/sp15/cse502/slides/12-inst_flow.pdf
http://test.m.it168.com/article_369202.html
http://server.it168.com/a2008/1224/261/000000261184_3.shtml
Inside Nehalem: Intel’s Future Processor and System

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,029评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,238评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,576评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,214评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,324评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,392评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,416评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,196评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,631评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,919评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,090评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,767评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,410评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,090评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,328评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,952评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,979评论 2 351

推荐阅读更多精彩内容