X86计算平台技术大跃进


以工程美学的角度来看,英特尔酷睿微架构与AMD K10微架构都缺乏一种技术之美:前者拥有更强的并行指令执行能力,因而具有出色的每瓦性能,让英特尔在新一轮战争中赢得胜利。但酷睿平台依然采用老旧的南北桥芯片组架构,CPU与CPU、CPU与内存之间无法实现短延时的快捷通讯,未能将系统性能发挥到极致。K10微架构没有这方面的缺点,但它的指令解码机制不过是当年K7架构的翻版,致使其指令效能相对不高。

英特尔将于下半年发布的Nehalem将成为史上第一种称得上完美的架构,Nehalem继承了现行酷睿微架构高指令解码能力的优点,具有更为出色的每瓦性能,同时又糅合了AMD K8所创立的集成内存控制器、芯片间高速直连等思想——AMD为此掀起了一场新的口水仗,认为技术创新先出于己,但这显然经不起深究,因为K8的连接架构实际上是来自RISC体系,早在上个世纪末,IBM的Power 4处理器即采用此项设计。不管怎么说,我们将在Nehalem身上看到一次X86处理器的革命,英特尔平台也将因此进入新的纪元。

X86计算平台技术大跃进

Nehalem微架构概况

无论是在处理器设计还是半导体工艺,英特尔都显得更加锐意进取,为了保证市场领先,让对手没有可乘之机,英特尔执行严格的工艺升级和架构更迭道路,英特尔内部将每一次工艺升级都称为一次“Tick”,Tick除了工艺升级外还会对现行的处理器架构进行改良,譬如这次Penryn推出就属于一次Tick:制造工艺从65纳米升级到45纳米,同时Penryn在Core 2 Duo基础上进行改良,包括SSE4指令集引入、二级缓存增加,等等。而每一次微架构更换则称为“Tock”,譬如从NetBurst到Core就是一次Tock,新一轮的Tock便是Nehalem微架构的推出。根据计划,英特尔的每个Tick-Tock周期为两年时间,也就是每隔两年都将推出一次新架构,同时在某种架构推出一年后,将会推出新工艺和改良设计的新产品,这种有序的升级模式可以令英特尔每个年度都有性能更出色的新产品、新平台出现,如果未来AMD无法跟上英特尔的步伐,那么将会被越抛越远。

我们将在2008年第四季度看到Nehalem微架构的推出。在指令解码、执行部分,Nehalem实际上是基于现行的酷睿架构开发,譬如它拥有4条指令并行解码能力,微指令融合、宏指令融合等技术一应俱全——这些方面改进的余地相对有限。指令集部分,Nehalem采用增强版的SSE4.2,它在现行SSE4基础上增加了7条数据库操作相关的新指令,使之可以高效率地处理数据库构建、查询等繁重任务,同时也加快数据传输,可以显著提升数据库服务器的实际性能。另外,Nehalem将支持类似HyperThreading的SMT多线程处理能力,虽然Penryn也具有多线程技术,但Nehalem在该方面的性能可比Penryn高出20%-100%,这主要得益于Nehalem拥有更先进的多线程算法。

Nehalem将支持原生四核设计,这一点也符合今天的潮流,基本上,Nehalem在指令处理方面并没有根本性的变革,但它将酷睿微架构的高效率演绎到极致。Nehalem的革命性更多体现在它引入集成内存控制器设计和名为“QuickPath”的内部互联架构——后者可以同AMD的HyperTransport超传输总线直接类比。内存控制器方面,Nehalem的设计十分恐怖:它首度支持三通道DDR3规范,这意味着Nehalem平台的最高内存带宽将达到32GBps(DDR3-1333),相当于目前GeForce 8600GTS的显存带宽;另外,Nehalem不再对目前的DDR2提供支持,充分体现英特尔激进设计的风范。QuickPath总线也就是原先所说的“CSI”总线,它在功能上与HyperTransport类似,不过英特尔其实是在PCI Express总线基础上开发Quick Path——QuickPath采用点对点设计,每个基本通路包括一个线路对,分别负责数据发送和接收;QuickPath的数据传输频率高达4.8GHz-6.4GHz,这意味着每个线路对的传输速率将达到4.8Gbps-6.4Gbps,由于Nehalem的QuickPath传输包括4条链路,这就意味着QuickPath可以提供24GBps-32GBps的带宽,对于处理器与处理器、处理器与芯片组的数据传输任务而言,这样的带宽数字绰绰有余。

针对服务器的Nehalem处理器将拥有至少4组QuickPath传输,可组成包括4枚处理器的4路服务器系统——由于每颗处理器可包含4颗CPU核心,4路系统将包括16枚运算内核,再加上SMT多线程支持,4路Nehalem系统最多可支持32线程并行运作。英特尔目前未公布Nehalem是否能够支持更多处理器的互联,但以集成内存控制器设计和QuickPath总线设计来看,Nehalem平台理论上可具有媲美AMD K10的扩展弹性,即可以任意多处理器构成集群系统,并且处理器数量可以随意增加和减少,这对于构建高性能集群非常有利。当然要做到这一点,QuickPath总线就必须支持线缆传输,英特尔虽然还未公布QuickPath是否具有这样的能力,但这显然是QuickPath技术的发展方向。

深度改良的微架构、集成内存控制器设计以及QuickPath直连技术,令Nehalem拥有更为出色的执行效率——在单线程、同频率条件下,Nehalem的运算性能比现行Penryn架构提升10%-25%;而在相同功耗下,Nehalem的效能同比上升30%,或者说在相同效能条件下,Nehalem的功耗比Penryn低出30%,整体表现极为优秀!很明显,如果AMD继续打算用K10架构来应对Nehalem,那么将会一败涂地,及时推出可与之匹敌的新一代微架构势在必行。

除了每瓦性能的提升,Nehalem也更加注重运行时的实际功耗表现,譬如它将拥有高度灵活的能源管理机制,可实现类似AMD Griffen移动处理器的供电分离和动态频率管理,这将大幅度降低处理器在闲置条件下的能耗水平。与此同时,Nehalem还将具有一项名为“Turbo Mode”的功能,该功能其实类似于Santa Rosa迅驰平台的IDA(Enhanced Dynamic Acceleration),即当系统只执行单线程任务时,将其中的一个核心关闭,另一个核心则自动提高频率,相当于超频运作,达到提高单线程性能的目的。我们不必担心会有功耗过高、CPU过热之类的问题,Turbo Mode自身将根据处理器实际功耗、温度以及规格限制进行IDA运作,确保在安全稳定条件下进行加速,而由于一个核心闲置,另一个核心即便超频运作,也不会导致CPU功耗超过限定值。

评论

发表您的观点
  • 姓名:(必填)
  • 电子邮件:
  • 验证码:(必填)
  •  
  • 正文:

相关文章