图形领域GPU标准之战逐鹿并行计算


图形领域GPU标准之战逐鹿并行计算

nVIDIA Tesla新品牌,专攻高并行性计算市场。

nVIDIA在近期宣布了自己的Tesla通用计算品牌,开始大举进入高并行性计算领域,并成为该领域的领先者。Tesla平台基于nVIDIA的GeForce 8800图形处理器,不过因GeForce 8800采用统一渲染架构,具有极高的灵活性,且nVIDIA在设计中让每个流处理器都具备独立的输入输出能力,使之可胜任高并行性计算任务。nVIDIA表示,Tesla将致力于为科学家和工程师构建“个人超级计算”,它主要针对地球科学、分子生物学和医药诊断学等领域,这些领域的研究每天都在改变数十亿人的命运。但在研究进程中,这些领域的科学家、研究人员和企业都面临着越来越严峻的挑战,那就是随着研究的深入,所需要收集处理的数据就越来越庞大,对计算性能的要求就越来越高。在过去,科学家们都依赖于万亿次浮点性能的RISC超级计算机,但这些超级计算机普遍价格昂贵且资源有限,令研究工作受到了制约。nVIDIA的Tesla产品线将致力于改变这种状况—每个Tesla GPU都拥有128个并行处理器(即GeForce 8800的流处理器),可进行高达每秒518GFLOPS浮点的并行计算,两个Tesla GPU构成的系统即可达到万亿次浮点性能,不仅价格低廉而且容易获取,让科学家摆脱对传统超级计算机的依赖。

图形领域GPU标准之战逐鹿并行计算

nVIDIA Tesla C870高并行计算加速卡,集成1.5GB GDDR3内存,支持PCI Express 2.0规范的X16接口。

nVIDIA一共推出三个Tesla产品系列,它们分别为Tesla GPU高并行计算处理器(代号C870)、Tesla桌边型超级计算机(代号D870)和Tesla计算服务器(代号S870):

Tesla C870 GPU高并行计算处理器即为GeForce 8800 GPU、拥有128个并行处理内核,不过它是以加速卡的形态出现。简单点说我们可以将它看作GeForce 8800显卡的变种,两者都采用PCI Express X16图形接口,板上集成若干容量的内存芯片,但与GeForce 8800显卡不同的是,Tesla加速卡支持带宽更高的PCI Express 2.0规范,上下行传输带宽达到16GBps,而它所配备的GDDR3内存容量也达到1.5GB,比显卡要多出不少,原因在于Tesla所针对的高并行性计算需要用到非常庞大的数据,所以必须配备大容量内存。

图形领域GPU标准之战逐鹿并行计算

nVIDIA Tesla D870桌边型超级计算机,包含两块Tesla C870加速卡。

Tesla D870桌边型超级计算机是一套可升级的计算系统,该系统内包含两个Tesla C870 GPU,浮点性能达到每秒万亿次,同时搭载3GB容量的内存(每个GPU 1.5GB专用内存);Tesla桌边型计算机没有集成通用CPU,因此必须通过低功耗的PCI Express 2.0标准X8或X16适配卡连线与PC或工作站的主机连接,构建多桌边体系。nVIDIA表示,该技术可以将一台常规的PC或工作站升级为拥有超强性能的个人超级计算机—由于构建成本低廉,能够为各研究机构和科学家添购,而不必再排队等候RISC超级计算机资源。另外,Tesla D870桌边型超级计算机工作噪音只有40db,适合放在办公环境使用。

Tesla S870高性能计算服务器拥有最强的性能,它包括四个Tesla C870 GPU,总计拥有超过2万亿次的浮点性能,内存总量达到6GB。Tesla S870服务器采用标准的19英寸、1U机架安装机箱,同样通过PCI Express 2.0的X8或X16适配卡连线与主机连接,不过在构建方式上nVIDIA提供了两套方案,标准配置采用1个PCI Express接口驱动4个GPU,另外用户可选2个PCI Express接口各驱动2个GPU的候选配置,它其实相当于两套Tesla D870桌边型系统的组合。

图形领域GPU标准之战逐鹿并行计算

nVIDIA Tesla S870高性能计算服务器,包含4块C870加速卡。

不过,科学家们要利用Tesla GPU的超级性能来进行科学计算并不容易,主要关键在于Tesla并非通用的处理器,应用软件必须专门为它编程。其实早在发布Tesla之前,nVIDIA就推出了面向通用计算的CUDA开发平台,CUDA是一套完整的软件开发解决方案,它包括Tesla GPU采用的C语言编译器、纠错器/制模器、专用驱动和标准API库。借助CUDA,科学家可以采用标准C语言来创建多线程程序,实现大量数据的并行处理,使GPU可以迅速解决复杂的计算难题。目前,nVIDIA已经推出Linux(32位和64位版本)和Windows XP(32位)的CUDA开发环境,其中通过认证的Linux包括Red Hat Enterprise Linux 3、4和5以及SUSE 10.1、10.2和10.3等商业发行版。

图形领域GPU标准之战逐鹿并行计算

主机上的PCI Express 2.0外部接口,Tesla D870和S870都通过专用的线缆与主机相连。

作为目前唯一可以买到、且技术成熟的GPU高并行性计算平台,Tesla和CUDA解决方案在许多学术和应用开发团队里都获得成功应用,许多大学采用Tesla和CUDA来建立并行计算的新课程,同时还有数以千计的软件开发者、科学家利用CUDA来从事分子仿真、地震分析、医疗设备设计等广泛的高性能计算任务。伊利诺斯州立大学Urbana-Champaign校区高级研究程序员John Stone对此表示,“我们研究的许多分子结构很大,过去是利用常规的X86工作站来处理运行它们的物理仿真计算,但这需要花费数周的时间;如遇到更复杂的计算任务,就必须将任务搬到集群服务器中进行处理。GPU加速技术使这些程序的处理效率提高了100倍,这样,我们可以将高复杂度的任务转移到桌面计算机中进行,这意味着更高的效率和更低的成本,显然nVIDIA Tesla通过更灵活的计算解决方案为此领域带来巨大进步。”而Headwave公司(总部位于休斯顿、专门从事地理可视化研究)的系统整合副总裁Steve Briggs则对Tesla平台给予高度期待,“过去,地理和地震分析必须花费大量的时间,如果没有GPU技术近期的进步,不可能出现类似在墨西哥湾的Jack Field 27000英尺下勘测到大型储油田的重大发现。今天nVIDIA的新品发布将使此类、甚至更为惊人的发现成为可能。”同样,Acceleware公司(电磁仿真研究)首席技术官Ryan Schneider表示,“使用nVIDIA的GPU计算平台可以令电磁仿真处理时间比之前快出25倍以上,该技术目前已应用到复杂的医药产品分析优化中,而这在两年前不曾有人设想过,nVIDIA和Acceleware的解决方案为计算电磁学开辟了新的领域。”

 

Tesla应用实例
  官方网站 加速性能(相对于X86工作站)
地震数据库 www.headwave.com 提升66-100倍
移动电话天线仿真 www.acceleware.com 提升45倍
分子动力学(VMD) www.uiuc.edu 提升240倍
MRI处理 www.uiuc.edu 提升40-170倍
神经元仿真 www.evolvedmachines.com 提升100倍
大气云层仿真 www.clemson.edu 提升50倍

nVIDIA Tesla产品家族的推出,标志着高性能计算领域前所未有的技术突破,科学家们不必再为计算任务处理费时或者超级计算机资源有限而烦恼,通过Tesla与PC的组合,即可在办公环境中构建属于自己的桌面超级计算机,并为科学研究节省大量的时间。不仅如此,Tesla同样可以用于服务器集群中,让集群系统的计算能力获得飞跃,赋予它们处理更复杂计算问题的能力。事实上,nVIDIA Tesla今天所达到的成就为英特尔Larrabee项目所梦寐以求,英特尔期望通过标准化的X86指令扩展为高并行性计算建立标准,而现在nVIDIA的CUDA已经先入为主。很明显,nVIDIA未来不可能放弃CUDA,向英特尔的指令集妥协,英特尔则决意走自己的道路,双方在高并行性领域的竞争可以预见。由于英特尔掌握完整的CPU计算平台,可以拿出一整套完善的解决方案,对于软件工业的影响力更是nVIDIA远远不及,只要英特尔在硬件上能够接近nVIDIA的水平,那么nVIDIA将很难保持自己的领先地位。唯一的应对之策就是nVIDIA能够与AMD携手,实现高并行计算的指令标准化,但这一点显然困难重重。

[an error occurred while processing this directive]

相关文章