GTX 780的继承者次旗舰GTX 970性能评测

2014-09-24 10:44:05 来源：泡泡网作者：陈骋编辑：听风飞舞　浏览：loading

　　9月19日NVIDIA的Kepler核心显卡发布已经两年半，至今还记忆犹新。在显卡产品上，NVIDIA也开始使用类似Tick&Tock的节奏：每隔两代产品进行架构升级。Maxwell正是Kepler的后继者，在架构上使用了全新SMM单元，16组SMM单元分布在四组GPC之中的结构，提升了引擎执行效率、改良了Cache缓存机制，让Maxwell不仅性能全面提升，功耗却大幅下降，并且这是在制造工艺仍为28纳米的前提下实现的，从之前的GTX 750Ti/750产品上，就可以看出Maxwell的可怕实力。

　　完整版的Maxwell自然更是可怕，不过在跟注重性价比的甜点~次旗舰产品线上，用户往往更为挑剔，GTX 970就位于这个位置。近几代产品中，NVIDIA对X70级别产品的重视程度也越来越高，这次的MaxwellGTX 970定价就仅有2499元，相对于过去几代X70产品来说已经非常厚道。而这次评测中为大家带来的就是NVIDIAGeForce显卡顶级品牌：影驰的非公版GTX 970黑将版显卡。

Maxwell架构解析

　　NVIDIAKeplerGPU架构于2012年初问世，它前所未有的能效比催生出全球最快的游戏PC、工作站以及超级计算机和云游戏服务器。甚至智能手机、平板电脑乃至汽车的信息娱乐系统都得益于TegraK1系统(SoC)获得了空前的视觉计算功能。

　　而NVIDIA的第一代“Maxwell”架构在上一代的基础上又获得了全新的提升。事实上“GM107”在研发期间的定位是专为笔记本和小型(SFF)PC等功率受限的使用场合而设计。但事实上它的性能已经达到了桌面低端甚至中端的水准，NVIDIA在最后时刻将其打造成GTX 650Ti的接班人，强行推入主流市场。

　　在1080p分辨率下，GeForce GTX 750Ti的性能通常可与四年前的旗舰GPU——GeForce GTX480比肩，然而热设计功耗仅为区区60W，是后者的四分之一！那Maxwell高端产品又当如何？是什么革新让它有如此惊人的表现呢？

　　Maxwell在流式多处理器(SM)方面采用了一种全新设计，可大幅提高每瓦特性能和每单位面积的性能。虽然KeplerSMX设计在这一代产品中已经相当高效，但是随着它的发展，NVIDIA的GPU架构师再次在能效比利用方面突破了难关。

　　MaxwellSM设计实现证明了这一点，控制逻辑分区、负荷均衡、时钟门控粒度、编译器调度、每时钟周期发出指令条数等方面的改进以及其它诸多增强之处让MaxwellSM(亦称“SMM”)能够在效率上远超KeplerSMX。全新的MaxwellSM架构能够在GM107中把SM的数量增至五个(GK107中仅有两个)，而芯片面积仅增加25%。下表提供了高级对比，对比双方分别为Maxwell以及上一代GK107KeplerGPU:

　　具体来说，首先Maxwell采用了容量大增的二级高速缓存设计，Maxwell核心架构中二级高速缓存容量为2048KB，而GK107中的容量仅为256KB。由于片上高速缓存容量更大，因此需要向显卡DRAM发送的请求更少，从而降低了整体显卡功耗、提升了性能。

　　除了上述变化以外，NVIDIA的工程师还雄心勃勃地在晶体管水平上调整了MaxwellGPU中每个单元的实现方式，以便最大限度提高节能性。所有这些努力的最终结果是，采用相同的28纳米制造工艺，Maxwell能够提供相当于Kepler两倍的每瓦特性能！

　　虽然说起来简单，但事实上这些就意味着Maxwell内部所有单元和横梁结构均得到了重新设计，数据流得到了优化，功率管理实现了大幅改变。

　　虽然从图形特性的视角来看，第一代MaxwellGPU可提供与KeplerGPU相同的API功能，但从深层来上，Maxwell还在单个GPC(图形处理簇)内实现了多个SM单元，每个SM包含一个多形体引擎(Polymorph Engine)和纹理单元，而每个GPC包含一个光栅引擎(Raster Engine)。ROP依然与二级高速缓存片(L2CacheSlice)以及显存控制器联系在一起。

　　GM204GPU包含4个GPC、16个Maxwell流式多处理器(SMM)以及4个64位显存控制器(共256位)。这就是这一芯片的完整实现形式，规格大约是GeForce GTX 750Ti中的GM107的3倍。

　　上一代Kepler的方法是划分为非2幂(non-power-of-two)数量的CUDA核心，其中一些是共享核心，这种方法需要的SM调度器数量较少，但复杂程度较高，在各种各样的游戏引擎环境中表现并不理想。

　　而现在每个SM分为四个独立的处理块，每个处理块具备自己的指令缓冲区、调度器以及32个CUDA核心。新的划分方法简化了设计与调度逻辑、节省了晶体管与功耗、降低了计算延迟。

　　总体而言，在这一全新设计上，每个“SM”的尺寸得到大幅缩减，而性能却能够达到一个KeplerSM的90%。更小的晶体管消耗让NVIDIA能够在每颗GPU中实现更多数量的SM。通过对比Kepler和MaxwellSM总数的相关指标可发现，后者的峰值纹理性能比前者高25%，CUDA核心数量多1.7倍，着色器性能大约高2.3倍。

　　对GM204来说，要在显存位宽与上一代Kepler架构核心相同的情况下实现性能大幅提升的目标，增强显存系统也同样重要。内部显存系统带宽实现了提升，效率也得到了改善。此外，2MB大容量二级高速缓存配置(比之前的任何GPU设计都大)十分有效地降低了显存带宽需求，确保了DRAM带宽不成为瓶颈。

　　其他关于Maxwell架构的基本信息，例如通过GigaThread引擎的主PCIExpress接口数据流、Polymorph与Raster单元的基本操作等等过于晦涩的知识这里就不再赘述了。