开普勒架构全解析 GeForce GTX 680详尽性能评测

2012-03-23 15:34:36 来源：驱动之家作者：未知编辑：迦偌　浏览：loading

开普勒排头兵：GK104架构深入解析（3）

4、极致流式多处理器（SMX）

在正式介绍新一代极致流式多处理器（SMX）之前，还是先说一下GPC。从Fermi第一代GF100开始，GPC的概念正式引入。到了Kepler，GPC被完整继承下来。和GF100、GF110一样，GPC依然是GK104中处于支配地位的主要高级硬件模块，整个核心架构由四组GPC构成。每个GPC包含两组SM，此外还拥有两个独特功能的引擎，分别是用于顶点属性提取与曲面细分等功能的可扩展PolyMorph引擎（安置在SM中），以及用于三角形设置、光栅化以及Z轴压缩(Z-Cull)的可扩展Raster引擎（驻留在GPC中）。除此之外，GPC还囊括了着色、纹理以及计算等处理资源，除了ROP功能之外，GPC还完全可以看作是一个自给自足的GPU。

从DX10时代开始，位于GPC（Fermi之前为TPC）之下、CUDA单元之上的SM就一直是NVIDIA统一渲染GPU架构的核心模块，它囊括了大部分起到关键作用的图形硬件单元，从G80、GT200到Fermi一共经历了三代演变。在Fermi GF100/110架构中，每个SM都包含32个CUDA处理器核心、2个Wrap调度器（包含4个指令分派单元）、16个载入与存储单元（LD/ST）、4个指令特殊功能单元(SFU)、1个PolyMorph引擎单元、4个纹理单元以及64KB片上存储。

而对于GK104核心来说，其中的一个关键部分就是SM将会升级到全新的SMX （Streaming Multiprocessor Extreme，极致流式多处理器），SMX包含了许多非常重要的架构转变，而这些都与GK104的性能表现和效率息息相关，堪称Kepler架构的精髓所在。

SMX架构图

可以看到，和SM类似，SMX同样包含了计算和功能单元，但这些单元的数量和安置方式有了很大变化。具体来说，每个SMX包含192个CUDA核心，是SM的六倍；4个Wrap调度器（包含8个指令分派单元），是SM的两倍；32个载入与存储单元（LD/ST），是SM的两倍；32个指令特殊功能单元(SFU)，是SM的八倍；1个PolyMorph 2.0引擎，和SM相同，不过已经升级到第二代；16个纹理单元，是SM的四倍；64KB片上存储和SM一致，可配置为48KB共享存储器加16KB一级高速缓存，或者16KB共享存储器加48KB一级高速缓存。

具体分工方面，CUDA核心负责像素、顶点、几何着色、物理计算等处理，指令分配单元负责线程群组的调度以及指令发射，载入与存储单元负责为线程计算源地址和目标地址，特殊功能单元负责执行抽象的指令，比如正弦、余弦、倒数和平方根，还有图形插值指令，PolyMorph 2.0引擎单元负责顶点拾取、曲面细分、视口转换、属性设定以及流输出等功能，纹理单元则负责纹理过滤、纹理采样、计算纹理地址并将数据输出至显存，而共享存储器和一级缓存是互补的作用，能够广泛地重复利用片上数据而减少片外通信量，从而提高工作效率。

SMX和SM对比（图片来自Pcinlife），单元数量和排列方式都放生了改变

为了显示SMX的改进，NVIDIA在白皮书中特别加入了GK104（8组SMX）和GF110（16组SM）“芯片级别”的具体功能单元的对比：

从上面的对比不难看出，有关显卡每时钟周期所能提供的吞吐量中，其中几项关键的操作比如FMA32（32bit单精度积和熔加运算）、SPU特殊功指令以及纹理处理等，GK104都全面领先GF110，而其它几项操作也至少等同于GF110。另外，GK104在核心时钟频率上有明显优势，这就为其运算能力进一步添砖加瓦。