游民星空 > 新闻中心 > 正文

开普勒架构全解析 GeForce GTX 680详尽性能评测

2012-03-23 15:34:36 来源:驱动之家 作者:未知 编辑:迦偌 浏览:loading

开普勒排头兵:GK104架构深入解析(3)

4、极致流式多处理器(SMX)

在正式介绍新一代极致流式多处理器(SMX)之前,还是先说一下GPC。从Fermi第一代GF100开始,GPC的概念正式引入。到了Kepler,GPC被完整继承下来。和GF100、GF110一样,GPC依然是GK104中处于支配地位的主要高级硬件模块,整个核心架构由四组GPC构成。每个GPC包含两组SM,此外还拥有两个独特功能的引擎,分别是用于顶点属性提取与曲面细分等功能的可扩展PolyMorph引擎(安置在SM中),以及用于三角形设置、光栅化以及Z轴压缩(Z-Cull)的可扩展Raster引擎(驻留在GPC中)。除此之外,GPC还囊括了着色、纹理以及计算等处理资源,除了ROP功能之外,GPC还完全可以看作是一个自给自足的GPU。

从DX10时代开始,位于GPC(Fermi之前为TPC)之下、CUDA单元之上的SM就一直是NVIDIA统一渲染GPU架构的核心模块,它囊括了大部分起到关键作用的图形硬件单元,从G80、GT200到Fermi一共经历了三代演变。在Fermi GF100/110架构中,每个SM都包含32个CUDA处理器核心、2个Wrap调度器(包含4个指令分派单元)、16个载入与存储单元(LD/ST)、4个指令特殊功能单元(SFU)、1个PolyMorph引擎单元、4个纹理单元以及64KB片上存储。

而对于GK104核心来说,其中的一个关键部分就是SM将会升级到全新的SMX (Streaming Multiprocessor Extreme,极致流式多处理器),SMX包含了许多非常重要的架构转变,而这些都与GK104的性能表现和效率息息相关,堪称Kepler架构的精髓所在。

游民星空_
SMX架构图

可以看到,和SM类似,SMX同样包含了计算和功能单元,但这些单元的数量和安置方式有了很大变化。具体来说,每个SMX包含192个CUDA核心,是SM的六倍;4个Wrap调度器(包含8个指令分派单元),是SM的两倍;32个载入与存储单元(LD/ST),是SM的两倍;32个指令特殊功能单元(SFU),是SM的八倍;1个PolyMorph 2.0引擎,和SM相同,不过已经升级到第二代;16个纹理单元,是SM的四倍;64KB片上存储和SM一致,可配置为48KB共享存储器加16KB一级高速缓存,或者16KB共享存储器加48KB一级高速缓存。

具体分工方面,CUDA核心负责像素、顶点、几何着色、物理计算等处理,指令分配单元负责线程群组的调度以及指令发射,载入与存储单元负责为线程计算源地址和目标地址,特殊功能单元负责执行抽象的指令,比如正弦、余弦、倒数和平方根,还有图形插值指令,PolyMorph 2.0引擎单元负责顶点拾取、曲面细分、视口转换、属性设定以及流输出等功能,纹理单元则负责纹理过滤、纹理采样、计算纹理地址并将数据输出至显存,而共享存储器和一级缓存是互补的作用,能够广泛地重复利用片上数据而减少片外通信量,从而提高工作效率。

游民星空_
SMX和SM对比(图片来自Pcinlife),单元数量和排列方式都放生了改变

为了显示SMX的改进,NVIDIA在白皮书中特别加入了GK104(8组SMX)和GF110(16组SM)“芯片级别”的具体功能单元的对比

游民星空_

从上面的对比不难看出,有关显卡每时钟周期所能提供的吞吐量中,其中几项关键的操作比如FMA32(32bit单精度积和熔加运算)、SPU特殊功指令以及纹理处理等,GK104都全面领先GF110,而其它几项操作也至少等同于GF110。另外,GK104在核心时钟频率上有明显优势,这就为其运算能力进一步添砖加瓦。

游民星空_

游民星空_
图中GF110 SM SPU数量应为4个

另外,考虑到效率的原因,NVIDIA选择将以上运算功能单元平均分配到GK104的8个SMX中,而非GF100/110的16个SM。综合以上结果,毫无疑问的是单个SMX处理能力更强,而且更有效率。

上一页 1 2 3 4 5 6 7 8 9 10 11 下一页
友情提示:支持键盘左右键“← →”翻页
文章内容导航
分享到:
休闲娱乐
综合热点资讯
单机游戏下载
好物推荐
游民星空联运游戏