迟来的DX11王者！GeForce GTX 480/470全球同步首发详测

2010-03-27 14:40:34 来源：驱动之家作者：未知编辑：颜落　浏览：loading

[GF100架构深入剖析之二]

4、第三代流式多处理器(SM)

SM是GPC之下、CUDA核心之上的一个硬件模块，经过G80、GT200之后现已发展到第三代，不但性能最强，而且可编程性最好、效率也最高。

(1)、CUDA核心

每个SM都有32个CUDA处理器核心，是上代的四倍，能在着色器的任何负载之下实现最高性能和效率。

每个CUDA处理器都有完全流水线化的整数算术逻辑单元(ALU)和浮点单元(FPU)，其中整数ALU只是所有指令的全32位精度，符合标准编程语言的要求，而FPU符合IEEE 754-2008浮点标准，能为单精度、双精度算术提供积和熔加运算(FMA)指令。

(2)、载入与存储单元

每个SM都有16个载入与存储单元，可在每个时钟周期内为16个线程计算源地址和目标地址。

(3)、特殊功能单元(SFU)

SM中还新增了四个特殊功能单元(SFU)，用于执行抽象的指令，比如正弦、余弦、倒数和平方根，还有图形插值指令。每个SFU在每个时钟周期内克针对每个线程执行一条指令。

(4)、双Wrap调度器

所谓Wrap，就是32个线程构成的群组。每个SM中都有两个相互独立的Wrap调度器和两个指令分派单元，任务自然就是对Wrap进行调度了，而且能够同时发出和指令两个Wrap，这就是所谓的双发射模式。幸运的是，大多数指令都能双路并行执行，因此这种设计的效率相当高。

(5)、纹理单元

每个SM拥有四个纹理单元，每个纹理单元可在一个时钟周期内计算一个纹理地址并获取四个纹理采样，支持双线性、三线性、各向异性过滤等不同模式。

通过将纹理单元转移到SM之中，GF100提升了纹理效率和性能，并实现了更高的时钟频率，不再和GPU核心频率同步。

在上一代GT200架构中，最多三个SM才共享一个纹理引擎，其中有八个纹理过滤单元，而在GF100架构中，每个SM都有自己专用的纹理单元和纹理高速缓存，而且纹理单元内部也进行了大幅增强。

按照NVIDIA的说法，GF100在游戏中的纹理性能是GT200的1.5倍左右。

(6)、64KB共享存储器和一级缓存

每个SM都有专用的64KB片上存储，可配置为48KB共享存储器加16KB一级高速缓存，或者16KB共享存储器加48KB一级高速缓存，其中共享存储器的容量是GT200的三倍，一级缓存则是GT200所不具备的。

共享存储器和一级缓存是互补的作用，能够广泛地重复利用片上数据而减少片外通信量。需要指出的是，共享存储器是实现高性能CUDA应用程序的重要因素。

友情提示：支持键盘左右键“← →”翻页

文章内容导航

分享到：

纠错举报手机APP