光线追踪核弹RTX 2080Ti/2080显卡首测：4K平均60帧

2018-09-19 21:26:27 来源：游民星空[原创] 作者：Kalama 编辑：白菜控　浏览：loading

全新的流处理器簇单元（SM）

　　Turing架构采用了新的SM设计，该设计结合了早在去年Volta架构中就引入的许多特性。每个TPC包含两个SM，每个SM总共有64个FP32内核和64个INT32内核。相比之下，帕斯卡架构中每个TPC只有一个SM，每个SM 128个FP32内核，TPC的概念被架空了。TuringSM支持FP32和INT32操作的并行执行，独立线程调度类似于Volta GV100 GPU。

　　SM被划分为四个处理块，每个处理块具有16个FP32核、16个INT32核、两个张量核、一个调度器和一个调度单元。每个块包括一个新的L0指令缓存和一个64KB寄存器文件。四个处理块共享组合的96KB L1数据高速缓存/共享存储器。传统的图形工作负载将96KB L1共享缓存划分为64KB的专用图形着色器缓存以及32KB的纹理缓存和寄存器溢出区域。计算工作负载可以将96KB分成32KB共享缓存+64KB L1缓存，或者64KB共享缓存+32KB L1缓存。

　　Turing实现了核心执行数据通道的主要更新。现代着色器工作负载通常具有诸如FADD或FMAD之类的FP算术指令与诸如用于寻址和获取数据的整数加法、用于处理结果的浮点比较或min/max等更简单的指令的混合。每当这些非FP数学指令中的一个运行时，ATAPACH就会闲置。Turing在每个CUDA核旁边添加第二个并行执行单元，该CUDA核与浮点数学并行执行这些指令。

对许多工作负载的分析显示，每100个浮点运算平均有36个整数运算。

　　上图为整数管道与浮点指令的混合变化，但是一些现代应用程序中，通常会看到每100个浮点指令大约有36个额外的整数管道指令。将这些指令移到一个单独的管道上，就可以实现浮点的有效36%的额外吞吐量。

Turing SM中浮点和整数指令的并行计算

　　Turing的SM还引入了一种新的统一架构，用于共享内存、L1和纹理缓存。这种统一的设计允许L1高速缓存充分利用资源。与Pascal相比，每TPC增加2倍的命中带宽，并且允许在共享内存分配没有使用所有共享内存容量时重新配置L1高速缓存以增大命中带宽。Turing L1的大小可以高达64KB，与每个SM共享内存分配的32KB相结合，或者它可以减少到32KB，允许将64KB的分配用于共享内存，Turing的L2缓存容量也有所增加。

新的共享缓存架构