光线追踪核弹RTX 2080Ti/2080显卡首测:4K平均60帧

2018-09-19 21:26:27 来源:游民星空[原创] 作者:Kalama 编辑:白菜控 浏览:loading

全新的流处理器簇单元(SM)

  Turing架构采用了新的SM设计,该设计结合了早在去年Volta架构中就引入的许多特性。每个TPC包含两个SM,每个SM总共有64个FP32内核和64个INT32内核。相比之下,帕斯卡架构中每个TPC只有一个SM,每个SM 128个FP32内核,TPC的概念被架空了。TuringSM支持FP32和INT32操作的并行执行,独立线程调度类似于Volta GV100 GPU。

  SM被划分为四个处理块,每个处理块具有16个FP32核、16个INT32核、两个张量核、一个调度器和一个调度单元。每个块包括一个新的L0指令缓存和一个64KB寄存器文件。四个处理块共享组合的96KB L1数据高速缓存/共享存储器。传统的图形工作负载将96KB L1共享缓存划分为64KB的专用图形着色器缓存以及32KB的纹理缓存和寄存器溢出区域。计算工作负载可以将96KB分成32KB共享缓存+64KB L1缓存,或者64KB共享缓存+32KB L1缓存。

游民星空

  Turing实现了核心执行数据通道的主要更新。现代着色器工作负载通常具有诸如FADD或FMAD之类的FP算术指令与诸如用于寻址和获取数据的整数加法、用于处理结果的浮点比较或min/max等更简单的指令的混合。每当这些非FP数学指令中的一个运行时,ATAPACH就会闲置。Turing在每个CUDA核旁边添加第二个并行执行单元,该CUDA核与浮点数学并行执行这些指令。

游民星空
对许多工作负载的分析显示,每100个浮点运算平均有36个整数运算。

  上图为整数管道与浮点指令的混合变化,但是一些现代应用程序中,通常会看到每100个浮点指令大约有36个额外的整数管道指令。将这些指令移到一个单独的管道上,就可以实现浮点的有效36%的额外吞吐量。

Turing SM中浮点和整数指令的并行计算

  Turing的SM还引入了一种新的统一架构,用于共享内存、L1和纹理缓存。这种统一的设计允许L1高速缓存充分利用资源。与Pascal相比,每TPC增加2倍的命中带宽,并且允许在共享内存分配没有使用所有共享内存容量时重新配置L1高速缓存以增大命中带宽。Turing L1的大小可以高达64KB,与每个SM共享内存分配的32KB相结合,或者它可以减少到32KB,允许将64KB的分配用于共享内存,Turing的L2缓存容量也有所增加。

游民星空
新的共享缓存架构

  Turing SM新的L1数据缓存和共享内存子系统可显著提高性能,同时简化编程并减少达到或接近峰值应用程序性能所需的调优。将L1数据缓存与共享内存结合可以减少延迟,并提供比先前在Pascal 中使用的L1缓存实现更高的带宽。

  根据官方资料,Turing架构SM设计的改变使得每个CUDA核心的综合性能比之前Pascal提升了50%。

上一页 1 2 3 4 5 6 7 8 9 10 11 下一页
友情提示:支持键盘左右键“← →”翻页
文章内容导航
人喜欢
游民星空APP
随时掌握游戏情报
code
休闲娱乐
综合热点资讯
单机游戏下载
好物推荐
游民星空联运游戏