全新的SM单元
Turing架构采用了全新的SM设计,该设计结合了早在去年Volta架构中就引入的许多特性。每个TPC包含两个SM,每个SM总共有64个FP32内核和64个INT32内核。相比之下,帕斯卡架构中每个TPC只有一个SM,每个SM 128个FP32内核,TPC的概念被架空了。TuringSM支持FP32和INT32操作的并行执行,独立线程调度类似于Volta GV100 GPU。
SM被划分为四个处理块,每个处理块具有16个FP32核、16个INT32核、两个张量核、一个调度器和一个调度单元。每个块包括一个新的L0指令缓存和一个64KB寄存器文件。四个处理块共享组合的96KB L1数据高速缓存/共享存储器。传统的图形工作负载将96KB L1共享缓存划分为64KB的专用图形着色器缓存以及32KB的纹理缓存和寄存器溢出区域。计算工作负载可以将96KB分成32KB共享缓存+64KB L1缓存,或者64KB共享缓存+32KB L1缓存。
Turing的SM还引入了一种新的统一架构,用于共享内存、L1和纹理缓存。这种统一的设计允许L1高速缓存充分利用资源。与Pascal相比,每TPC增加2倍的命中带宽,并且允许在共享内存分配没有使用所有共享内存容量时重新配置L1高速缓存以增大命中带宽。Turing L1的大小可以高达64KB,与每个SM共享内存分配的32KB相结合,或者它可以减少到32KB,允许将64KB的分配用于共享内存,Turing的L2缓存容量也有所增加。
Turing SM新的L1数据缓存和共享内存子系统可显著提高性能,同时简化编程并减少达到或接近峰值应用程序性能所需的调优。将L1数据缓存与共享内存结合可以减少延迟,并提供比先前在Pascal 中使用的L1缓存实现更高的带宽。
你说是坦克我说是腿控福利 自古对波你赢麻的囧图
"世一上"不打了?TheShy疑似退役引热议!
化身嘤嘤怪!冯骥朋友圈在线催更《动物朋克》开预订
多款《寂静岭》新作有消息了!科乐美确定其中一款
《明末》1.7版本新增制作人寄语:冒险之旅告一段落
《江山北望》Steam特别好评:高质量影游 剧情出色