Ampere芯片架构相比Turing有哪些改进
无论是相比上一代的Turing还是同源的Ampere GA100,这次面向游戏领域的GA102架构的最大改进还是在SM簇内部,事实上NVIDIA历次迭代技术升级大都如此。
我们知道游戏画面渲染的绝大多数工作都需要单精度浮点单元(FP32)参与完成,SM数量以及每个SM中的包含的FP32数量基本决定了一个显卡的性能档位,故将其称作游戏显卡的"流处理器"。
已知RTX 3080的GA102-200有68个SM,这个数字跟RTX 2080Ti一样,在SM架构没有大改的前提下,前者强也强不到哪儿去,那么NVIDIA如何能夸下海口说GA102是有史以来性能提升幅度最大的一代?关键正在于对SM微架构的改进。
相比GA100,GA102的SM簇并不是是削去游戏用不上的FP64单元再加上RT单元就完事了,而是通过改进寄存器调用机制,将原来负责整数计算的每组16个INT32单元变为FP32/INT32混合功能单元,在一个时钟周期内,它可以在INT32和PF32两种操作中二择一。
这样的单元每个SM簇有4组,如此一来,加上原专用于FP32计算的每组16个单元,意味着每个SM在一个时钟周期总共可以执行128个FP32操作。鉴于游戏图像渲染主要由单精度浮点计算完成,则相当于每个SM内建了128个流处理器,相比上一代算力翻倍。
单精度浮点单元数量大幅提升需要更大的缓存配合,GA102的L1缓存容量为128KB,相比Turing容量增加三分之一,速度翻倍。