完整GA102核心加持
NVIDIA对于Ampere架构采用了2套设计方案,首先是面向超算领域的GA100核心,采用7nm工艺,完整规格拥有8个GPC,而在游戏显卡领域则是选择了更便宜的三星8nm工艺来制作GA102核心,不仅砍掉了1组GPC,还重新设计了SM簇微架构,所以虽然都是Ampere架构,但GA102才是RTX 30系列显卡最基础最完整的设计核心。
RTX 3090Ti采用了完整的GA102核心,由三星8nm工艺制成,是NVIDIA Ampere架构在游戏GPU核心中的最大规格的完整芯片,拥有7个GPC,每个GPC内建6个TPC,每个TPC拥有2个SM簇,每个SM簇有用128个流处理器,配置了12个内存控制器,所以RTX 3090Ti拥有10752个流处理器单元和24GB容量的显存。
在之前的RTX 30系列显卡的测试中,我们多次向大家科普过NVIDIA重新设计了SM微架构:由于游戏画面渲染的绝大多数工作都是由单精度浮点单元(FP32)参与完成的,SM的数量以及每个SM中拥有的FP32单元数量基本决定了一块显卡的游戏性能定位,所以NVIDIA在RTX 30系列的NVIDIA Ampere架构中削减掉了游戏用不上的FP64单元,并改进寄存器调用机制,将原来负责整数计算的每组16个INT32单元变成了FP32/INT32混合功能单元,让其在一个时钟周期内可以进行INT32或FP32其中一种操作。如此就让每个SM簇有4组这样的FP32/INT32混合功能单元,加上原专用于FP32计算的每组16个FP32单元,就让每个SM在一个时钟周期内可以最多执行128个FP32操作,换算成CUDA单元就是每个SM簇拥有了128个流处理器,数量暴涨的流处理器单元也让RTX 30系列显卡的性能大幅度提升,真正拥有了征服4K分辨率游戏的实力。
同时NVIDIA Ampere架构采用了第二代RT Core,RT性能从上代的34T提升到了58T,光追性能表现大幅提升;同时在SM簇中加入了第三代Tensor核心,虽然每组SM单元只有4个Tensor Core,数量相比Turing减少了一半,但实际性能却更强,能够更好的发挥DLSS2.0以上新技术的优势,并和SM簇、RT单元三者共同参与光追应用加速,一系列的设计改进和连锁反应,终于让4K光追游戏走进了游戏玩家们的生活中。