Ampere芯片架构相比Turing有哪些改进
众所周知,NVIDIA不光是一个图形芯片供应商,在超算和AI计算领域也颇有建树,占据相当大的份额,世界排名前10的超级计算机中NVIDIA的芯片是常客。
NVIDIA的超算芯片架构与图形计算芯片是一脉相承的,只是在规模和单元组成上有少于差别。从GT核心开始,每一代面向游戏的图形芯片都由相应的超算芯片衍生而来,上一代Volta的GV100架构衍生出Turing的TU102,而这次游戏芯片则直接与超算源架构同名——Ampere,由GA100衍生出GA102。
完整的GA100拥有8个GPC,共128个SM簇,8192个FP32单元,4096个FP64单元,拥有128个第三代Tensor核心,没有RT核心。我们原以为GA102会像往常那样在此基础上取消FP64功能,那么用于游戏渲染的俗称流处理器数量便应该小于等于8192个。
AMD FURY的前车之鉴已经证明无论是从成本还是产能的角度衡量,在游戏芯片上使用堆栈式显存封装都是一个不靠谱的选项。NVIDIA从一开始就没有趟这个浑水,而是坚持使用传统的GDDR显存,只将HBM2显存应用在体积和散热空间限制严格的计算卡上,与游戏卡的板型岔开不同的路线。
然而当我们第一次获悉GA102架构细节时跌掉了眼镜,NVIDIA对GA102的SM的架构改动是巨大的,与GA100呈现明显的区别(在一下页会讲)。完整的GA102内建7个GPC,每个GPC的SM为12个,共84个SM簇。每个SM簇拥有128个流处理器,总数竟高达10752个,比GA100用于游戏计算的流处理器(FP32单元)多得多。RTX 3090的GA102-300和RTX 3080的GA102-200即在此基础上削减了一部分单元得来。
RTX 3080显卡PCB裸板,尺寸和外形都推翻传统设计,颇具创意
由于功能单元削减将近20%,NVIDIA的官方白皮书中重新绘制了RTX 3080的GA102-200核心架构示意图。它共有6个GPC,其中两个GPC各削减两组SM簇,一共68个。共包含8704个流处理器,272个纹理单元,272个Tensor核心,68个RT单元,96个ROPs。相比完整的GA102关闭了两个内存控制器,总位宽为32bit×10=320bit。这是256bit以上的位宽时隔7年重新出现在准旗舰显卡上。