完整度97.6%,比2080Ti更接近满血
很早之前有传闻RTX 3090的流处理器数量是6912个,估计是看到GA100后根据以往的经验推断而来,结果GA102完全不是预想的那个样子,NVIDIA对SM微架构做了很大调整,让每个SM的FP32性能翻倍,而且SM簇的数量也与GA100完全不同,GA102是在GA100基础上重新设计的原生芯片。
在RTX 3080首测文章中我们已经解析过,NVIDIA通过调整寄存器的调用,让SM中的原本负责整数运算的INT32单元同时具备了FP32的浮点计算能力,Ampere架构与上一代Turing最大的区别正在于此。
在Ampere架构的一个SM簇中,INT32/FP32单元和FP32单元以每16+16个为一组,共四组,内建独立的指令派送器,因而一个时钟周期内,其中16个INT/32/PF32单元作为一个整体可以在浮点和整数计算中二择一。
一个SM簇的一组流处理器在同一个时钟周期内可以执行16个INT32+16个FP32操作,亦可以执行16个FP32+16个FP32操作,理论上一个SM簇的最大FP32算力为每个时钟128个。游戏图形渲染主要依赖FP32操作,因此可视作每个SM内建了128个流处理器。
这里放上硬件老鸟最喜爱的图:规格参数明细对比
下图可以看到,完整的GA102拥有7个GPC,每个GPC内建6个TPC,每个TPC有两个SM簇,每个SM簇又有128个流处理器。这样一层层算下去,GA102一共原生了84个SM簇,共10752个流处理器。
问题来了,RTX 3090并没有84个SM簇,而是82个,流处理器数量为10496个,少了256个,说明它也不是满血的,这从RTX 3090的GPU型号后缀上也能看得出来——GA102-300,按NVIDIA的命名习惯,满血GPU的后缀通常是400或450。
尽管有点儿遗憾,不过除少了这点流处理器以及对应SM内配套的RT、Tensor、纹理单元之外,GA102-300的其它功能单元都是满血的:112个ROPs,12个内存控制器,位宽384bit。
按百分比计算,RTX 3090的流处理器完整度为97.6%,且其它方面全无变动,这方面要比RTX 2080Ti强不少。后者不光流处理器削减到94.4%,还关掉了一个内存控制器,使位宽降到352bit,容量也少了1GB。
至于满血的GA102会以什么身份登场?官方暂未有消息披露,按老黄的一贯套路,显然非本代TITAN莫属,就像TITAN RTX一样。