产品架构解析:
按照惯例我们还是先上产品相关型号对比表,以便大家对这款显卡和上代旗舰RTX 3090 Ti以及对位产品(AD102-300对GA102-300)RTX 3090的参数方面有一个直观的了解。
值得一提的是,RTX 3090 Ti的L1缓存为10.5MB,L2缓存为6MB。RTX 4090的L1缓存则是16MB,L2缓存则是72MB。不仅是L1缓存提升了一半以上,在L2缓存方面,RTX 4090也比上一代旗舰整整翻了16倍。
此外,除了工艺制程带来的晶体管增多之外,在技术方面,RTX 4090使用了第四代Tensor核心和第三代RT核心,都较RTX 30系列显卡提升了一个档次。
本次测试主角七彩虹RTX 4090水神OC显卡与上代旗舰RTX 3090 Ti和友商旗舰的GPU-Z对比。
在核心架构方面,本次的Ada架构完整核心拥有12个GPC单元,每个GPC单元中最多包含6个TPC以及12条SM簇。合计144条SM簇。
而RTX 4090仅启用了11个GPC单元,且其中的2个GPC单元仅各启用了5个TPC和10条SM簇。合计128条SM簇。
由于每条SM簇中含有128个流处理器,所以RTX 4090距离完整的Ada核心还有16条SM簇/2048个流处理器的差距。
当然,完整的Ada架构拥有18MB的L1缓存,以及96MB的L2缓存(对比RTX 4090 L1 16MB,L2 72MB)。
在SM簇的架构方面,全新的Ada架构和上一代的Ampere架构并没有太大区别,每一个SM簇里边拥有4*32个FP32单元(流处理器),而每一组中的一半单元同时可以处理INT32指令,且包含了1个Tensor核心。而1个SM簇里边同时包含了1个RT核心。
所以,RTX 4090的参数计算方式应为:
9(GPC)*12(SM簇)+2(GPC)*10(SM簇)=108+20=128(SM簇)
128(SM簇)*128(流处理器)=16384(流处理器)
128(SM簇)*4(Tensor核心)=512(Tensor核心)
128(SM簇)*1(RT核心)=128(RT核心)
12(显存控制器)*32bit(位宽)=384bit(位宽)