L2缓存与DLSS3技术浅析
NVIDIA GeForce RTX 40系列显卡基于全新的Ada Lovelace架构,采用TSMC 4N定制工艺技术,第三代RT Cores,第四代Tensor Cores,双NVIDIA编码器(NVENC),着色器执行重排序(SER),在性能与能效方面照比上一代都有很大提升。
对于主流级的RTX 4060 Ti显卡来说,新架构中效果最为明显的就是NVIDIA DLSS3技术与Ada存储子系统创新了,这里我们浅浅的分析一下原因。
在Ada GPU的存储子系统中,内核是所有计算发生的地方,每个SM都有一个超低延迟的L1数据缓存,紧挨其处理内核,使L1成为GPU寻找信息的首选。虽然L1缓存的作用极大,但是由于L1缓存需要离内核非常近,所以它的容量无法做到很大。
如果在L1缓存中找不到内核计算所需的数据,GPU将在L2数据缓存中继续寻找。L2缓存位于GPU芯片上,通过高速横梁系统与所有的GPC连接。如果在L2缓存中找到了需要信息,那么就会挑出这些数据并将其放入内核。
如果在L2缓存中找不到信息,那么GPU将需要通过GPU的显存接口去到VRAM,VRAM找不到的话,则就会去到系统内存寻找。
可以看到Ada存储子系统中的层级非常清晰,在这个存储子系统中,越早寻找到内核所需要的信息,则效率越高。RTX 4060 Ti存储子系统的二级缓存对比上代同定位的RTX 3060 Ti显卡(4MB)增大了7倍,达到32MB,同时等效带宽达到544GB/s,在L2缓存中找到需要信息的概率大幅提高,显著降低对GPU显存交互的需求,从而提高性能和能效比。
NVIDIA DLSS3技术实际上是将光学多帧生成技术(插帧)、超级分辨率和NVIDIA Reflex整合到一起,再加上Ada架构各项提升,理论帧率提升可达4倍之多。
DLSS 3得到了许多全球领先的游戏开发者和游戏引擎的支持,目前已有33款已发布的DLSS 3游戏,并且有超过 300款游戏和应用支持 DLSS。