RTX 4060Ti显卡首测:借助DLSS3比3060Ti最大提升80%

2023-05-23 21:50:00 来源:游民星空[原创] 作者:Alexeik 编辑:Alexeik 浏览:loading

规格参数浅析

在进入测试环节之前,按老规矩我们先为了大家介绍RTX 4060Ti的各项规格参数。

RTX 4060Ti的原生GPU芯片AD106-350是首次与大家见面。从芯片后缀上看,它不是满血的芯片,是在完整的AD106基础上削减了一定功能单元得来。不过从型号命名规律上看,RTX 4060Ti几乎就是RTX 4070与RTX 4060之间唯一的产品了,那么或许完整AD106将出现在其它平台上,无缘桌面级。

喜闻乐见的对比表格如下:

游民星空

游民星空
RTX 4060Ti的GPU芯片:AD106-350实拍

与该芯片定位的历史传统配置一样,AD106继承了128bit显存位宽接口,并且RTX 4060Ti配备容量为8GB或16GB的GDDR6显存,而非GDDR6X,具体容量依品牌型号而定,本次收到的产品为容量8GB的FE版。^尽管没有GDDR6X显存加持,得益于Ada架构对于存储子系统的改进,相比上一代采用256bit位宽的RTX 3060Ti,无需担忧显存会阻碍RTX 4060Ti的性能发挥。

缓存的重要性

存储子系统是由一个自上而下速度越来越来慢,容量越来越大的几个数据池组成,显存的规格只在特定的时刻影响性能。GPU 中包括靠近 GPU 处理核心的高速缓存,用于存储可能需要的数据。如果 GPU 可以从缓存中调用数据,而不是从显存(更远)或系统内存(甚至更远)请求数据,则数据将被更快地访问和处理,从而提高性能和游戏流畅性,并降低功耗。

GeForce GPU 在每个多单元流处理器 (SM) 中都有一个 1 级 (L1) 缓存(最接近和最快的缓存),每个 GeForce RTX 40 系列图形处理集群 (GPC) 中最多可以找到 12 个缓存。其次是快速、更大的共享 2 级 (L2) 缓存,可以以最小的延迟快速访问。

访问每级缓存都会引入延迟,换来的是更大的缓存容量。在设计 GeForce RTX 40 系列 GPU 时我们发现,相比那些具有小容量 L2 缓存搭配大容量的、访问速度较慢的 L3 缓存的其他方案来说,一个单一的大容量 L2 缓存会更快、更高效。与全新 GeForce RTX 40 系列 GPU 相比,上一代 GeForce GPU 的 L2 缓存要小得多,导致性能和效率相对较低。

游民星空
过往架构的存储子系统

在使用过程中,GPU 首先在 SM 内部的 L1 数据缓存中查找数据,如果在 L1 中找到数据则无需访问 L2 数据缓存。如果在 L1 中未找到数据,则称为“缓存未命中”,并将继续进入 L2 缓存查找。如果在 L2 中找到数据,则称为 L2 “缓存命中”(请参见上图中的“H”标识),数据将提供给 L1,然后提供给处理核心。

如果在 L2 缓存中找不到数据(L2“缓存未命中”),GPU 现在会尝试从显存获取数据。您可以在上图中看到许多 L2 缓存未命中,该图描述了我们之前的架构存储子系统,这会导致许多显存访问。

如果数据在显存中未找到,GPU 会从您的系统内存中请求它。如果数据不在系统内存中,通常可以从 SSD 或硬盘驱动器等存储设备将其加载到系统内存中。然后将数据复制到显存、L2 缓存以及 L1 缓存,并最终馈送到处理核心。请注意,存在不同的基于硬件或软件的策略来将最有用和最常访问的数据保留在缓存中。

每一次通过显存层级结构的读写数据操作都会降低性能并消耗更多功率,因此通过提高缓存命中率可以提高帧率和效率。

游民星空
Ada架构的存储子系统

与具有 128 位显存位宽的上一代 GPU 相比,全新 NVIDIA Ada Lovelace 架构的存储子系统将 L2 缓存的大小增加了 16 倍,极大提高了缓存命中率。在上面的示例中展示的 Ada 和上一代架构的 128 位 GPU,Ada 的命中率要高得多。此外,与之前的 GPU 相比,Ada GPU 中的 L2 缓存带宽已显着增加。这使得在处理核心和 L2 缓存之间传输更多数据成为可能。

NVIDIA工程师测试了具有 32 MB L2 缓存的 RTX 4060 Ti 与仅使用 2 MB L2 的 RTX 4060 Ti 的特殊测试版本,这代表了上一代 128 位 GPU 的 L2 缓存大小(其中每个 512 KB 的 L2 缓存绑定到对应的一个 32 位显存控制器)。

在各种游戏和综合基准测试中,与 2 MB 二级缓存的性能相比,32 MB 二级缓存将显存总线流量平均降低了 50% 以上。请参考上面 Ada 存储子系统图中降低的显存访问量。

这种 50% 的流量减少使 GPU 能够更有效地使用其显存带宽,效率提升可达近 2 倍。因此,在这种情况下,隔离显存性能,具有 288 GB/秒峰值显存带宽的 Ada GPU 的性能与具有 554 GB/秒峰值显存带宽的 Ampere GPU 的性能相似。在一系列游戏和综合测试中,大大提高的缓存命中率将游戏帧率提高了高达 34%。

从历史上看,显存位宽一直被用作确定新 GPU 的速度和性能等级的重要指标。然而,显存位宽本身并不能充分表明存储子系统的性能。相反,更全面的了解存储子系统设计有助于辨别及其对游戏性能的整体影响。

关于AD106-350的芯片规格

游民星空
完整的AD106架构示意图

游民星空
AD106-350架构示意图(RTX 4060Ti)

对比以上两者架构图,可以看到RTX 4060Ti相比完整芯片削减了一个TPC,即少了两个SM簇。每个SM有128个FP32单元的流处理器,那么便一共少了256个流处理器。相应的Tensor单元、RT单元、纹理单元数量也随之变动,具体规格可查阅以上表格,这里不再赘述。/p>

上一页 1 2 3 4 5 6 7 8 9 10 11 下一页
友情提示:支持键盘左右键“← →”翻页
人喜欢
游民星空APP
随时掌握游戏情报
code
  • 相关资讯:
  • 没有任何记录
休闲娱乐
综合热点资讯
单机游戏下载
好物推荐
游民星空联运游戏