影驰RTX 5090 D大将显卡评测：DLSS4催生2.6倍4090 D的帧率

2025-01-30 20:11:12 来源：游民星空[原创] 作者：听风飞舞编辑：听风飞舞　浏览：loading

Blackwell新特性：

前边我们讲过Blackwell在SM簇中寄存器的变化，其实不仅仅是寄存器方面，在Blackwell中，NVIDIA将Tensor核心加入到了与CUDA核心的共同运算中，使其传统的着色器升级为神经网络着色器。

NVIDIA在Ada Lovelace架构首次引用了SER的概念（着色器重新排序），其特点是着色器优先处理相似度非常差的任务们进行相关性排序，从而提升并行计算的效率。

在上图中，原本需要进行的动画、照明、物理、几何等而单元的处理器加入了神经网络的参与，可以更加快速，高效的依照相似性进行重新排序。最后将神经网络类的负载交给Tensor核心来处理器，其它的交由着色器核心来处理器。从而使其重新排序的效率提高了2倍。

第二个特点就是PF4了，随着Tensor核心的迭代，支持的精度也越来越低，运算速度也变得越来越快。

Blackwell的第五代Tensor核心首次添加了对FP4（1/8精度）的支持，相较于最早的Pascal架构，其运算速度增提升了32倍。

同时，第五代Tensor核心依然支持FP8和FP16，这使得针对不同精度的处理变得更加灵活。

之前的AI与图形处理的步骤

全新AMP（AI管理处理器）加入后的情况

AMP的加入使得显卡可以同时运行AI和图形处理器，它的作用是对不同的指令进行识别和区分，包括图形渲染，光追计算，甚至是LLM大语言模型。然后将其交由不同的硬件如CUDA核心，Tensor核心或是RT核心来进行处理器。

值得一提的是，AMP会优先处理LLM，让AI优先加入到整个计算中来。

整个AMP的加入使得各种指令会被更加明确、高效的进行分工，使其处理器效率得到更好的提升。

也因此，图形渲染以及生成过渡帧的节奏会变得更加的连贯，紧凑。

然后是第四代RT核心，与上一代相比，新一代的RT核心采用了新的三角形集群交汇引擎（Triangle Cluster Intersection Engine）与并新增了三角形集群解压缩引擎（Triangle Cluster Decompression Engine）的组合。二者联合在一起，使其可以处理百万级别的超大规模三角形。

而线性扫描球体图形单元（Linear Swept Spheres）则主要应用于毛发方面，该单元可以大幅降低发束对三角形数量的需求，其数据开销仅为传统渲染方式的1/3。