RTX 50系显卡特点:
在Blackwell架构的RTX 50系显卡中,NVIDIA将Tensor核心加入到了与CUDA核心的共同运算中,使其传统的着色器升级为神经网络着色器。
在上图中,NVIDIA将原本需要进行的动画、照明、物理、几何等单元的处理中加入了神经网络的参与,可以更加快速、高效地依照相似性进行重新排序。最后将神经网络类的负载交给Tensor核心来处理,其它的交由着色器核心来处理。从而使其重新排序的效率提高了2倍。
而另一个特点就是PF4了,随着Tensor核心的迭代,支持的精度也越来越低,运算速度也变得越来越快。
Blackwell的第五代Tensor核心首次添加了对FP4(1/8精度)的支持,相较于最早的Pascal架构,其运算速度提升了32倍。
同时,第五代Tensor核心依然支持FP8和FP16,这使得针对不同精度的处理变得更加灵活。
此外,AMP技术的作用在于让显卡同时处理AI和图形任务,通过智能识别指令(如图形渲染、光追计算和LLM大语言模型)并分配至相应的硬件单元。然后将其交由不同的硬件如CUDA核心,Tensor核心或是RT核心来进行处理。
值得一提的是,AMP会优先处理LLM,让AI优先加入到整个计算中来。
整个AMP的加入使得各种指令会被更加明确、高效的进行分工,使其处理效率得到更好的提升。
也因此,图形渲染以及生成过渡帧的节奏会变得更加的连贯,紧凑。
最后就是第四代RT核心,与上一代相比,新一代的RT核心采用了新的三角形集群交汇引擎(Triangle Cluster Intersection Engine)与并新增了三角形集群解压缩引擎(Triangle Cluster Decompression Engine)的组合。二者联合在一起,使得可以处理百万级别的超大规模三角形。
而线性扫描球体图形单元(Linear Swept Spheres)则主要应用于毛发方面,该单元可以大幅降低发束对三角形数量的需求,其数据开销仅为传统渲染方式的1/3。
NVIDIA的RTX Mega Geometry技术是为了能够实现通过上亿的海量三角形所构建的复杂光追场景这一目的而生的。这项技术能够智能地在GPU上批量更新三角形簇,减少了CPU的负担,既保证了性能,也兼顾了图像质量。更高效的完成对光追场景的渲染。