Blackwell新特性:
前边我们讲过Blackwell在SM簇中寄存器的变化,其实不仅仅是寄存器方面,在Blackwell中,NVIDIA将Tensor核心加入到了与CUDA核心的共同运算中,使其传统的着色器升级为神经网络着色器。
NVIDIA在Ada Lovelace架构首次引用了SER的概念(着色器重新排序),其特点是着色器优先对相似度非常差的任务们进行相关性排序,从而提升并行计算的效率。
在上图中,原本需要进行的动画、照明、物理、几何等而单元的处理器加入了神经网络的参与,可以更加快速,高效的依照相似性进行重新排序。最后将神经网络类的负载交给Tensor核心来处理器,其它的交由着色器核心来处理器。从而使其重新排序的效率提高了2倍。
第二个特点就是PF4了,随着Tensor核心的迭代,支持的精度也越来越低,运算速度也变得越来越快。
Blackwell的第五代Tensor核心首次添加了对FP4(1/8精度)的支持,相较于最早的Pascal架构,其运算速度增提升了32倍。
同时,第五代Tensor核心依然支持FP8和FP16,这使得针对不同精度的处理变得更加灵活。
AMP的加入使得显卡可以同时运行AI和图形处理器,它的作用是对不同的指令进行识别和区分,包括图形渲染,光追计算,甚至是LLM大语言模型。然后将其交由不同的硬件如CUDA核心,Tensor核心或是RT核心来进行处理器。
值得一提的是,AMP会优先处理LLM,让AI优先加入到整个计算中来。
整个AMP的加入使得各种指令会被更加明确、高效的进行分工,使其处理器效率得到更好的提升。
也因此,图形渲染以及生成过渡帧的节奏会变得更加的连贯,紧凑。
然后是第四代RT核心,与上一代相比,新一代的RT核心采用了新的三角形集群交汇引擎(Triangle Cluster Intersection Engine)与并新增了三角形集群解压缩引擎(Triangle Cluster Decompression Engine)的组合。二者联合在一起,使其可以处理百万级别的超大规模三角形。
而线性扫描球体图形单元(Linear Swept Spheres)则主要应用于毛发方面,该单元可以大幅降低发束对三角形数量的需求,其数据开销仅为传统渲染方式的1/3。
NVIDIA的RTX Mega Geometry技术是为了能够实现通过上亿的海量三角形所构建的复杂光追场景这一目的而生的。这项技术能够智能地在GPU上批量更新三角形簇,减少了CPU的负担,既保证了性能,也兼顾了图像质量。更高效的完成对光追场景的渲染。