4倍3090Ti性能所言不虚?RTX 4090显卡游民首测

2022-10-11 21:05:57 来源:游民星空[原创] 作者:Alexeik 编辑:Alexeik 浏览:loading

Ada架构光追性能与RT单元的提升

要知晓Ada架构光追性能的提升,要从RT单元的升级讲起。

传统的SM簇中流处理器并非不能进行光追计算,但是会消耗大量的算力资源,阻碍顶点着色、纹理填充等传统计算工作,拖慢即时帧的生成。光追计算的主要工作,其实就是层次包围体积的计算,简称BVH,它是一种碰撞检测算法,用于模拟光的轨迹。

Turing和Ampere架构中,RT单元能够将BVH交由矩形相交引擎加速,而光线三角形相交则由三角形相交引擎加速。有这个RT单元专司其职,使流处理器能够不受干扰的进行它的常规工作,保障了帧生成的速度。

游民星空

在Ada架构的第三代光追单元中,除了上述两个引擎以外,新增加了“不透明度微遮盖引擎”(OME)和“微网格位移引擎”(DM-ME)。

游民星空

这两个引擎将光追计算中常遇到的操作做进一步的分工处理,提高整体的效率。如下图所示,OME引擎能够以区块划分哪些像素是遮挡光线的,哪些应该半遮挡的,哪些是透明的。将其分区块统一处理,不像原来那样需要逐个扫描识别,节省了着色器的资源。

游民星空

而DM-ME则相当于在光追中应用的曲面细分,它通过BVH构建碰撞体积的模型,在以往的第二代RT核心计算中需要顶点几何渲染的介入加上BVH构建出最终成型的光线碰撞路径。

游民星空

游民星空

而在Ada架构的第三代RT核心中,有了DM-ME引擎,可以通过矢量位移的固定算法根据单一BVH自动生成最终的光线碰撞模型,从而进一步节省了资源,提高了光追的效率。

着色器执行重排序

早期的RT单元不足以确保光追的高帧速率,是因为RT工作负载可能受到许多因素的限制。特别是在执行多重反弹、随机路径跟踪算法或评估复杂材质时。

典型分歧有两种形式:执行分歧——即不同的线程在着色器内执行不同的着色器或代码路径;数据分歧——即线程访问难以合并或缓存的内存资源。在许多光线跟踪场景中,这两种发散都会自然发生。

Ada架构的一项新技术,旨在通过解决发散问题来提高RT单元执行的效率,称之为着色器执行重新排序(SER),这是一种新的调度系统,可以动态重新排序着色工作,以获得更好的执行和数据位置。

游民星空

简单的来说,我们可以理解为光追计算中,同一帧画面有许多长度不同的指令,交给各个着色器来执行。这些指令运行速度必然有快慢之分,而一帧画面的生成必须等到该画面所需的指令执行完,这时候如果如果能够将它们按照所需时间统筹安排起来,提到着色器的利用率,避免相互等待的情况,尽量令其同步执行完毕,那么将显著提升帧生成的效率。

游民星空

上一页 1 2 3 4 5 6 7 8 9 10 11 下一页
友情提示:支持键盘左右键“← →”翻页
人喜欢
游民星空APP
随时掌握游戏情报
code
休闲娱乐
综合热点资讯
单机游戏下载
好物推荐
游民星空联运游戏