终于干掉了GTX1080?AMD显卡VEGA 64游民首发评测

2017-08-14 22:08:01 来源:游民星空[原创] 作者:马振华 编辑:白菜控 浏览:loading

VEGA重新划分了Shader Engine?

  AMD从VEGA消息泄露直至今日都没有提供官方架构图,使我们不能明确这次4096个SP是如何规划的,但仍可以通过Die Shot获取一些线索。

游民星空
VEGA 10核心摄影

  照片上可以清晰看到核心主要部分成了8块,而不是以前的4块。这意味着Shader Engine很可能由4个变成了8个,果真如此,那么几何引擎也会增加到8个。相比Fiji核心,每个Shader Engine内的CU减半,前段管线瓶颈显著降低,计算性能利用更充分。

  当然还有一种可能,就是Shader Engine依然保持4个,但CU的结构重新排布,用增加并联的方式,缩短单一管线长度,同样能起到充分利用计算性能的作用。

  无论如何,VEGA 10的CU构成一定与先前分四块的Fiji有所不同,前后端性能会平衡许多。

新一代的Compute Unit——NCU

  VEGA 10相比以往的改变不仅仅是在CU的布局上,CU本身也发生了巨变。事实上用CU来称呼VEGA的Compute Unit是不准确的,应该改口叫NCU(Next-Generation Compute Engine)。 它不仅优化了IPC性能,还提高了运算单元的灵活性。

游民星空

  一般来说我们玩游戏、3D渲染对于单精度FP32、双精度FP64要求比较高,而在大规模深度计算中却对半精度FP16有非常高的需求。在深度计算领域先行一步的NVIDIA早就意识到这个问题,率先加入了对FP16半精度支持,半精度性能几乎是双精度的两倍,在深度计算上性能优势十分明显。而AMD无论在Fiji还是Polaris架构上都慢半拍,导致其专业卡在市场没有Quadro那么受人青睐。

游民星空

  但不利的局面从此成为历史,VEGA中首度引入了紧缩的半精度计算支持,尽管每个NCU中的ALU数量依然是64个,但它可以灵活地执行紧缩数学操作指令。如每个周期可以进行512个8位数学计算,或者256个16位计算,或者128个32位计算。这不仅充分利用了硬件资源,也大幅度提升VEGA在深度学习计算的性能。之前公布的VEGA FRONTIER专业卡的单精度浮点性能为13TFLOPS,而半精度直接翻倍到26TFLOPS。

游民星空

  AMD与NVIDIA在单精度与半精度采用相同的ALU管理办法,都是将两个16bit计算整合成一个32bit计算进行操作。

上一页 1 2 3 4 5 6 7 8 9 10 11 下一页
友情提示:支持键盘左右键“← →”翻页
人喜欢
游民星空APP
随时掌握游戏情报
code
休闲娱乐
综合热点资讯
单机游戏下载
好物推荐
游民星空联运游戏