深度学习单元Tensor Cores
我们都知道Volta GV100中首次引入的张量核心Tensor Core,Turing架构中的张量核心是前者的增强版本。它设计增加了INT8和INT4精确模式来测算可接受的工作负载,FP16也完全支持这种工作负载的精确测算。
在基于Turing的GeForce游戏核心中引入张量内核首次将实时深度学习引入游戏应用程序。Turing张量核心加速了NVIDIA NGX神经服务的基于AI的特性,增强了图形、渲染和其他类型的客户端应用程序的效率。NGX AI特性的示例包括深度学习超级采样(DLSS)、AI绘画、AI Super Rez和AI Slow-Mo。
Turing张量核加速了神经网络训练和推理函数的核心矩阵乘法。Turing张量核特别擅长于推理计算,其中有用的相关信息可以通过基于给定输入的训练有素的深层神经网络(DNN)来推断和传递。推理的例子包括识别Facebook照片中朋友的图像,识别和分类自驾车中不同类型的汽车、行人和道路危险,实时翻译人类语言,以及在线零售中创建个性化的用户建议,以及社交媒体系统。
TU102包含576个张量核心,每个张量核心可以执行多达64个浮点熔点乘加(FMA)操作,每个时钟周期使用FP16输入。SM中的八个张量核每个时钟周期总共执行512次FP16相乘和相加操作,或者执行1024次总FP操作。新的INT8精度模式以双倍的速率运行,每个时钟周期可达到2048次整数运算。
Turing张量核为矩阵运算提供了显著的加速,并且除了新的神经图形函数之外,还用于深度学习训练和推理运算。
允许你垫了没允许你垫诈 肉身布施成圣的囧图
惊喜!索尼PS第一方新作全新实机首曝!黑发美女亮相
行业地震!游戏巨头官宣拆分:古墓丽影、地铁等打包
"如龙之父"工作室变"永久停业"!马东锡龙帮真没了?
释小龙杨洋两代展昭同框 吐槽:你打伤的全是我学生
蝙蝠侠在新作玩的太花!被猫女用小皮鞭抽成陀螺