[GPU硬件架构]NVIDIA Ampere 架构:第三代 Tensor Core
发布网友
发布时间:2022-12-10 21:37
我来回答
共1个回答
热心网友
时间:2023-05-18 15:43
摘录自 NVIDIA Ampere Architecture In-Depth 一文中关于 Tensor Core 的部分
NVIDIA A100 是基于Ampere 架构推出的一款GPU芯片,计算能力8.0。Tensor Core 是 NVIDIA 的先进技术,可实现混合精度计算,并能根据精度的降低动态调整算力,在保持准确性的同时提高吞吐量。
GA100 GPU 的完整实现包括以下单元:
GA100 GPU 的 A100 Tensor Core GPU 实现包括以下单元:
基于 NVIDIA Ampere 架构的 A100 Tensor Core GPU 中的新 SM 大大提高了性能,在 Volta 和 Turing SM 架构的基础之上,增加了许多新功能。
如上图所示,TP32提供了与FP32相同的表示范围(与 FP32 相同,具有8 位指数),但与FP16相同的表示精度(与 FP16 相同,具有10 位尾数)。TF32 Tensor Core 读取 FP32 数据作为输入并在内部转换为TF32数据,最终产生FP32 输出。因此在A100中可以使用TF32加速FP32的张量计算,并同时支持FP32数据的输入和输出。其运行速度比 V100 FP32 FMA 操作快 10 倍,或者在稀疏时快 20 倍。