NVIDIA Ada Lovelace架构解析(一):光线追踪效能大爆发

NVIDIA Ada Lovelace架构解析(一):光线追踪效能大爆发

在看完了GeForce RTX 4090的性能测试后,接着我们就继续来分析全新的Ada Lovelace绘图架构,深入了解其改进之处。

运算架构组成

首先我们以GeForce RTX 4090的AD102 GPU来说明Ada Lovelace绘图架构的运算单元组成方式。

完整的AD102具有12组图像处理丛集(Graphics Processing Clusters,GPC)、72组材质处理丛集(Texture Processing Clusters,TPC)、144组串流多重处理器(Streaming Multiprocessors,SM),总共有18432组CUDA核心。 至于内存部分,则是由12组宽度为32bit的控制器组成总宽度为384bit的内存通道,此外还有独立的光流加速器(Optical Flow Accelerator),以及NVENC编码器、NVDEC解码器各3组,并透过PCIe Gen 4×16总线连接至主板。

NVIDIA也在Ada Lovelace白皮书中提到,每组SM中具有2个FP64运算核心(总量为288个),由于FP64数据格式程序的执行效率仅有FP32的1/64,因此这些少量的FP64运算核心目的仅为确保FP64程序能够正常运作。

与前代架构相比,Ada Lovelace的SM具有2倍的运算效能与电力效率,因此能在不增加电力消耗的前提下,达到相同效能输出,或是在消耗相同电力的情况下,将效能输出提升2倍。

而实际搭载于GeForce RTX 4090的AD102则屏蔽1组GPC,因此总共少了6组TPC、12组SM、1536组CUDA核心,详细规格请参考下表。 此外GeForce RTX 4090也仅保留2组NVENC编码器与1组NVDEC解码器,但内存控制器与光流加速器则无异动。

(若手机版浏览器无法显示表,请点我看完整表格)

NVIDIA例代显卡规格对照表
项目GeForce RTX 2080 TiGeForce RTX 3090 TiGeForce RTX 4080 12GBGeForce RTX 4080 16GBGeForce RTX 4090
GPU代号TU102GA102AD104AD103AD102
GPC数量675711
TPC数量3474303864
SM数量68846076128
CUDA核心数量4352107527680972816384
光流处理器数量(OFA)126305305305
核心Boost时脉1635MHz1860MHz2610MHz2505MHz2520MHz
FP32运算效能14.2TFLOPS40TFLOPS40.1TFLOPS48.7TFLOPS82.6TFLOPS
Tensor核心数量544(第2代)336(第3代)240(第4代)304(第4代)512(第4代)
Tensor FP16运算效能(正常/稀疏运算)113.8TFLOPS160/320TFLOPS160.4/320.8TFLOPS194.9/389.8TFLOPS330.3/660.6TFLOPS
Tensor FP8运算效能(正常/稀疏运算)不支持不支持320.7/641.4TFLOPS389.8/779.8TFLOPS660.6/1321.2TFLOPS
RT核心数量68(第1代)84(第2代)60(第3代)76(第3代)128(第3代)
RT运算效能42.9TFLOPS78.1TFLOPS92.7TFLOPS112.7TFLOPS191TFLOPS
材质单元数量272336240304512
材质填充率(Gigatexels/s)444.7625626.4761.51290.2
ROP数量8811280112176
像素填充率(Gigapixels/s)143.9208.3208.8280.6443.5
显示内存容量、种类11GB GDDR624GB GDDR6X12GB GDDR6X16GB GDDR6X24GB GDDR6X
显示内存通道宽度352bit384bit192bit256bit384bit
显示内存传输速度14Gbps21Gbps21Gbps22.4Gbps21Gbps
显示内存带宽616GB/s1008GB/s504GB/s716.8GB/s1008GB/s
L1缓存容量6.375MB10.5MB7.5MB9.5MB16MB
L2缓存容量5.5MB6MB48MB64MB72MB
影像编码加速器第7代NVENC第7代NVENC第8代NVENC x2第8代NVENC x2第8代NVENC x2
影像解码加速器第4代NVDEC第5代NVDEC第5代NVDEC第5代NVDEC第5代NVDEC
PCIe接口PCIe Gen 3×16PCIe Gen 4×16PCIe Gen 4×16PCIe Gen 4×16PCIe Gen 4×16
TGP(显示卡功耗)360W450W285W320W450W
晶体管数量186亿283亿358亿459亿763亿
裸晶尺寸754mm2628.4mm2294.5mm2378.6mm2608.5mm2
制程TSMC 12nm FFN(FinFET NVIDIA)Samsung 8nm 8N NVIDIA定制工艺TSMC 4nm NVIDIA定制制程TSMC 4nm NVIDIA定制制程TSMC 4nm NVIDIA定制制程

完整的AD102具有12组GPC,以及NVENC编码器、NVDEC解码器各2组。▲ 完整的AD102具有12组GPC,以及NVENC编码器、NVDEC解码器各2组。

GeForce RTX 4090的AD102则屏蔽部分组件,变成只有11组GPC,也仅保留2组NVENC编码器与1组NVDEC解码器。▲ GeForce RTX 4090的AD102则屏蔽部分组件,变成只有11组GPC,也仅保留2组NVENC编码器与1组NVDEC解码器。

SM的细部组成如图所示。 需要注意的是文中提到的FP64运算核心并未绘制于图中。▲ SM的细部组成如图所示。 需要注意的是文中提到的FP64运算核心并未绘制于图中。

在软件支持的情况下,GeForce RTX 4090的2组NVENC编码器可以同时运作,进行实时8K编码转档。▲ 在软件支持的情况下,GeForce RTX 4090的2组NVENC编码器可以同时运作,进行实时8K编码转档。

根据官方提供的测试数据,GeForce RTX 4090的编码速度比GeForce RTX 3090 Ti高出1倍以上。▲ 根据官方提供的测试数据,GeForce RTX 4090的编码速度比GeForce RTX 3090 Ti高出1倍以上。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论