NVIDIA Ada Lovelace架构解析（一）：光线追踪效能大爆发

IGN • 2023年10月2日 11:38 • 游戏攻略

在看完了GeForce RTX 4090的性能测试后，接着我们就继续来分析全新的Ada Lovelace绘图架构，深入了解其改进之处。

运算架构组成

首先我们以GeForce RTX 4090的AD102 GPU来说明Ada Lovelace绘图架构的运算单元组成方式。

完整的AD102具有12组图像处理丛集（Graphics Processing Clusters，GPC）、72组材质处理丛集（Texture Processing Clusters，TPC）、144组串流多重处理器（Streaming Multiprocessors，SM），总共有18432组CUDA核心。至于内存部分，则是由12组宽度为32bit的控制器组成总宽度为384bit的内存通道，此外还有独立的光流加速器（Optical Flow Accelerator），以及NVENC编码器、NVDEC解码器各3组，并透过PCIe Gen 4×16总线连接至主板。

NVIDIA也在Ada Lovelace白皮书中提到，每组SM中具有2个FP64运算核心（总量为288个），由于FP64数据格式程序的执行效率仅有FP32的1/64，因此这些少量的FP64运算核心目的仅为确保FP64程序能够正常运作。

与前代架构相比，Ada Lovelace的SM具有2倍的运算效能与电力效率，因此能在不增加电力消耗的前提下，达到相同效能输出，或是在消耗相同电力的情况下，将效能输出提升2倍。

而实际搭载于GeForce RTX 4090的AD102则屏蔽1组GPC，因此总共少了6组TPC、12组SM、1536组CUDA核心，详细规格请参考下表。此外GeForce RTX 4090也仅保留2组NVENC编码器与1组NVDEC解码器，但内存控制器与光流加速器则无异动。

（若手机版浏览器无法显示表，请点我看完整表格）

NVIDIA例代显卡规格对照表
项目	GeForce RTX 2080 Ti	GeForce RTX 3090 Ti	GeForce RTX 4080 12GB	GeForce RTX 4080 16GB	GeForce RTX 4090
GPU代号	TU102	GA102	AD104	AD103	AD102
GPC数量	6	7	5	7	11
TPC数量	34	74	30	38	64
SM数量	68	84	60	76	128
CUDA核心数量	4352	10752	7680	9728	16384
光流处理器数量（OFA）	无	126	305	305	305
核心Boost时脉	1635MHz	1860MHz	2610MHz	2505MHz	2520MHz
FP32运算效能	14.2TFLOPS	40TFLOPS	40.1TFLOPS	48.7TFLOPS	82.6TFLOPS
Tensor核心数量	544（第2代）	336（第3代）	240（第4代）	304（第4代）	512（第4代）
Tensor FP16运算效能（正常/稀疏运算）	113.8TFLOPS	160/320TFLOPS	160.4/320.8TFLOPS	194.9/389.8TFLOPS	330.3/660.6TFLOPS
Tensor FP8运算效能（正常/稀疏运算）	不支持	不支持	320.7/641.4TFLOPS	389.8/779.8TFLOPS	660.6/1321.2TFLOPS
RT核心数量	68（第1代）	84（第2代）	60（第3代）	76（第3代）	128（第3代）
RT运算效能	42.9TFLOPS	78.1TFLOPS	92.7TFLOPS	112.7TFLOPS	191TFLOPS
材质单元数量	272	336	240	304	512
材质填充率（Gigatexels/s）	444.7	625	626.4	761.5	1290.2
ROP数量	88	112	80	112	176
像素填充率（Gigapixels/s）	143.9	208.3	208.8	280.6	443.5
显示内存容量、种类	11GB GDDR6	24GB GDDR6X	12GB GDDR6X	16GB GDDR6X	24GB GDDR6X
显示内存通道宽度	352bit	384bit	192bit	256bit	384bit
显示内存传输速度	14Gbps	21Gbps	21Gbps	22.4Gbps	21Gbps
显示内存带宽	616GB/s	1008GB/s	504GB/s	716.8GB/s	1008GB/s
L1缓存容量	6.375MB	10.5MB	7.5MB	9.5MB	16MB
L2缓存容量	5.5MB	6MB	48MB	64MB	72MB
影像编码加速器	第7代NVENC	第7代NVENC	第8代NVENC x2	第8代NVENC x2	第8代NVENC x2
影像解码加速器	第4代NVDEC	第5代NVDEC	第5代NVDEC	第5代NVDEC	第5代NVDEC
PCIe接口	PCIe Gen 3×16	PCIe Gen 4×16	PCIe Gen 4×16	PCIe Gen 4×16	PCIe Gen 4×16
TGP（显示卡功耗）	360W	450W	285W	320W	450W
晶体管数量	186亿	283亿	358亿	459亿	763亿
裸晶尺寸	754mm²	628.4mm²	294.5mm²	378.6mm²	608.5mm²
制程	TSMC 12nm FFN（FinFET NVIDIA）	Samsung 8nm 8N NVIDIA定制工艺	TSMC 4nm NVIDIA定制制程	TSMC 4nm NVIDIA定制制程	TSMC 4nm NVIDIA定制制程