AMD Zen 4微架构详解,平台全面升级再加赠AVX-512

外行看热闹,内行看门道。 就让我们一起来观察这次转换至全新AM5平台的Zen 4微架构及其SoC设计,相较Zen 3是如何达成提升IPC 13%的效能新高。

CCD、IOD 全面更新

目前AMD多款处理器已导入小芯片chiplet设计,可以自由地组合针对不同市场、效能的产品。 这一次在消费级台式机市场首发的Ryzen 7000台式处理器系列(代号 Raphael),继续采用 CCD+cIOD(client IOD)设计,分别采用 TSMC N5 以及 N6 制程。

Ryzen 7000台式处理器系列除了CCD内部更新至Zen 4微架构之外,其cIOD也因为转换至AM5新平台之故,新增DDR5内存和PCIe 5.0支持性,更重要的是内建RDNA 2架构的绘图显示功能,补完过去在商业市场尚待拼凑完成的产品线。

根据AMD官方提供的资料,在同样的4GHz运作时脉、8核心比较基础之下,Zen 4微架构相较于前一世代Zen 3微架构,其IPC(Instructions Per Clock/Cycle)于多款测试软件的几何平均效能提升了13%。

AMD Ryzen 7000 series SoC

▼AM5 平台全面升级,处理器微架构升级成 Zen 4,cIOD 也增添绘图显示功能,更全面转入 DDR5 内存和 PCIe 5.0 规格。

▼于相同的 4GHz 运作时脉、8 核心比较基础之下,Zen 4 微架构相较于 Zen 3 微架构的 IPC 几何平均提升了 13%。

Zen 4 IPC incresed 13% vs. Zen 3

Zen 4 微架构新增 AVX-512、VNNI、BF16 支持性

由于 Zen 4 是从 Zen 3 微架构修改而来,若是读者比较不熟悉这方面的信息,建议可以搭配上方的延伸阅读一同服用、效果更佳。 整体而言,Zen 4 IPC提升幅度,贡献最大的是处理器核心前端的变化,接着是加载∕储存单元以及分支预测,执行单元与双倍大(1MB vs. 512KB)的 L2 快取则仅占一小部分。

Zen 4 performance contributors

▼ 相较于 Zen 3,Zen 4 微架构的前端改良对于效能提升贡献最大,其次是加载 ∕ 储存单元以及分支预测。

zen 4 microarchitecture overview

▼ Zen 4 微架构的改良包含分支预测、更大的微指令快取、更大的指令 retire 队列、更多的整数 ∕ 浮点数暂存器数量、加深核心整体的缓冲区、加载 ∕ 储存单元、1MB L2 快取,当然还有新增 AVX-512 指令集。

前端分支预测、指令解码、微指令快取等各个部分,分支预测改良包含每周期可预测2个跳转分支、L1 BTB(Branch Target Buffer)增大50%达1.5k条目(Zen 3和Zen 4每个条目均可储存2个分支)、L2 BTB则从6.5k略微提升至7k。 微指令快取(micro-op cache)则从Zen 3的4k条目提升约68%来到Zen 4的6.75k条目,每时脉周期也多出1条宏指令(共9条宏指令)可从该快取传出至微指令队列,解码器每时脉周期则是依旧可以解出4条指令至微指令队列当中。 至于微指令排队每时脉周期可配发的数量不变,整数加上浮点数同样是6条指令。

zen 4 microarchitecture front-end

▼ Zen 4 前端部分相较于 Zen 3 变化较大,BTB 和微指令快取均有程度不一的数量提升。

相较于前端的变化,各个执行单元反而没有什么更动,Zen 4整数、浮点数执行单元数量相同,每时脉周期能够issue的指令数量依旧维持10+6(整数+浮点数)。 幅度较大的改变现踪于暂存器数量和ROB(Re-Order Buffer),整数暂存器从192个提升至224个,浮点数暂存器从160个提升至192个,ROB则是从256条目提升至320条目。

zen 4 microarchitecture excution engine

▼ Zen 4 执行单元没有太大的变动,主要是提升暂存器和 ROB 数量。

有趣的是,AMD 这次又将过去的手法套用在 Zen 4 身上。 不若Intel微架构执行AVX-512系列指令时,其执行通道确确实实达512 bit,Zen 4的浮点数执行单元宽度仅有256 bit。 如同先前工程机械类、Zen微架构以128 bit浮点单元执行256 bit AVX/AVX2指令时一样,需要将单一AVX-512指令拆成2个微指令。

AMD表示这种作法除了能够优化芯片面积之外,也可以避免执行AVX-512指令时的时钟下降状况。 此外,Zen 4 也支持 AVX-512 VNNI 和 BF16,前者主要用于 AI 模型推论,将多个 8 bit 或是 16 bit 整数串成 512 bit,提升卷积神经网络常用的 MAC(Multiply Accumulate)速度; 后者则是将FP32的1位符号数+8位指数 +23位小数的结构,将小数砍到只剩7位,得到与FP32范围相同、精度较差的BF16,同样也是用来加速AI运算的速度。

zen 4 microarchitecture new avx-512

▼ AMD Zen 4 提供 AVX-512 一系列指令集的支持性,包含可加速 AI 应用的 AVX-512 VNNI 和 BF16,不过其浮点数执行通道宽度仅有 256 bit。

zen 4 microarchitecture avx-512 extension ISA

▼ Zen 4 支持AVX-512 延伸指令集一览,AMD 表示多线绪 FP32 的推论效能提升 1.32 倍,多执行绪 INT8 的推论效能更能够提升 2.47 倍。

zen 4 microarchitecture virtualizarion and security

▼ Zen 4 也新增有关虚拟化和安全性方面的指令。

双倍大 L2 快取、Outstanding Miss 数量提升

由于浮点数执行单元的宽度最宽仍旧是256bit,以此加载∕存储单元也就没有倍增至 512bit 的必要。 L1 数据缓存仍旧是每周期加载3笔(256bit时降为2笔)∕写入2笔(256bit时降为1笔)资料,L2快取倍增为1MB,L3快取则维持每个CCD 8核心共享32MB。

相较于Zen 3,Zen 4微架构的L2快取至L3快取、L3快取至内存的Outstanding Miss数量有所提升,但AMD公开数据并未提及究竟多出多少? 其余像是 L3 快取是 victim cache 结构,L2 快取的 tag 复制至 L3 快取之中,供 probe filtering 与加速快取传输之用,Zen 4 均继承 Zen 3 设计。

zen 4 microarchitecture load/store

▼ Zen 4 载入∕储存单元的加载队列从72个提升至88个,储存队列则是维持64个不变,L2快取的数据TLB则从2k条目提升50%至3k条目。

zen 4 microarchitecture cache hierarchy

▼ 除了 L2 快取从 512KB 升级至 1MB 之外,其余快取阶层、每时脉周期传输量均沿用 Zen 3 设计,但是 L2/L3 快取 Outstanding Miss 数量有所提升。

zen 3 to zen 4 evolution

▼ Zen 4 相对于 Zen 3 各项微架构改进数量一览表。

新款 cIOD 集成显示输出功能

随着处理器、平台世代更新,Ryzen 7000桌上型处理器系列cIOD出现不小的变化,包含DDR5内存和PCIe 5.0支持性,USB也增添Type-C支持性和BIOS Flashback功能机制,更从Ryzen 6000移动处理器系列汲取相关省电性研发成果。

另一方面,熟悉 AMD 处理器的玩家,都知道 Infinity Fabric clock(fclk)、memory controller clock(uclk)、memory clock(mclk)之间的时脉比值最好维持 1:1:1,否则反而会增加传输延迟导致效能下降的状况。 Ryzen 7000 系列稍微有些不同,uclk 和 mclk 仍旧建议维持 1:1,但是 fclk 则是建议维持预设值「自动」,内存等效时脉甜蜜点为 DDR5-6000,因此不少 EXPO(AMD 版 XMP)内存均以 DDR5-6000 作为标准。

ryzen 7000 series new IOD

▼ Ryzen 7000 系列的 cIOD 有着不小的变化,包含支持 DDR5 内存和 PCIe 5.0。

ryzen 7000 series DDR5 overclocking

▼ Ryzen 7000 系列的 fclk、uclk、mclk 比值建议为自动:1:1,内存等效时脉甜蜜点则是 DDR5-6000。

Ryzen 7000系列cIOD最大变动之处,在于整合RDNA 2架构的绘图显示功能以及视频硬件编解码加速,虽然只是2个CU聊胜于无的3D效能,但不需要额外加装独立显示卡,即可拥有显示输出和多种视频硬件编解码加速功能,相信对于商用市场有着不小的吸引力。

ryzen 7000 series IOD integrated RDNA 2 graphics

▼ 受惠于TSMC N6制程的晶体管密度表现,Ryzen 7000系列的cIOD整合RADNA 2架构绘图显示功能,具备H.264(AVC)/ H.265(HEVC)视频编解码加速;当额外安装兼容的独立显示卡时,也支持Hybrid Graphics。

ryzen 7000 series SoC topology

▼ Ryzen 7000台式处理器系列内部封装芯片数量与前代相同,最多能够封装2个CCD和1个cIOD,每个CCD对cIOD每周期可写入16Byte,因此单CCD封装版本(实体8核心以下),执行内存带宽测试时仍有写入带宽减半的状况,但实际应用效能不受影响。

AM5 强化外部供电模块沟通能力

藉由转换至全新的AM5平台,AMD也连带改善与外围的沟通界面,例如新增I3C,音频接口也多出 SoundWire 和 DMIC。 AMD 特别提到平台电源控制从 SV12 升级至 SV13,支持强化电源管理,高速双向通讯机制能够遥测电压、电流、功耗、温度、健康度等信息,并扩展电源状态定义,迎合最佳化省电管理与不同负载程度下的需求。

socket am4 to am5 evolution

▼ AM4 与 AM5 多项重大改善比较。

socket am5 power delivery improvements

▼ AM5 平台的电源管理机制将有显著的改善。

另一方面,这次与Ryzen 7000台式处理器系列一同推出的X670 /X670E和B650 / B650E芯片组,除了按照惯例分级之外,X670 /X670E还能够以PCIe 4.0 x4再串接另外一个X670 /X670E,达到扩展I/O端口的功效。

AMD X670E and X670 chipset

▼ X670 / X670E 芯片组通道与架构一览,主板若要挂名 X670E,AMD 要求显卡和 M.2 SSD 插槽均须具备 PCIe 5.0 规格。

AMD B650E and B650 chipset

▼ B650 / B650E 芯片组通道与架构一览,主板若要挂名 B650E,AMD 要求显卡和 M.2 SSD 插槽均须具备 PCIe 5.0 规格。

整体而言,这次AMD针对Zen 4微架构进行的改善工程,与前阵子Chips and Cheese网站专题<<b10>Measuring Zen 3’sBottlenecks>专题结论八九不离十,主要是打通Zen 3微架构的任督二脉,辅以TSMC N5制程所带来的晶体管密度与时脉红利,打造AM5平台的首代产品Ryzen 7000 桌上型处理器系列。

在首波产品之后,接着还有通过混合键合(hybrid bonding)连接额外 L3 快取芯片,提升 L3 快取容量的Ryzen 7000 系列 X3D 版本处理器问世。 以及推出针对云端密集计算的 Zen 4c 微架构,最大化每个处理器插槽能够搭载的核心数量。

amd ryzen 7000 series a wealth of innovation

▼ AMD Ryzen 7000 系列所有的创新内容一览。

amd zen microarchitecture journey

▼ Zen 微架构逐代改善内容一览。

amd zen microarchitecture journey
(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论