AMD MI300X AI GPU加速器发布
性能超越预期
在的"Advancing AI"活动中,AMD正式发布了旗舰AI GPU加速器MI300X,该产品不仅令人瞩目,更在性能方面超越了英伟达的H100,高出60%。
性能对比
在演讲中,AMD对比了MI300X与英伟达H100加速卡的性能参数,着重突显了MI300X的卓越之处:
内存容量是H100的2.4倍
内存带宽是H100的1.6倍
FP8 TFLOPS精度是H100的1.3倍
FP16 TFLOPS精度是H100的1.3倍
此外,在1v1比较中,MI300X训练Llama 2 70B模型的速度比H100快了20%。同样,在8v8 Server比较中,MI300X训练Bloom 176B模型的速度更是比H100快了惊人的60%。
升级的软件堆栈
MI300X AI加速卡的软件堆栈已经升级至ROCm 6.0,以改善对生成式AI和大型语言模型的支持。新的软件堆栈还支持最新的计算格式,包括FP16、Bf16和FP8(包括Sparsity),使其更具竞争力。
架构创新
MI300X是AMD Instinct MI300X芯片的亮点,专为AI领域设计,竞争对手包括NVIDIA的Hopper和英特尔的Gaudi加速器。该芯片完全基于CDNA 3架构设计,混合使用5nm和6nm IP,晶体管数量达到惊人的1530亿个。
中介层创新
设计方面,MI300X采用了无源芯片布局,主中介层使用第4代Infinity Fabric解决方案,共包括28个芯片。其中,8个是HBM3封装,16个是HBM封装之间的虚拟芯片,还有4个有源芯片,每个有源芯片都搭载2个计算芯片。
计算能力与内存
每个基于CDNA 3 GPU架构的GCD总共有40个计算单元,相当于2560个内核。总共有8个计算芯片(GCD),共有320个计算和20480个核心单元。在内存方面,MI300X采用了HBM3内存,最高容量可达192GB,比前代MI250X高出50%。此内存提供高达5.3 TB/s的带宽和896 GB/s的Infinity Fabric带宽。
性能与功耗的平衡
MI300X配备了8个HBM3堆栈,每个堆栈为12-Hi,集成了16 Gb IC,每个IC容量为2 GB,使每个堆栈达到24 GB。相比之下,竞争对手NVIDIA的H200 AI加速器提供141 GB容量,英特尔的Gaudi 3则提供144 GB容量。在功耗方面,MI300X额定功率为750W,比Instinct MI250X的500W增加了50%,比NVIDIA H200增加了50W。
服务器配置
技嘉的G593-ZX1/ZX2系列服务器是MI300X的理想伴侣,可容纳多达8个MI300X GPU加速器和两个AMD EPYC 9004 CPU。这些系统搭载多达8个3000W电源,总功率高达18000W,为MI300X提供充足的动力。
AMD MI300X的发布标志着AI领域的一次巨大飞跃,不仅在性能方面超越了竞争对手,而且在架构创新和软件支持上也取得了显著的进步。MI300X的出现,将进一步推动人工智能技术的发展,为未来的计算世界打开新的可能性。