加载中
常见 GPU性能
1. 前言
本报告旨在详细调研并对比分析当前主流及数据中心领域常见的 NVIDIA GPU 的浮点运算性能(FLOPS)。GPU 的算力是衡量其性能的核心指标,尤其是在人工智能(AI)、高性能计算(HPC)和图形渲染等领域。
理解不同 GPU 在不同数据精度下的性能至关重要,因为特定任务对精度的要求不同。例如,传统的科学计算需要高精度的 FP64,而 AI 推理则可以在低精度的 INT8 或 FP8 下实现巨大加速。本报告将涵盖以下关键概念和 GPU 型号的性能数据。
关键概念解释
在查看数据之前,了解以下概念非常重要:
FLOPS- 数据精度 (Precision):
- FP64 (双精度):每个数字用 64 位表示。精度最高,是传统科学和工程计算(HPC)的黄金标准。
- FP32 (单精度):每个数字用 32 位表示。在图形渲染和 AI 模型训练中长期作为基准。
- TF32 (TensorFloat-32):NVIDIA 在 Ampere 架构(A100)中引入的特殊格式。拥有 FP32 的数值范围和 FP16 的精度,可在几乎不修改代码的情况下,为深度学习提供数倍加速。
- FP16/BF16 (半精度):每个数字用 16 位表示。是当前 AI 训练和推理的主流,能显著提升速度并减少内存占用。
- FP8 (8位浮点):NVIDIA 在 Hopper 架构(H100)中引入的最新格式,旨在为大语言模型等前沿 AI 应用提供极致的推理和训练性能。
- INT8 (8位整数):主要用于 AI 推理,通过量化将模型权重转换为整数,以达到最快的速度和最低的延迟。其性能单位通常为 TOPS (每秒万亿次操作)。
- 张量核心 (Tensor Cores):从 Volta 架构开始引入的专用处理单元,旨在极大地加速矩阵乘加运算,这是深度学习的核心计算。使用 Tensor Cores 能够让 GPU 在处理 FP16、TF32、FP8 等低精度运算时,性能提升数倍甚至数十倍。
- 稀疏计算 (Sparsity):从 Ampere 架构开始支持的一项特性。它能利用深度学习模型中普遍存在的稀疏性(即大量值为零的权重),在特定条件下使计算吞吐量翻倍。
2. GPU 性能对比总表
下表汇总了各款 GPU 在不同精度下的理论峰值性能。所有数值单位均为 TFLOPS (每秒万亿次浮点运算),INT8 单位为 TOPS (每秒万亿次操作)。
GPU 型号 | 架构 | FP64 (双精度) | FP32 (单精度) | TF32 (Tensor Core) | FP16/BF16 (Tensor Core) | FP8 (Tensor Core) | INT8 (Tensor Core) |
RTX 4090 | Ada Lovelace | 1.29 | 82.6 | 82.6 | 82.6 (模拟) | - | - |
RTX 5090 (预测) | Blackwell | ~2.5 (预测) | ~120-130 (预测) | ~120-130 (预测) | ~120-130 (预测) | - | - |
V100 (SXM2) | Volta | 7.8 | 15.7 | - | 125 | - | - |
A100 (SXM4) | Ampere | 9.7 (TC: 19.5) | 19.5 | 156 (稀疏: 312) | 312 (稀疏: 624) | - | 624 (稀疏: 1248) |
H100 (SXM5) | Hopper | 34 (TC: 67) | 67 | 989 (稀疏: 1979) | 1979 (稀疏: 3958) | 3958 (稀疏: 7916) | 3958 (稀疏: 7916) |
H20 (SXM) | Hopper | 2 | 44 | 148 (稀疏: 296) | 148 (稀疏: 296) | 296 (稀疏: 592) | 296 (稀疏: 592) |
注释:
TC
代表使用 Tensor Cores 达到的性能。
稀疏
代表启用 Sparsity 特性后的理论峰值性能。
- RTX 4090 的低精度性能数值反映了其 CUDA 核心和 Tensor 核心的总潜力,但其 Tensor Core 不支持像数据中心卡那样丰富的精度模式。
- RTX 5090 的所有数据均为基于当前行业传闻和分析的预测,并非官方数据,仅供参考。
3. 各型号详细分析
GeForce RTX 系列 (消费级)
RTX 4090
- 定位:旗舰级消费显卡,主要面向高端游戏玩家和内容创作者。
- 性能特点:拥有极其强大的 FP32 性能(82.6 TFLOPS),这使其在 4K 游戏、视频渲染和 3D 设计中表现出色。然而,为了与数据中心产品线区分,其 FP64 性能被人为限制为 FP32 的 1/64,因此不适合进行严肃的科学计算。
RTX 5090 (预测)
- 定位:下一代旗舰消费显卡。
- 性能特点(预测):预计将基于 NVIDIA 的 Blackwell 架构,在 FP32 性能上相比 RTX 4090 有显著提升,可能会达到 120-130 TFLOPS 的范围。内存技术预计将升级到 GDDR7,提供更高的带宽。与 4090 类似,其 FP64 性能可能依然会受到限制。请注意,所有关于 5090 的信息在官方发布前都存在变数。
Data Center GPU (数据中心级)
V100
- 定位:基于 Volta 架构,是开启 AI 计算革命的里程碑式产品。
- 性能特点:首次引入 Tensor Cores,使其 FP16 性能(125 TFLOPS)相比上一代产品实现了数量级的飞跃,一举奠定了 NVIDIA 在 AI 训练领域的霸主地位。在它之后,Tensor Core 成为数据中心 GPU 的标配。
A100
- 定位:基于 Ampere 架构,是过去几年中全球数据中心应用最广泛的 AI 加速卡。
- 性能特点:全面升级了 Tensor Cores,引入了 TF32 格式,让开发者能轻松地从 FP32 过渡并获得巨大性能提升。同时支持 Sparsity 稀疏计算,使其在 AI 领域的性能进一步翻倍。A100 提供了非常均衡且强大的多精度计算能力,成为 AI 时代的“标准普尔”。
H100
- 定位:基于 Hopper 架构,是当前 NVIDIA 的旗舰 AI 芯片,专为大语言模型(LLM)和生成式 AI 设计。
- 性能特点:性能极其恐怖。引入了全新的 FP8 计算格式和 Transformer 引擎,使其在处理大模型时,性能相比 A100 实现了数倍的提升。其 FP8 稀疏计算性能接近 8 PFLOPS(8000 TFLOPS),是名副其实的“性能怪兽”,也是驱动当今所有顶尖大模型训练和推理的核心引擎。
H20
- 定位:一款特殊的 Hopper 架构产品,主要为符合美国出口管制政策而设计。
- 性能特点:这是一个典型的“trade-off”(权衡)案例。相比 H100,H20 的核心计算单元被大幅削减,导致其各种精度的 FLOPS 都远低于 H100(例如,其核心的 FP16/TF32 性能仅为 H100 的不到 1/10)。但它保留了较大的显存容量(96GB HBM3),这对于运行需要大显存的推理任务依然有价值。H20 的存在说明了在特定市场环境下,原始计算性能并非唯一考量。
上一篇
dd
下一篇
FLOPS
Loading...