常见 GPU性能

1. 前言

本报告旨在详细调研并对比分析当前主流及数据中心领域常见的 NVIDIA GPU 的浮点运算性能(FLOPS)。GPU 的算力是衡量其性能的核心指标,尤其是在人工智能(AI)、高性能计算(HPC)和图形渲染等领域。
理解不同 GPU 在不同数据精度下的性能至关重要,因为特定任务对精度的要求不同。例如,传统的科学计算需要高精度的 FP64,而 AI 推理则可以在低精度的 INT8 或 FP8 下实现巨大加速。本报告将涵盖以下关键概念和 GPU 型号的性能数据。

关键概念解释

在查看数据之前,了解以下概念非常重要:
FLOPS
  • 数据精度 (Precision)
    • FP64 (双精度):每个数字用 64 位表示。精度最高,是传统科学和工程计算(HPC)的黄金标准。
    • FP32 (单精度):每个数字用 32 位表示。在图形渲染和 AI 模型训练中长期作为基准。
    • TF32 (TensorFloat-32):NVIDIA 在 Ampere 架构(A100)中引入的特殊格式。拥有 FP32 的数值范围和 FP16 的精度,可在几乎不修改代码的情况下,为深度学习提供数倍加速。
    • FP16/BF16 (半精度):每个数字用 16 位表示。是当前 AI 训练和推理的主流,能显著提升速度并减少内存占用。
    • FP8 (8位浮点):NVIDIA 在 Hopper 架构(H100)中引入的最新格式,旨在为大语言模型等前沿 AI 应用提供极致的推理和训练性能。
    • INT8 (8位整数):主要用于 AI 推理,通过量化将模型权重转换为整数,以达到最快的速度和最低的延迟。其性能单位通常为 TOPS (每秒万亿次操作)。
  • 张量核心 (Tensor Cores):从 Volta 架构开始引入的专用处理单元,旨在极大地加速矩阵乘加运算,这是深度学习的核心计算。使用 Tensor Cores 能够让 GPU 在处理 FP16、TF32、FP8 等低精度运算时,性能提升数倍甚至数十倍。
  • 稀疏计算 (Sparsity):从 Ampere 架构开始支持的一项特性。它能利用深度学习模型中普遍存在的稀疏性(即大量值为零的权重),在特定条件下使计算吞吐量翻倍。

2. GPU 性能对比总表

下表汇总了各款 GPU 在不同精度下的理论峰值性能。所有数值单位均为 TFLOPS (每秒万亿次浮点运算),INT8 单位为 TOPS (每秒万亿次操作)。
GPU 型号
架构
FP64 (双精度)
FP32 (单精度)
TF32 (Tensor Core)
FP16/BF16 (Tensor Core)
FP8 (Tensor Core)
INT8 (Tensor Core)
RTX 4090
Ada Lovelace
1.29
82.6
82.6
82.6 (模拟)
-
-
RTX 5090 (预测)
Blackwell
~2.5 (预测)
~120-130 (预测)
~120-130 (预测)
~120-130 (预测)
-
-
V100 (SXM2)
Volta
7.8
15.7
-
125
-
-
A100 (SXM4)
Ampere
9.7 (TC: 19.5)
19.5
156 (稀疏: 312)
312 (稀疏: 624)
-
624 (稀疏: 1248)
H100 (SXM5)
Hopper
34 (TC: 67)
67
989 (稀疏: 1979)
1979 (稀疏: 3958)
3958 (稀疏: 7916)
3958 (稀疏: 7916)
H20 (SXM)
Hopper
2
44
148 (稀疏: 296)
148 (稀疏: 296)
296 (稀疏: 592)
296 (稀疏: 592)
注释:
  • TC 代表使用 Tensor Cores 达到的性能。
  • 稀疏 代表启用 Sparsity 特性后的理论峰值性能。
  • RTX 4090 的低精度性能数值反映了其 CUDA 核心和 Tensor 核心的总潜力,但其 Tensor Core 不支持像数据中心卡那样丰富的精度模式。
  • RTX 5090 的所有数据均为基于当前行业传闻和分析的预测,并非官方数据,仅供参考。

3. 各型号详细分析

GeForce RTX 系列 (消费级)

RTX 4090

  • 定位:旗舰级消费显卡,主要面向高端游戏玩家和内容创作者。
  • 性能特点:拥有极其强大的 FP32 性能(82.6 TFLOPS),这使其在 4K 游戏、视频渲染和 3D 设计中表现出色。然而,为了与数据中心产品线区分,其 FP64 性能被人为限制为 FP32 的 1/64,因此不适合进行严肃的科学计算。

RTX 5090 (预测)

  • 定位:下一代旗舰消费显卡。
  • 性能特点(预测):预计将基于 NVIDIA 的 Blackwell 架构,在 FP32 性能上相比 RTX 4090 有显著提升,可能会达到 120-130 TFLOPS 的范围。内存技术预计将升级到 GDDR7,提供更高的带宽。与 4090 类似,其 FP64 性能可能依然会受到限制。请注意,所有关于 5090 的信息在官方发布前都存在变数。

Data Center GPU (数据中心级)

V100

  • 定位:基于 Volta 架构,是开启 AI 计算革命的里程碑式产品。
  • 性能特点:首次引入 Tensor Cores,使其 FP16 性能(125 TFLOPS)相比上一代产品实现了数量级的飞跃,一举奠定了 NVIDIA 在 AI 训练领域的霸主地位。在它之后,Tensor Core 成为数据中心 GPU 的标配。

A100

  • 定位:基于 Ampere 架构,是过去几年中全球数据中心应用最广泛的 AI 加速卡。
  • 性能特点:全面升级了 Tensor Cores,引入了 TF32 格式,让开发者能轻松地从 FP32 过渡并获得巨大性能提升。同时支持 Sparsity 稀疏计算,使其在 AI 领域的性能进一步翻倍。A100 提供了非常均衡且强大的多精度计算能力,成为 AI 时代的“标准普尔”。

H100

  • 定位:基于 Hopper 架构,是当前 NVIDIA 的旗舰 AI 芯片,专为大语言模型(LLM)和生成式 AI 设计。
  • 性能特点:性能极其恐怖。引入了全新的 FP8 计算格式和 Transformer 引擎,使其在处理大模型时,性能相比 A100 实现了数倍的提升。其 FP8 稀疏计算性能接近 8 PFLOPS(8000 TFLOPS),是名副其实的“性能怪兽”,也是驱动当今所有顶尖大模型训练和推理的核心引擎。

H20

  • 定位:一款特殊的 Hopper 架构产品,主要为符合美国出口管制政策而设计。
  • 性能特点:这是一个典型的“trade-off”(权衡)案例。相比 H100,H20 的核心计算单元被大幅削减,导致其各种精度的 FLOPS 都远低于 H100(例如,其核心的 FP16/TF32 性能仅为 H100 的不到 1/10)。但它保留了较大的显存容量(96GB HBM3),这对于运行需要大显存的推理任务依然有价值。H20 的存在说明了在特定市场环境下,原始计算性能并非唯一考量。
上一篇
dd
下一篇
FLOPS
Loading...
文章列表

加载中