Extious’ Notes

Ctrl+K

加载中

常见 GPU性能

1. 前言

本报告旨在详细调研并对比分析当前主流及数据中心领域常见的 NVIDIA GPU 的浮点运算性能（FLOPS）。GPU 的算力是衡量其性能的核心指标，尤其是在人工智能（AI）、高性能计算（HPC）和图形渲染等领域。

理解不同 GPU 在不同数据精度下的性能至关重要，因为特定任务对精度的要求不同。例如，传统的科学计算需要高精度的 FP64，而 AI 推理则可以在低精度的 INT8 或 FP8 下实现巨大加速。本报告将涵盖以下关键概念和 GPU 型号的性能数据。

关键概念解释

在查看数据之前，了解以下概念非常重要：

数据精度 (Precision)：

FP64 (双精度)：每个数字用 64 位表示。精度最高，是传统科学和工程计算（HPC）的黄金标准。
FP32 (单精度)：每个数字用 32 位表示。在图形渲染和 AI 模型训练中长期作为基准。
TF32 (TensorFloat-32)：NVIDIA 在 Ampere 架构（A100）中引入的特殊格式。拥有 FP32 的数值范围和 FP16 的精度，可在几乎不修改代码的情况下，为深度学习提供数倍加速。
FP16/BF16 (半精度)：每个数字用 16 位表示。是当前 AI 训练和推理的主流，能显著提升速度并减少内存占用。
FP8 (8位浮点)：NVIDIA 在 Hopper 架构（H100）中引入的最新格式，旨在为大语言模型等前沿 AI 应用提供极致的推理和训练性能。
INT8 (8位整数)：主要用于 AI 推理，通过量化将模型权重转换为整数，以达到最快的速度和最低的延迟。其性能单位通常为 TOPS (每秒万亿次操作)。

张量核心 (Tensor Cores)：从 Volta 架构开始引入的专用处理单元，旨在极大地加速矩阵乘加运算，这是深度学习的核心计算。使用 Tensor Cores 能够让 GPU 在处理 FP16、TF32、FP8 等低精度运算时，性能提升数倍甚至数十倍。

稀疏计算 (Sparsity)：从 Ampere 架构开始支持的一项特性。它能利用深度学习模型中普遍存在的稀疏性（即大量值为零的权重），在特定条件下使计算吞吐量翻倍。

2. GPU 性能对比总表

下表汇总了各款 GPU 在不同精度下的理论峰值性能。所有数值单位均为 TFLOPS (每秒万亿次浮点运算)，INT8 单位为 TOPS (每秒万亿次操作)。

GPU 型号	架构	FP64 (双精度)	FP32 (单精度)	TF32 (Tensor Core)	FP16/BF16 (Tensor Core)	FP8 (Tensor Core)	INT8 (Tensor Core)
RTX 4090	Ada Lovelace	1.29	82.6	82.6	82.6 (模拟)	-	-
RTX 5090 (预测)	Blackwell	~2.5 (预测)	~120-130 (预测)	~120-130 (预测)	~120-130 (预测)	-	-
V100 (SXM2)	Volta	7.8	15.7	-	125	-	-
A100 (SXM4)	Ampere	9.7 (TC: 19.5)	19.5	156 (稀疏: 312)	312 (稀疏: 624)	-	624 (稀疏: 1248)
H100 (SXM5)	Hopper	34 (TC: 67)	67	989 (稀疏: 1979)	1979 (稀疏: 3958)	3958 (稀疏: 7916)	3958 (稀疏: 7916)
H20 (SXM)	Hopper	2	44	148 (稀疏: 296)	148 (稀疏: 296)	296 (稀疏: 592)	296 (稀疏: 592)

注释:

TC 代表使用 Tensor Cores 达到的性能。

稀疏 代表启用 Sparsity 特性后的理论峰值性能。

RTX 4090 的低精度性能数值反映了其 CUDA 核心和 Tensor 核心的总潜力，但其 Tensor Core 不支持像数据中心卡那样丰富的精度模式。

RTX 5090 的所有数据均为基于当前行业传闻和分析的预测，并非官方数据，仅供参考。

3. 各型号详细分析

GeForce RTX 系列 (消费级)

RTX 4090

定位：旗舰级消费显卡，主要面向高端游戏玩家和内容创作者。

性能特点：拥有极其强大的 FP32 性能（82.6 TFLOPS），这使其在 4K 游戏、视频渲染和 3D 设计中表现出色。然而，为了与数据中心产品线区分，其 FP64 性能被人为限制为 FP32 的 1/64，因此不适合进行严肃的科学计算。

RTX 5090 (预测)

定位：下一代旗舰消费显卡。

性能特点（预测）：预计将基于 NVIDIA 的 Blackwell 架构，在 FP32 性能上相比 RTX 4090 有显著提升，可能会达到 120-130 TFLOPS 的范围。内存技术预计将升级到 GDDR7，提供更高的带宽。与 4090 类似，其 FP64 性能可能依然会受到限制。请注意，所有关于 5090 的信息在官方发布前都存在变数。

Data Center GPU (数据中心级)

V100

定位：基于 Volta 架构，是开启 AI 计算革命的里程碑式产品。

性能特点：首次引入 Tensor Cores，使其 FP16 性能（125 TFLOPS）相比上一代产品实现了数量级的飞跃，一举奠定了 NVIDIA 在 AI 训练领域的霸主地位。在它之后，Tensor Core 成为数据中心 GPU 的标配。

A100

定位：基于 Ampere 架构，是过去几年中全球数据中心应用最广泛的 AI 加速卡。

性能特点：全面升级了 Tensor Cores，引入了 TF32 格式，让开发者能轻松地从 FP32 过渡并获得巨大性能提升。同时支持 Sparsity 稀疏计算，使其在 AI 领域的性能进一步翻倍。A100 提供了非常均衡且强大的多精度计算能力，成为 AI 时代的“标准普尔”。

H100

定位：基于 Hopper 架构，是当前 NVIDIA 的旗舰 AI 芯片，专为大语言模型（LLM）和生成式 AI 设计。

性能特点：性能极其恐怖。引入了全新的 FP8 计算格式和 Transformer 引擎，使其在处理大模型时，性能相比 A100 实现了数倍的提升。其 FP8 稀疏计算性能接近 8 PFLOPS（8000 TFLOPS），是名副其实的“性能怪兽”，也是驱动当今所有顶尖大模型训练和推理的核心引擎。

H20

定位：一款特殊的 Hopper 架构产品，主要为符合美国出口管制政策而设计。

性能特点：这是一个典型的“trade-off”（权衡）案例。相比 H100，H20 的核心计算单元被大幅削减，导致其各种精度的 FLOPS 都远低于 H100（例如，其核心的 FP16/TF32 性能仅为 H100 的不到 1/10）。但它保留了较大的显存容量（96GB HBM3），这对于运行需要大显存的推理任务依然有价值。H20 的存在说明了在特定市场环境下，原始计算性能并非唯一考量。

Loading...

目录

Last update: 2025-7-17

文章列表

加载中