系列文章

深度学习基本概念
算力评估基础知识
大模型相关算子
华为系算力卡产品调研
Nv系算力卡产品调研

算力评估

基本单位换算

大型算力中心则用xxP来衡量总算力，也就是xxPFLOP

$\text{FLOPS} = \text{核心数(CUDA数)} \times \text{时钟频率 (Hz)} \times \text{每周期操作数 (OP/cycle)}$

不同精度的“每周期操作数”不同，通常基于FP32进行倍数比较

时钟频率：

GHz（Gigahertz）= 10⁹ Hz，即每秒十亿次

MHz（Megahertz）= 10⁶ Hz，即每秒百万次

精度	简称	与 FP32 的比率	说明
FP64	Float64	0.5×、1×、1/32×（取决于架构）	高精度，科学计算常用
FP32	Float32	1×	深度学习训练常用
FP16	Float16	2×（通常）	深度学习混合精度训练
BF16	BFloat16	2×	保留动态范围精度的FP16变种
FP8	Float8	4×（部分架构如H100）	极端压缩推理
INT8	Int8	4×（或更高）	推理性能最强，靠量化

浮点数精度结构为：1 bit sign + xx bit exponent + xx bit mantissa

换算为十进制公式：

$Value=(−1)S×(1+M)×2E−bias$

$S$ ：符号位（0 或 1）

$M$ ：小数形式的 mantissa 尾数（如二进制 101 → 表示 0.625）

$E$ ：指数位所表示的无符号整数值

$\text{bias}$ ：偏移量，确保指数支持正负

64 位浮点数，结构为：

1 bit sign + 11 bit exponent + 52 bit mantissa

精度高，可表示约 15~17 位十进制有效数字，数值范围非常大

GPU 的 FP64 性能 ≠ FP32 性能 × 1，因为硬件上通常不设置等量的 FP64 执行单元，游戏卡尤其不关注

32 位结构：

1 bit sign + 8 bit exponent + 23 bit mantissa

可表示 69 位十进制有效数字，通常是 深度学习的默认格式。

16 位结构：

1 bit sign + 5 bit exponent + 10 bit mantissa

1 sign + 8 exponent + 7 mantissa

动态范围与 FP32 相同，但精度比 FP16 更差，不容易数值下溢。