预备知识¶

进制转换¶

BCD (Binary-Coded Decimal) 是一种用二进制编码十进制数的方法，常用于数字显示和存储。由于历史遗留问题，在 x86 指令中仍然有很多操作 BCD 数字的指令。

BCD 有两种格式: Unpacked BCD (非组合型 BCD) 和 Packed BCD (组合型 BCD), 他们的编码方式如下:

推荐阅读这个参考手册，里面介绍了 IEEE 754 编码格式，以及 Intel 处理器上浮点运算的全流程: Floating-Point Reference Sheet for Intel® Architecture. 下图截自该手册:

S

Exponent

Significand

总结一下:

数据类型	符号位长度	指数位长度	指数偏置量	尾数位长度	总位数	指针类型
单精度	1	8	\(127 = 2^7-1\)	23	32	`ptr dword`
双精度	1	11	\(1023 = 2^{10}-1\)	52	64	`ptr qword`
扩展精度	1	15	\(16383 = 2^{14}-1\)	64	80	`ptr tbyte`

非规格数与无穷大:

符号位	指数位	尾数位	类型	数值	例子 (32位)
\(\pm\)	0	非全 0	非规格数	\((-1)^s \times 2^{-126} \times 0.\text{尾数}\)	0x0000 0001 0x8000 0001
\(\pm\)	全 1	0	无穷大	\(\pm \infty\)	0xff80 0000 0x7f80 0000
\(\pm\)	全 1	非全 0 Quiet = 1	qNaN	无效数值	0x7fc0 0000
1	全 1	非 0 Quiet = 1	R Ind (qNaN)	无效数值	0xffc0 0000
\(\pm\)	全 1	非全 0 Quiet = 0	sNaN	无效数值	0x7f80 0001

注: 尾数最高位为 Quiet / Signal 位.

浮点数中，由于 IEEE 754 使用的是类似科学计数法的表示方法，再结合二进制的特点，使得浮点数乘除法运算比加减法要简单一些。

乘除法:

加减法:

在浮点运算过程中，一些意外情况下会使结果变成非规格数，非规格数分为 subnormal 和 denormal 两种。

非规格数之间，以及非规格数与正常浮点数的运算规则比较复杂，也不是很好总结，这里列出四则运算的规则，更具体的可以参考 Intel 手册。

加减法 (将 X - Y 视为 X + (-Y)):

正常数 X 与非规格数 Y 运算，结果为 Y.
\(\pm 0\) 与 \(\pm 0\) 相加结果为 0, 与其他数 Y 运算，结果为 Y.
Infinity 与任何数运算均为 Infinity, 符号不变。\(\pm\)Infinity 相加为无效输入，结果为 R Ind.
Denormal 数 X 与 Normal / Denormal 正常运算得到结果. 与 \(\pm 0\) 运算，结果为 X, 与 Infinity 运算，结果为 Infinity.

乘法: