华东师范大学：《数值分析》课程教学资源（参考资料）IEEE浮点运算标准.pdf_大学文库

附录A IEEE浮点运算标准在数值计算中，小数在内存中是以浮点数格式表示和参与运算的.浮点数是数字（或者说数值)在内存中的一种存储格式，它和定点数是相对的. A1浮点数与定点数浮点数和定点数中的“点”指的是小数点所谓定点数，就是指小数点的位置是固定的，不会向前或者向后移动.比如我们用4个字节 (32位字长)来存储无符号的定点数x(通常用4个字节存储单精度数)，并且约定：前16位表示整数部分，后16位表示小数部分，如下图所示：一整数部分一 ·小数部分这种表示方法的优点是：整数部分和小数部分一目了然，非常直观白对于整数，所有位都用来存储整数部分，所以一般采用定点数格式存储但定点数格式有个很大的缺点，就是所能表示的数的取值范围比较小.比如在前面的例子中 (4个字节)，所能表示的最大值和最小值（非零）是 xmx=1111111111111111.11111111111111112≈216=65536， xmin=0000000000000000.00000000000000012=2-16≈1.5×10-5. 这在科学计算中显然是远远不够的.比如电子的质量大约是9×10-28克，用4位定点数格式就无法表示.即使是采用8个字节（通常用8个字节存储双精度数），假定前32位表示整数，后32位表示小数，则所能表示的的数的范围为(0除外) xm≈22≈4.3×109，xmin=2-32≈2.3×10-10. 为了克服这个缺点，人们发明了一种更加科学的存储格式，即浮点数格式，也就是通常所说的科学计数法.该格式以指数形式存储数字，不但节省内存，也非常直观，而且所能表示的数的范围也大大增加， A.2IEEE中的浮点数的表示方法自计算机发明以来，曾出现许多中不同的浮点数表示方式，但目前最通用的是EEE二进制浮点数算术标准(IEEE Standard for Binary Floating-Point Arithmetic,简称IEEE754标准). IEEE754标准的主要起草者是加州大学伯克利分校数学系的William Kahan教授，他帮助Intel 公司设计了8087浮点处理器，并以此为基础形成了EEE754标准，Kahan教授也因此获得了1987 年的图灵奖 299

仅供课堂教学使用，请勿外传附录 A IEEE 浮点运算标准在数值计算中, 小数在内存中是以浮点数格式表示和参与运算的. 浮点数是数字（或者说数值）在内存中的一种存储格式, 它和定点数是相对的. A.1 浮点数与定点数浮点数和定点数中的“点”指的是小数点. 所谓定点数，就是指小数点的位置是固定的, 不会向前或者向后移动. 比如我们用 4 个字节 (32 位字长) 来存储无符号的定点数 x (通常用 4 个字节存储单精度数), 并且约定: 前 16 位表示整数部分, 后 16 位表示小数部分, 如下图所示: 这种表示方法的优点是: 整数部分和小数部分一目了然, 非常直观. b 对于整数, 所有位都用来存储整数部分, 所以一般采用定点数格式存储. 但定点数格式有个很大的缺点, 就是所能表示的数的取值范围比较小. 比如在前面的例子中 (4 个字节), 所能表示的最大值和最小值 (非零) 是 xmax = 1111111111111111.11111111111111112 ≈ 2 16 = 65536, xmin = 0000000000000000.00000000000000012 = 2−16 ≈ 1.5 × 10−5 . 这在科学计算中显然是远远不够的. 比如电子的质量大约是 9 × 10−28 克, 用 4 位定点数格式就无法表示. 即使是采用 8 个字节 (通常用 8 个字节存储双精度数), 假定前 32 位表示整数, 后 32 位表示小数, 则所能表示的的数的范围为 (0 除外) xmax ≈ 2 32 ≈ 4.3 × 109 , xmin = 2−32 ≈ 2.3 × 10−10 . 为了克服这个缺点, 人们发明了一种更加科学的存储格式, 即浮点数格式, 也就是通常所说的科学计数法. 该格式以指数形式存储数字, 不但节省内存, 也非常直观, 而且所能表示的数的范围也大大增加. A.2 IEEE 中的浮点数的表示方法自计算机发明以来, 曾出现许多中不同的浮点数表示方式, 但目前最通用的是 IEEE 二进制浮点数算术标准 (IEEE Standard for Binary FloatingPoint Arithmetic, 简称 IEEE 754 标准). IEEE 754 标准的主要起草者是加州大学伯克利分校数学系的 William Kahan 教授, 他帮助 Intel 公司设计了 8087 浮点处理器, 并以此为基础形成了 IEEE 754 标准, Kahan 教授也因此获得了 1987 年的图灵奖. 299

.300 附录A IEEE浮点运算标准 William Kahan由于在浮点运算标准的制定上的杰出贡献，于1990年1月获得了图灵奖。通常一个浮点数由符号、尾数、基和指数组成，如： -0.3141592610×102,0.101012×23 这里要求小数点前面为零，小数点后面的数称为尾数.若尾数的首位数字不为0时，我们称其为正规数（咸规范化数，否则称为次正规数（咸非规范化数）.如0.31410×102是正规数，而0.0031410 10是次正规数.正规化表示方法可以使得每个浮点数的表示方式唯一，而且可以空出一个位置，使得表示精度更高 ·1EEE754标准中定义了表示浮点数的四种格式：两种基本的浮点数：单精度(32位字长)和双精度(64位字长). 其中单精度格式具有24位有效数字（二进制，而双精度格式具有53位有效数字（二进制，相对于十进制来说，分别是7位(224≈10和16位(23≈1016)有效数字两种扩展的浮点数：单精度扩展和双精度扩展 IEEE754标准中并未规定扩展格式的精度和大小，但它指定了最小精度和字长：单精度扩展需43位字长以上，双精确度扩展需79位字长以上(64位有效数字).单精度扩展很少使用，而对于双精确度扩展，不同的机器架构中有若不同的规定，有的为80位字长（如 X86,有的为128位字长（如SPARC.) ·一般来说，描述一个浮点数的三个基本要素为：基：计算机一般都以2为基尾数的位数：确定有效数字的位数，即精度 ·指数的位数：确定所能表示的数的范围 ·在EEE754标准中，浮点数是用二进制表示的，由三部分组成：符号(gn,其值用s表示)，指数(exponent,其值用e表示)和尾数（任raction,其值用f表示，见图AL.单精度数占32位字长 (4个字节，第1位是符号位，第2至9位(8位字长)是指数位，最后23位是尾数.双精度数占 64位字长(8个字节)，第1位是符号位，第2至12位(11位字长)是指数位，最后52位是尾数 EEE单精度 1 8 23 符号十指数数 (s ( (f) IEE双精度 1 11 52 图A1.EEE754中单精度格式与双精度格式的位模式 ·单精度格式：用8位字长的二进制数来表示指数，因此e的取值范围为[0,25.当0≤e< 255时，按单精度格式存储的数，其对应的值是使用以下方法得到的： http://math.ecnu.edu.cn/-jypan

仅供课堂教学使用，请勿外传 · 300 · 附录 A IEEE 浮点运算标准 b William Kahan 由于在浮点运算标准的制定上的杰出贡献, 于 1990 年 1 月获得了图灵奖. 通常一个浮点数由符号、尾数、基和指数组成, 如: −0.3141592610 × 102 , 0.101012 × 2 3 . 这里要求小数点前面为零, 小数点后面的数称为尾数. 若尾数的首位数字不为 0 时, 我们称其为正规数 (或规范化数), 否则称为次正规数 (或非规范化数). 如 0.31410 ×102 是正规数, 而 0.0031410 × 104 是次正规数. 正规化表示方法可以使得每个浮点数的表示方式唯一, 而且可以空出一个位置, 使得表示精度更高. • IEEE 754 标准中定义了表示浮点数的四种格式: 两种基本的浮点数: 单精度 (32 位字长) 和双精度 (64 位字长). 其中单精度格式具有 24 位有效数字 (二进制), 而双精度格式具有 53 位有效数字 (二进制), 相对于十进制来说, 分别是 7 位 (2 24 ≈ 107 ) 和 16 位 (2 53 ≈ 1016) 有效数字. 两种扩展的浮点数: 单精度扩展和双精度扩展. IEEE 754 标准中并未规定扩展格式的精度和大小, 但它指定了最小精度和字长: 单精度扩展需 43 位字长以上, 双精确度扩展需 79 位字长以上 (64 位有效数字). 单精度扩展很少使用, 而对于双精确度扩展, 不同的机器架构中有着不同的规定, 有的为 80 位字长 (如 X86), 有的为 128 位字长 (如 SPARC). • 一般来说, 描述一个浮点数的三个基本要素为: 基: 计算机一般都以 2 为基; 尾数的位数: 确定有效数字的位数, 即精度; 指数的位数: 确定所能表示的数的范围. • 在 IEEE 754 标准中, 浮点数是用二进制表示的, 由三部分组成: 符号 (sign, 其值用 s 表示), 指数 (exponent, 其值用 e 表示) 和尾数 (fraction, 其值用 f 表示), 见图 A.1. 单精度数占 32 位字长 (4 个字节), 第 1 位是符号位, 第 2 至 9 位 (8 位字长) 是指数位, 最后 23 位是尾数. 双精度数占 64 位字长 (8 个字节), 第 1 位是符号位, 第 2 至 12 位 (11 位字长) 是指数位, 最后 52 位是尾数. 图 A.1. IEEE 754 中单精度格式与双精度格式的位模式 • 单精度格式: 用 8 位字长的二进制数来表示指数, 因此 e 的取值范围为 [0, 255]. 当 0 ≤ e < 255 时, 按单精度格式存储的数, 其对应的值是使用以下方法得到的: http://math.ecnu.edu.cn/~jypan

仅供课堂教学使用，请勿外传 A.2 IEEE 中的浮点数的表示方法 · 301 · 将二进制基数点 (小数点) 插入到尾数 f 最高有效位的左侧, 并将一个隐含位插入到二进制基数点的左侧, 从而得到的是一个二进制带分数 (整数加小数). 由此构成的带分数就是单精度格式有效数字. 隐含位的值并不是显式指定的 (即不存储), 而是通过指数 e 的值来隐式指定: • 当 0 < e < 255 时, 表示该数为二进制正规数, 此时隐含位设为 1. • 当 e = 0 时, 表示该数为二进制次正规数, 隐含位设为 0. b 由于引入了隐含位 (为了尽可能地增加所能表示的数的精度), 这里的正规数概念与前面的定义有点区别, 因此我们加上 “二进制” 三个字. 单精度格式位模式中的尾数只有 23 位, 但由于使用了隐含位, 所以能提供 24 位有效数字 (二进制). 因此, 在 IEEE 中, 单精度数的表示方法为 (−1)s × 1.f × 2 e−127 (二进制正规数) (−1)s × 0.f × 2 −126 (二进制次正规数) 完整的对应关系是单精度格式位模式值 0 < e < 255 (−1)s × 1.f × 2 e−127 (二进制正规数) e = 0, f ̸= 0 (−1)s × 0.f × 2 −126 (二进制次正规数) e = 0, f = 0 (−1)s × 0.0 (有符号的零) e = 255, f = 0, s = 0 +inf (正无穷大) e = 255, f = 0, s = 1 inf (负无穷大) e = 255, f ̸= 0 NaN (非数、非确定值) 其中 127 是单精度格式的指数偏移值 (exponent bias), 在IEEE标准中, 这个值定义为2 (指数位长−1)− 1. 所以对于单精度格式, 指数偏移值就是 2 8−1 − 1 = 127, 而对于双精度格式, 这个值为 2 11−1 − 1 = 1023. • 双精度格式: 与单精度格式类似, 完整的对应关系是双精度格式位模式值 0 < e < 2047 (−1)s × 1.f × 2 e−1023 (二进制正规数) e = 0, f ̸= 0 (−1)s × 0.f × 2 −1022 (二进制次正规数) e = 0, f = 0 (−1)s × 0.0 (有符号的零) e = 2047, f = 0, s = 0 +inf (正无穷大) e = 2047, f = 0, s = 1 inf (负无穷大) e = 2047, f ̸= 0 NaN (非数、非确定值) http://math.ecnu.edu.cn/~jypan

304 附录A IEEE浮点运算标准求余和比较运算必须精确无误.其他运算必须向其目标提供精确的结果，除非没有此类结果，或者该结果不满足目标格式，此时运算必须按照下面介绍的舍入棋式对精确结果进行最低限度的修改，并将经过修改的结果提供给运算的目标」在十进制字符串和两种基本浮点格式之一的二进制浮点数之间进行转换的准确度、单性和一致性要求：对于在指定范围内的操作数，这些转换必须生成精确的结果（如果可能的话)，或者按照规定的舍入模式，对此类精确结果进行最低限度的修改.对于不在指定范围内的操作数，这些转换生成的结果与精确结果之间的差值不得超过取决于舍入模式的指定误差. 五种类型的EEE浮点异常：无效运算（如0/0，∞/等），被零除，上溢，下溢和不精确以及用于向用户指示发生这些类型异常的条件四种舍入模式：设x是所要表示的数， ()就近舍人：用最接近x的可表示的值来代替，类似于整数的四舍五入.如果x正好在两个相邻的可表示值的中间，则首选二进制“偶数”（二进制最后一位为0： (2)向下舍人：用不大于x的可表示的值来代替（向负无穷大方向截断： (3)向上舍人：用不小于x的可表示的值来代替（向正无穷大方向截断） (④向0舍人：当x>0时采用向下舍入，当x<0时采用向上舍入凸我们将后面三种舍入模式统称为截断石不同编译器对舍入可能有不同的处理方式。 ·下溢当运算结果非常小时，就会发生下溢.下表是下溢阈值目标的精度下溢阀值单精度最小正规数 1.17549435×10-38 最大次正规数1.17549421×10-38 双精度最小正规数 2.2250738585072014×10-08 最大次正规数2.2250738585072009×10-308 IEEE算法处理下溢的方式是渐进下溢：当生成的正确结果的数量级低于最小正正规数时，就会生成次正规数.而不是返回零 ·机器精度：将1.0与大于1.0的最小浮点数之间的距离记为em.它的一半称为unit roundo压记为，它是计算机表示一个浮点数时的相对误差界， )=1+)或)=1+≤w 这里A(x)表示x在计算机中实际存储的IEEE浮点数在EEE标准下，单精度和双精度浮点运算的最大相对误差©u分别为 http://math.ecnu.edu.cn/-jypan

仅供课堂教学使用，请勿外传 · 304 · 附录 A IEEE 浮点运算标准求余和比较运算必须精确无误. 其他运算必须向其目标提供精确的结果, 除非没有此类结果, 或者该结果不满足目标格式, 此时运算必须按照下面介绍的舍入模式对精确结果进行最低限度的修改, 并将经过修改的结果提供给运算的目标. 在十进制字符串和两种基本浮点格式之一的二进制浮点数之间进行转换的准确度、单一性和一致性要求: 对于在指定范围内的操作数, 这些转换必须生成精确的结果 (如果可能的话), 或者按照规定的舍入模式, 对此类精确结果进行最低限度的修改. 对于不在指定范围内的操作数, 这些转换生成的结果与精确结果之间的差值不得超过取决于舍入模式的指定误差. 五种类型的 IEEE 浮点异常: 无效运算 (如 0/0, ∞/∞ 等), 被零除, 上溢, 下溢和不精确, 以及用于向用户指示发生这些类型异常的条件. 四种舍入模式: 设 x 是所要表示的数, (1) 就近舍入 : 用最接近 x 的可表示的值来代替, 类似于整数的四舍五入. 如果 x 正好在两个相邻的可表示值的中间, 则首选二进制 “偶数” (二进制最后一位为 0); (2) 向下舍入 : 用不大于 x 的可表示的值来代替 (向负无穷大方向截断); (3) 向上舍入 : 用不小于 x 的可表示的值来代替 (向正无穷大方向截断); (4) 向 0 舍入 : 当 x > 0 时采用向下舍入, 当 x < 0 时采用向上舍入. b 我们将后面三种舍入模式统称为截断. b 不同编译器对舍入可能有不同的处理方式. • 下溢当运算结果非常小时, 就会发生下溢. 下表是下溢阈值. 目标的精度下溢阈值单精度最小正规数 1.17549435 × 10−38 最大次正规数 1.17549421 × 10−38 双精度最小正规数 2.2250738585072014 × 10−308 最大次正规数 2.2250738585072009 × 10−308 IEEE 算法处理下溢的方式是渐进下溢: 当生成的正确结果的数量级低于最小正正规数时, 就会生成次正规数, 而不是返回零. • 机器精度: 将 1.0 与大于 1.0 的最小浮点数之间的距离记为 εm. 它的一半称为 unit roundoff, 记为 εu, 它是计算机表示一个浮点数时的相对误差界, fl(x) = x(1 + δ) 或 fl(x) = x 1 + δ , |δ| ≤ εu. 这里 fl(x) 表示 x 在计算机中实际存储的 IEEE 浮点数. 在 IEEE 标准下, 单精度和双精度浮点运算的最大相对误差 εu 分别为 http://math.ecnu.edu.cn/~jypan

仅供课堂教学使用，请勿外传 A.4 浮点运算舍入误差分析 · 305 · 精度最大相对误差单精度 2 −24 ≈ 5.960464 × 10−8 双精度 2 −53 ≈ 1.110223 × 10−16 b 如果采用的不是就近舍入模式, 而是其他三种舍入模式 (即截断), 则最大相对误差为 εm. b 有的文献中称 εu 为机器精度 (machine epsilon , machine precision , or macheps ), 如 Demmel [30], LAPACK, Scilab, Wikipedia. 也有的文献称 εm 为机器精度, 如 Higham [68], MATLAB, Mathematica. 我们采用前面一种方式, 即 “机器精度” 指的是 εu. 例 A.8 假定要使用只有三个精度位的二进制算法. 那么, 最大相对误差为 2 −3 . 在任意两个 2 的幂之间, 只有 2 3 − 1 = 7 个可表示数字, 如下图所示. 数轴显示了数字之间的差距是随着指数增加而加倍增加的. 在 IEEE 单精度格式中, 两个最小正次正规数之间的差大约是 10−45 , 而两个最大有限数之间的数量级差大约是 1031！ b 精确是偶然的, 误差是必然的. 做数值算法, 惟一能做的就是尽量使误差的传播和累积能够得到有效的控制. A.4 浮点运算舍入误差分析由于计算机无法精确表示所有的浮点数, 在做浮点运算时, 如果计算结果无法精确表示, 此时就会产生的误差, 这就是浮点运算的舍入误差. 根据 IEEE 浮点运算标准, 如果 a ⊙ b 的结果无法精确表示, 则用一个最接近的浮点数来代替 (浮点运算时一般采用就近舍入模式), 记为 fl(a ⊙ b). 这里的 ⊙ 表示加、减、乘、除四种运算符. 在不考虑溢出的情况下, 我们有 fl(a ⊙ b) = (a ⊙ b)(1 + δ) 或 fl(a ⊙ b) = a ⊙ b 1 + δ , (A.1) 其中 δ 表示浮点运算的相对误差, 满足 |δ| ≤ εu. 公式 (A.1) 是分析浮点运算舍入误差的基础 (标准模型) [68, page 40]. IEEE 浮点运算标准同时也指出, 对于开根号运算, 产生的误差同样也满足 http://math.ecnu.edu.cn/~jypan