仅供课堂教学使用，请勿外传 · 304 · 附录 A

点击下载：华东师范大学：《数值分析》课程教学资源（参考资料）IEEE浮点运算标准

正在加载图片...

304 附录A IEEE浮点运算标准求余和比较运算必须精确无误.其他运算必须向其目标提供精确的结果，除非没有此类结果，或者该结果不满足目标格式，此时运算必须按照下面介绍的舍入棋式对精确结果进行最低限度的修改，并将经过修改的结果提供给运算的目标」在十进制字符串和两种基本浮点格式之一的二进制浮点数之间进行转换的准确度、单性和一致性要求：对于在指定范围内的操作数，这些转换必须生成精确的结果（如果可能的话)，或者按照规定的舍入模式，对此类精确结果进行最低限度的修改.对于不在指定范围内的操作数，这些转换生成的结果与精确结果之间的差值不得超过取决于舍入模式的指定误差. 五种类型的EEE浮点异常：无效运算（如0/0，∞/等），被零除，上溢，下溢和不精确以及用于向用户指示发生这些类型异常的条件四种舍入模式：设x是所要表示的数， ()就近舍人：用最接近x的可表示的值来代替，类似于整数的四舍五入.如果x正好在两个相邻的可表示值的中间，则首选二进制“偶数”（二进制最后一位为0： (2)向下舍人：用不大于x的可表示的值来代替（向负无穷大方向截断： (3)向上舍人：用不小于x的可表示的值来代替（向正无穷大方向截断） (④向0舍人：当x>0时采用向下舍入，当x<0时采用向上舍入凸我们将后面三种舍入模式统称为截断石不同编译器对舍入可能有不同的处理方式。 ·下溢当运算结果非常小时，就会发生下溢.下表是下溢阈值目标的精度下溢阀值单精度最小正规数 1.17549435×10-38 最大次正规数1.17549421×10-38 双精度最小正规数 2.2250738585072014×10-08 最大次正规数2.2250738585072009×10-308 IEEE算法处理下溢的方式是渐进下溢：当生成的正确结果的数量级低于最小正正规数时，就会生成次正规数.而不是返回零 ·机器精度：将1.0与大于1.0的最小浮点数之间的距离记为em.它的一半称为unit roundo压记为，它是计算机表示一个浮点数时的相对误差界， )=1+)或)=1+≤w 这里A(x)表示x在计算机中实际存储的IEEE浮点数在EEE标准下，单精度和双精度浮点运算的最大相对误差©u分别为 http://math.ecnu.edu.cn/-jypan 仅供课堂教学使用，请勿外传 · 304 · 附录 A IEEE 浮点运算标准求余和比较运算必须精确无误. 其他运算必须向其目标提供精确的结果, 除非没有此类结果, 或者该结果不满足目标格式, 此时运算必须按照下面介绍的舍入模式对精确结果进行最低限度的修改, 并将经过修改的结果提供给运算的目标. 在十进制字符串和两种基本浮点格式之一的二进制浮点数之间进行转换的准确度、单一性和一致性要求: 对于在指定范围内的操作数, 这些转换必须生成精确的结果 (如果可能的话), 或者按照规定的舍入模式, 对此类精确结果进行最低限度的修改. 对于不在指定范围内的操作数, 这些转换生成的结果与精确结果之间的差值不得超过取决于舍入模式的指定误差. 五种类型的 IEEE 浮点异常: 无效运算 (如 0/0, ∞/∞ 等), 被零除, 上溢, 下溢和不精确, 以及用于向用户指示发生这些类型异常的条件. 四种舍入模式: 设 x 是所要表示的数, (1) 就近舍入 : 用最接近 x 的可表示的值来代替, 类似于整数的四舍五入. 如果 x 正好在两个相邻的可表示值的中间, 则首选二进制 “偶数” (二进制最后一位为 0); (2) 向下舍入 : 用不大于 x 的可表示的值来代替 (向负无穷大方向截断); (3) 向上舍入 : 用不小于 x 的可表示的值来代替 (向正无穷大方向截断); (4) 向 0 舍入 : 当 x > 0 时采用向下舍入, 当 x < 0 时采用向上舍入. b 我们将后面三种舍入模式统称为截断. b 不同编译器对舍入可能有不同的处理方式. • 下溢当运算结果非常小时, 就会发生下溢. 下表是下溢阈值. 目标的精度下溢阈值单精度最小正规数 1.17549435 × 10−38 最大次正规数 1.17549421 × 10−38 双精度最小正规数 2.2250738585072014 × 10−308 最大次正规数 2.2250738585072009 × 10−308 IEEE 算法处理下溢的方式是渐进下溢: 当生成的正确结果的数量级低于最小正正规数时, 就会生成次正规数, 而不是返回零. • 机器精度: 将 1.0 与大于 1.0 的最小浮点数之间的距离记为 εm. 它的一半称为 unit roundoff, 记为 εu, 它是计算机表示一个浮点数时的相对误差界, fl(x) = x(1 + δ) 或 fl(x) = x 1 + δ , |δ| ≤ εu. 这里 fl(x) 表示 x 在计算机中实际存储的 IEEE 浮点数. 在 IEEE 标准下, 单精度和双精度浮点运算的最大相对误差 εu 分别为 http://math.ecnu.edu.cn/~jypan

<<向上翻页向下翻页>>

点击下载：华东师范大学：《数值分析》课程教学资源（参考资料）IEEE浮点运算标准