第六章计算机可靠性设计
第六章 计算机可靠性设计
讲算机可靠性设计 计算机故障 计算机可靠性 )计算机容错与冗余技术
计算机可靠性设计 • 计算机故障 • 计算机可靠性 • 计算机容错与冗余技术
计算机故障 计算机故障,是指造成计算机功能错误的 硬件物理损坏或程序的错误。 故障可分为两大类: 类是元器件、电路、机槭、介质等部分的物 理损坏,称为硬故障; 另一类是因电磁干扰、偶尔落入的尘埃、温度 变化、电源掉电或病毒感染而导致系统功能不 正常,不能正常运行的故障称为软故障
计算机故障 • 计算机故障,是指造成计算机功能错误的 硬件物理损坏或程序的错误。 • 故障可分为两大类: – 一类是元器件、电路、机械、介质等部分的物 理损坏,称为硬故障; – 另一类是因电磁干扰、偶尔落入的尘埃、温度 变化、电源掉电或病毒感染而导致系统功能不 正常,不能正常运行的故障称为软故障
计算机故障 计算机故障可以分为以下类别 按照故障部位可以分为独立故障,局部性故障, 全局性故障。 按照故障发生时间可以分为暂时、永久性,边 缘性故障。 按照故障原因可以分为硬件故障,机械故障 人为故障,软件故障,病毒故障
计算机故障 • 计算机故障可以分为以下类别: – 按照故障部位可以分为独立故障,局部性故障, 全局性故障。 – 按照故障发生时间可以分为暂时、永久性,边 缘性故障。 – 按照故障原因可以分为硬件故障,机械故障, 人为故障,软件故障,病毒故障
计算机故障 故障产生的原因: 集成电路本身缺阝 静电感应击穿 电气干扰 环境影响 管理不善
计算机故障 • 故障产生的原因: – 集成电路本身缺陷 – 静电感应击穿 – 电气干扰 – 环境影响 – 管理不善
计算机故障 散隆检测原则: 先软件后硬件,先外设后主机,先电源后负载,先 般设备后特殊设备,先公用后专用,先简单后复杂。 故障检测方法主要有: 原理分析法、诊断程序法、直接观察 插拔或更换器件、静态芯片测量、动态分析、升温降 温法 对时隐时现的故障往往用拉偏的方法可以使故障现象 再现,从而便于查找
计算机故障 • 故障检测原则: – 先软件后硬件,先外设后主机,先电源后负载,先一 般设备后特殊设备,先公用后专用,先简单后复杂。 • 故障检测方法主要有: – 原理分析法、诊断程序法、直接观察。 – 插拔或更换器件、静态芯片测量、动态分析、升温降 温法。 – 对时隐时现的故障往往用拉偏的方法可以使故障现象 再现,从而便于查找
讲算机可靠性设计 计算机故险 计算机可靠性 )计算机容错与冗余技术
计算机可靠性设计 • 计算机故障 • 计算机可靠性 • 计算机容错与冗余技术
计算机可靠性RAS是可靠性,可维护性,可用性 可靠性是计算机在规定时间与条件下完成规定功能的 穊率。其中规定条件:环境条件,作用条件,维护条 件,操作条件。 可维护性是因为故障而失效时,通过维护恢复正常的 能力。 可用性是计算机各种功能满足需要的程度,是计算机 在执行任务中任何时刻都能够正常工作的概率
• 计算机可靠性RAS是可靠性,可维护性,可用性 的综合。 – 可靠性是计算机在规定时间与条件下完成规定功能的 概率。其中规定条件:环境条件,作用条件,维护条 件,操作条件。 – 可维护性是因为故障而失效时,通过维护恢复正常的 能力。 – 可用性是计算机各种功能满足需要的程度,是计算机 在执行任务中任何时刻都能够正常工作的概率
计算机可靠性 讲算机可靠性主要有两个方面:避错和容 噼错就是故障检测、故障诊断技术则是通过检 测和排除系统元器件或线路故障,或纠正程序 的错误来保证和提高系统可靠性的方法 所谓“容错技术”,是指用增加冗余资源的方 法来掩盖故障造成的影响,使系统在元器件或 线路有故障或软件有差错时,仍能正确地执行 预定算法的功能
计算机可靠性 • 计算机可靠性主要有两个方面:避错和容 错。 – 避错就是故障检测、故障诊断技术则是通过检 测和排除系统元器件或线路故障,或纠正程序 的错误来保证和提高系统可靠性的方法。 – 所谓“容错技术”,是指用增加冗余资源的方 法来掩盖故障造成的影响,使系统在元器件或 线路有故障或软件有差错时,仍能正确地执行 预定算法的功能
讲算机可靠性设计 计算机故险 计算机可靠性 )计算机容错与冗余技术
计算机可靠性设计 • 计算机故障 • 计算机可靠性 • 计算机容错与冗余技术