D0I:10.13374/i.issnl00113.2007.0L.017 第29卷第1期 北京科技大学学报 Vol.29 No.1 2007年1月 Journal of University of Science and Technology Beijing Jan.2007 双过程机热备份集群系统的可信性建模与仿真 李江昀童朝南孙一康 北京科技大学信息工程学院,北京100083 摘要用$RN网为过程控制计算机热备系统建立了可用性评价模型,综合考虑盘阵共享和镜像共享两种方式,并利用SP~ NP软件包对数据进行分析和仿真,仿真结果为可用性评价提供了定量指标·研究结果表明:在同等条件下使用镜像共享方式 比盘阵共享方式提高系统可用性更显著:缩短故障发现时间,加快系统修复速度,可有效提高系统可用性· 关键词双机热备份:集群:Pti网:可信性建模 分类号TP273+.5 在石化、冶金、电力等流程工业控制系统中,过 和可用性(availability)分析两个方面,其度量指标 程控制级计算机承担着数学模型运算的重要使命, 分别为可靠度(t)和可用度A(t),对于双过程机 因此,提高运行关键过程及任务的过程机的可靠性, 可修复系统,主要采用A(t)评价系统的正常运行 已成为安全生产和高效生产的重要环节,在现有的 概率,根据时间范围的不同,系统可用度有三种评 技术条件下,配置和运行双过程机热备份集群(tw0~ 价形式3]. node hot-standby cluster,简称THC)系统,是提高过 定义1瞬时(nstantaneous)可用度A(t):指 程自动化系统可靠性的有效手段和重要措施, 系统在时刻t可运行的概率. 为了满足控制系统对THC系统可用性的苛刻 SRN输出A(t)的表达式为: 要求,在系统设计之初就需要建立精确的可信性模 A(e)=∑r() (1) 型来分析双机系统的行为特性,已有的建模方法如 iEn 组合理论(可靠性框图、故障树)在刻画系统行为时, 式中,2是所有可达标识的集合,元:(t)是t时刻可 必须假定各部件相互独立,且仅能反映系统从正常 达标识i的概率,:是可达标识i的回报率 运行到故障阶段,即只可提供平均无故障运行时间 定义2平均(interval)可用度A(t):指系统在 (mean time to failure,简称MTTF)和可靠性指标; 时间区间[0,t)内,可用度的平均值,即 Markov过程建模虽可计算全部可信性指标,但该方 0=4ea: (2) 法难于描述双机系统内在并发性,同时缺乏灵活性 和扩展性山 SRN输出A(t)的表达式为: 为克服以上建模方法的不足,本文使用随机回 ()dx (3) 报Petri网(stochastic reward Petri nets,简称SRN) 为THC系统建立精确的可信性模型.SRN是一种 定义3稳态(steady state)可用度As:指系统 长期可正常运行的概率,即 可用于多种系统的图形化、数学化的建模工具:它对 描述和研究具有并行、异步、分布式和随机性等特征 As=li典A(t) (4) 的系统有很好的性能,为系统的可信性模型的描述 SRN输出A的表达式为: 和分析提供了强大的建模工具), 4=会 (5) 1SRN网可信性理论 式中,兀是对应于可达标识i的稳态概率. 1.2可信性模型参数 1.1可用性评价 THC系统故障具有随机性和突发性,对于系统 系统的可信性主要包括可靠性(reliability)分析 中这样的随机事件,根据可靠性理论,其损耗过程符 收稿日期:2005-10-08修回日期:2006-10-13 合指数分布,因此,可信性建模使用以下参数). 基金项目:国家发改委高技术资助项目(发改办高技[2005]1899) 定义4故障率入:当系统的故障服从指数分 作者简介:李江购(1977一):男,博士研究生;童朝南(1955一),男, 教授,博士生导师 布时,故障率为常数,即
双过程机热备份集群系统的可信性建模与仿真 李江昀 童朝南 孙一康 北京科技大学信息工程学院北京100083 摘 要 用 SRN 网为过程控制计算机热备系统建立了可用性评价模型综合考虑盘阵共享和镜像共享两种方式并利用 SPNP 软件包对数据进行分析和仿真仿真结果为可用性评价提供了定量指标.研究结果表明:在同等条件下使用镜像共享方式 比盘阵共享方式提高系统可用性更显著;缩短故障发现时间加快系统修复速度可有效提高系统可用性. 关键词 双机热备份;集群;Petri 网;可信性建模 分类号 TP273+∙5 收稿日期:20051008 修回日期:20061013 基金项目:国家发改委高技术资助项目 (发改办高技[2005] 1899) 作者简介:李江昀(1977—)男博士研究生;童朝南(1955—)男 教授博士生导师 在石化、冶金、电力等流程工业控制系统中过 程控制级计算机承担着数学模型运算的重要使命. 因此提高运行关键过程及任务的过程机的可靠性 已成为安全生产和高效生产的重要环节.在现有的 技术条件下配置和运行双过程机热备份集群(twonode hot-standby cluster简称 T HC)系统是提高过 程自动化系统可靠性的有效手段和重要措施. 为了满足控制系统对 T HC 系统可用性的苛刻 要求在系统设计之初就需要建立精确的可信性模 型来分析双机系统的行为特性.已有的建模方法如 组合理论(可靠性框图、故障树)在刻画系统行为时 必须假定各部件相互独立且仅能反映系统从正常 运行到故障阶段即只可提供平均无故障运行时间 (mean time to failure简称 MTTF)和可靠性指标; Markov 过程建模虽可计算全部可信性指标但该方 法难于描述双机系统内在并发性同时缺乏灵活性 和扩展性[1]. 为克服以上建模方法的不足本文使用随机回 报 Petri 网(stochastic reward Petri nets简称 SRN) 为 T HC 系统建立精确的可信性模型.SRN 是一种 可用于多种系统的图形化、数学化的建模工具;它对 描述和研究具有并行、异步、分布式和随机性等特征 的系统有很好的性能为系统的可信性模型的描述 和分析提供了强大的建模工具[2]. 1 SRN 网可信性理论 1∙1 可用性评价 系统的可信性主要包括可靠性(reliability)分析 和可用性(availability)分析两个方面.其度量指标 分别为可靠度 R( t)和可用度 A ( t).对于双过程机 可修复系统主要采用 A ( t)评价系统的正常运行 概率.根据时间范围的不同系统可用度有三种评 价形式[3]. 定义1 瞬时(Instantaneous)可用度 A ( t):指 系统在时刻 t 可运行的概率. SRN 输出 A ( t)的表达式为: A ( t)= ∑i∈Ω riπi( t) (1) 式中Ω是所有可达标识的集合πi( t)是 t 时刻可 达标识 i 的概率ri 是可达标识 i 的回报率. 定义2 平均(interval)可用度 A ( t):指系统在 时间区间[0t)内可用度的平均值即 A ( t)= 1 t∫ t 0 A ( x)d x (2) SRN 输出 A (t)的表达式为: A ( t)= 1 t ∑i∈Ω r∫i t 0 πi( x)d x (3) 定义3 稳态(steady-state)可用度 Ass:指系统 长期可正常运行的概率即 Ass=limt→∞ A ( t) (4) SRN 输出 Ass的表达式为: Ass= ∑i∈Ω riπi (5) 式中πi 是对应于可达标识 i 的稳态概率. 1∙2 可信性模型参数 T HC 系统故障具有随机性和突发性对于系统 中这样的随机事件根据可靠性理论其损耗过程符 合指数分布.因此可信性建模使用以下参数[4]. 定义4 故障率 λ:当系统的故障服从指数分 布时故障率为常数即 第29卷 第1期 2007年 1月 北 京 科 技 大 学 学 报 Journal of University of Science and Technology Beijing Vol.29No.1 Jan.2007 DOI:10.13374/j.issn1001-053x.2007.01.017
第1期 李江昀等:双过程机热备份集群系统的可信性建模与仿真 77. 1 λ一MTTF (6) 以太网LAN 式中,MTTF为平均无故障运行时间. 定义5修复率“:当系统的修复服从指数分 中口心跳线 布时,修复率为常数,即 Server 以太网心跳线 Server A 1 -MTTR (7) 1Gbit以太网 4一一一…---物 式中,MTTR(mean time to repair)为平均修复时 间 磁盘阵列RAID 2THC系统结构和原理 图1THC系统体系结构 2.1硬件拓扑 Fig.1 Architecture of THC THC系统基本硬件拓扑如图1所示).其中, 磁盘阵列可以有效避免磁盘镜像方式的缺点, 心跳线是所有类型高可用性集群的必选连接。心跳 但是盘阵可能成为双过程机系统的单一故障点,从 是指应用系统的一次最小的成功操作,比如成功录 而降低系统的可用性, 入一条记录、成功修改一个档案等;也可以是主、备 2.2工作方式 机通信软件发出的状态报告信号,心跳通过心跳线 (l)双工方式(active/active):两台主机同时运 传输,备机通过判断心跳有无和心跳内容,便可以识 行各自的服务工作,且相互监测对方的情况.当一 别出诸如系统宕机、应用进程被杀掉、心跳线、网络 台主机宕机时,另外一台主机立即接管它的工作,保 线缆是否断开等故障.,配置多条心跳线,可以有效 证工作不间断. 避免由于其中一条意外断开而引起的非主机故障启 (2)主从方式(active//standby):主机工作,从机 用备份机 处于在线监控准备状态,当主机宕机时,从机接管 图中虚线表示可选连接,THC系统数据共享 主机的工作. 可分为磁盘镜像和磁盘阵列两种方式, 无论哪种工作方式,系统节点的服务切换都要 磁盘镜像方式中,每台服务器都有自己的数据 经历故障节点脱离集群、应用程序重新配置和修复 磁盘,并且不断地通过高速以太网,把活动数据从服 节点加入系统的过程,其间,系统暂停对外服务 务器复制到备用服务器,此方式可以消除系统的单 在生产实际中,由于单台小型机或高性能P℃ 点故障(SPOF)·但是该方式最大的缺点是,当故障 足以满足运算需求,故以第二种工作方式为主· 发生在工作机进行磁盘写操作时,会丢失链路中正 在复制的数据,使得备份机的磁盘数据无法更新· 3THC系统建模 另外,备份服务器维护数据镜像需要很高的网络和 3.1过程机子模型 服务器开销. 过程机行为特性如图2所示[].模型各部分 tn id pniu in iu pu pn pu tn pd pn_cb pn pd pn tn 1o D ic in ic n pc pn pc tn po pn cb in dfl 变迁授权函数 pd up inbf#pnup)=0V拟pdup0 tn cb #(pn_cb)=2 图2过程机SRN网模型 Fig-2 SRN model of nodes
λ= 1 MTTF (6) 式中MTTF 为平均无故障运行时间. 定义5 修复率 μ:当系统的修复服从指数分 布时修复率为常数即 μ= 1 MTTR (7) 式中MTTR (mean time to repair)为平均修复时 间. 2 THC 系统结构和原理 2∙1 硬件拓扑 T HC 系统基本硬件拓扑如图1所示[5].其中 心跳线是所有类型高可用性集群的必选连接.心跳 是指应用系统的一次最小的成功操作比如成功录 入一条记录、成功修改一个档案等;也可以是主、备 机通信软件发出的状态报告信号.心跳通过心跳线 传输备机通过判断心跳有无和心跳内容便可以识 别出诸如系统宕机、应用进程被杀掉、心跳线、网络 线缆是否断开等故障.配置多条心跳线可以有效 避免由于其中一条意外断开而引起的非主机故障启 用备份机. 图中虚线表示可选连接.T HC 系统数据共享 可分为磁盘镜像和磁盘阵列两种方式. 磁盘镜像方式中每台服务器都有自己的数据 磁盘并且不断地通过高速以太网把活动数据从服 务器复制到备用服务器.此方式可以消除系统的单 点故障(SPOF).但是该方式最大的缺点是当故障 发生在工作机进行磁盘写操作时会丢失链路中正 在复制的数据使得备份机的磁盘数据无法更新. 另外备份服务器维护数据镜像需要很高的网络和 服务器开销. 图1 THC 系统体系结构 Fig.1 Architecture of THC 磁盘阵列可以有效避免磁盘镜像方式的缺点 但是盘阵可能成为双过程机系统的单一故障点从 而降低系统的可用性. 2∙2 工作方式 (1) 双工方式(active/active):两台主机同时运 行各自的服务工作且相互监测对方的情况.当一 台主机宕机时另外一台主机立即接管它的工作保 证工作不间断. (2) 主从方式(active/standby):主机工作从机 处于在线监控准备状态.当主机宕机时从机接管 主机的工作. 无论哪种工作方式系统节点的服务切换都要 经历故障节点脱离集群、应用程序重新配置和修复 节点加入系统的过程.其间系统暂停对外服务. 在生产实际中由于单台小型机或高性能 PC 足以满足运算需求故以第二种工作方式为主. 3 THC 系统建模 3∙1 过程机子模型 过程机行为特性如图2所示[6—8].模型各部分 图2 过程机 SRN 网模型 Fig.2 SRN model of nodes 第1期 李江昀等: 双过程机热备份集群系统的可信性建模与仿真 ·77·
78 北京科技大学学报 第29卷 模型考虑过程机的两类故障行为:永久(perma~ 含义见表1与表2. nent)故障和临时(intermittent)故障.永久故障指机 表1双机热备份系统模型中的位置 器发生硬件损坏,必须进行物理修复的行为;临时故 Table 1 Places of the SRN model in THC 障指软件出错,可通过重起机器进行修复的行为, 位置 意义 两类行为由模型中的时间变迁tn-p和tn-i分 pn-up 节点正常运行 节点发生永久故障 别表示,模型同时还考虑了可发现(coverage)和不 pn-pf 发生被检测到的永久故障 可发现(uncoverage)两类故障.当可发现故障发生 pn-pc pn-pu 发生未被检测到的永久故障 时,集群软件可监测到故障节点并将其配置出集群; pn-r 节点修复 而不可发现故障发生时,集群无法得知节点故障,导 pn-w 节点等待进入集群 致备用机无法启用,使整个系统停止服务 pn-if 节点发生临时故障 图2中,变迁tn-p表示系统节点发生永久故 pn-ic 发生被检测到的临时故障 障.如果,该故障为可发现故障,则先脱离集群,再 pn-iu 发生未被检测到的临时故障 进行修理;否则,人工发现故障需要经历tn-pd后 pn-b 节点重起 pn-cb 再行修复,此时,如果已有节点发生永久故障,则不 集群重起 pn-pd 发现未检测到的永久故障 需脱离集群,而是直接修复,该过程由in-pl表示; pn-id 发现未检测到的临时故障 若有节点正常运行,需一同与修复后的节点重起,该 过程由in-p2模拟, 表2双机热备份系统模型中的变迁 Table 2 Transitions of the SRN model in THC 变迁 意义 变迁 意义 in-pc 发生被检测到的永久故障 in-dfl 一个节点加入集群时,磁盘阵列发生故障 in-pu 发生未被检测到的永久故障 in-df2 集群重起时,磁盘阵列发生故障 in-pl 一个节点发生被检测到的永久故障时,另- tn-P 节点发生永久故障 节点发生未被检测到的永久故障 tn-pd 发现未被检测到的永久故障 in-p2 一个节点发生未被检测到的永久故障 tn-r 节点修复 in-il 一个节点发生被检测到的临时故障时,另一 tn-i 节点发生临时故障 节点发生未被检测到的临时故障 tn-id 发现未被检测到的临时故障 in-i2 一个节点发生未被检测到的临时故障 tn-io 发生临时故障的节点脱离集群 in-ic 发生被检测到的临时故障 tn-po 发生永久故障的节点脱离集群 in-iu 发生未被检测到的临时故障 tn-b 节点重起 in-bf 一个节点重起时,集群整体故障 tn-in 节点加入集群 in-cf 集群整体故障 tn-cb 集群重起 节点经tn-r修复后,到达位置pn-w等待加入 处,与集群一同重起.而tn-cb的授权函数使得只 集群,若有一个节点正常运行,则修复后的节点经 有两个节点都处于可重起状态时,才可重起集群 tn-in加入集群,该行为由in-cf变迁的禁止弧模 3.2磁盘阵列子模型 拟;否则,节点到达位置pn-cb,等待集群重起,在 磁盘阵列模型如图3所示,符号含义见表3. pn-w和pn-cb两处,如果盘阵发生故障,节点则直 开始一个标记在pd-up表示盘阵正常工作,盘 接回到pn-up处,由盘阵修复后重起集群,该行为 阵发生永久故障时,由时间变迁td-f表示.随后, 分别由in-df1和in-df2上的禁止弧模拟. 盘阵经变迁td-r进行修复,到达位置pd-cd,准备 系统发生临时故障的行为与发生永久故障的过 加入集群,此时,若两节点都已故障且未同时恢复, 程基本类似,不同之处在于发生临时故障的节点只 则盘阵回到pd-up,等待节点修复后,由集群发起重 需重新启动即可恢复功能, 起,载入盘阵,该过程由id-nb及其授权函数实现; in-bf变迁的授权函数令节点在重起过程中, 反之,若集群可正常运行,则由盘阵的恢复,触发 如遇集群整体故障或盘阵故障,直接到达pn-cb tn-cb,重起整个集群
含义见表1与表2. 表1 双机热备份系统模型中的位置 Table1 Places of the SRN model in THC 位置 意义 pn—up 节点正常运行 pn—pf 节点发生永久故障 pn—pc 发生被检测到的永久故障 pn—pu 发生未被检测到的永久故障 pn—r 节点修复 pn—w 节点等待进入集群 pn—if 节点发生临时故障 pn—ic 发生被检测到的临时故障 pn—iu 发生未被检测到的临时故障 pn—b 节点重起 pn—cb 集群重起 pn—pd 发现未检测到的永久故障 pn—id 发现未检测到的临时故障 模型考虑过程机的两类故障行为:永久(permanent)故障和临时(intermittent)故障.永久故障指机 器发生硬件损坏必须进行物理修复的行为;临时故 障指软件出错可通过重起机器进行修复的行为. 两类行为由模型中的时间变迁 tn—p 和 tn—i 分 别表示.模型同时还考虑了可发现(coverage)和不 可发现(uncoverage)两类故障.当可发现故障发生 时集群软件可监测到故障节点并将其配置出集群; 而不可发现故障发生时集群无法得知节点故障导 致备用机无法启用使整个系统停止服务. 图2中变迁 tn—p 表示系统节点发生永久故 障.如果该故障为可发现故障则先脱离集群再 进行修理;否则人工发现故障需要经历 tn—pd 后 再行修复.此时如果已有节点发生永久故障则不 需脱离集群而是直接修复该过程由 in—p1表示; 若有节点正常运行需一同与修复后的节点重起该 过程由 in—p2模拟. 表2 双机热备份系统模型中的变迁 Table2 Transitions of the SRN model in THC 变迁 意义 in—pc 发生被检测到的永久故障 in—pu 发生未被检测到的永久故障 in—p1 一个节点发生被检测到的永久故障时另一 节点发生未被检测到的永久故障 in—p2 一个节点发生未被检测到的永久故障 in—i1 一个节点发生被检测到的临时故障时另一 节点发生未被检测到的临时故障 in—i2 一个节点发生未被检测到的临时故障 in—ic 发生被检测到的临时故障 in—iu 发生未被检测到的临时故障 in—bf 一个节点重起时集群整体故障 in—cf 集群整体故障 变迁 意义 in—df1 一个节点加入集群时磁盘阵列发生故障 in—df2 集群重起时磁盘阵列发生故障 tn—p 节点发生永久故障 tn—pd 发现未被检测到的永久故障 tn—r 节点修复 tn—i 节点发生临时故障 tn—id 发现未被检测到的临时故障 tn—io 发生临时故障的节点脱离集群 tn—po 发生永久故障的节点脱离集群 tn—b 节点重起 tn—in 节点加入集群 tn—cb 集群重起 节点经 tn—r 修复后到达位置 pn—w 等待加入 集群.若有一个节点正常运行则修复后的节点经 tn—in 加入集群该行为由 in—cf 变迁的禁止弧模 拟;否则节点到达位置 pn—cb等待集群重起.在 pn—w 和 pn—cb 两处如果盘阵发生故障节点则直 接回到 pn—up 处由盘阵修复后重起集群该行为 分别由 in—df1和 in—df2上的禁止弧模拟. 系统发生临时故障的行为与发生永久故障的过 程基本类似不同之处在于发生临时故障的节点只 需重新启动即可恢复功能. in—bf 变迁的授权函数令节点在重起过程中 如遇集群整体故障或盘阵故障直接到达 pn— cb 处与集群一同重起.而 tn—cb 的授权函数使得只 有两个节点都处于可重起状态时才可重起集群. 3∙2 磁盘阵列子模型 磁盘阵列模型如图3所示符号含义见表3. 开始一个标记在 pd—up 表示盘阵正常工作盘 阵发生永久故障时由时间变迁 td—f 表示.随后 盘阵经变迁 td—r 进行修复到达位置 pd—cd准备 加入集群.此时若两节点都已故障且未同时恢复 则盘阵回到 pd—up等待节点修复后由集群发起重 起载入盘阵该过程由 id—nb 及其授权函数实现; 反之若集群可正常运行则由盘阵的恢复触发 tn—cb重起整个集群. ·78· 北 京 科 技 大 学 学 报 第29卷
第1期 李江昀等:双过程机热备份集群系统的可信性建模与仿真 .79 pd cb 用数值1的稳态可用度Aa1=99.9915%,THC使 用数值2的稳态可用度A2=99.9957%.系统全 年减少的停机时间为△t=(A2一Aa1)X525960= 22.09min 表5模型输入参数 Table 5 Input parameter of SRN model 变迁 授权函数 id nb #(pn_up)-0A(#(pn w)+#(pn cb))#(pd-up)=1A#(pn-pf)=0A #(pn-if)=0A#(pn-w)=0#(pn-cb)=0 由图4可以看出,将人工发现故障时间、修复系 镜像 #(pn-up)>#(pn-pf)=0A#(pn-if )=0A #(pm-w)=0A#(pn-cb)=0 统时间和系统重起时间缩短为原系统的1/2时,可 有效提高系统可用度,即全年停机时间减少 使用盘阵共享方式时,两个子模型由共同的 22.09min tn-cb变迁和盘阵pd-p位置引出的禁止弧联结; 100.000 使用镜像共享时,因磁盘配置于节点之内,过程机子 99.999 模型本身便可仿真系统行为 ¥99.997 数值2 4仿真分析 99.995 以表5所列数据为输入参数,使用SPNP 数值1 (Stochastic Reward Nets Package)软件包Ver6.0对 99.993 0 2 3 4 数据进行处理,分析仿真结果.SPNP软件包是由美 t/h 国Duke大学的Trivedi教授所领导的研究小组研究 图4单机可用性的提高对系统可用性的影响 和开发,经过多年的运行和修版,已经成为较权威的 Fig.4 Improvement of one node's availability effect on system SRN仿真软件,目前最高版本为Ver6.0. (1)系统带磁盘阵列时,使用数值1与数值2 (2)系统带磁盘阵列时,使用数值1,分别在发 在95%可发现概率下的瞬时可用度比较:THC使 现概率95%,90%,85%下的瞬时可用度比较如图
图3 磁盘阵列 SRN 模型 Fig.3 SRN model of raid 表3 磁盘阵列 SRN 模型中位置与变迁的意义 Table3 Places and transitions of the SRN model in raid 位置 意义 pd—up 磁盘阵列正常运行 pd—r 磁盘阵列修复 pd—cb 磁盘阵列修复后集群重起 位置 意义 td—f 磁盘阵列故障 td—r 磁盘阵列修复 tn—cb 由磁盘阵列修复重起 id—nb 由节点修复重起 3∙3 系统可用性分析 T HC 系统由两个子模型组成可分别对盘阵共 享和镜像共享两种方式进行仿真.两种方式的系统 可用条件如表4所示. 表4 THC 系统可用条件 Table4 Condition of availability in THC 共享 回报函数 盘阵 #(pn—up)>0∧#(pd—up)=1∧#(pn—pf )=0∧ #(pn—if)=0∧#(pn—w)=0∧#(pn—cb)=0 镜像 #(pn—up)>0∧#(pn— pf )=0∧#(pn—if )=0∧ #(pn—w)=0∧#(pn—cb)=0 使用盘阵共享方式时两个子模型由共同的 tn—cb 变迁和盘阵 pd—up 位置引出的禁止弧联结; 使用镜像共享时因磁盘配置于节点之内过程机子 模型本身便可仿真系统行为. 4 仿真分析 以表5所列数据为输入参数[9]使用 SPNP (Stochastic Reward Nets Package)软件包 Ver6∙0对 数据进行处理分析仿真结果.SPNP 软件包是由美 国 Duke 大学的 Trivedi 教授所领导的研究小组研究 和开发经过多年的运行和修版已经成为较权威的 SRN 仿真软件目前最高版本为 Ver6∙0. (1) 系统带磁盘阵列时使用数值1与数值2 在95%可发现概率下的瞬时可用度比较:T HC 使 用数值1的稳态可用度 Ass1=99∙9915%T HC 使 用数值2的稳态可用度 Ass2=99∙9957%.系统全 年减少的停机时间为Δt=( Ass2— Ass1)×525960= 22∙09min. 表5 模型输入参数 Table5 Input parameter of SRN model 模型参数 数值1 数值2 节点平均无永久故障时间(1/λtn— p)/h 20000 20000 发现未被检测到的永久故障的平均时 间(1/λtn— pd)/min 30 15 节点平均修复时间(1/λtn— r)/min 60 30 节点平均无临时故障时间(1/λtn— i)/h 5000 5000 发现未被检测到的临时故障的平均时 间(1/λtn— id)/min 30 15 临时故障的节点脱离集群的平均时间 (1/λtn— io)/s 10 10 永久故障的节点脱离集群的平均时间 (1/λtn— po)/s 10 10 节点重起的平均时间(1/λtn— b)/min 10 5 节点加入集群的平均时间(1/λtn— in)/s 5 5 集群重起的平均时间(1/λtn— cb)/min 10 5 磁盘阵列平均无故障时间(1/λtd— f)/h 20000 20000 磁盘阵列平均修复时间(1/λtd— r)/min 60 30 由磁盘阵列修复重起的平均时间 (1/λtd— cb)/min 10 5 由图4可以看出将人工发现故障时间、修复系 统时间和系统重起时间缩短为原系统的1/2时可 有效 提 高 系 统 可 用 度即 全 年 停 机 时 间 减 少 22∙09min. 图4 单机可用性的提高对系统可用性的影响 Fig.4 Improvement of one node’s availability effect on system (2) 系统带磁盘阵列时使用数值1分别在发 现概率95%90%85%下的瞬时可用度比较如图 第1期 李江昀等: 双过程机热备份集群系统的可信性建模与仿真 ·79·
.80 北京科技大学学报 第29卷 5所示:95%故障发现率的稳态可用度A5= 100.0005 99.9915%,90%故障发现率的稳态可用度A90= 99.999 镜像共享,85% 99.9889%,85%故障发现率的稳态可用度A85= ++W444+H+H 99.9863%.系统全年减少的停机时间分别为△t1 =(A95-A90)×525960=13.67min,△t2= 美如n 4+t4+t444++4++H++4 盘阵共享,95%,数值2 (A90-A85)X525960=13.67min. 盘阵共享,95%,数值1 100.000 99.993 4w 0 2 3 4 99.998 h 99.996 图7镜像共享对系统可用度的影响 99.994 95% Fig.7 Image share effect on system 99.992 909% 85% 5结论 99.99 0 6 8 10 h 本文为双过程机热备份集群系统建立了SRN 可信性模型,并用SPNP软件包分析了系统可用度, 图5故障发现率的提高对系统可用性的影响 SRN模型能够细致描述系统行为的并发行和随机 Fig-5 Improvement of fault detection rate effect on system 性,并具有极大的灵活性和扩展性,是为该类系统建 (3)系统在相同的可发现概率95%下,使用数 模的强大理论工具,该理论同样可用于基础自动化 值1,盘阵共享与镜像共享的可用度比较如图6所 级系统的可用性分析.该方法的不足之处在于只能 示:盘阵共享A1=99.9915%,镜像共享A2= 适用于故障分布为指数分布系统,而对于实际中可 99.9969%.系统全年减少的停机时间为△t= 能存在的Weibull故障分布等,模型还不能够提供 (A2-Aa1)X525960=28.4min. 理论支持, 100 参考文献 99.999 中++4++ 镜像共享 [1]Johnson A M.Miroslaw J M.Survey of software tools for evalu- ating reliability,availability and serviceability.ACM Comput Suv,1988,20(4):227 99.996 [2]林闯.随机Pti网和系统性能评价.2版.北京:清华大学出 版社,2005 盘阵共享 [3]Trivedi K S.SPNP:stochastic petri nets version 6.0 [M/OL]. 99.993 0 2 3 4 http://www-ce.duke.edu/-kst/ t/h [4]李海泉,李刚。系统可靠性分析与设计.北京:科学出版社, 2003 图6盘阵共享与镜像共享的可用度比较 [5]车静光.微机集群组建、优化和管理.北京:机械工业出版社, Fig-6 Comparison between raid share and image share 2004 [6]Malhotra M.Trived K S.Dependability modeling using petri-net 分析发现,镜像共享比盘阵共享极大提高系统 based models.IEEE Trans Reliab.1995.44(3):428 可用性 [7]Muppala J K.Ciardo G F.Trivedi K S.Stochastic reward nets (4)镜像共享使用数值1在85%可发现概率下 for reliability prediction.Commun Reliab Maintainab Serviceab. 与盘阵共享分别使用数值1、数值2在95%可发现 1994,1(2):9 概率下的可用度比较如图7所示.进一步比较可以 [8]Sericola B.Availability analysis of repairable computer systems and stationarity detection.IEEE Trans Comput.1999.48(11): 发现,无盘阵的85%的可发现概率(使用数值1)仍 1166 比有盘阵的最高的可用度高,这说明,当无法提高 [9]Ibe 0.Sathaye A.Howe R.et al.Stochastic Petri net modeling of 系统故障发现率和缩短单机停机时间的情况下,采 VAXcluster availability Proceedings of Third International 用镜像共享是提高系统可用度的有效途径· Workshop on Petri Nets and Performance Models.Kyoto,1989: 112
5所示:95% 故障发现率的稳态可用度 Ass95= 99∙9915%90%故障发现率的稳态可用度 Ass90= 99∙9889%85%故障发现率的稳态可用度 Ass85= 99∙9863%.系统全年减少的停机时间分别为 Δt1 =( Ass95— Ass90) ×525960=13∙67minΔt2= ( Ass90— Ass85)×525960=13∙67min. 图5 故障发现率的提高对系统可用性的影响 Fig.5 Improvement of fault detection rate effect on system (3) 系统在相同的可发现概率95%下使用数 值1盘阵共享与镜像共享的可用度比较如图6所 示:盘阵共享 Ass1=99∙9915%镜像共享 Ass2= 99∙9969%.系统全年减少的停机时间为 Δt = ( Ass2— Ass1)×525960=28∙4min. 图6 盘阵共享与镜像共享的可用度比较 Fig.6 Comparison between raid share and image share 分析发现镜像共享比盘阵共享极大提高系统 可用性. (4) 镜像共享使用数值1在85%可发现概率下 与盘阵共享分别使用数值1、数值2在95%可发现 概率下的可用度比较如图7所示.进一步比较可以 发现无盘阵的85%的可发现概率(使用数值1)仍 比有盘阵的最高的可用度高.这说明当无法提高 系统故障发现率和缩短单机停机时间的情况下采 用镜像共享是提高系统可用度的有效途径. 图7 镜像共享对系统可用度的影响 Fig.7 Image share effect on system 5 结论 本文为双过程机热备份集群系统建立了 SRN 可信性模型并用 SPNP 软件包分析了系统可用度. SRN 模型能够细致描述系统行为的并发行和随机 性并具有极大的灵活性和扩展性是为该类系统建 模的强大理论工具.该理论同样可用于基础自动化 级系统的可用性分析.该方法的不足之处在于只能 适用于故障分布为指数分布系统而对于实际中可 能存在的 Weibull 故障分布等模型还不能够提供 理论支持. 参 考 文 献 [1] Johnson A MMiroslaw J M.Survey of software tools for evaluating reliabilityavailability and serviceability. ACM Comput Surv198820(4):227 [2] 林闯.随机 Petri 网和系统性能评价.2版.北京:清华大学出 版社2005 [3] Trivedi K S.SPNP:stochastic petri nets version6∙0 [ M/OL ]. http:∥www.ee.duke.edu/~kst/ [4] 李海泉李刚.系统可靠性分析与设计.北京:科学出版社 2003 [5] 车静光.微机集群组建、优化和管理.北京:机械工业出版社 2004 [6] Malhotra MTrived K S.Dependability modeling using petr-i net based models.IEEE Trans Reliab199544(3):428 [7] Muppala J KCiardo G FTrivedi K S.Stochastic reward nets for reliability prediction.Commun Reliab Maintainab Serviceab 19941(2):9 [8] Sericola B.Availability analysis of repairable computer systems and stationarity detection.IEEE Trans Comput199948(11): 1166 [9] Ibe OSathaye AHowe Ret al.Stochastic Petri net modeling of VAXcluster availability ∥ Proceedings of Third International Workshop on Petri Nets and Performance Models.Kyoto1989: 112 ·80· 北 京 科 技 大 学 学 报 第29卷
第1期 李江昀等:双过程机热备份集群系统的可信性建模与仿真 ,81 Dependability modeling and simulating of a two node hot standby cluster of process control system LI Jiangyun,TONG Chaonan,SUN Yikang Information Engineering School.University of Science and Technology Beijing.Beijing 100083.China ABSTRACT A SRN model for a two-node hot-standby cluster of process control system in process industry was constructed,in which a precise description about the system status and behavior of permanent failure and inter- mittent failure was proposed and both raid share and image share were considered.The availability of the system was simulated and analyzed using SPNP package.The results showed that image share could obviously enhance the availability of the system compared with raid share in the same condition.Reducing the time of failure dis- covery and increasing the speed of failure repair could also improve the availability. KEY WORDS two-node hot-standby:cluster;petri net;dependability modeling (上接第62页) Process of crater formation upon electric discharge textured roll surface WU Changchun),ZHANG Jie),CHEN Xianlin,HAO Jianwei),JIA Shenghui?,WANG Leichuan2) 1)Mechanical Engineering School.University of Science and Technology Beijing.Beijing 100083.China 2)Wuhan Iron Steel (Group)Co.,Wuhan 430083.China ABSTRACI The problems about the variation in center temperature of discharged region and the relationship between crater shape and electrical parameters in the process of electric discharge texturing on the surface of a work roll was studied.The developing process of discharging channel and the distribution of heat flux were ana- lyzed.A thermal conduction model of single channel spark per pulse was presented.By combining the methods of integral transform and finite difference this model was solved.The change of transient temperature at the cen- ter spark point upon the roll surface was discussed under the condition of different peak current,and the relation of crater shape to peak current and pulse duration was also deduced.Finally,the calculated values were com- pared with the experimental ones.The result showed that they were in good agreement.The developed model and adopted method were valid and could be used for simulation of the developing process of geometric topogra- phy on roll surface. KEY WORDS roll:surface crater;electric discharge texturing (EDT);thermal conduction;integral transfor- mation:finite difference
Dependability modeling and simulating of a two-node hot-standby cluster of process control system LI JiangyunTONG ChaonanSUN Y ikang Information Engineering SchoolUniversity of Science and Technology BeijingBeijing100083China ABSTRACT A SRN model for a two-node hot-standby cluster of process control system in process industry was constructedin which a precise description about the system status and behavior of permanent failure and intermittent failure was proposed and both raid share and image share were considered.The availability of the system was simulated and analyzed using SPNP package.The results showed that image share could obviously enhance the availability of the system compared with raid share in the same condition.Reducing the time of failure discovery and increasing the speed of failure repair could also improve the availability. KEY WORDS two-node hot-standby;cluster;petri net;dependability modeling (上接第62页) Process of crater formation upon electric discharge textured roll surface W U Changchun 1)ZHA NG Jie 1)CHEN Xianlin 1)HAO Jianwei 1)JIA Shenghui 2)WA NG Leichuan 2) 1) Mechanical Engineering SchoolUniversity of Science and Technology BeijingBeijing100083China 2) Wuhan Iron & Steel (Group) Co.Wuhan430083China ABSTRACT The problems about the variation in center temperature of discharged region and the relationship between crater shape and electrical parameters in the process of electric discharge texturing on the surface of a work roll was studied.The developing process of discharging channel and the distribution of heat flux were analyzed.A thermal conduction model of single channel spark per pulse was presented.By combining the methods of integral transform and finite difference this model was solved.The change of transient temperature at the center spark point upon the roll surface was discussed under the condition of different peak currentand the relation of crater shape to peak current and pulse duration was also deduced.Finallythe calculated values were compared with the experimental ones.The result showed that they were in good agreement.The developed model and adopted method were valid and could be used for simulation of the developing process of geometric topography on roll surface. KEY WORDS roll;surface crater;electric discharge texturing (EDT);thermal conduction;integral transformation;finite difference 第1期 李江昀等: 双过程机热备份集群系统的可信性建模与仿真 ·81·