双过程机热备份集群系统的可信性建模与仿真

用SRN网为过程控制计算机热备系统建立了可用性评价模型,综合考虑盘阵共享和镜像共享两种方式,并利用SP-NP软件包对数据进行分析和仿真,仿真结果为可用性评价提供了定量指标.研究结果表明:在同等条件下使用镜像共享方式比盘阵共享方式提高系统可用性更显著;缩短故障发现时间,加快系统修复速度,可有效提高系统可用性.

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：429.83KB

D0I:10.13374/i.issnl00113.2007.0L.017 第29卷第1期北京科技大学学报 Vol.29 No.1 2007年1月 Journal of University of Science and Technology Beijing Jan.2007 双过程机热备份集群系统的可信性建模与仿真李江昀童朝南孙一康北京科技大学信息工程学院，北京100083 摘要用$RN网为过程控制计算机热备系统建立了可用性评价模型，综合考虑盘阵共享和镜像共享两种方式，并利用SP~ NP软件包对数据进行分析和仿真，仿真结果为可用性评价提供了定量指标·研究结果表明：在同等条件下使用镜像共享方式比盘阵共享方式提高系统可用性更显著：缩短故障发现时间，加快系统修复速度，可有效提高系统可用性· 关键词双机热备份：集群：Pti网：可信性建模分类号TP273+.5 在石化、冶金、电力等流程工业控制系统中，过和可用性(availability)分析两个方面，其度量指标程控制级计算机承担着数学模型运算的重要使命，分别为可靠度(t)和可用度A(t),对于双过程机因此，提高运行关键过程及任务的过程机的可靠性，可修复系统，主要采用A(t)评价系统的正常运行已成为安全生产和高效生产的重要环节，在现有的概率，根据时间范围的不同，系统可用度有三种评技术条件下，配置和运行双过程机热备份集群(tw0~ 价形式3]. node hot-standby cluster,简称THC)系统，是提高过定义1瞬时(nstantaneous)可用度A(t):指程自动化系统可靠性的有效手段和重要措施，系统在时刻t可运行的概率. 为了满足控制系统对THC系统可用性的苛刻 SRN输出A(t)的表达式为：要求，在系统设计之初就需要建立精确的可信性模 A(e)=∑r() (1) 型来分析双机系统的行为特性，已有的建模方法如 iEn 组合理论（可靠性框图、故障树）在刻画系统行为时，式中，2是所有可达标识的集合，元：(t)是t时刻可必须假定各部件相互独立，且仅能反映系统从正常达标识i的概率，：是可达标识i的回报率运行到故障阶段，即只可提供平均无故障运行时间定义2平均(interval)可用度A(t):指系统在 (mean time to failure,简称MTTF)和可靠性指标；时间区间[0，t)内，可用度的平均值，即 Markov过程建模虽可计算全部可信性指标，但该方 0=4ea: (2) 法难于描述双机系统内在并发性，同时缺乏灵活性和扩展性山 SRN输出A(t)的表达式为：为克服以上建模方法的不足，本文使用随机回 ()dx (3) 报Petri网(stochastic reward Petri nets,简称SRN) 为THC系统建立精确的可信性模型.SRN是一种定义3稳态(steady state)可用度As:指系统长期可正常运行的概率，即可用于多种系统的图形化、数学化的建模工具：它对描述和研究具有并行、异步、分布式和随机性等特征 As=li典A(t) (4) 的系统有很好的性能，为系统的可信性模型的描述 SRN输出A的表达式为：和分析提供了强大的建模工具)， 4=会 (5) 1SRN网可信性理论式中，兀是对应于可达标识i的稳态概率. 1.2可信性模型参数 1.1可用性评价 THC系统故障具有随机性和突发性，对于系统系统的可信性主要包括可靠性(reliability)分析中这样的随机事件，根据可靠性理论，其损耗过程符收稿日期：2005-10-08修回日期：2006-10-13 合指数分布，因此，可信性建模使用以下参数). 基金项目：国家发改委高技术资助项目（发改办高技[2005]1899）定义4故障率入：当系统的故障服从指数分作者简介：李江购(1977一)：男，博士研究生；童朝南(1955一)，男，教授，博士生导师布时，故障率为常数，即

双过程机热备份集群系统的可信性建模与仿真李江昀童朝南孙一康北京科技大学信息工程学院北京100083 摘要用 SRN 网为过程控制计算机热备系统建立了可用性评价模型综合考虑盘阵共享和镜像共享两种方式并利用 SPNP 软件包对数据进行分析和仿真仿真结果为可用性评价提供了定量指标．研究结果表明：在同等条件下使用镜像共享方式比盘阵共享方式提高系统可用性更显著；缩短故障发现时间加快系统修复速度可有效提高系统可用性．关键词双机热备份；集群；Petri 网；可信性建模分类号 TP273＋∙5 收稿日期：20051008 修回日期：20061013 基金项目：国家发改委高技术资助项目（发改办高技［2005］ 1899）作者简介：李江昀（1977—）男博士研究生；童朝南（1955—）男教授博士生导师在石化、冶金、电力等流程工业控制系统中过程控制级计算机承担着数学模型运算的重要使命．因此提高运行关键过程及任务的过程机的可靠性已成为安全生产和高效生产的重要环节．在现有的技术条件下配置和运行双过程机热备份集群（twonode hot-standby cluster简称 T HC）系统是提高过程自动化系统可靠性的有效手段和重要措施．为了满足控制系统对 T HC 系统可用性的苛刻要求在系统设计之初就需要建立精确的可信性模型来分析双机系统的行为特性．已有的建模方法如组合理论（可靠性框图、故障树）在刻画系统行为时必须假定各部件相互独立且仅能反映系统从正常运行到故障阶段即只可提供平均无故障运行时间（mean time to failure简称 MTTF）和可靠性指标； Markov 过程建模虽可计算全部可信性指标但该方法难于描述双机系统内在并发性同时缺乏灵活性和扩展性［1］．为克服以上建模方法的不足本文使用随机回报 Petri 网（stochastic reward Petri nets简称 SRN）为 T HC 系统建立精确的可信性模型．SRN 是一种可用于多种系统的图形化、数学化的建模工具；它对描述和研究具有并行、异步、分布式和随机性等特征的系统有很好的性能为系统的可信性模型的描述和分析提供了强大的建模工具［2］． 1 SRN 网可信性理论 1∙1 可用性评价系统的可信性主要包括可靠性（reliability）分析和可用性（availability）分析两个方面．其度量指标分别为可靠度 R（ t）和可用度 A （ t）．对于双过程机可修复系统主要采用 A （ t）评价系统的正常运行概率．根据时间范围的不同系统可用度有三种评价形式［3］．定义1 瞬时（Instantaneous）可用度 A （ t）：指系统在时刻 t 可运行的概率． SRN 输出 A （ t）的表达式为： A （ t）＝ ∑i∈Ω riπi（ t）（1）式中Ω是所有可达标识的集合πi（ t）是 t 时刻可达标识 i 的概率ri 是可达标识 i 的回报率．定义2 平均（interval）可用度 A （ t）：指系统在时间区间［0t）内可用度的平均值即 A （ t）＝ 1 t∫ t 0 A （ x）d x （2） SRN 输出 A （t）的表达式为： A （ t）＝ 1 t ∑i∈Ω r∫i t 0 πi（ x）d x （3）定义3 稳态（steady-state）可用度 Ass：指系统长期可正常运行的概率即 Ass＝limt→∞ A （ t）（4） SRN 输出 Ass的表达式为： Ass＝ ∑i∈Ω riπi （5）式中πi 是对应于可达标识 i 的稳态概率． 1∙2 可信性模型参数 T HC 系统故障具有随机性和突发性对于系统中这样的随机事件根据可靠性理论其损耗过程符合指数分布．因此可信性建模使用以下参数［4］．定义4 故障率 λ：当系统的故障服从指数分布时故障率为常数即第29卷第1期 2007年 1月北京科技大学学报 Journal of University of Science and Technology Beijing Vol．29No．1 Jan．2007 DOI:10．13374／j．issn1001－053x．2007．01．017

第1期李江昀等：双过程机热备份集群系统的可信性建模与仿真 77. 1 λ一MTTF (6) 以太网LAN 式中，MTTF为平均无故障运行时间. 定义5修复率“：当系统的修复服从指数分中口心跳线布时，修复率为常数，即 Server 以太网心跳线 Server A 1 -MTTR (7) 1Gbit以太网 4一一一…---物式中，MTTR(mean time to repair)为平均修复时间磁盘阵列RAID 2THC系统结构和原理图1THC系统体系结构 2.1硬件拓扑 Fig.1 Architecture of THC THC系统基本硬件拓扑如图1所示).其中，磁盘阵列可以有效避免磁盘镜像方式的缺点，心跳线是所有类型高可用性集群的必选连接。心跳但是盘阵可能成为双过程机系统的单一故障点，从是指应用系统的一次最小的成功操作，比如成功录而降低系统的可用性，入一条记录、成功修改一个档案等；也可以是主、备 2.2工作方式机通信软件发出的状态报告信号，心跳通过心跳线 (l)双工方式(active/active):两台主机同时运传输，备机通过判断心跳有无和心跳内容，便可以识行各自的服务工作，且相互监测对方的情况.当一别出诸如系统宕机、应用进程被杀掉、心跳线、网络台主机宕机时，另外一台主机立即接管它的工作，保线缆是否断开等故障.，配置多条心跳线，可以有效证工作不间断. 避免由于其中一条意外断开而引起的非主机故障启 (2)主从方式(active//standby):主机工作，从机用备份机处于在线监控准备状态，当主机宕机时，从机接管图中虚线表示可选连接，THC系统数据共享主机的工作. 可分为磁盘镜像和磁盘阵列两种方式，无论哪种工作方式，系统节点的服务切换都要磁盘镜像方式中，每台服务器都有自己的数据经历故障节点脱离集群、应用程序重新配置和修复磁盘，并且不断地通过高速以太网，把活动数据从服节点加入系统的过程，其间，系统暂停对外服务务器复制到备用服务器，此方式可以消除系统的单在生产实际中，由于单台小型机或高性能P℃ 点故障(SPOF)·但是该方式最大的缺点是，当故障足以满足运算需求，故以第二种工作方式为主· 发生在工作机进行磁盘写操作时，会丢失链路中正在复制的数据，使得备份机的磁盘数据无法更新· 3THC系统建模另外，备份服务器维护数据镜像需要很高的网络和 3.1过程机子模型服务器开销. 过程机行为特性如图2所示[].模型各部分 tn id pniu in iu pu pn pu tn pd pn_cb pn pd pn tn 1o D ic in ic n pc pn pc tn po pn cb in dfl 变迁授权函数 pd up inbf#pnup)=0V拟pdup0 tn cb #(pn_cb)=2 图2过程机SRN网模型 Fig-2 SRN model of nodes

λ＝ 1 MTTF （6）式中MTTF 为平均无故障运行时间．定义5 修复率 μ：当系统的修复服从指数分布时修复率为常数即 μ＝ 1 MTTR （7）式中MTTR （mean time to repair）为平均修复时间． 2 THC 系统结构和原理 2∙1 硬件拓扑 T HC 系统基本硬件拓扑如图1所示［5］．其中心跳线是所有类型高可用性集群的必选连接．心跳是指应用系统的一次最小的成功操作比如成功录入一条记录、成功修改一个档案等；也可以是主、备机通信软件发出的状态报告信号．心跳通过心跳线传输备机通过判断心跳有无和心跳内容便可以识别出诸如系统宕机、应用进程被杀掉、心跳线、网络线缆是否断开等故障．配置多条心跳线可以有效避免由于其中一条意外断开而引起的非主机故障启用备份机．图中虚线表示可选连接．T HC 系统数据共享可分为磁盘镜像和磁盘阵列两种方式．磁盘镜像方式中每台服务器都有自己的数据磁盘并且不断地通过高速以太网把活动数据从服务器复制到备用服务器．此方式可以消除系统的单点故障（SPOF）．但是该方式最大的缺点是当故障发生在工作机进行磁盘写操作时会丢失链路中正在复制的数据使得备份机的磁盘数据无法更新．另外备份服务器维护数据镜像需要很高的网络和服务器开销．图1 THC 系统体系结构 Fig．1 Architecture of THC 磁盘阵列可以有效避免磁盘镜像方式的缺点但是盘阵可能成为双过程机系统的单一故障点从而降低系统的可用性． 2∙2 工作方式（1）双工方式（active／active）：两台主机同时运行各自的服务工作且相互监测对方的情况．当一台主机宕机时另外一台主机立即接管它的工作保证工作不间断．（2）主从方式（active／standby）：主机工作从机处于在线监控准备状态．当主机宕机时从机接管主机的工作．无论哪种工作方式系统节点的服务切换都要经历故障节点脱离集群、应用程序重新配置和修复节点加入系统的过程．其间系统暂停对外服务．在生产实际中由于单台小型机或高性能 PC 足以满足运算需求故以第二种工作方式为主． 3 THC 系统建模 3∙1 过程机子模型过程机行为特性如图2所示［6—8］．模型各部分图2 过程机 SRN 网模型 Fig．2 SRN model of nodes 第1期李江昀等：双过程机热备份集群系统的可信性建模与仿真 ·77·

78 北京科技大学学报第29卷模型考虑过程机的两类故障行为：永久(perma~ 含义见表1与表2. nent)故障和临时(intermittent)故障.永久故障指机表1双机热备份系统模型中的位置器发生硬件损坏，必须进行物理修复的行为；临时故 Table 1 Places of the SRN model in THC 障指软件出错，可通过重起机器进行修复的行为，位置意义两类行为由模型中的时间变迁tn-p和tn-i分 pn-up 节点正常运行节点发生永久故障别表示，模型同时还考虑了可发现(coverage)和不 pn-pf 发生被检测到的永久故障可发现(uncoverage)两类故障.当可发现故障发生 pn-pc pn-pu 发生未被检测到的永久故障时，集群软件可监测到故障节点并将其配置出集群； pn-r 节点修复而不可发现故障发生时，集群无法得知节点故障，导 pn-w 节点等待进入集群致备用机无法启用，使整个系统停止服务 pn-if 节点发生临时故障图2中，变迁tn-p表示系统节点发生永久故 pn-ic 发生被检测到的临时故障障.如果，该故障为可发现故障，则先脱离集群，再 pn-iu 发生未被检测到的临时故障进行修理；否则，人工发现故障需要经历tn-pd后 pn-b 节点重起 pn-cb 再行修复，此时，如果已有节点发生永久故障，则不集群重起 pn-pd 发现未检测到的永久故障需脱离集群，而是直接修复，该过程由in-pl表示； pn-id 发现未检测到的临时故障若有节点正常运行，需一同与修复后的节点重起，该过程由in-p2模拟，表2双机热备份系统模型中的变迁 Table 2 Transitions of the SRN model in THC 变迁意义变迁意义 in-pc 发生被检测到的永久故障 in-dfl 一个节点加入集群时，磁盘阵列发生故障 in-pu 发生未被检测到的永久故障 in-df2 集群重起时，磁盘阵列发生故障 in-pl 一个节点发生被检测到的永久故障时，另- tn-P 节点发生永久故障节点发生未被检测到的永久故障 tn-pd 发现未被检测到的永久故障 in-p2 一个节点发生未被检测到的永久故障 tn-r 节点修复 in-il 一个节点发生被检测到的临时故障时，另一 tn-i 节点发生临时故障节点发生未被检测到的临时故障 tn-id 发现未被检测到的临时故障 in-i2 一个节点发生未被检测到的临时故障 tn-io 发生临时故障的节点脱离集群 in-ic 发生被检测到的临时故障 tn-po 发生永久故障的节点脱离集群 in-iu 发生未被检测到的临时故障 tn-b 节点重起 in-bf 一个节点重起时，集群整体故障 tn-in 节点加入集群 in-cf 集群整体故障 tn-cb 集群重起节点经tn-r修复后，到达位置pn-w等待加入处，与集群一同重起.而tn-cb的授权函数使得只集群，若有一个节点正常运行，则修复后的节点经有两个节点都处于可重起状态时，才可重起集群 tn-in加入集群，该行为由in-cf变迁的禁止弧模 3.2磁盘阵列子模型拟；否则，节点到达位置pn-cb,等待集群重起，在磁盘阵列模型如图3所示，符号含义见表3. pn-w和pn-cb两处，如果盘阵发生故障，节点则直开始一个标记在pd-up表示盘阵正常工作，盘接回到pn-up处，由盘阵修复后重起集群，该行为阵发生永久故障时，由时间变迁td-f表示.随后，分别由in-df1和in-df2上的禁止弧模拟. 盘阵经变迁td-r进行修复，到达位置pd-cd,准备系统发生临时故障的行为与发生永久故障的过加入集群，此时，若两节点都已故障且未同时恢复，程基本类似，不同之处在于发生临时故障的节点只则盘阵回到pd-up,等待节点修复后，由集群发起重需重新启动即可恢复功能，起，载入盘阵，该过程由id-nb及其授权函数实现； in-bf变迁的授权函数令节点在重起过程中，反之，若集群可正常运行，则由盘阵的恢复，触发如遇集群整体故障或盘阵故障，直接到达pn-cb tn-cb,重起整个集群

含义见表1与表2．表1 双机热备份系统模型中的位置 Table1 Places of the SRN model in THC 位置意义 pn—up 节点正常运行 pn—pf 节点发生永久故障 pn—pc 发生被检测到的永久故障 pn—pu 发生未被检测到的永久故障 pn—r 节点修复 pn—w 节点等待进入集群 pn—if 节点发生临时故障 pn—ic 发生被检测到的临时故障 pn—iu 发生未被检测到的临时故障 pn—b 节点重起 pn—cb 集群重起 pn—pd 发现未检测到的永久故障 pn—id 发现未检测到的临时故障模型考虑过程机的两类故障行为：永久（permanent）故障和临时（intermittent）故障．永久故障指机器发生硬件损坏必须进行物理修复的行为；临时故障指软件出错可通过重起机器进行修复的行为．两类行为由模型中的时间变迁 tn—p 和 tn—i 分别表示．模型同时还考虑了可发现（coverage）和不可发现（uncoverage）两类故障．当可发现故障发生时集群软件可监测到故障节点并将其配置出集群；而不可发现故障发生时集群无法得知节点故障导致备用机无法启用使整个系统停止服务．图2中变迁 tn—p 表示系统节点发生永久故障．如果该故障为可发现故障则先脱离集群再进行修理；否则人工发现故障需要经历 tn—pd 后再行修复．此时如果已有节点发生永久故障则不需脱离集群而是直接修复该过程由 in—p1表示；若有节点正常运行需一同与修复后的节点重起该过程由 in—p2模拟．表2 双机热备份系统模型中的变迁 Table2 Transitions of the SRN model in THC 变迁意义 in—pc 发生被检测到的永久故障 in—pu 发生未被检测到的永久故障 in—p1 一个节点发生被检测到的永久故障时另一节点发生未被检测到的永久故障 in—p2 一个节点发生未被检测到的永久故障 in—i1 一个节点发生被检测到的临时故障时另一节点发生未被检测到的临时故障 in—i2 一个节点发生未被检测到的临时故障 in—ic 发生被检测到的临时故障 in—iu 发生未被检测到的临时故障 in—bf 一个节点重起时集群整体故障 in—cf 集群整体故障变迁意义 in—df1 一个节点加入集群时磁盘阵列发生故障 in—df2 集群重起时磁盘阵列发生故障 tn—p 节点发生永久故障 tn—pd 发现未被检测到的永久故障 tn—r 节点修复 tn—i 节点发生临时故障 tn—id 发现未被检测到的临时故障 tn—io 发生临时故障的节点脱离集群 tn—po 发生永久故障的节点脱离集群 tn—b 节点重起 tn—in 节点加入集群 tn—cb 集群重起节点经 tn—r 修复后到达位置 pn—w 等待加入集群．若有一个节点正常运行则修复后的节点经 tn—in 加入集群该行为由 in—cf 变迁的禁止弧模拟；否则节点到达位置 pn—cb等待集群重起．在 pn—w 和 pn—cb 两处如果盘阵发生故障节点则直接回到 pn—up 处由盘阵修复后重起集群该行为分别由 in—df1和 in—df2上的禁止弧模拟．系统发生临时故障的行为与发生永久故障的过程基本类似不同之处在于发生临时故障的节点只需重新启动即可恢复功能． in—bf 变迁的授权函数令节点在重起过程中如遇集群整体故障或盘阵故障直接到达 pn— cb 处与集群一同重起．而 tn—cb 的授权函数使得只有两个节点都处于可重起状态时才可重起集群． 3∙2 磁盘阵列子模型磁盘阵列模型如图3所示符号含义见表3．开始一个标记在 pd—up 表示盘阵正常工作盘阵发生永久故障时由时间变迁 td—f 表示．随后盘阵经变迁 td—r 进行修复到达位置 pd—cd准备加入集群．此时若两节点都已故障且未同时恢复则盘阵回到 pd—up等待节点修复后由集群发起重起载入盘阵该过程由 id—nb 及其授权函数实现；反之若集群可正常运行则由盘阵的恢复触发 tn—cb重起整个集群． ·78· 北京科技大学学报第29卷

图3 磁盘阵列 SRN 模型 Fig．3 SRN model of raid 表3 磁盘阵列 SRN 模型中位置与变迁的意义 Table3 Places and transitions of the SRN model in raid 位置意义 pd—up 磁盘阵列正常运行 pd—r 磁盘阵列修复 pd—cb 磁盘阵列修复后集群重起位置意义 td—f 磁盘阵列故障 td—r 磁盘阵列修复 tn—cb 由磁盘阵列修复重起 id—nb 由节点修复重起 3∙3 系统可用性分析 T HC 系统由两个子模型组成可分别对盘阵共享和镜像共享两种方式进行仿真．两种方式的系统可用条件如表4所示．表4 THC 系统可用条件 Table4 Condition of availability in THC 共享回报函数盘阵＃（pn—up）＞0∧＃（pd—up）＝1∧＃（pn—pf ）＝0∧ ＃（pn—if）＝0∧＃（pn—w）＝0∧＃（pn—cb）＝0 镜像＃（pn—up）＞0∧＃（pn— pf ）＝0∧＃（pn—if ）＝0∧ ＃（pn—w）＝0∧＃（pn—cb）＝0 使用盘阵共享方式时两个子模型由共同的 tn—cb 变迁和盘阵 pd—up 位置引出的禁止弧联结；使用镜像共享时因磁盘配置于节点之内过程机子模型本身便可仿真系统行为． 4 仿真分析以表5所列数据为输入参数［9］使用 SPNP （Stochastic Reward Nets Package）软件包 Ver6∙0对数据进行处理分析仿真结果．SPNP 软件包是由美国 Duke 大学的 Trivedi 教授所领导的研究小组研究和开发经过多年的运行和修版已经成为较权威的 SRN 仿真软件目前最高版本为 Ver6∙0．（1）系统带磁盘阵列时使用数值1与数值2 在95％可发现概率下的瞬时可用度比较：T HC 使用数值1的稳态可用度 Ass1＝99∙9915％T HC 使用数值2的稳态可用度 Ass2＝99∙9957％．系统全年减少的停机时间为Δt＝（ Ass2— Ass1）×525960＝ 22∙09min．表5 模型输入参数 Table5 Input parameter of SRN model 模型参数数值1 数值2 节点平均无永久故障时间（1／λtn— p）／h 20000 20000 发现未被检测到的永久故障的平均时间（1／λtn— pd）／min 30 15 节点平均修复时间（1／λtn— r）／min 60 30 节点平均无临时故障时间（1／λtn— i）／h 5000 5000 发现未被检测到的临时故障的平均时间（1／λtn— id）／min 30 15 临时故障的节点脱离集群的平均时间（1／λtn— io）／s 10 10 永久故障的节点脱离集群的平均时间（1／λtn— po）／s 10 10 节点重起的平均时间（1／λtn— b）／min 10 5 节点加入集群的平均时间（1／λtn— in）／s 5 5 集群重起的平均时间（1／λtn— cb）／min 10 5 磁盘阵列平均无故障时间（1／λtd— f）／h 20000 20000 磁盘阵列平均修复时间（1／λtd— r）／min 60 30 由磁盘阵列修复重起的平均时间（1／λtd— cb）／min 10 5 由图4可以看出将人工发现故障时间、修复系统时间和系统重起时间缩短为原系统的1／2时可有效提高系统可用度即全年停机时间减少 22∙09min．图4 单机可用性的提高对系统可用性的影响 Fig．4 Improvement of one node’s availability effect on system （2）系统带磁盘阵列时使用数值1分别在发现概率95％90％85％下的瞬时可用度比较如图第1期李江昀等：双过程机热备份集群系统的可信性建模与仿真 ·79·

.80 北京科技大学学报第29卷 5所示：95%故障发现率的稳态可用度A5= 100.0005 99.9915%,90%故障发现率的稳态可用度A90= 99.999 镜像共享，85% 99.9889%,85%故障发现率的稳态可用度A85= ++W444+H+H 99.9863%.系统全年减少的停机时间分别为△t1 =(A95-A90)×525960=13.67min,△t2= 美如n 4+t4+t444++4++H++4 盘阵共享，95%，数值2 (A90-A85)X525960=13.67min. 盘阵共享，95%，数值1 100.000 99.993 4w 0 2 3 4 99.998 h 99.996 图7镜像共享对系统可用度的影响 99.994 95% Fig.7 Image share effect on system 99.992 909% 85% 5结论 99.99 0 6 8 10 h 本文为双过程机热备份集群系统建立了SRN 可信性模型，并用SPNP软件包分析了系统可用度，图5故障发现率的提高对系统可用性的影响 SRN模型能够细致描述系统行为的并发行和随机 Fig-5 Improvement of fault detection rate effect on system 性，并具有极大的灵活性和扩展性，是为该类系统建 (3)系统在相同的可发现概率95%下，使用数模的强大理论工具，该理论同样可用于基础自动化值1，盘阵共享与镜像共享的可用度比较如图6所级系统的可用性分析.该方法的不足之处在于只能示：盘阵共享A1=99.9915%,镜像共享A2= 适用于故障分布为指数分布系统，而对于实际中可 99.9969%.系统全年减少的停机时间为△t= 能存在的Weibull故障分布等，模型还不能够提供 (A2-Aa1)X525960=28.4min. 理论支持， 100 参考文献 99.999 中++4++ 镜像共享 [1]Johnson A M.Miroslaw J M.Survey of software tools for evalu- ating reliability,availability and serviceability.ACM Comput Suv,1988,20(4):227 99.996 [2]林闯.随机Pti网和系统性能评价.2版.北京：清华大学出版社，2005 盘阵共享 [3]Trivedi K S.SPNP:stochastic petri nets version 6.0 [M/OL]. 99.993 0 2 3 4 http://www-ce.duke.edu/-kst/ t/h [4]李海泉，李刚。系统可靠性分析与设计.北京：科学出版社， 2003 图6盘阵共享与镜像共享的可用度比较 [5]车静光.微机集群组建、优化和管理.北京：机械工业出版社， Fig-6 Comparison between raid share and image share 2004 [6]Malhotra M.Trived K S.Dependability modeling using petri-net 分析发现，镜像共享比盘阵共享极大提高系统 based models.IEEE Trans Reliab.1995.44(3):428 可用性 [7]Muppala J K.Ciardo G F.Trivedi K S.Stochastic reward nets (4)镜像共享使用数值1在85%可发现概率下 for reliability prediction.Commun Reliab Maintainab Serviceab. 与盘阵共享分别使用数值1、数值2在95%可发现 1994,1(2):9 概率下的可用度比较如图7所示.进一步比较可以 [8]Sericola B.Availability analysis of repairable computer systems and stationarity detection.IEEE Trans Comput.1999.48(11): 发现，无盘阵的85%的可发现概率（使用数值1）仍 1166 比有盘阵的最高的可用度高，这说明，当无法提高 [9]Ibe 0.Sathaye A.Howe R.et al.Stochastic Petri net modeling of 系统故障发现率和缩短单机停机时间的情况下，采 VAXcluster availability Proceedings of Third International 用镜像共享是提高系统可用度的有效途径· Workshop on Petri Nets and Performance Models.Kyoto,1989: 112

5所示：95％故障发现率的稳态可用度 Ass95＝ 99∙9915％90％故障发现率的稳态可用度 Ass90＝ 99∙9889％85％故障发现率的稳态可用度 Ass85＝ 99∙9863％．系统全年减少的停机时间分别为 Δt1 ＝（ Ass95— Ass90） ×525960＝13∙67minΔt2＝（ Ass90— Ass85）×525960＝13∙67min．图5 故障发现率的提高对系统可用性的影响 Fig．5 Improvement of fault detection rate effect on system （3）系统在相同的可发现概率95％下使用数值1盘阵共享与镜像共享的可用度比较如图6所示：盘阵共享 Ass1＝99∙9915％镜像共享 Ass2＝ 99∙9969％．系统全年减少的停机时间为 Δt ＝（ Ass2— Ass1）×525960＝28∙4min．图6 盘阵共享与镜像共享的可用度比较 Fig．6 Comparison between raid share and image share 分析发现镜像共享比盘阵共享极大提高系统可用性．（4）镜像共享使用数值1在85％可发现概率下与盘阵共享分别使用数值1、数值2在95％可发现概率下的可用度比较如图7所示．进一步比较可以发现无盘阵的85％的可发现概率（使用数值1）仍比有盘阵的最高的可用度高．这说明当无法提高系统故障发现率和缩短单机停机时间的情况下采用镜像共享是提高系统可用度的有效途径．图7 镜像共享对系统可用度的影响 Fig．7 Image share effect on system 5 结论本文为双过程机热备份集群系统建立了 SRN 可信性模型并用 SPNP 软件包分析了系统可用度． SRN 模型能够细致描述系统行为的并发行和随机性并具有极大的灵活性和扩展性是为该类系统建模的强大理论工具．该理论同样可用于基础自动化级系统的可用性分析．该方法的不足之处在于只能适用于故障分布为指数分布系统而对于实际中可能存在的 Weibull 故障分布等模型还不能够提供理论支持．参考文献［1］ Johnson A MMiroslaw J M．Survey of software tools for evaluating reliabilityavailability and serviceability． ACM Comput Surv198820（4）：227 ［2］林闯．随机 Petri 网和系统性能评价．2版．北京：清华大学出版社2005 ［3］ Trivedi K S．SPNP：stochastic petri nets version6∙0 ［ M／OL ］． http：∥www．ee．duke．edu／～kst／［4］李海泉李刚．系统可靠性分析与设计．北京：科学出版社 2003 ［5］车静光．微机集群组建、优化和管理．北京：机械工业出版社 2004 ［6］ Malhotra MTrived K S．Dependability modeling using petr-i net based models．IEEE Trans Reliab199544（3）：428 ［7］ Muppala J KCiardo G FTrivedi K S．Stochastic reward nets for reliability prediction．Commun Reliab Maintainab Serviceab 19941（2）：9 ［8］ Sericola B．Availability analysis of repairable computer systems and stationarity detection．IEEE Trans Comput199948（11）： 1166 ［9］ Ibe OSathaye AHowe Ret al．Stochastic Petri net modeling of VAXcluster availability ∥ Proceedings of Third International Workshop on Petri Nets and Performance Models．Kyoto1989： 112 ·80· 北京科技大学学报第29卷

第1期李江昀等：双过程机热备份集群系统的可信性建模与仿真 ,81 Dependability modeling and simulating of a two node hot standby cluster of process control system LI Jiangyun,TONG Chaonan,SUN Yikang Information Engineering School.University of Science and Technology Beijing.Beijing 100083.China ABSTRACT A SRN model for a two-node hot-standby cluster of process control system in process industry was constructed,in which a precise description about the system status and behavior of permanent failure and inter- mittent failure was proposed and both raid share and image share were considered.The availability of the system was simulated and analyzed using SPNP package.The results showed that image share could obviously enhance the availability of the system compared with raid share in the same condition.Reducing the time of failure dis- covery and increasing the speed of failure repair could also improve the availability. KEY WORDS two-node hot-standby:cluster;petri net;dependability modeling (上接第62页) Process of crater formation upon electric discharge textured roll surface WU Changchun),ZHANG Jie),CHEN Xianlin,HAO Jianwei),JIA Shenghui?,WANG Leichuan2) 1)Mechanical Engineering School.University of Science and Technology Beijing.Beijing 100083.China 2)Wuhan Iron Steel (Group)Co.,Wuhan 430083.China ABSTRACI The problems about the variation in center temperature of discharged region and the relationship between crater shape and electrical parameters in the process of electric discharge texturing on the surface of a work roll was studied.The developing process of discharging channel and the distribution of heat flux were ana- lyzed.A thermal conduction model of single channel spark per pulse was presented.By combining the methods of integral transform and finite difference this model was solved.The change of transient temperature at the cen- ter spark point upon the roll surface was discussed under the condition of different peak current,and the relation of crater shape to peak current and pulse duration was also deduced.Finally,the calculated values were com- pared with the experimental ones.The result showed that they were in good agreement.The developed model and adopted method were valid and could be used for simulation of the developing process of geometric topogra- phy on roll surface. KEY WORDS roll:surface crater;electric discharge texturing (EDT);thermal conduction;integral transfor- mation:finite difference

Dependability modeling and simulating of a two-node hot-standby cluster of process control system LI JiangyunTONG ChaonanSUN Y ikang Information Engineering SchoolUniversity of Science and Technology BeijingBeijing100083China ABSTRACT A SRN model for a two-node hot-standby cluster of process control system in process industry was constructedin which a precise description about the system status and behavior of permanent failure and intermittent failure was proposed and both raid share and image share were considered．The availability of the system was simulated and analyzed using SPNP package．The results showed that image share could obviously enhance the availability of the system compared with raid share in the same condition．Reducing the time of failure discovery and increasing the speed of failure repair could also improve the availability． KEY WORDS two-node hot-standby；cluster；petri net；dependability modeling （上接第62页） Process of crater formation upon electric discharge textured roll surface W U Changchun 1）ZHA NG Jie 1）CHEN Xianlin 1）HAO Jianwei 1）JIA Shenghui 2）WA NG Leichuan 2） 1） Mechanical Engineering SchoolUniversity of Science and Technology BeijingBeijing100083China 2） Wuhan Iron ＆ Steel （Group） Co．Wuhan430083China ABSTRACT The problems about the variation in center temperature of discharged region and the relationship between crater shape and electrical parameters in the process of electric discharge texturing on the surface of a work roll was studied．The developing process of discharging channel and the distribution of heat flux were analyzed．A thermal conduction model of single channel spark per pulse was presented．By combining the methods of integral transform and finite difference this model was solved．The change of transient temperature at the center spark point upon the roll surface was discussed under the condition of different peak currentand the relation of crater shape to peak current and pulse duration was also deduced．Finallythe calculated values were compared with the experimental ones．The result showed that they were in good agreement．The developed model and adopted method were valid and could be used for simulation of the developing process of geometric topography on roll surface． KEY WORDS roll；surface crater；electric discharge texturing （EDT）；thermal conduction；integral transformation；finite difference 第1期李江昀等：双过程机热备份集群系统的可信性建模与仿真 ·81·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录