发布/订阅系统语义Web匹配算法

将语义Web技术引入发布/订阅系统中,结合领域本体,提出一种智能匹配算法.以双索引哈希邻接表,结合谓词表、变量约束表和变量类型表作为订阅条件RDF图模式的数据结构,采用元语句级匹配计数方法,使原子订阅条件仅匹配一次,原子订阅条件间"与关系"的顺序匹配.定量和定性分析了算法的时间和空间复杂度.实验结果比较表明,所设计的智能匹配算法具有较高的订阅匹配效率,适合于大规模发布/订阅系统.

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：1.16MB

D0I:10.13374/j.issn1001-053x.2013.04.018 北京科技大学学报 Vol.35 No.4 第35卷第4期 2013年4月 Journal of University of Science and Technology Beijing Apr,2013 发布/订阅系统语义Web匹配算法冯锡炜)四，汪俭华)，冯瑶，林培光2) 1)辽宁石油化工大学计算机与通信工程学院，抚顺1130012)山东财政学院计算机学院.济南250014 区通信作者，E-mail:feng,xw@163.com 摘要将语义Wb技术引入发布/订阅系统中，结合领域本体，提出一种智能匹配算法.以双索引哈希邻接表，结合谓词表、变量约束表和变量类型表作为订阅条件DP图模式的数据结构，采用元语句级匹配计数方法，使原子订阅条件仅匹配一次，原子订阅条件间“与关系”的顺序匹配.定量和定性分析了算法的时间和空间复杂度.实验结果比较表明，所设计的智能匹配算法具有较高的订阅匹配效率，适合于大规模发布/订阅系统关键词算法：语义Wb:Web服务：发布/订阅系统：哈希函数：本体论分类号TP393.09 Semantic Web-based matching algorithm for publish/subscribe systems FENG Xi-wei),WANG Jian-hua),FENG Yao),LIN Pei-guang2) 1)School of Computer and Communication Engineering,Liaoning Shihua University,Fushun 113001.China 2)School of Computer Information Engineering,Shandong University of Finance,Jinan 250014,China Corresponding author,E-mail:feng.xw@163.com ABSTRACT The semantic Web technology was introduced into publish/subscribe systems and an intelligent seman- tic matching algorithm(ISMA)was proposed by domain ontology.With double-index hash tables,predicate.variable filter and type tables as the data structure of resource description framework(RDF)graph patterns which stores subscrip- tion conditions,the algorithm adopts meta-statement match counting method to efficiently process atomic subscription factor match only once,and the subscription conditions are an "and"serial sequence matching relationship.The time and space complexities of the algorithm were derived and analyzed by quantitative and qualitative methods.Experi- mental results demonstrate that the algorithm is efficient and scalable,and it is suitable for large-scale publish/subscribe systerns. KEY WORDS algorithms;semantic Web:Web service;publish/subscribe systems;hash functions;ontology 发布/订阅系统模型中，发布事件与订阅条件1数据模型匹配的传统方法有基于关键字匹配、主题匹配、内发布/订阅系统的语义Web数据模型，包括语容匹配等，虽然事件模型和订阅模型实现简单，义Web事件模型、订阅模型和概念模型.事件模型但匹配效率不高.引入语义Wb的发布/订阅系统，定义事件的描述方式，事件利用RDF(resource de- 通过语义层上进行匹配，可以提高匹配的准确性、 scription framework)图来表示：订阅模型规定订阅灵活性和丰富表达能力，但对大量的发布事件和的表达方式及过滤条件，用RDF图模式来表示；概订阅条件，其匹配算法需要设计高效合理的数据模念模型描述某一领域中的概念及其之间的关系，用型.发布/订阅系统的数据模型决定了系统的表达 OWL(Web ontology language)语言来表示，概念信能力2-4 息被系统无歧义的理解和处理收稿日期：2011-12-24 基金项目：国家自然科学基金资助项目(60172044)：辽宁省教育厅科学研究资助项目(L2011055):辽宁省教育科学“十二五”规划立项资助课题(JG11DB163,JG12DB27):辽宁石油化工大学科学基金资助项目(2011XJJ-018)

第卷第期年月北京科技大学学报发布订阅系统语义、亡匹配算法冯锡炜网, 汪俭华 , 冯瑶 , 林培光辽宁石油化工大学计算机与通信工程学院, 抚顺山东财政学院计算机学院, 济南困通信作者 , 摘要将语义技术引入发布订阅系统中, 结合领域本体, 提出一种智能匹配算法以双索引哈希邻接表, 结合谓词表、变量约束表和变量类型表作为订阅条件图模式的数据结构, 采用元语句级匹配计数方法 , 使原子订阅条件仅匹配一次, 原子订阅条件间 “与关系 ” 的顺序匹配定量和定性分析了算法的时间和空间复杂度实验结果比较表明, 所设计的智能匹配算法具有较高的订阅匹配效率, 适合于大规模发布订阅系统关键词算法语义服务发布订阅系统哈希函数本体论分类号下匕一尸百浑乞一回 , 恻万` 五一人。 , 尸召万 ` 儿 , 石脚尸乞一夕。夕 , 、 , , , 困 , 一沉回￡七 , 一 , , , “ ,, , 一亡认飞、发布订阅系统模型中, 发布事件与订阅条件数据模型匹配的传统方法有基于关键字匹配 ·主题匹配、内发布订阅系统的语义数据模型, 包括语容匹配等 , 虽然事件模型和订阅模型实现简单 , 义事件模型、订阅模型和概念模型事件模型但匹配效率不高引入语义的发布订阅系统 , 定义事件的描述方式, 事件利用通过语义层上进行匹配 , 可以提高匹配的准确性 · 、。图来表示订阅模型规定订阅灵活性和丰富表达能力 , 但对大量的发布事件和的表达方式及过滤条件, 用图模式来表示概订阅条件 , 其匹配算法需要设计高效合理的数据模念模型描述某一领域中的概念及其之间的关系, 用型发布订阅系统的数据模型决定了系统的表达。语言来表示, 概念信能力一钊息被系统无歧义的理解和处理收稿日期一一基金项目国家自然科学基金资助项目辽宁省教育厅科学研究资助项目辽宁省教育科学 “十二五 ”规划立项资助课题 , 辽宁石油化工大学科学基金资助项目一一 DOI :10.13374/j .issn1001 -053x.2013.04.018

第4期冯锡炜等：发布/订阅系统语义Wb匹配算法 .545. 定义1设语义Web事件数据模型（事件图） e,el(e,e;∈Ep),当e≠ej→Fpe(e)≠ GE,语义Web订阅数据模型（订阅图模式）GS,设 FE(e),反之也成立，即FPp(e)≠FpE(e,)→e:≠ (F,pF,u5)∈TE,(u,p,y)∈Ts,其中TE为GE ej. 中三元组集合，Ts为GS中三元组集合，2和vF FsE:Es一UR,是RDF图模式中弧的标识分别代表TE中三元组的第i个主体节点和第j个函数.Es表示为RDF图模式弧（有向边）的集客体节点，和v分别代表Ts中三元组的第i个合.e,e(e,ej∈Es,当ei卡ej→FsE(e)卡主体节点和第个客体节点，p和分别是上述 FsE(e),反之也成立，即FsE(e)≠FsE(e)→e≠ 两个三元组的第i个属性 ej. GE匹配GS,当且仅当满足下列条件 filter v是节点v的过滤函数，可以为空，则条件1对任意的(，p,v)∈Ts,都有对应 filter vs()=true. 的(F,pF,v5)∈TE; 对于语义Wb订阅数据模型GS中任意一条条件2 constraint(type(Fpv(uF),≤type(Fsv 弧，在事件数据模型GE中都有一条弧与之对应， (v5)))A(constraint(Fpv(vf),=,Fsv(vs))vFsv(vs)E 它们的节点类型约束相匹配，属性标识约束相匹配， VA); 且用GE中顶点标识替换GS中对应顶点的变量标条件3 constraint(FpE(p),≤，FsE(p): 识，使得GS中顶点过滤函数约束结果为真，则GE 条件4 constraint(type(Fpv(u),≤type(Fsv 匹配GS. (vs)))A(constraint(Fpv(vf),=,Fsv(vs))VFsv(vs)E 2语义匹配数据结构与算法 VA)Afilteres(Fpv(vf)). 其中，constraint()是对节点约束，允许其为在比较已有的算法5-9)]基础上，本文设计如下空.一个约束constraint为(？x,op,v)的谓词（断数据结构和实现算法. 言)，其中？x表示变量，v表示变量值，op表示 2.1语义匹配数据结构操作运算符.运算符op包括六种关系运算符，即定义五种存储语义Web订阅数据模型的数据 =,>,≥，subNumSet;/订阅序号集合引用，文本节点.C是所有类的集合，包括XML enum filterType;/六种关系运算符 Schema数据类型集合， Object elem Value;/变量类型对象 FPv:VP→(UR U LV UBV),是RDF图 } 中节点的标识函数.Vp表示为RDF图节点的集 (2)VTL:变量类型表.用于存储在订阅数据模合，UR表示URI引用集合，V表示文本节点集型中由rdf:type指引的URIRef参照本体类型.其合，BV表示空白节点集合.节点可以是URI引数据结构如下：用，文本节点或空白节点.，vl(,∈Vp),当 Class Vtl{ 卡U→Fpv()≠Fpv(u),反之也成立，即 HashSetsubNumSet;/订阅序号集合 Fpv(v)≠Fpv(y)→卡v URIRef uRIRef;:/URIRef变量类型 Fsv:s→(URULUVA),是RDF图模式中节点的标识函数.UR表示URI引用集合，L表示普 (3)HTVI:变量索引哈希邻接表.在其中，有两通文本和类型文本节点集合，VA表示所有变量集类边表，即VFL List表和VTL List表，由HTVI共合，即以“？"开头的标识集合.，vl(i,v∈Vs), 同管理，建立索引，便于实际操作.由于VFL List 当卡v→Fsv()≠Fsv(U),反之也成立，即表与VTL List表结构不同，对任意一个语义Web Fsv()≠Fsv(y5)→≠Uj. 订阅模型中变量，当且仅当属于上述两个Lst表之 FPE:EP→UR,是RDF图中弧的标识一，通过VFL List表和VTL List表的标记数据项函数.EP表示为RDF图弧（有向边）的集合.区别.当多个订阅条件合并于同一个订阅图模式后

第期冯锡炜等发布订阅系统语义、, 七匹配算法定义设语义事件数据模型事件图 , 语义订阅数据模型订阅图模式 , 设仕只可,了任几, 谭,可,呼。马, 其中几为中三元组集合, 为中三元组集合, 厂和。夕分别代表几中三元组的第艺个主体节点和第了个客体节点,峪和呼分别代表中三元组的第乞个主体节点和第个客体节点, 舒和可分别是上述两个三元组的第乞个属性匹配 , 当且仅当满足下列条件条件对任意的峪,,矛,呼。 , 都有对应的厂, 尹, 贾任几条件外户 , 毛凡 ,,尹八。户, , 弃尹条件外舒, 毛, 拿条件 ` ` 丹啧 ,毛` 呼八 ` `外啧 ,一, 呼凡贾任八娜外啧其中, 是对节点约束 , 允许其为空一个约束为 , , 。的谓词断言 , 其中表示变量 , 表示变量值 , 表示操作运算符运算符包括六种关系运算符, 即 , , , , , 并它分为两类运算对文本类型节点, 过滤是布尔运算对类型 , 过滤是一关系运算、 , 是图模式中顶点的类型函数, 用于指定每个资源变量节点的类型其中表示为图模式节点的集合节点可以是引用 , 文本节点是所有类的集合 , 包括数据类型集合、日 , 是图中节点的标识函数外表示为图节点的集合 , 表示引用集合 , 表示文本节点集合 , 表示空白节点集合节点可以是引用 , 文本节点或空白节点、,巧 , , 。任饰 , 当 , 务井二, 兴 , 反之也成立 , 即 , 异 , 井 ” 兴 , · , 是图模式中节点的标识函数表示引用集合 , 表示普通文本和类型文本节点集合 , 表示所有变量集合, 即以 `卿开头的标识集合 `, 、,巧任 , 当、并巧、兴 , 反之也成立 , 即凡 , 务井饭并 , 外尸 , 是图中弧的标识函数尸表示为图弧有向边的集合丫、, 。、, , 任 , 当并 , 井、兴凡 , 反之也成立 , 即外。` 并 , 乡护已 · , 是图模式中弧的标识函数表示为图模式弧有向边的集合 , , , 任 , 当兴。, 井 , 务 , 反之也成立, 即务 , 井笋 , · 呼是节点呼的过滤函数, 可以为空, 则。贾一` · 对于语义、碗订阅数据模型中任意一条弧, 在事件数据模型中都有一条弧与之对应 , 它们的节点类型约束相匹配, 属性标识约束相匹配, 且用中顶点标识替换中对应顶点的变量标识, 使得中顶点过滤函数约束结果为真, 则匹配语义匹配数据结构与算法在比较已有的算法一” 基础上 , 本文设计如下数据结构和实现算法语义匹配数据结构定义五种存储语义从飞订阅数据模型的数据结构变量约束表用于存储变量约束的条件, 包括约束的操作运算符 , 约束的类型对象值 , 操作运算符为六种关系运算符其数据结构如下订阅序号集合六种关系运算符变量类型对象变量类型表用于存储在订阅数据模型中由指引的参照本体类型其数据结构如下订阅序号集合取取变量类型卜变量索引哈希邻接表在其中, 有两类边表 , 即表和表 , 由共同管理, 建立索引 , 便于实际操作由于表与表结构不同, 对任意一个语义从飞订阅模型中变量 , 当且仅当属于上述两个表之一 , 通过表和表的标记数据项区别当多个订阅条件合并于同一个订阅图模式后

.546 北京科技大学学报第35卷各订阅条件可能存在变量名冲突，HTVI以变量名于订阅条件自身三元组数量的订阅条件，作为匹配 +订阅序号作为索引哈希表的联合主键其数据结成功的订阅条件构如下： //Intelligent Semantic Matching Algorithm aashSet()PSHatch (GE,GS) Class Htvi{ RDrModel vAList;:/VFL列表保存配指中不动的行阅件号列： ListvtlList;/VTL列表 nt B (4)PDT:谓词表.用于存储每个订阅条件三元 !查询合并订阅敷籍结构s中订阅安哈希邻锁表： 2 if (htaizlem !-null) 组中，主语和宾语变量通过订阅序号标识所属订阅 21 pdtLiat《一hta1E1em,getPdtLiat):/将到词列表pdtLiat 2 for ench prediente item pdt(pdtSubject,pdtobject)in pdtLiat 条件，对主语和宾语变量再通过HTVI查询到变量 if (checkTypeVar (eventsubject,pdtSubject) 2 类型或变量约束.其数据结构如下： Class Pdtf String subNum;/订阅序号 /若元话句级匹配成功。将R /订阅条件序号，数据值城计数加1 lt5 abacrbe中对应的 String subject VarName;/主体变量名称 hBhu1t号 htReauitsuba ()) String object VarName;/客体变量名称 1 e1se/首次终取已匹配订阅序号 ()) 微索益 (pdt.(),Inte 7 htResultSubacribe.remove(pdt.getsubNum()): (⑤)HTSI:订阅索引哈希邻接表.此表是语义 /在htResultSu山acribe保存的是可能匹配成功的订阅条件序号列表 Web订阅数据模型的起始点.各订阅条件约束谓词 subacribe No.item subacribelo in htReaultSubacribe.keyset ( htReaultSubacribe.get (aubacribeNo): 集是个有限集合，在两个订阅条件中可能有相同的 /即为匹配成功的阅条件属性标识严，在HTSI中属于一个数据元素，通把远配成功的司案件，放结果集au15uset中过订阅序号HashSet标记约束谓词对应已有的ss. 把相同的属性标识“一的订阅条件链接在同一个边图1支持语义的智能匹配算法表PDT中，根据订阅序号加以标识.其数据结构如 Fig.1 Matching algorithm of ISMA 下： 2.3算法复杂性分析 Class Htsl{ URIRef uRIRefPro;/属性URIRef 设有S个订阅，共Sp个订阅谓词属性，分属于 HashSetsubNumSet;/订阅序号集合 Ps个类别、Sr个变量约束和Sr个变量类型，Sr ListpdtList;/PDT列表分属Fs个类别，SR分属Rs个类别.设R=∑R· 设有e个发布事件，共Ep个断言，分属于PE个 22支持语义的智能匹配算法(ISMA) 类别.从时间复杂度和空间复杂度两方面进行匹配算法（包括发布事件）的复杂性分析发布事件需要与所有的订阅条件比较，查找匹 2.3.1时间复杂度分析配的订阅条件集{S},是对语义Web订阅数据模型的匹配，算法如图1所示. 匹配算法时间复杂度分析：设第E,发布事件为了适应分布式、大规模和动态变化的需求10，共有EP个断言，第，断言对应订阅索引哈希邻匹配算法分两个阶段.第一阶段是对RDF/XML格接表HTSI中的谓词列表长度为PDTLen,单个发式存储的发布事件通过本体库规范其术语，检查其布事件与订阅条件匹配的时间复杂度为逻辑关系是否符合本体库要求，通过规则进行同义词推理，完成语义标识；第二阶段是对三元组形式 (1) 表示的事件与语义Wb订阅数据模型，根据属性进行结构比较，将可能满足的订阅条件一次性选出因为∑PDTLen2=Sp,所以来，再根据已匹配的三元组数量与订阅条件自身三元组数量比较，将匹配选择的订阅条件中，大于等 TEMSi≤O(SP), (2)

5 4 6 · 北京科技大学学报第卷各订阅条件可能存在变量名冲突 , 以变量名订阅序号作为索引哈希表的联合主键其数据结构如下变量名称订阅序号肠枚举类型, 选一、列表列表谓词表用于存储每个订阅条件三元组中, 主语和宾语变量通过订阅序号标识所属订阅条件对主语和宾语变量再通过查询到变量类型或变量约束其数据结构如下订阅序号主体变量名称。客体变量名称订阅索引哈希邻接表此表是语义订阅数据模型的起始点各订阅条件约束谓词集是个有限集合, 在两个订阅条件中可能有相同的属性标识叼斗乙, 在中属于一个数据元素 , 通过订阅序号标记约束谓词对应已有的把相同的属性标识叼〕产的订阅条件链接在同一个边表中, 根据订阅序号加以标识其数据结构如下印属性订阅序号集合列表支持语义的智能匹配算法发布事件需要与所有的订阅条件比较 , 查找匹配的订阅条件集 , 是对语义订阅数据模型的匹配 , 算法如图所示为了适应分布式、大规模和动态变化的需求 , 匹配算法分两个阶段第一阶段是对格式存储的发布事件通过本体库规范其术语, 检查其逻辑关系是否符合本体库要求, 通过规则进行同义词推理 , 完成语义标识第二阶段是对三元组形式表示的事件与语义从飞订阅数据模型 , 根据属性进行结构比较 , 将可能满足的订阅条件一次性选出来 , 再根据已匹配的三元组数量与订阅条件自身三元组数量比较 , 将匹配选择的订阅条件中, 大于等于订阅条件自身三元组数量的订阅条件 , 作为匹配成功的订阅条件口即息, 口匕七功口王卯七血 , 劫七` 七土》《口困匕卜艺, 》加口刀纽川巨互 `一民山山比 , 记口口, 扣口。`比已 `花口刀比川一。目旧二洲陇硬叹口山川 , 工生七记月之。七。勺吧目巴带 , 七仁孟这仁一别目匕口巴仁工生】言七七, 。七」上吧二万 , 七七咤七切 , 忆叨》砚》 , 保存可能匹配成功的订阅条件序号列表 , 其健值为订圈序号 , , 橄据值为匹配成功的谓词表达式个橄 , 及臼匕心七 ” 口七《七红月》砚刀保存匹陀过理中不成功的订阅条件序号列襄七口七七吧, 巴口日艺吧口口七乙主口民户以沈立, ` 目已 , 二七, 。七, 州茸吧。七 , 即比七」 , 吧, 曰月犯 , 七忆, 吧” 加加巴不理抓犯匕 , 王解比七一土兀立《。 , 口书记刀查钧合并订匆橄拐结撰招, 中订阅宜引哈希邻挂表伪月生厄夕二《一址 , 妞加价以》 ,' 得到讨词列表冈以纪。。助州, 以比七, 亡 , 口七工立立亡。七亡宜了萝吧, 抽《 , 心 , “ 。七 `上亡, 知上砚 , 七 , 七》 , 根拓主语。曲与七女盈类组是否匹配和宾语 , , 吧, 七 , 与训幽喊变盈的束是否匹配标准 , 断言与订阅条件谓词表姑式是否匹配到 , 实现发布事件日匕口 , 获取以砚洲食湘口知及 , 七力口《】川定 , 称为元语句级匹配 , 二七翻仙峨》已匹配订阅序号为洲 ` , 比刘卜。的月性徽级洲食湘口七口 ,' 若元语句级匹吮成功, 将七。呱七, 曲二派中对应的 , 订阅条件序号, 孩拐值坡计橄加口 , 七上吧。吧口, 吐目一口吧比七口口》》七七口七。七泛一七砚。 , 首次获取江己匹配订日序七七口吧血」上吧七七月七翻《 , 劝七于口叱曰砚》 , 切砚公 , , 若元语句级匹充不成功 , 将七四公。曲山吧中川 , 此订阅序号 , 间时在汤舰加切曲邮曲玲希纽合仑井 `订阅序号且七七及 , 己」上吧。吧口, 。口吧上日幼《》》七口口山妇七石七。《。口 ` 七翻砚》》刀在汤口吐。七派保存的是可曲匹配成功的订阅条件序号列衰亡。 `七七力吧。。二既月义沮。刀加七皿日」上吧丫阮《》冶七皿 , 上比 , 硬立月亡《劝 , 舀口月 , 立兀立, 《。上吧匕刀硕口七幻洲组。》 , 每个橄拐元贵值峨大于、娜于订阅条件“ 的谓词衰达式橄最的订阅条件即为匹配成功的订阅条件忿吧宝, 创民犯。 `, 七幻跳口 , 把匹配成劝的订阅条件 , 放人结某典民皿吧中吧二 , 创民沁图支持语义的智能匹配算法入算法复杂性分析设有个订阅, 共异个订阅谓词属性, 分属于个类别、个变量约束和几个变量类型 , 尸分属个类别, 。分属、个类别, 设又、设有。个发布事件 , 共尸个断言 , 分属于几个类别从时间复杂度和空间复杂度两方面进行匹配算法包括发布事件的复杂性分析时间复杂度分析匹配算法时间复杂度分析设第 , 发布事件共有尸、个断言, 第升, 断言对应订阅索引哈希邻接表中的谓词列表长度为 , 单个发布事件与订阅条件匹配的时间复杂度为么、 `七`一口头” 了少因为艺了尸, 所以几、蕊尸

第4期冯锡炜等：发布/订阅系统语义Web匹配算法 ·547. 不失一般性，设EP:个断言对应X·Sp个PDT 因为Sp=Sp+Sr-S,其中SF+Sr为语义Veb 谓词元素，其中0≤X≤1，则TES=O(ASP): 订阅数据模型节点总个数，S为订阅条件数量：所设Er,= EP,入=max{(A,0≤入≤1，则整个匹以配算法的最大时间复杂度为 SSDS =O(2(SF+SR)-S+Ps +Fs+Rs),(7) T=O(A:Sp·e). (3) 又由于Sp≥Ps,SF≥Fs,Sr≥Rs,所以最大空间其中，入表示单个发布事件断言数与订阅条件总订复杂度为阅谓词数比值的最大值，从概率上考虑，入《1，甚至入·e《1.在匹配算法的实现过程中，采用元语 SX≤O(4(Sr+S)-2S), (8) 句级匹配不成功标记方法，当订阅S某次元语句匹配不成功，在本次发布事件以后的匹配判断中，不即最大内存消耗与总节点个数成正比. 需要再对订阅S进行元语句级匹配判定，所以一般情况下，订阅条件谓词种类Ps是有限的，设P=∑Ps.变量类型种类Rs是有限的，在一个 T=O(Sp). (4) 大规模的分布式系统内，Ps《SPRs<SR,考虑到即匹配算法的最大时间复杂度与订阅条件谓词数量订阅条件维护的效率，语义Web订阅数据模型数据成线性关系结构中，把变量约束完全相同才共享同一空间，但发布事件时间复杂度分析：发布事件RDF图变量约束完全相同的情况随机性很大.设 Fs =AF SF 是由Jena工具直接转换为RDF/XML格式，获得其中入F≤1，称入F为变量约束反向重复率，其值发布事件每个断言表达式，遍历其过程也是匹配算越小，表示重复率越高：当入F=1时，没有重复的法的过程，所以发布事件时间复杂度为常量级，即变量约束.所以 Tp=O(1). (5) SsDS =O((2+AF)SF+2SR+P+R-S), 2.3.2空间复杂度分析因为P和R都为固定值，则内存空间消耗包括VFL变量约束表、VTL变量类型表、HTVI变量索引哈希邻接表、PDT谓词 SSDS =O(SF+SR-S). (9) 表和HTSI订阅索引哈希邻接表，五类表的数据存储结构总和.因为每部分的数据元素所占空间大小即空间复杂度与语义Web订阅数据模型总节点个固定，与数据元素数量成正比，合并订阅图模式空数呈线性关系间复杂度为： 3测试与分析 SSDS=O(Ps+Sp+SF+SR+Fs+Rs), (6) 语义匹配模拟实验参数项如表1所示，表1语义匹配模拟实验参数列表 Table 1 Simulation parameter list of semantic match 项目参数名称项目值说明备注 15个本体类：每个本体有5个属性，共75个属性 (O.P.S) (15.5,3) 平均每个本体有3个同义词，共计45个同义词. 本体类间和属性间无继承关系 (SN,SE.SURN) (10,9,5) 订阅条件结构：10个节点9条弧，5个URIRef SUBC 10000 订阅条件数量可调 Tps 15% 订阅条件请词属性重复率可调 URC 15 订阅条件变量类型种类，等于本体类数量 AF 0.9 订阅条件变量约束反向重复率，其值越小，表示重复率越高可调 SYNONYMS 3 URIRef同义词可调 (PN,PE,PURN) (20,19,8) 事件图结构：20个节点19条弧，8个URIRef PUBC 5000 发布事件数量可调 rpe 3% 发布事件新言属性重复率可调 rm 2% 订阅匹配成功率可调

第期冯锡炜等发布订阅系统语义、匕匹配算法不失一般性 , 设尸, 个断言对应入, ·尸个谓词元素 , 其中毛入蕊 , 则几林, ·司。、曰二` 人一设尸, 兰 , 入凡 , 。毛入簇 , 则整个匹配算法的贰时间复杂度为因为尸一 , 其中为语义订阅数据模型节点总个数 , 为订阅条件数量所以二几一 , 殆黯一 ·尸·。其中, 入表示单个发布事件断言数与订阅条件总订阅谓词数比值的最大值, 从概率上考虑 , 入《 , 甚至入·。《在匹配算法的实现过程中, 采用元语句级匹配不成功标记方法, 当订阅某次元语句匹配不成功 , 在本次发布事件以后的匹配判断中, 不需要再对订阅进行元语句级匹配判定, 所以又由于 , , , 所以最大空间复杂度为盆甜毛一 , 殆拭尸 · 即匹配算法的最大时间复杂度与订阅条件谓词数量成线性关系发布事件时间复杂度分析发布事件图是由 , 工具直接转换为格式, 获得发布事件每个断言表达式, 遍历其过程也是匹配算法的过程 , 所以发布事件时间复杂度为常量级 , 即即最大内存消耗与总节点个数成正比一般情况下 , 订阅条件谓词种类是有限的, 设尸又变量类型种类、是有限的, 在一个大规模的分布式系统内, 《尸《。, 考虑到订阅条件维护的效率, 语义七订阅数据模型数据结构中, 把变量约束完全相同才共享同一空间, 但变、量约二宋, 兄、全, 相问的二倩, 况` 随一习`性, 很, 大坟、。下兰入, 其中入毛 , 称入为变量约束反向重复率 , 其值越小, 表示重复率越高当入时, 没有重复的变量约束所以入一 , 注空间复杂度分析内存空间消耗包括变量约束表、变量类型表、变量索引哈希邻接表、谓词表和订阅索引哈希邻接表 , 五类表的数据存储结构总和因为每部分的数据元素所占空间大小固定 , 与数据元素数量成正比, 合并订阅图模式空间复杂度为因为尸和都为固定值 , 则二二一即空间复杂度与语义认飞订阅数据模型总节点个数呈线性关系凡尸尸二 , 测试与分析语义匹配模拟实验参数项如表所示表语义匹配模拟实验参数列表项目参数名称项目值说明备注 , 尸, , , 〔入 , , 飞〕 , , , , 个本体类每个本体有个属性 , 共个属性平均每个本体有个同义词, 共计个同义词本体类间和属性间无继承关系订阅条件结构个节点条弧, 个订阅条件数量订阅条件谓词属性重复率订阅条件变量类型种类 , 等于本体类数量订阅条件变量约束反向重复率其值越小, 表示重复率越高同义词事件图结构。个节点条弧, 个发布事件数量发布事件断言属性重复率订阅匹配成功率可调可调可调可调可调可调可调

北京科技大学学报第35卷 ·548 实验采用Java语言作为工具语言，应用图2(b)显示调整PUBC发布事件数量参数，统 Jena(V2.6.2)作为本体操作和逻辑判定的第三方辅计匹配算法花费时间情况，平均匹配时间1610ms. 助开发包.本体库采用LUBM中提供的样本山，进测试表明，PUBC对订阅匹配时间有一定影响，但行适当的裁剪，增加同义词，推理规则只限本体同比SUBC参数影响要小些.分析可知，匹配成功主义词因素要取决于匹配订阅谓词情况，一般发布事件与订阅实验环境：Java JDK1.6.010,Windows2?003 谓词匹配都是不成功的 Server SP2,Dell PowerEdge 1900 ECM01 Server,2G 图2(c)显示调整rm订阅匹配成功率参数，统内存，Xeon2.0 GHz CPU,数据随机生成器Test Dic- 计匹配算法花费时间情况，平均匹配时间1481.6 tionary. ms.测试表明，rm对订阅匹配时间影响较明显.若 3.1订阅匹配花费时间和订阅合并占用内存测试要成功匹配一个订阅条件，发布事件需要成功匹配发布事件的过程就是订阅匹配的过程，以下测每个订阅谓词，每次需要分别实现结构级HTSI和试的匹配时间值，包括发布事件语义级HTVI匹配订阅谓词，后者需要的时间更长图2给出了测试匹配算法在不同参数条件下花些费时间及内存的情况.图2(a)显示调整SUBC订阅图2(d)显示调整SUBC订阅条件数量参数，订条件数量参数，统计匹配算法花费时间情况，平均阅合并占用内存情况，平均每个订阅条件占用内存匹配时间1413s.测试表明，SUBC对订阅匹配时 7077字节.匹配算法使用Java语言开发实现，这个间有一定影响.订阅条件数量的逐步增加，需要判数据跟操作系统环境没关系.根据表1中的参数设定的订阅谓词量在增加，匹配时间也在增加，但匹定，每个订阅条件结构为10个节点，9条弧，5个配时间增加的幅度逐渐减少， URIRef,估算每个订阅条件的内存 1700 2000r 1650(a) (b) 1900- 1600 1550 1800 1500 1700 1450 1600 1400 1350 1500 1300 1400 1250 1300 1200 1150 1200 1100 100050001000020000300004000050000 1100 250050007500100001250015(0017500 条件数条件数 2750 350 (c) (d) 2500 315 2250 280 2000 245 1750 210 1500 175 140 1250 105 1000 70 750 35 500 oL 上◆ 0.50%1.00%1.50%2.00%2.50%3.00%3.50% 500100020005000100002000030000-4000050000 重复率条件数图2不同参数条件匹配订阅花费的平均时间和内存.(a)SUBC对匹配时间的影响：(b)PUBC对匹配时间的影响；(c)rm对匹配时间的影响：(d)SUBC对占用内存的影响 Fig.2 Average time and memory size of matching subscribe under different arguments:(a)effect of parameter SUBC on matching time;(b)effect of parameter PUBC on matching time;(c)effect of parameter rm on matching time;(d)effect of parameter SUBC on requiring memory

5 4 8 北京科技大学学报第卷实验采用语言作为工具语言 , 应用作为本体操作和逻辑判定的第三方辅助开发包本体库采用中提供的样本 `, 进行适当的裁剪, 增加同义词, 推理规则只限本体同义词因素实验环境一 , , , 内存, , 数据随机生成器 · 订阅匹配花费时间和订阅合并占用内存测试发布事件的过程就是订阅匹配的过程 , 以下测试的匹配时间值 , 包括发布事件图给出了测试匹配算法在不同参数条件下花费时间及内存的情况图显示调整订阅条件数量参数 , 统计匹配算法花费时间情况, 平均匹配时间测试表明, 对订阅匹配时间有一定影响订阅条件数量的逐步增加 , 需要判定的订阅谓词量在增加, 匹配时间也在增加 , 但匹配时间增加的幅度逐渐减少图显示调整发布事件数量参数 , 统计匹配算法花费时间情况 , 平均匹配时间测试表明, 对订阅匹配时间有一定影响 , 但比参数影响要小些分析可知, 匹配成功主要取决于匹配订阅谓词情况 , 一般发布事件与订阅谓词匹配都是不成功的图显示调整订阅匹配成功率参数 , 统计匹配算法花费时间情况 , 平均匹配时间测试表明, 对订阅匹配时间影响较明显若要成功匹配一个订阅条件 , 发布事件需要成功匹配每个订阅谓词, 每次需要分别实现结构级和语义级匹配订阅谓词, 后者需要的时间更长此图显示调整订阅条件数量参数, 订阅合并占用内存情况, 平均每个订阅条件占用内存字节匹配算法使用语言开发实现 , 这个数据跟操作系统环境没关系根据表中的参数设定 , 每个订阅条件结构为个节点 , 条弧 , 个 , 估算每个订阅条件的内存日斗苗匡赶匕如日亥除亘岔碳目的已条件数 ' 不丁— 奔卜泛宜 “ 寸 , 馨 `了。。悬书阵 ` ` 。了」 ` 一一一声重复率 “ 准前万赫下俪不赫而南而就而该丽条件数 “ 陈不一一一 — 一一万六 ”对厂 ' , 卜岑一子卜歹一芝 ` `, 尹一 ` 一叮声一 ” 二, 二二二一了` ` 一声一〔】〔〕图不同参数条件匹配订阅花费的平均时间和内存对匹配时间的影响时间的影响对占用内存的影响条件数对匹配时间的影响。对匹配 , 、 , 丫价丈

第4期冯锡炜等：发布/订阅系统语义Web匹配算法 549 3.2与其他算法比较 S(s)=9×S(HTSC)+9×S(PDT)+10× 将匹配算法与Broker算法8！、G-ToPSS算法2 S(HTVI)+5×S(VFL)+5×S(VTL. (10) 进行比较，在系统的匹配时间和占用内存方面进行 HashSet集合和哈希表存储结构，是一次性按测试，各类参数设定取表1中默认参数.测试结果块分配空间，通过装填因子阈值扩充空间如图3所示 8000,(b) ISMA iBroker G-ToPSS 10000 6 7000 9000 ■ISMA.iBroker■G-ToPSS 600 8000 7000 5000 6000 4000 5000 4000 3000 3000 2000 2000 1000 1000 100050001000020000300004000050000 25005000750010000125001500017500 条件数条件数 600r(c) ISMA■iBroker■G-ToPSS 500 9400 100 5001000200050001000020000300004000050000 条件数图3执行三种算法结果比较.(a)参数SUBC下三种算法匹配时间比较；(b)参数PUBC下三种算法匹配时间比较；(c)参数 SUBC下三种算法订阅条件存储空间的比较 Fig.3 Comparison of three different algorithms:(a)matching time comparison by parameter SUBC;(b)matching time compar- ison by parameter PUBC;(c)subscription condition storage space comparison by parameter SUBC 从图3(a)和(b)可知，在同等条件下，匹配算存储空间的目的.引入标签序列(a special sequence 法的订阅匹配时间基本都优于另两个算法，随着系 of labels)标识带变量的订阅条件，便于在第一级统规模扩大，算法的优越性更明显。分析可知，匹 HashTable中存储，但增加了格外的存储空间. 配成功的比率不大，即大部分匹配订阅都是不成功 4结论的.匹配算法采用元语句级匹配不成功标记方法，当订阅S某次元语句匹配不成功，在本次发布事件通过引入本体、语义Web技术，采用谓词结构以后的匹配判断中，不需要再对订阅S进行元语句级HTSI匹配和语义级HTVI匹配，实现了发布事级匹配判定，匹配不成功的大部分订阅条件只判定件与订阅条件两级匹配.对订阅条件存储结构以及少部分谓词条件.G-ToPSS算法采用对所有订阅元支持语义的智能匹配算法进行了详细表述，并从算语句级匹配后再判定是否订阅匹配成功. 法时间和空间两方面对其复杂度进行了定量和定性图3(c)是对三种算法订阅条件存储空间的比分析.最后，设计了实验条件，与其他算法进行了三较.iBroker算法把用户的订阅条件规范化以符方面比较.实验表明，本文设计的匹配算法效率较合SPARQL文件形式(user profiles),采用两级高，具有良好的应用前景.下阶段工作重点是实现 HashTable存储订阅条件，对不同用户相同的原子订阅条件维护算法，同时考虑进一步优化算法，完订阅条件，也分别存储.其第二级HashTable元素成一致性对外接口和语义路由等方面设计由四个数据项(ID,Next ToMatch,Value,Var)组成，但大部分情况下都是局部为空.这使得Broker算参考文献法的空间存储效率不高.G-ToPSS对不带变量的相同的原子订阅条件只存储一次，从而达到节约订阅 [1)Deng S G,Yin J W,Li Y,et al.Method of semantic web

第期冯锡炜等发布订阅系统语义、七匹配算法集合和哈希表存储结构, 是一次性按块分配空间 , 通过装填因子闽值扩充空间与其他算法比较将匹配算法与算法、一算法进行比较, 在系统的匹配时间和占用内存方面进行测试, 各类参数设定取表中默认参数测试结果如图所示 , 之宜言赶因宜盆碳目的日条件数条件数卜匀﹃︸曰日八钊曰︺诊长国昌条件数图执行三种算法结果比较参数下三种算法匹配时间比较参数下三种算法匹配时间比较参数下三种算法订阅条件存储空间的比较从图和可知 , 在同等条件下 , 匹配算法的订阅匹配时间基本都优于另两个算法 , 随着系统规模扩大 , 算法的优越性更明显分析可知 , 匹配成功的比率不大, 即大部分匹配订阅都是不成功的匹配算法采用元语句级匹配不成功标记方法 , 当订阅某次元语句匹配不成功, 在本次发布事件以后的匹配判断中, 不需要再对订阅进行元语句级匹配判定 , 匹配不成功的大部分订阅条件只判定少部分谓词条件一算法采用对所有订阅元语句级匹配后再判定是否订阅匹配成功图是对三种算法订阅条件存储空间的比较算法把用户的订阅条件规范化以符合文件形式 , 采用两级存储订阅条件 , 对不同用户相同的原子订阅条件 , 也分别存储其第二级元素由四个数据项 , , , 组成, 但大部分情况下都是局部为空这使得算法的空间存储效率不高一对不带变量的相同的原子订阅条件只存储一次, 从而达到节约订阅存储空间的目的引入标签序列标识带变量的订阅条件 , 便于在第一级中存储 , 但增加了格外的存储空间结论通过引入本体、语义技术, 采用谓词结构级匹配和语义级匹配 , 实现了发布事件与订阅条件两级匹配对订阅条件存储结构以及支持语义的智能匹配算法进行了详细表述 , 并从算法时间和空间两方面对其复杂度进行了定量和定性分析最后, 设计了实验条件 , 与其他算法进行了三方面比较实验表明, 本文设计的匹配算法效率较高, 具有良好的应用前景下阶段工作重点是实现订阅条件维护算法 , 同时考虑进一步优化算法, 完成一致性对外接口和语义路由等方面设计参考文献 , , ,

.550 北京科技大学学报第35卷 service discovery based on bipartite graph matching.Chin 工程与科学，2008,30(1)：99) J Comput,,2008,31(4):1364 [7]Hu XX.Publish/subscribe system for large scale dis- (邓水光，尹建伟，李莹，等.基于二分图匹配的语义Web tributed computing.J Zhejiang Univ Eng Sci,2008 服务发现方法.计算机学报，2008,31(4)：1364) 42(10):736 [2]Petrovic M,Liu H F,Jacobsen H A.G-ToPSS:fast.filter- (胡昔样.面向大规模分布式计算的发布/订阅系统.浙江大 ing of graph-based metadata /Proceedings of the 14th 学学报：工学版，2008,42(10)：736) International Conference on World Wide Web.Chiba, [8]Park M J,Chung C W.iBroker:an intelligent Broker for 2005:539 ontology based publish/subscribe systems//Proceedings [3]Muthusamy V,Liu H F,Jacobsen H A.Predictive of the 25th International Conference on Data Engineer publish/subscribe matching//Proceedings of the 4th ing.Shanghai,2009:1255 ACM International Conference on Distributed Event- [9)Gao Q S,Li L,Liu H L.Key word filter method based on Based Systems.Cambridge,2010:14 pruning on the tree representations of semantic elements [4 Chen C,Jacobsen H A,Vitenberg R.Divide and con- J Univ Sci Technol Beijing,2006,28(12):1191 quer algorithms for publish/subscribe overlay design / (高庆狮，李莉，刘宏岚。基于语义单元表示树剪枝的关键 Proceedings of the 30th International Conference on Dis- 字过滤方法.北京科技大学学报，2006,28(12)：1191) tributed Computing Systems.Genova,2010:622 [10]Chandramouli B,Phillips J M,Yang J.Value-based notifi- (5]Cheung A K Y,Jacobsen H A.Load balancing content- cation conditions in large-scale publish/subscribe systems based publish/subscribe systems.ACM Trans Comput //Proceedings of the 33rd VLDB Conference.Vienna Systs,2010,28(4):9 2007:878 6 Chen Q,Zhang Y,Zhang M.A semantics supported pub-[11 Guo Y B,Pan Z X,Heflin J.LUBM:A benchmark lish/subscribe system.Comput Eng Sci,2008,30(1):99 for OWL knowledge base systems.Web Semant,2005, (陈勤，张颖，张旻.一种支持语义的发布/订阅系统.计算机 3(2/3):158

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

发布/订阅系统语义Web匹配算法