. 4 9 4 . 北京科技大学学报 20 0 ` 年第 s

正在加载图片...

·494· 北京科技大学芈报 2006年第5期 (25)free(N.poslist); 有频繁情节p.episodes及其支持计数p.support, (26)return root; 加入到频繁模式集FES中.(3~10)对频繁模式算法说明：(1)~(2)初始化存放序列的空链，集的每一模式p,以所有前缀为规则前件后缀为将序列读入链表中，(3)~(4)初始化每个事件(1 规则后件生成事件预测规则，其信任度为情节力 -情节)的位置列表，扫描序列以建立每个1-情节的支持度与前件情节g的支持度的比值.由于q 的位置列表集.(5)建立模式树根结点.(6)~ 为p的子情节，因此g的支持度不小于p的支持 (11)对所有出现次数大于最小支持度的事件：将度，所以g必存在于频繁模式集FES中.travel- 该事件加入频繁1-情节集、将该事件添加为根结 frequent-epi_tree采用深度优先遍历频繁事件树点的孩子结点、将结点加入待处理队列中，对出现 T,每一结点的情节由父结点的情节和本结点的次数大于最小支持度的事件释放其位置列表集. 标签node.label串联得到， (12)~(13)若待处理队列不空，反复取出队头结点N处理.(14)~(15)清空当前情节的后续事 4对并行和混合情节的处理方法件集，清空每一频繁件的发生位置集，以记录结算法同样适用于并行和混合情节频繁情节发点N的后续事件的发生位置.（16)~(18)若当现，只需在频繁情节树逐层构造过程中允许进行前情节的后续事件为频繁事件、满足限制，若其位并行情节扩充.例如设父结点对应的频繁情节为置未出现在后续事件集中则添加.(19)~(20)对 (AB),需对(AB〉位置集中所有满足限制的后续后续事件集的每一事件，将其发生位置添加到所事件的组合进行扩充，设为(AB〉后续出现的满足属事件类型的发生位置集中，(21)~(24)对当前限制的事件有C,D,E,设允许的最大并行事件情节N每一类型的后续事件，若其支持度大于最为2，则其扩充为(ABC),〈ABD),〈ABE),〈AB 小支持度则创建N的孩子结点，加入该孩子结点 (CD)》,(A(DE)》,(A(CE)》,()表示其中件到待处理队列中，(25)结点N处理完成后释放先后顺序无限制.前三个为满足限制的串行扩其发生位置列表，以减少内存占用，充，后三个为满足限制的并行扩充，算法中可根据通过遍历构建的频繁情节模式树可以生成事发掘任务添加限制，如情节最大持续期等件预测规则，算法描述如下，算法2：事件预测规则生成算法 5实验结果输人：频繁情节模式树T,最小支持数min- 实验目的主要是将本文GSTA算法与基于 supp,最小信任度minconf,序列总长度len. 候选生成的(Aprior-like)的频繁情节发现算法进输出：预测规则集ruleset. 行比较，以检验其优越性，算法采用VC++6.0 (1)FES=NULL; 实现，运行环境为plII800,256M内存，win2000 (2)FES travel-frequent-epi-tree (T, 平台.实验数据采用Geneva大学ExPASy(Ex- currentpatterr='); pert Protein Analysis System)服务器上的 (3)for each p∈FES PROSITE数据库(http:∥www.expasy.org/ (4)for i=1 to length(p)-1 prosite/index,html)中的表达蛋白序列， (5)generate rule R.rule=p[1..i ]p[i+ PROSITE包含具有生物学意义的DNA和表达 1..length(p)] 蛋白模式，主要用于识别蛋白质序列所属类别. (6)find episodes g in FES such that g.pat- 因为数据集中的模式是已知的，所以实验目的主 tern=p[1..i] 要是对比验证该算法的有效性和优越性.选择 (7)R.supp=p.supp/(len/length(p)); DNA失配修复蛋白(DNA mismatch repair pro- (8)R.conf=p.supp/q.supp teins1,PROSITE entry PS00058)的79个序列组 (9）ifR.supp≥min-supp and R.conf≥ 合并视为一个件序列，将其空间顺序视为时间， min-conf then 在不同序列之间放置结束符$以避免情节跨越不 (10)add R to ruleset; 同序列.序列的总长度为53130，包含20种不同 (11)return ruleset; 事件类型，失配修复蛋白的特征模式为算法2说明：(1)初始化频繁情节集合FES GFRGEAL.以下对本文提出的GST-based算法为空.(2)调用travel-.frequent-epi-tree得到所进行有效性和可伸缩性实验，并与Apriori-like算. 4 9 4 . 北京科技大学学报 20 0 ` 年第 s 期 ( 2 5 ) f r e e ( N . p o s li s t ) ; ( 2 6 ) er t u rn or t ; 算法说明 : ( l) 一 ( )2 初始化存放序列的空链 , 将序列读入链表中 . ( 3) 一 ( 4) 初始化每个事件 ( 1 一情节 )的位置列表 , 扫描序列以建立每个 1一情节的位置列表集 . ( 5) 建立模式树根结点 . ( 6) 一 ( 1 1) 对所有出现次数大于最小支持度的事件 : 将该事件加入频繁 1一情节集、将该事件添加为根结点的孩子结点、将结点加入待处理队列中 , 对出现次数大于最小支持度的事件释放其位置列表集 . ( 12 ) 一 ( 1 3 )若待处理队列不空 , 反复取出队头结点 N 处理 . ( 1 4 ) 一 ( 1 5) 清空当前情节的后续事件集 , 清空每一频繁事件的发生位置集 , 以记录结点 N 的后续事件的发生位置 . ( 16) 一 ( 18) 若当前情节的后续事件为频繁事件、满足限制 , 若其位置未出现在后续事件集中则添加 . ( 19) 一 ( 2 0 )对后续事件集的每一事件 , 将其发生位置添加到所属事件类型的发生位置集中 . ( 21 ) 一 ( 2 4 )对当前情节 N 每一类型的后续事件 , 若其支持度大于最小支持度则创建 N 的孩子结点 , 加入该孩子结点到待处理队列中 . ( 2 5) 结点 N 处理完成后释放其发生位置列表 , 以减少内存占用 . 通过遍历构建的频繁情节模式树可以生成事件预测规则 , 算法描述如下 . 算法 2 : 事件预测规则生成算法 . 翰人 : 频繁情节模式树 T , 最小支持数 m i n - s u p p , 最小信任度 m i n co n f , 序列总长度 l e n . 输出 : 预测规则集 ur les et . ( l ) F E S = N U I J L ; ( 2 ) F E S = t r a v e l 一 f r e q u e n t 一 e p i 一 t er e ( T , e u r r e nt p a t t e r r = ` ’ ) ; ( 3 ) fo r e a e h P e F E S ( 4 ) fo r i = 1 t o l e n g t h ( p ) 一 l ( 5 ) g e n e r a t e r u l e R . r u l e = P [ 1 二 i ]” P [ i + l 二 l e n g t h ( P ) ] ( 6 ) fi n d e p iso d e s 9 i n F E S s u e h t h a t 9 . p a t - t e r n = P [ 1 二 i ] ( 7 ) R . s u p p = P . s u p p / ( l e n / l e n g t h ( P ) ) ; ( 8 ) R . co n f = p . s u p p / q . s u p p ( 9 ) i f R . s u p p 妻 m i n 一 s u p p a n d R . e o n f ) m i n _ e o n f t h e n 10 ) a d d R t o r u l e s e t ; 1 1 ) r e t u r n r u l e s e t : 算法 2 说明 : ( l) 初始化频繁情节集合 FE S 为空 . ( 2 ) 调用 t r a v e l 一 f r e q u e n t 一 e p i 一 t r e e 得到所有频繁情节 p . eP i sod es 及其支持计数 P . s 叩op rt, 加入到频繁模式集 F E S 中 . ( 3一 1 0) 对频繁模式集的每一模式 P , 以所有前缀为规则前件后缀为规则后件生成事件预测规则 , 其信任度为情节 P 的支持度与前件情节 q 的支持度的比值 . 由于 q 为 P 的子情节 , 因此 q 的支持度不小于 P 的支持度 , 所以 q 必存在于频繁模式集 F E s 中 . t ar ve ! - fr eq ue nt 一 e iP 一 tr e e 采用深度优先遍历频繁事件树 T , 每一结点的情节由父结点的情节和本结点的标签 n o d e . lab el 串联得到 . 4 对并行和混合情节的处理方法算法同样适用于并行和混合情节频繁情节发现 , 只需在频繁情节树逐层构造过程中允许进行并行情节扩充 . 例如设父结点对应的频繁情节为 <A B > , 需对 <A B >位置集中所有满足限制的后续事件的组合进行扩充 , 设为 <A B >后续出现的满足限制的事件有 C , D , E , 设允许的最大并行事件为 2 , 则其扩充为 <A B C > , <A B D > , <A B E > , ( A B ( C D ) ) , <A ( D E ) > , <A ( CE ) > , ( )表示其中事件先后顺序无限制 . 前三个为满足限制的串行扩充 , 后三个为满足限制的并行扩充 , 算法中可根据发掘任务添加限制 , 如情节最大持续期等 . 5 实验结果实验目的主要是将本文 G S T A 算法与基于候选生成的 ( A rP i or 一 h k e ) 的频繁情节发现算法进行比较 , 以检验其优越性 , 算法采用 v C + + 6 . 0 实现 , 运行环境为 p l l l 8 0 0 , 2 5 6 M 内存 , w in2 0 OO 平台 . 实验数据采用 G e n e v a 大学 E x P A s y ( E x - p e r t p or t e i n A n a l y s i s S y s t e m ) 服务器上的 P R OS IT E 数据库 ( h t t p : / w w w . e x p a s y . o r g / p or s i t以i n d e x . h t m l ) 中的表达蛋白序列 , P R O SI T E 包含具有生物学意义的 D N A 和表达蛋白模式 , 主要用于识别蛋白质序列所属类别 . 因为数据集中的模式是已知的 , 所以实验目的主要是对比验证该算法的有效性和优越性 . 选择 D N A 失配修复蛋白 ( D N A m i s m a t e h r e p a i r p or - t e i n s l , P R ( )S I T E e n t r y P印0 0 5 8 )的 7 9 个序列组合并视为一个事件序列 , 将其空间顺序视为时间 . 在不同序列之间放置结束符班以避免情节跨越不同序列 . 序列的总长度为 5 3 13 0 , 包含 20 种不同事件类型 , 失配修复蛋白的特征模式为 G F R G E A L . 以下对本文提出的 G S T 一 bas ed 算法进行有效性和可伸缩性实验 , 并与 A rP i or i 一 ilk e 算

<<向上翻页向下翻页>>

点击下载：基于广义后缀树的事件序列频繁情节挖掘算法