北京科技大学学报 2 0 0 ` 年第 s 期图 3 后级

正在加载图片...

·492· 北京科技大学学报 2006年第5期 N(a).supp,发生位置列表N(a).positionlist,,孩 AB 子指针列表N(a).childlist OB Q B BO CABS oc Oc N(a）.positionlist每一项为(ttar,ted）,表 Q4 ● 示该情节一次发生的开始和结束时间，这样设置 QB CABS CABS BO OB 是为了防止情节重叠.另外采用链表结构存放事 Os $0 Os 件序列，每个结点L(A)存放一个事件(A,t) (a) (b) 包括以下域：事件类型L.event∈E,发生时间L 图3后缰树.(a)ABCAB$的后银树：(b)ABCAB$的松散 time,后续事件指针L.next. 后摄树性质1一个结点所表示的情节β是其子结 Flg.3 Suffix tree;(a)suffix tree of string ABCAB $(b) loose suffix tree of string ABCAB 点表示的情节a的前缀子情节，证明：设结点N对应的情节为=(V',≤'，次发生的频繁场景结点 g'),其子结点N.child对应的情节为a=（V, (2)后缀树中每个叶结点表示一个连续的后 ≤，g),E为事件类型集.由于a=(V,≤，g)是缀（见图3），但无法发现如B·A(*为对模式无由B=(V',≤'，g)增加一个后续事件e构成，因贡献的任意类型事件)等的不连续的情节，因此需此V=V'Ulei,g=gU(e→E),取V'→V的对后缀概念扩充，称这种有事件间隙的后缀为广单射为f(v)=v,由定义4可得B是a的子情节. 义后缀，如B"A“也是序列的后缀.称采用这种另外任给u∈V(u≠e),必有e主u成立，且|a| 方法构造的频繁不完全松散后缀树为广义后缀 =|β|+1，所以B为a的相邻前缀子情节. 树定理1子结点所表示的情节的支持度小于 (3)广义后缀使后缀树规模急剧增大，因此其父结点所表示的情节的支持度，需施加约束以发现感兴趣情节.常用的方法是采证明：由于父结点情节a=(V,≤，g)是子结用情节最大持续窗口maxduring,但这样无法保点情节B=(V',≤'，g)的前缀子情节，再根据定证发现所有的频繁情节且最大持续窗口难以事先义6，每当a=(V,≤，g)发生时B=（V',≤'，估计.因此本文采用一种相邻事件最大间隙限制 g)也必发生，所以子结点场景的发生次数不大于 maxgap,可以发现任意长度的频繁情节，例如图1 父结点场景的发生次数，由|α|<|B|,可得到| 中当最大事件间隙为3时，第一个事件A的后续 W(S,wina)|<|W(S,wing)l,再根据公式(1) 事件为B,C,A,生长出的长为情节为AB,AC和的支持度定义，可得结论. AA. 该定理表明频繁情节具有与交易数据库中频 (4)对长序列构造完全后缀树时间空间消耗繁项集apriori特性相似的性质，因此可在树生长较大，本文提出一种频繁情节位置逐层扩展方法，的每一层进行支持度剪枝，不会丢失频繁情节. 子结点利用父结点频繁情节位置列表生成，以逐基于广义后缀树的频繁情节发现算法(GS 层构造广义后缀树.方法利用频繁情节位置列表 TA)首先扫描序列得到所有频繁1-情节的发生实现对序列的逐层划分，在相应的投影子库上进位置集，满足最小支持度minsupp的加入情节树行情节计数，缩小了搜索空间.树的每个结点包中；对每一频繁1-情节利用其发生位置集，得到括事件类型E,支持计数supp,频繁情节位置列所有满足约束的后续事件及极其发生位置集，将表positionlist,发生时间(tar,tend),利用这种广频繁后续事件作为该1-情节的孩子结点插入情义后缀树结构，可以发现满足约束的所有频繁情节树中；此过程反复进行直到没有后续频繁事件节为止.每当一结点的所有后续事件发生位置集产 3 广义后缀树频繁情节挖掘算法生后，释放该结点的发生位置集，以减少空间耗费定义8广义后缀情节树是一颗根树，每个图4说明树构造过程(maxgap设为1，结点N对于一个情节a,可以有多个子结点 maxduring=oo,minsupp为2)，由于图1例子中 childlist,情节a表示从根结点root到该结点N 未给出事件发生的准确时间，因此以其位置序号的结点标签label串连组成的情节.每个结点包视为时间.其中加外框的结点表示频繁情节（加括如下域：件标签N(a).label∈E,发生次数入树中)，无外框的表示不频繁情节（不加入树北京科技大学学报 2 0 0 ` 年第 s 期图 3 后级树 . 《a) A B 〔消旧 $ 的后级树; 《b) A 刀c 今B $ 的松散后级树 R g . 3 S u m x t溉 ; ( a ) s . m x t 限 o f s td n g A B CA B $ : `b ) I ~ s . m x t 附 o f s td n g 月仪消B $ 次发生的频繁场景结点 . ( 2) 后缀树中每个叶结点表示一个连续的后缀( 见图 3) , 但无法发现如 B ’ A ( * 为对模式无贡献的任意类型事件 )等的不连续的情节 , 因此需对后缀概念扩充 , 称这种有事件间隙的后缀为广义后缀 , 如 B ’ A ’ 也是序列的后缀 . 称采用这种方法构造的频繁不完全松散后缀树为广义后缀树 . ( 3) 广义后缀使后缀树规模急剧增大 , 因此需施加约束以发现感兴趣情节 . 常用的方法是采用情节最大持续窗口 m ax d ur i n g , 但这样无法保证发现所有的频繁情节且最大持续窗口难以事先估计 . 因此本文采用一种相邻事件最大间隙限制 m ax ga p , 可以发现任意长度的频繁情节 , 例如图 1 中当最大事件间隙为 3 时 , 第一个事件 A 的后续事件为 B , C , A , 生长出的长为情节为 A B , A C 和 A A . ( 4 ) 对长序列构造完全后缀树时间空间消耗较大 , 本文提出一种频繁情节位置逐层扩展方法 , 子结点利用父结点频繁情节位置列表生成 , 以逐层构造广义后缀树 . 方法利用频繁情节位置列表实现对序列的逐层划分 , 在相应的投影子库上进行情节计数 , 缩小了搜索空间 . 树的每个结点包括事件类型 E , 支持计数 s叩p , 频繁情节位置列表娜 i t i o n li s t , 发生时间 ( t s t ar t , t 。耐 ) , 利用这种广义后缀树结构 , 可以发现满足约束的所有频繁情节 . 3 广义后缀树频繁情节挖掘算法定义 8 广义后缀情节树是一颗根树 , 每个结点 N 对于一个情节 a , 可以有多个子结点 e h ild li s t , 情节。表示从根结点 or t 到该结点 N 的结点标签 lab el 串连组成的情节 . 每个结点包括如下域 : 事件标签 N ( a) . lab el e E , 发生次数 N ( 。 ) . , u p p , 发生位置 fJ 表 N ( 。 ) . 因 s i t i o n li s t , 孩子指针列表 N ( a ) . e h i ld li s t · N ( 。 ) . op s i t i o n zi s t 每一项为 ( t : t o r t , r e间 ) , 表示该情节一次发生的开始和结束时间 , 这样设置是为了防止情节重叠 . 另外采用链表结构存放事件序列 , 每个结点 L ( A ) 存放一个事件 ( A , t) . 包括以下域 : 事件类型 L . e ve nt 任 E , 发生时间 L . it m e , 后续事件指针 L . en xt . 性质 1 一个结点所表示的情节月是其子结点表示的情节 a 的前缀子情节 . 证明 : 设结点 N 对应的情节为月= ( v ` , 簇 ` , g ` ) , 其子结点 N . hc il d 对应的情节为。 = ( v , 簇 , g ) , E 为事件类型集 . 由于。 = ( v , 镇 , g )是由月= ( v ` , 镇 ’ , g ’ )增加一个后续事件尸构成 , 因此 v = v ` U } 。 } , g = g ’ U ( e ~ E ) , 取 v ’ ~ v 的单射为f( v) = v , 由定义 4 可得 P 是。的子情节 . 另外任给 “ 任 V ( “ 笋召 ) , 必有。笠 “ 成立 , 且 }aI = }尹} + 1 , 所以 P 为 a 的相邻前缀子情节 . 定理 1 子结点所表示的情节的支持度小于其父结点所表示的情节的支持度 . 证明 : 由于父结点情节。 = ( V , ( , g )是子结点情节月= ( V’ , 簇 ’ , g ` )的前缀子情节 , 再根据定义 6 , 每当 a = ( v , 簇 , g ) 发生时夕= ( v ’ , 簇 ` , g ` )也必发生 , 所以子结点场景的发生次数不大于父结点场景的发生次数 , 由 }aI < }川 , 可得到 } w ( s , w i n 。 ) I < } W ( s , w i n , ) I , 再根据公式 ( l ) 的支持度定义 , 可得结论 . 该定理表明频繁情节具有与交易数据库中频繁项集 a rP i or i 特性相似的性质 , 因此可在树生长的每一层进行支持度剪枝 , 不会丢失频繁情节 . 基于广义后缀树的频繁情节发现算法 ( G S - T A )首先扫描序列得到所有频繁 1 一情节的发生位置集 , 满足最小支持度 m isn 叩p 的加入情节树中 ; 对每一频繁 1一情节利用其发生位置集 , 得到所有满足约束的后续事件及极其发生位置集 , 将频繁后续事件作为该 1一情节的孩子结点插入情节树中; 此过程反复进行直到没有后续频繁事件为止 . 每当一结点的所有后续事件发生位置集产生后 , 释放该结点的发生位置集 , 以减少空间耗费 . 图 4 说明树构造过程 ( m ax g aP 设为 1 , m a x d u r i n g = co , m i n s u p p 为 2 ) , 由于图 l 例子中未给出事件发生的准确时间 , 因此以其位置序号视为时间 . 其中加外框的结点表示频繁情节 ( 加入树中 ) , 无外框的表示不频繁情节 ( 不加入树城 · 于 ·

<<向上翻页向下翻页>>

点击下载：基于广义后缀树的事件序列频繁情节挖掘算法