CR(P ′ ,D+,D−) ⩾ CR(P,D+,D−) P 2) ；则

正在加载图片...

·682· 智能系统学报第13卷 2)CR(P',D.,D-)>CR(P.D.,D_); 3算法设计则称模式P是冗余对比序列模式。表2的对比序列模式中，{G,T)s{G,T,A,且为了挖掘去冗余Top-k对比序列模式的集 CR(IG,T,D,D)≥CR(IG,T,A,D,D),所以模式合，用本文提出的BFM和PBFM算法，来解决挖 {G,T,A)是相对于G,T)的冗余对比序列模式。掘出的结果集合的冗余问题。BFM和PBFM算表2表1中基因数据集的Top-5对比序列模式法基于广度优先生成树的原理来寻找Topk序列 Table 2 Top-five discriminative sequential patterns from 的集合，树的生成过程就是Top-k集合的更新过 gene data set in table 1 程。相比于使用深度优先的方法来生成树结构， Sequence Sup(P,D)Sup(P,D_) Sup (P,D,D_) 使用广度优先的方法每次更新时不改变Top-k集 (4,G) 1 0.25 0.75 合的大小，所以不会出现冗余的Topk集合。 (G,T) 1 0.25 0.75 3.1广度优先的生成树算法 I)根据给定的数据集D,生成字母表Σ。 (A,G,TY 1 0.25 0.75 2)创建Top-k集合L,设置集合L的最小对比 (G,T,A) 0.67 0 0.67 度阈值minTopkCR=O。 (A,G,T,A) 0.67 0 0.67 3)创建一个队列，将字母表中的每个元素放定义4（去冗余Top-k对比序列模式）集合入队列中。 L满足Top-k对比序列模式集合的要求，同时对 4)对于队列的第一个元素，在其末尾分别与于每个序列r∈L,不存在rb生LArCraACR(b,D,D)≥ 字母表中的每个元素连接，形成新的序列。 CRa,D,D);对于任意序列raeL,r∈L,r不是相 5)计算每个新的序列P的支持度和对比度，对于的冗余对比序列模式。如果Sup(P,D,)≥minTopkCR,将P放入队列中，否例4在表1的数据集中，令k=5,则找出的则不放入队列中。去冗余Top-k对比序列模式如表3所示。当四<k时，在集合L中寻找序列P的子序列，表3表1中基因数据集的Top-5去冗余对比序列模式若未找到子序列，将P加入集合L;若找到了子序 Table 3 Top-five non-redundant distinguishing sequential 列P,且P相对于P不是冗余序列，则将P加入集 patterns from gene data set in table 1 合L,并更新集合L的最小对比度阈值minTopkCR Sequence Sup (P,D.) Sup(P,D) Sup(P,D.,D) (若CR(P,D,D-)≤minTopkCR,则min TopkCR=CRP, {A,G} 0.25 0.75 D,D),否则不加入集合。 (G,T 0.25 0.75 当I=k时，如果CR(P,D,D)>minTopkCR,在集合L中寻找序列P的子序列，若未找到子序 {T,A} 0.67 0.25 0.42 列，用P替换集合L中对比度最小的序列；若找 (C,4) 0.5 0.25 0.25 到了子序列P',且P相对P不是冗余序列，则用 (T,C) 0.17 0 0.17 P替换集合L中对比度最小的序列，并更新集合本文中常用的符号及定义总结在表4中。 L的最小对比度阈值minTopkCR(若此时集合中第表4符号及其含义二小的CR小于CR(P,D,D),则将它设置为 Table 4 Symbols and their meaning minTopkCR,否则minTopkCR=CR(P,D,D);否则符号含义不替换。 6)将队列的第一个元素弹出。 D 数据集 7)重复4)6)，直到队列为空。 D 正例集例5对表1的数据集进行去冗余Top-k对 D 反例集比序列模式挖掘，令k=5。找出基因数据集的字 len (S) 序列S的长度母表Σ为∑={A,G,C,T1。将字母表的每个元素放入 s阳序列S第i个位置的元素e, 队列中，生成的树结构和队列如图1所示。 S'CS S是S的子序列在Topk对比序列模式挖掘中，去除冗余序 Sup(P,D) 序列P在数据集D中的支持度列模式是提高挖掘结果质量的重要一步。但是在原有挖掘过程的基础上，加人去冗余的步骤后， CR(P.D..D_) 序列P的对比度 ,个新的序列可能会替换Top-k集合中的多个序CR(P ′ ,D+,D−) ⩾ CR(P,D+,D−) P 2) ；则称模式是冗余对比序列模式。 {G,T} ⊆ {G,T,A} CR({G,T},D+,D−) ⩾ CR({G,T,A},D+,D−) {G,T,A} {G,T} 表 2 的对比序列模式中，，且，所以模式是相对于的冗余对比序列模式。表 2 表 1 中基因数据集的 Top-5 对比序列模式 Table 2 Top-five discriminative sequential patterns from gene data set in table 1 Sequence Sup (P, D+ ) Sup (P, D– ) Sup (P, D+ , D– ) {A, G} 1 0.25 0.75 {G, T} 1 0.25 0.75 {A, G, T} 1 0.25 0.75 {G, T, A} 0.67 0 0.67 {A, G, T, A} 0.67 0 0.67 ra ∈L rb <L∧rb ⊆ra∧CR(rb,D+,D−)⩾ CR(ra,D+,D−) ra ∈ L rc ∈ L ra rc 定义 4 (去冗余 Top-k 对比序列模式) 集合 L 满足 Top-k 对比序列模式集合的要求，同时对于每个序列，不存在；对于任意序列，，不是相对于的冗余对比序列模式。例 4 在表 1 的数据集中，令 k = 5 ，则找出的去冗余 Top-k 对比序列模式如表 3 所示。表 3 表 1 中基因数据集的 Top-5 去冗余对比序列模式 Table 3 Top-five non-redundant distinguishing sequential patterns from gene data set in table 1 Sequence Sup (P, D+ ) Sup (P, D– ) Sup (P, D+ , D– ) {A, G} 1 0.25 0.75 {G, T} 1 0.25 0.75 {T, A} 0.67 0.25 0.42 {C, A} 0.5 0.25 0.25 {T, C} 0.17 0 0.17 本文中常用的符号及定义总结在表 4 中。表 4 符号及其含义 Table 4 Symbols and their meaning 符号含义 D 数据集 D+ 正例集 D– 反例集 len (S) 序列 S 的长度 S[i] 序列 S 第 i 个位置的元素 ei S' ⊆ S S'是 S 的子序列 Sup (P, D) 序列 P 在数据集 D 中的支持度 CR (P, D+ , D– ) 序列 P 的对比度 3 算法设计为了挖掘去冗余 Top-k 对比序列模式的集合，用本文提出的 BFM 和 PBFM 算法，来解决挖掘出的结果集合的冗余问题。BFM 和 PBFM 算法基于广度优先生成树的原理来寻找 Top-k 序列的集合，树的生成过程就是 Top-k 集合的更新过程。相比于使用深度优先的方法来生成树结构，使用广度优先的方法每次更新时不改变 Top-k 集合的大小，所以不会出现冗余的 Top-k 集合。 3.1 广度优先的生成树算法 1) 根据给定的数据集 D ，生成字母表 Σ。 L minTopkCR = 0 2) 创建 Top-k 集合 L，设置集合的最小对比度阈值。 3) 创建一个队列，将字母表中的每个元素放入队列中。 4) 对于队列的第一个元素，在其末尾分别与字母表中的每个元素连接，形成新的序列。 Sup(P,D+) ⩾ minTopkCR 5) 计算每个新的序列 P 的支持度和对比度，如果，将 P 放入队列中，否则不放入队列中。 |L| < k L minTopkCR CR(P,D+,D−) ⩽ minTopkCR 当时，在集合 L 中寻找序列 P 的子序列，若未找到子序列，将 P 加入集合 L；若找到了子序列 P，且 P 相对于 P′不是冗余序列，则将 P 加入集合 L，并更新集合的最小对比度阈值 (若，则 min TopkCR = CR(P, D+ , D– ))，否则不加入集合。 |L| = k CR(P,D+,D−) > minTopkCR minTopkCR CR(P,D+,D−) minTopkCR minTopkCR =CR(P,D+,D−) 当时，如果，在集合 L 中寻找序列 P 的子序列，若未找到子序列，用 P 替换集合 L 中对比度最小的序列；若找到了子序列 P′，且 P 相对 P′不是冗余序列，则用 P 替换集合 L 中对比度最小的序列，并更新集合 L 的最小对比度阈值 (若此时集合中第二小的 C R 小于，则将它设置为，否则 )；否则不替换。 6) 将队列的第一个元素弹出。 7) 重复 4)~6)，直到队列为空。 Σ Σ = {A,G,C,T} 例 5 对表 1 的数据集进行去冗余 Top-k 对比序列模式挖掘, 令 k =5。找出基因数据集的字母表为。将字母表的每个元素放入队列中，生成的树结构和队列如图 1 所示。在 Top-k 对比序列模式挖掘中，去除冗余序列模式是提高挖掘结果质量的重要一步。但是在原有挖掘过程的基础上，加入去冗余的步骤后，一个新的序列可能会替换 Top-k 集合中的多个序 ·682· 智能系统学报第 13 卷

<<向上翻页向下翻页>>

点击下载：【机器学习】去冗余Top-k对比序列模式挖掘