正在加载图片...
114· 智能系统学报 第4卷 采用文档集中特征项协同出现来确定特征项。 特征项的集合,用特征项协同关系矩阵OL= 的容错类1().因为它较好地解释了上下文的语义 [1o4,M表示,具体算法如下: 从属关系,而且相对简单,计算上也是可行的.设 算法1产生特征项容错类的算法 (?,)表示特征项和在文档集D中协同出现的 输入:文档特征项频率矩阵T℉,协同阈值0: 次数.则以为阈值的不确定函数定义为 输出:特征项容错类的二值矩阵TOL: 66()={316(5,)≥}U4.(5) 1)对文档特征项频率矩阵T℉进行二值化,生 显然,函数五()满足以下条件:若4,5∈T, 成特征项的二值矩阵OC: t∈6(,则有∈6()和5∈6(成立,即是 OC [ocj, 自反的和对称的.这个函数符合容错关系下三TX 工,其中Γ5∈().通过改变阈值6的大小,可 1,东,>0 (10) 以控制容错类中特征项的相互关系程度,即可以改 (0,其他. 变容错类的精度6 即在特征项的二值矩阵OC中,每行表示特征项在 模糊包含定义为 一个文档中是否出现,若出现则该列置1,否则置Q v化,以=LXn (6) 2)建立特征项协同出现矩阵C0C: I X I COC [coG.,l 显然,该函数的第2个参数是单调的.基于这个 coGy card(OC*AND OC'). (11 函数,对于4∈T,XST的隶属于函数μ可定义为 式中:OC、OC表示OC矩阵中特征项xy的列向 (.W=(6(),x)=L)nK 1五()1· (7) 量;cad表示向量的基;coc,表示特征项xy的协同 假设特征项集T在整个处理过程中是封闭的, 发生频率,即在整个文档集中,特征项xy协同出现 的次数 在这个假设条件下,可以把所有特征项的容错类看 3)给定协同出现阈值0,在COC矩阵中过滤数 作是结构化的子集,即对于任意∈T, 值小于的特征项,就得到特征项容错二值矩阵: P(6())=1. 从以上定义,可以得到在容错空间R=(T,Iy TOLx)[tol, P)上,文档d,∈D的下近似集和上近似集分别为: 1,coG,≥0: LR(d)={5∈Tlv(B(3,d,)=1},(8) ok,气0.其他 12) UR(d,)=f5∈T|v(h(),d)>0k.9) 矩阵的每行给出了一个特征项的容错类,ok, 这样,文档山,就可以用它的近似集来表示,其 置1表示特征项xy存在容错关系 中,下近似集LR(d,)表示d的“核心”上近似集 以下实例较好地说明了容错类的含义.选取4 Ue(d,)表示与d,的特征项有交叉语义的特征项的 篇文档d、d、d、d,每篇文档用10个特征项t来 集合.于是,可以使用U(d,)来表示特征项的容错 表示,例如,表示“日本”,5表示地震”等等.则 类,建立文档的容错粗糙模型 当阈值0=2时,可得到以下特征项的容错类: 13特征项容错类生成算法 5(5)=5(5)=马(5s)={5,5,,于是得到各 如前所述,特征项容错类就是协同出现的相关 个文档的上近似集如表1所示。 表14篇文档的上近似集表示 Table 1 Upper approxmations of 4 documents 文档 特征项集 文档的上近似集 d 与,5,5,4,5,6,5,。,,0 4,5,与,4,5,6,5,,6,0,48 d 4,1,2,5,3,4,56,47,8 4,1,2,5,3,4,5,6,7:8 有,9,如,,5,2,8,4,3,4 有,9,0,51,5,2,8,44,3,4,8 4,5,6,如,8,9,0,1,2, 4,5,56,7,s,9,0,1,2,3,5,8 14特征项权重计算 改.一方面,由于事件检测的文档集是动态增加的, 计算特征项权重的基本方法涉及到两方面的修 因此要使用增量TF-DF模型1.即每经过一个时间 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.hup://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 采用文档集中特征项协同出现来确定特征项 ti 的容错类 I( ti ). 因为它较好地解释了上下文的语义 从属关系 ,而且相对简单 ,计算上也是可行的. 设 fD ( ti , tj )表示特征项 ti 和 tj在文档集 D中协同出现的 次数. 则以 θ为阈值的不确定函数 I定义为 Iθ ∶Iθ ( ti ) = { tj | fD ( ti , tj ) ≥θ} ∪ { ti }. (5) 显然 ,函数 Iθ ( ti )满足以下条件 :若 ti , tj ∈T, ti ∈Iθ ( tj ) ,则有 ti ∈Iθ ( ti )和 tj∈Iθ ( ti )成立 ,即 Iθ是 自反的和对称的. 这个函数符合容错关系 ΓΑ T × T,其中 tiΓtjΖ tj∈Iθ ( ti ). 通过改变阈值θ的大小 ,可 以控制容错类中特征项的相互关系程度 ,即可以改 变容错类的精度 [ 16 ] . 模糊包含定义为 v (X, Y) = | X ∩ Y | | X | . (6) 显然 ,该函数的第 2个参数是单调的. 基于这个 函数 ,对于 ti ∈T, X Α T的隶属于函数 μ可定义为 μ( ti , X ) = v ( Iθ ( ti ) , X ) = | Iθ ( ti ) ∩ X | | Iθ ( ti ) | . (7) 假设特征项集 T在整个处理过程中是封闭的 , 在这个假设条件下 ,可以把所有特征项的容错类看 作 是 结 构 化 的 子 集 , 即 对 于 任 意 ti ∈T, P ( Iθ ( ti ) ) = 1 . 从以上定义 ,可以得到在容错空间 R = ( T, I, v, P)上 ,文档 di ∈D的下近似集和上近似集分别为 : LR ( di ) = { tj ∈ T | v ( Iθ ( tj ) , di ) = 1}, (8) UR ( di ) = { tj ∈ T | v ( Iθ ( tj ) , di ) > 0}. (9) 这样 ,文档 di 就可以用它的近似集来表示 ,其 中 ,下近似集 LR ( di )表示 di 的“核心 ”, 上近似集 UR ( di )表示与 di 的特征项有交叉语义的特征项的 集合. 于是 ,可以使用 UR ( di )来表示特征项的容错 类 ,建立文档的容错粗糙模型. 1. 3 特征项容错类生成算法 如前所述 ,特征项容错类就是协同出现的相关 特征项的集合 , 用特征项协同关系矩阵 TOL = [ tolx, y ]M ×M表示 ,具体算法如下 : 算法 1 产生特征项容错类的算法 输入 :文档特征项频率矩阵 TF,协同阈值 θ; 输出 :特征项容错类的二值矩阵 TOL; 1)对文档特征项频率矩阵 TF 进行二值化 ,生 成特征项的二值矩阵 OC: O C = [ oci, j ]N ×M , oci, = 1, 0, tfi, j > 0; 其他. (10) 即在特征项的二值矩阵 OC 中 ,每行表示特征项在 一个文档中是否出现 ,若出现则该列置 1,否则置 0. 2)建立特征项协同出现矩阵 COC: CO C = [ cocx, y ]M ×M , cocx, y = card (OC x AND OC y ). (11) 式中 : OC x、OC y 表示 OC 矩阵中特征项 x、y的列向 量; card表示向量的基; cocx、y表示特征项 x、y的协同 发生频率 ,即在整个文档集中 ,特征项 x、y协同出现 的次数. 3)给定协同出现阈值 θ,在 COC矩阵中过滤数 值小于 θ的特征项 ,就得到特征项容错二值矩阵 : TOLx, y = [ tolx, y ]M ×M , tolx, y = 1, 0, cocx, y ≥θ; 其他. (12) 矩阵的每行给出了一个特征项的容错类 , tolx, y 置 1表示特征项 x、y存在容错关系. 以下实例较好地说明了容错类的含义. 选取 4 篇文档 d1、d2、d3、d4 ,每篇文档用 10个特征项 ti 来 表示 ,例如 , t1 表示“日本 ”, t2 表示“地震 ”,等等. 则 当阈值 θ = 2 时 , 可得到以下特征项的容错类 : I2 ( t1 ) = I2 ( t2 ) = I2 ( t18 ) = { t1 , t2 , t18 },于是得到各 个文档的上近似集如表 1所示. 表 1 4篇文档的上近似集表示 Table 1 Upper approx ima tion s of 4 docum en ts 文 档 特征项集 文档的上近似集 d1 t1 , t2 , t3 , t4 , t5 , t6 , t7 , t8 , t9 , t10 t1 , t2 , t3 , t4 , t5 , t6 , t7 , t8 , t9 , t10 , t18 d2 t1 , t11 , t12 , t2 , t13 , t14 , t15 , t16 , t17 , t18 t1 , t11 , t12 , t2 , t13 , t14 , t15 , t16 , t17 , t18 d3 t1 , t19 , t20 , t21 , t2 , t22 , t18 , t14 , t23 , t24 t1 , t19 , t20 , t21 , t2 , t22 , t18 , t14 , t23 , t24 , t18 d4 t1 , t25 , t26 , t27 , t28 , t29 , t30 , t31 , t32 , t33 t1 , t25 , t26 , t27 , t28 , t29 , t30 , t31 , t32 , t33 , t2 , t18 1. 4 特征项权重计算 计算特征项权重的基本方法涉及到两方面的修 改. 一方面 ,由于事件检测的文档集是动态增加的 , 因此要使用增量 TF2IDF模型 [ 9 ] . 即每经过一个时间 ·114· 智 能 系 统 学 报 第 4卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有