第4卷第2期 智能系统学报 Vol 4 Ng 2 2009年4月 CAA I Transactions on Intelligent System s Apr 2009 容错粗糙模型的事件检测研究 毋非,封化民2,申晓晔 (1西安电子科技大学通信工程学院,陕西西安710071,2北京电子科技学院多媒体智能处理实验室,北京 100070) 摘要:对网站发布的Wb新闻内容进行必要的、合理的监督管理,是保障网络信息内容安全的重要研究内容.将现 有的文本表示模型应用于Wb新闻会导致文本表示的稀疏性问题和话题跟踪过程中的主题词漂移问题,一种基于 容错粗糙集的文本表示模型解决了这些问题.在理论分析和实验验证的基础上,结合向量空间模型(VSM),利用特 征项在文档集中协同出现,构造了特征项的容错粗糙集.然后用特征项容错粗糙集生成文档的容错粗糙模型,来扩 充原先的文档表示模型.最后用特征项容错类描述文档之间的相似性关系,实现事件检测过程.实验结果证明,容错 粗糙模型能够改进事件检测系统的性能, 关键词:事件检测,粗糙集;容错粗糙模型 中图分类号:TP391文献标识码:A文章编号:1673-4785(2009)02-011206 Research on event detection based on the tolerance rough set model WU Fei,FENG Huam in'2,SHEN Xiao-ye' (1.School of Telecommunicaton Engineering,Xidian University,Xi'an 710071,China;2 Multmedia Intelligent Infomation Pro- cessing Laberatory,Beijing Electronic Science and Technology Institution,Beijing 100070,China) Abstract:Proper monitoring of the content of web news is crucial to the maintenance of network content security. Current text representational models are not suitable for web news because of the sparseness of text representation and the drifting of key words in event tracking processes To solve these problems,a modeling method for text rep- resentation based on tolerance rough sets was used to extend text rep resentation Follwing theoretical analysis and expermental verification,we constructed a olerance rough set for feature tems by considering the vector space model (VS)and the co-occurrences of feature tems in test sets Then the tolerance rough setmodel of tests was generated using the tolerance rough set for feature tems,which extended the original text representation model Fi- nally,the sm ilarities of texts were described by the feature tem's tolerance classes Expermental results showed that the tolerance rough setmodel mproved the perfomance of event detection systems Keywords:event detection;rough set tolerance rough setmodel 随着网络技术的迅速发展,越来越多的人选择线和广播新闻等为来源的数据流中自动发现话题」 通过网络渠道来表达自己的想法.互联网逐渐成为 并把话题相关的内容联系在一起口.事件检测和事 舆情产生和传播的重要场所,网络舆情在当前的社 件跟踪是DT的2个重要子任务.从本质上看,两 会生活中扮演着重要角色.对网络舆情的监控、分析 者都是将新闻报道流进行聚类。 和管理成为各级政府部门亟待解决的问题.话题检 现有的系统在事件检测方面大都采用了以下步 测与跟踪(topic detection and tracking,TDT)技术作 骤:1)建立报道和事件的文本表示模型;2)采用某 为舆情分析的重要技术手段,已成为近几年信息检 种算法计算报道与事件,或者是报道与报道之间的 索领域的热点研究课题.其主要任务是在以新闻专 相似度,确定与当前报道最相似的事件,3)若报道 被归入某事件,则调整该事件的表示模型,若报道没 收稿日期:2008-12-16 有归到现有的任何事件,则认为它是新检测到的事 通信作者:毋非.Emaik wufo@besti cn 件,4)输出检测到的事件中权重最高的几个特征 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 第 4卷第 2期 智 能 系 统 学 报 Vol. 4 №. 2 2009年 4月 CAA I Transactions on Intelligent System s Ap r. 2009 容错粗糙模型的事件检测研究 毋 非 1 ,封化民 1, 2 ,申晓晔 1 (1. 西安电子科技大学 通信工程学院 ,陕西 西安 710071; 2. 北京电子科技学院 多媒体智能处理实验室 ,北京 100070) 摘 要 :对网站发布的 W eb新闻内容进行必要的、合理的监督管理 ,是保障网络信息内容安全的重要研究内容. 将现 有的文本表示模型应用于 W eb新闻会导致文本表示的稀疏性问题和话题跟踪过程中的主题词漂移问题 ,一种基于 容错粗糙集的文本表示模型解决了这些问题. 在理论分析和实验验证的基础上 ,结合向量空间模型 (VSM ) ,利用特 征项在文档集中协同出现 ,构造了特征项的容错粗糙集. 然后用特征项容错粗糙集生成文档的容错粗糙模型 ,来扩 充原先的文档表示模型. 最后用特征项容错类描述文档之间的相似性关系 ,实现事件检测过程. 实验结果证明 ,容错 粗糙模型能够改进事件检测系统的性能. 关键词 :事件检测 ;粗糙集 ;容错粗糙模型 中图分类号 : TP391 文献标识码 : A 文章编号 : 167324785 (2009) 0220112206 Research on event detection based on the tolerance rough set model WU Fei 1 , FENG Hua2m in 1, 2 , SHEN Xiao2ye 1 (1. School of Telecommunication Engineering, Xidian University, Xi’an 710071, China; 2. Multimedia Intelligent Information Pro2 cessing Laberatory,Beijing Electronic Science and Technology Institution, Beijing 100070, China) Abstract:Proper monitoring of the content of web news is crucial to the maintenance of network content security. Current text rep resentational models are not suitable for web news because of the sparseness of text rep resentation and the drifting of key words in event tracking p rocesses. To solve these p roblem s, a modeling method for text rep2 resentation based on tolerance rough sets was used to extend text rep resentation. Following theoretical analysis and experimental verification, we constructed a tolerance rough set for feature term s by considering the vector space model (VSM) and the co2occurrences of feature term s in test sets. Then the tolerance rough setmodel of testswas generated using the tolerance rough set for feature term s, which extended the original text rep resentation model. Fi2 nally, the sim ilarities of texts were described by the feature term’s tolerance classes. Experimental results showed that the tolerance rough set model imp roved the performance of event detection system s. Keywords: event detection; rough set; tolerance rough set model 收稿日期 : 2008212216. 通信作者 :毋 非. E2mail: wuf@besti. cn. 随着网络技术的迅速发展 ,越来越多的人选择 通过网络渠道来表达自己的想法. 互联网逐渐成为 舆情产生和传播的重要场所 ,网络舆情在当前的社 会生活中扮演着重要角色. 对网络舆情的监控、分析 和管理成为各级政府部门亟待解决的问题. 话题检 测与跟踪 ( top ic detection and tracking, TDT)技术作 为舆情分析的重要技术手段 ,已成为近几年信息检 索领域的热点研究课题. 其主要任务是在以新闻专 线和广播新闻等为来源的数据流中自动发现话题 , 并把话题相关的内容联系在一起 [ 1 ] . 事件检测和事 件跟踪是 TDT的 2个重要子任务. 从本质上看 ,两 者都是将新闻报道流进行聚类. 现有的系统在事件检测方面大都采用了以下步 骤 : 1)建立报道和事件的文本表示模型 ; 2)采用某 种算法计算报道与事件 ,或者是报道与报道之间的 相似度 ,确定与当前报道最相似的事件 ; 3)若报道 被归入某事件 ,则调整该事件的表示模型 ,若报道没 有归到现有的任何事件 ,则认为它是新检测到的事 件 ; 4)输出检测到的事件中权重最高的几个特征
第2期 毋非,等:容错粗糙模型的事件检测研究 ·113 词、或者具有代表性的标题作为事件描述.本文主要 系,即粗糙集) 讨论事件的文本表示模型, 在早期的信息检索领域,粗糙集的应用都是基 目前应用到话题检测中的文本模型主要有2 于上面这种等价粗糙模型”(equivalence rough set 种,一种是基于向量空间模型(vector space model,, model,ERM).该模型基于以下假设:特征项集合 VSM)的方法2),一种是基于概率模型(probability T可以根据等价关系R划分为等价类.但是,在信息 model,,M)的方法),两者各有优缺点.其中向量检索领域,当处理的对象是词语等文本信息时,等价 空间模型一直是应用的主流,因为它易于将文本转 关系的3个属性中,传递性并不是总能保证的.因为 化为向量,使得文本之间的相互计算成为可能.但 词语的含义是分离的,但是又可能相互重叠,而且它 是,向量空间模型局限于文本之间相互独立的假 们的含义不符合传递性. 设,使得文本在向量空间转换的过程中丢失了关 这种相互重叠的类可以由容错关系(tolerance 联信息;而概率模型有扎实的理论基础,发展潜力较 relation)生成,容错关系只要求自反性和对称性.文 大,但是由于DT中的新闻报道通常都比较短小, 献[8使用容错关系定义了容错空间来表示这种叠 使概率模型原本就存在的稀疏问题更加严重」 交的类,即容错类(tolerance class).容错关系可以用 文本表示模型建立和使用方法的优劣,会在很 一个四元组表示R=(U,LP),U为对象的集合, 大程度上影响整个系统的性能.本文在向量空间模 I:U→2是不确定函数(uncertainty function), 型的基础上,在文本表示模型中引入了粗糙集,利用 v:2''一I0,I]是模糊包含(vague inclusion), 容错粗糙集表示文档之间的关联信息.通过在中等 P:1fU)→f0,1}是结构函数(structurality func- 规模的Wb文档数据集上的实验,可以证明,使用 ton). 特征项容错粗糙集建立的文本表示模型,可以有效 其中,通过不确定函数1:U→2可以找到所有 地改进系统性能 对象中与x具有相似含义的对象,即x的容错类,用 1容错粗糙集模型 Ix)来表示.不确定函数的定义为:对任意x,y∈U, 有x∈I(x)∧y∈I(x)x∈I(y以.该函数符合以下 1.1粗糙集和容错粗糙集的概念 关系:「SUU,「yI(x以.「是一个容错关系,满 粗糙集理论(rough set theory)是1982年由波兰 足自反性和对称性。 数学家Z Pawlak:提出的,它提供了一种特殊的处理 模糊包含v:2Q→[0,1用来度量集合的 不确定性的方法 包含程度.特别地,它用来度量一个对象x∈U的容 粗糙集理论的中心观点就是集合的近似表 错类I(x)是否被包含在一个集合X中.对于,只对 示561.设非空有限对象集合U为论域,则若要在U 第2个参数有单调性要求,即VX,y,ZsU∧YSZ, 上定义一个概念,那么这个概念可以由U的子集X 有v(X,Y)≤vX,Z) 表示,即任何在U上的集合概念,都能用它的X近 在构造下、上近似集的过程中,只考虑结构化的 似集合和上近似集合表示 粗糙集元素.现定义P:1U)→0,1将所有x∈U 设R是集合U上的二元关系,如果它是自反的、 的1(x)分为2类:结构化子集(P(1(x)=1)和无 对称的和传递的即具有:自反性,xRx;对称性,xRy一 结构子集(P(1(x))=0) Rx传递性,xRy∧R:→xR三xy∈U丿,则它是U上 则对于任意x∈U在容错空间R上的下近似集 的等价关系.对于xy∈U,如果xRy那么称xy是相 和上近似集定义如下: 互不可分辨的.关系R可将U完全划分成等价类[xR, LR(X)=fx∈U|P(I(x)= x∈U,即U=U,eUx成立,[x表示在等价关系R 1&v(I(x,X)=1}, (3) 下,与x相互不可分辨的等价类对象 UR(X)={x∈U|P(I(x))= 定义对于近似空间A=(U,R),xSU,X的上近 1&vI(x),X)>0 (4) 似和下近似集合如下: 这样,只要定义恰当的k和P,就可以在具体 UR(X)=fx∈UI[XRnX≠Φ},(I) 应用中使用容错空间, LR(X)=fx∈U|Ix]R∈X.2) 12容错粗糙模型的建立 直观上看,X的近似集合所包含的对象肯定属 下面讨论如何在事件检测的应用中确定k和P 于X,而上近似包含的对象则可能属于X,也可能不 设容错空间为R,选取文档集的所有特征项作 属于XL,Ue)表示了概念X的一种粗糙近似关 T={4,5,5,为论域 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 词、或者具有代表性的标题作为事件描述. 本文主要 讨论事件的文本表示模型. 目前应用到话题检测中的文本模型主要有 2 种 ,一种是基于向量空间模型 ( vector space model, VSM )的方法 [ 2 ] ,一种是基于概率模型 ( p robability model, PM)的方法 [ 3 ] ,两者各有优缺点. 其中向量 空间模型一直是应用的主流 ,因为它易于将文本转 化为向量 ,使得文本之间的相互计算成为可能. 但 是 ,向量空间模型局限于文本之间相互独立的假 设 [ 4 ] ,使得文本在向量空间转换的过程中丢失了关 联信息 ;而概率模型有扎实的理论基础 ,发展潜力较 大 ,但是由于 TDT中的新闻报道通常都比较短小 , 使概率模型原本就存在的稀疏问题更加严重. 文本表示模型建立和使用方法的优劣 ,会在很 大程度上影响整个系统的性能. 本文在向量空间模 型的基础上 ,在文本表示模型中引入了粗糙集 ,利用 容错粗糙集表示文档之间的关联信息. 通过在中等 规模的 W eb文档数据集上的实验 ,可以证明 ,使用 特征项容错粗糙集建立的文本表示模型 ,可以有效 地改进系统性能. 1 容错粗糙集模型 1. 1 粗糙集和容错粗糙集的概念 粗糙集理论 ( rough set theory)是 1982年由波兰 数学家 Z. Pawlak提出的 ,它提供了一种特殊的处理 不确定性的方法. 粗糙集理论的中心观点就是集合的近似表 示 [ 526 ] . 设非空有限对象集合 U 为论域 ,则若要在 U 上定义一个概念 ,那么这个概念可以由 U 的子集 X 表示 ,即任何在 U 上的集合概念 ,都能用它的 X 近 似集合和上近似集合表示. 设 R是集合 U 上的二元关系,如果它是自反的、 对称的和传递的 (即具有:自反性, xRx ;对称性, xRy→ yRx;传递性, xRy∧yRz→xRz, Π x, y∈U ) ,则它是 U上 的等价关系. 对于 x, y∈U,如果 xRy,那么称 x、y是相 互不可分辨的.关系 R可将 U完全划分成等价类 [ x ]R , x∈U ,即 U =∪x∈U [ x ]R 成立, [ x ]R表示在等价关系 R 下,与 x相互不可分辨的等价类对象. 定义对于近似空间 A = (U, R ) , xΑ U, X 的上近 似和下近似集合如下 : UR (X ) = { x ∈U | [X ]R ∩ X ≠Φ}, (1) LR (X ) = { x ∈U | [ x ]R Α X }. (2) 直观上看 , X 的近似集合所包含的对象肯定属 于 X,而上近似包含的对象则可能属于 X,也可能不 属于 X. (LR , UR )表示了概念 X 的一种粗糙近似关 系 ,即粗糙集 [ 7 ] . 在早期的信息检索领域 ,粗糙集的应用都是基 于上面这种“等价粗糙模型 ”( equivalence rough set model, ERSM). 该模型基于以下假设 :特征项集合 T可以根据等价关系 R划分为等价类. 但是 ,在信息 检索领域 ,当处理的对象是词语等文本信息时 ,等价 关系的 3个属性中 ,传递性并不是总能保证的. 因为 词语的含义是分离的 ,但是又可能相互重叠 ,而且它 们的含义不符合传递性. 这种相互重叠的类可以由容错关系 ( tolerance relation)生成 ,容错关系只要求自反性和对称性. 文 献 [8 ]使用容错关系定义了容错空间来表示这种叠 交的类 ,即容错类 ( tolerance class). 容错关系可以用 一个四元组表示 R = (U, I, v, P) , U 为对象的集合 , I∶U→2 U 是 不 确 定 函 数 ( uncertainty function ) , v∶2 U ×2 U →[ 0, 1 ]是模糊包含 ( vague inclusion) , P∶I(U ) →{ 0, 1 }是结构函数 ( structurality func2 tion). 其中 ,通过不确定函数 I∶U→2 U 可以找到所有 对象中与 x具有相似含义的对象 ,即 x的容错类 ,用 I( x)来表示. 不确定函数的定义为 :对任意 x, y∈U, 有 x∈I( x) ∧y∈I ( x) Ζ x∈I ( y). 该函数符合以下 关系 :ΓΑ U ×U, xΓyΖ I( x). Γ是一个容错关系 ,满 足自反性和对称性. 模糊包含 v∶2 U ×2 U →[ 0, 1 ]用来度量集合的 包含程度. 特别地 ,它用来度量一个对象 x∈U 的容 错类 I( x)是否被包含在一个集合 X中. 对于 v,只对 第 2个参数有单调性要求 ,即 Π X, Y, ZΑ U∧YΑ Z , 有 v (X, Y) ≤v (X, Z ). 在构造下、上近似集的过程中 ,只考虑结构化的 粗糙集元素. 现定义 P∶I(U ) →{ 0, 1}将所有 x∈U 的 I( x)分为 2类 :结构化子集 ( P ( I ( x) ) = 1)和无 结构子集 ( P ( I( x) ) = 0). 则对于任意 x∈U在容错空间 R上的下近似集 和上近似集定义如下 : LR (X ) = { x ∈U | P ( I( x) ) = 1&v ( I( x) , X ) = 1}, (3) UR (X ) = { x ∈U | P ( I( x) ) = 1&v ( I( x) , X ) > 0}. (4) 这样 ,只要定义恰当的 I、v和 P,就可以在具体 应用中使用容错空间. 1. 2 容错粗糙模型的建立 下面讨论如何在事件检测的应用中确定 I、v和 P. 设容错空间为 R,选取文档集的所有特征项作 T = { t1 , t2 , t3 , …}为论域 . 第 2期 毋 非 ,等 :容错粗糙模型的事件检测研究 ·113·
114· 智能系统学报 第4卷 采用文档集中特征项协同出现来确定特征项。 特征项的集合,用特征项协同关系矩阵OL= 的容错类1().因为它较好地解释了上下文的语义 [1o4,M表示,具体算法如下: 从属关系,而且相对简单,计算上也是可行的.设 算法1产生特征项容错类的算法 (?,)表示特征项和在文档集D中协同出现的 输入:文档特征项频率矩阵T℉,协同阈值0: 次数.则以为阈值的不确定函数定义为 输出:特征项容错类的二值矩阵TOL: 66()={316(5,)≥}U4.(5) 1)对文档特征项频率矩阵T℉进行二值化,生 显然,函数五()满足以下条件:若4,5∈T, 成特征项的二值矩阵OC: t∈6(,则有∈6()和5∈6(成立,即是 OC [ocj, 自反的和对称的.这个函数符合容错关系下三TX 工,其中Γ5∈().通过改变阈值6的大小,可 1,东,>0 (10) 以控制容错类中特征项的相互关系程度,即可以改 (0,其他. 变容错类的精度6 即在特征项的二值矩阵OC中,每行表示特征项在 模糊包含定义为 一个文档中是否出现,若出现则该列置1,否则置Q v化,以=LXn (6) 2)建立特征项协同出现矩阵C0C: I X I COC [coG.,l 显然,该函数的第2个参数是单调的.基于这个 coGy card(OC*AND OC'). (11 函数,对于4∈T,XST的隶属于函数μ可定义为 式中:OC、OC表示OC矩阵中特征项xy的列向 (.W=(6(),x)=L)nK 1五()1· (7) 量;cad表示向量的基;coc,表示特征项xy的协同 假设特征项集T在整个处理过程中是封闭的, 发生频率,即在整个文档集中,特征项xy协同出现 的次数 在这个假设条件下,可以把所有特征项的容错类看 3)给定协同出现阈值0,在COC矩阵中过滤数 作是结构化的子集,即对于任意∈T, 值小于的特征项,就得到特征项容错二值矩阵: P(6())=1. 从以上定义,可以得到在容错空间R=(T,Iy TOLx)[tol, P)上,文档d,∈D的下近似集和上近似集分别为: 1,coG,≥0: LR(d)={5∈Tlv(B(3,d,)=1},(8) ok,气0.其他 12) UR(d,)=f5∈T|v(h(),d)>0k.9) 矩阵的每行给出了一个特征项的容错类,ok, 这样,文档山,就可以用它的近似集来表示,其 置1表示特征项xy存在容错关系 中,下近似集LR(d,)表示d的“核心”上近似集 以下实例较好地说明了容错类的含义.选取4 Ue(d,)表示与d,的特征项有交叉语义的特征项的 篇文档d、d、d、d,每篇文档用10个特征项t来 集合.于是,可以使用U(d,)来表示特征项的容错 表示,例如,表示“日本”,5表示地震”等等.则 类,建立文档的容错粗糙模型 当阈值0=2时,可得到以下特征项的容错类: 13特征项容错类生成算法 5(5)=5(5)=马(5s)={5,5,,于是得到各 如前所述,特征项容错类就是协同出现的相关 个文档的上近似集如表1所示。 表14篇文档的上近似集表示 Table 1 Upper approxmations of 4 documents 文档 特征项集 文档的上近似集 d 与,5,5,4,5,6,5,。,,0 4,5,与,4,5,6,5,,6,0,48 d 4,1,2,5,3,4,56,47,8 4,1,2,5,3,4,5,6,7:8 有,9,如,,5,2,8,4,3,4 有,9,0,51,5,2,8,44,3,4,8 4,5,6,如,8,9,0,1,2, 4,5,56,7,s,9,0,1,2,3,5,8 14特征项权重计算 改.一方面,由于事件检测的文档集是动态增加的, 计算特征项权重的基本方法涉及到两方面的修 因此要使用增量TF-DF模型1.即每经过一个时间 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.hup://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 采用文档集中特征项协同出现来确定特征项 ti 的容错类 I( ti ). 因为它较好地解释了上下文的语义 从属关系 ,而且相对简单 ,计算上也是可行的. 设 fD ( ti , tj )表示特征项 ti 和 tj在文档集 D中协同出现的 次数. 则以 θ为阈值的不确定函数 I定义为 Iθ ∶Iθ ( ti ) = { tj | fD ( ti , tj ) ≥θ} ∪ { ti }. (5) 显然 ,函数 Iθ ( ti )满足以下条件 :若 ti , tj ∈T, ti ∈Iθ ( tj ) ,则有 ti ∈Iθ ( ti )和 tj∈Iθ ( ti )成立 ,即 Iθ是 自反的和对称的. 这个函数符合容错关系 ΓΑ T × T,其中 tiΓtjΖ tj∈Iθ ( ti ). 通过改变阈值θ的大小 ,可 以控制容错类中特征项的相互关系程度 ,即可以改 变容错类的精度 [ 16 ] . 模糊包含定义为 v (X, Y) = | X ∩ Y | | X | . (6) 显然 ,该函数的第 2个参数是单调的. 基于这个 函数 ,对于 ti ∈T, X Α T的隶属于函数 μ可定义为 μ( ti , X ) = v ( Iθ ( ti ) , X ) = | Iθ ( ti ) ∩ X | | Iθ ( ti ) | . (7) 假设特征项集 T在整个处理过程中是封闭的 , 在这个假设条件下 ,可以把所有特征项的容错类看 作 是 结 构 化 的 子 集 , 即 对 于 任 意 ti ∈T, P ( Iθ ( ti ) ) = 1 . 从以上定义 ,可以得到在容错空间 R = ( T, I, v, P)上 ,文档 di ∈D的下近似集和上近似集分别为 : LR ( di ) = { tj ∈ T | v ( Iθ ( tj ) , di ) = 1}, (8) UR ( di ) = { tj ∈ T | v ( Iθ ( tj ) , di ) > 0}. (9) 这样 ,文档 di 就可以用它的近似集来表示 ,其 中 ,下近似集 LR ( di )表示 di 的“核心 ”, 上近似集 UR ( di )表示与 di 的特征项有交叉语义的特征项的 集合. 于是 ,可以使用 UR ( di )来表示特征项的容错 类 ,建立文档的容错粗糙模型. 1. 3 特征项容错类生成算法 如前所述 ,特征项容错类就是协同出现的相关 特征项的集合 , 用特征项协同关系矩阵 TOL = [ tolx, y ]M ×M表示 ,具体算法如下 : 算法 1 产生特征项容错类的算法 输入 :文档特征项频率矩阵 TF,协同阈值 θ; 输出 :特征项容错类的二值矩阵 TOL; 1)对文档特征项频率矩阵 TF 进行二值化 ,生 成特征项的二值矩阵 OC: O C = [ oci, j ]N ×M , oci, = 1, 0, tfi, j > 0; 其他. (10) 即在特征项的二值矩阵 OC 中 ,每行表示特征项在 一个文档中是否出现 ,若出现则该列置 1,否则置 0. 2)建立特征项协同出现矩阵 COC: CO C = [ cocx, y ]M ×M , cocx, y = card (OC x AND OC y ). (11) 式中 : OC x、OC y 表示 OC 矩阵中特征项 x、y的列向 量; card表示向量的基; cocx、y表示特征项 x、y的协同 发生频率 ,即在整个文档集中 ,特征项 x、y协同出现 的次数. 3)给定协同出现阈值 θ,在 COC矩阵中过滤数 值小于 θ的特征项 ,就得到特征项容错二值矩阵 : TOLx, y = [ tolx, y ]M ×M , tolx, y = 1, 0, cocx, y ≥θ; 其他. (12) 矩阵的每行给出了一个特征项的容错类 , tolx, y 置 1表示特征项 x、y存在容错关系. 以下实例较好地说明了容错类的含义. 选取 4 篇文档 d1、d2、d3、d4 ,每篇文档用 10个特征项 ti 来 表示 ,例如 , t1 表示“日本 ”, t2 表示“地震 ”,等等. 则 当阈值 θ = 2 时 , 可得到以下特征项的容错类 : I2 ( t1 ) = I2 ( t2 ) = I2 ( t18 ) = { t1 , t2 , t18 },于是得到各 个文档的上近似集如表 1所示. 表 1 4篇文档的上近似集表示 Table 1 Upper approx ima tion s of 4 docum en ts 文 档 特征项集 文档的上近似集 d1 t1 , t2 , t3 , t4 , t5 , t6 , t7 , t8 , t9 , t10 t1 , t2 , t3 , t4 , t5 , t6 , t7 , t8 , t9 , t10 , t18 d2 t1 , t11 , t12 , t2 , t13 , t14 , t15 , t16 , t17 , t18 t1 , t11 , t12 , t2 , t13 , t14 , t15 , t16 , t17 , t18 d3 t1 , t19 , t20 , t21 , t2 , t22 , t18 , t14 , t23 , t24 t1 , t19 , t20 , t21 , t2 , t22 , t18 , t14 , t23 , t24 , t18 d4 t1 , t25 , t26 , t27 , t28 , t29 , t30 , t31 , t32 , t33 t1 , t25 , t26 , t27 , t28 , t29 , t30 , t31 , t32 , t33 , t2 , t18 1. 4 特征项权重计算 计算特征项权重的基本方法涉及到两方面的修 改. 一方面 ,由于事件检测的文档集是动态增加的 , 因此要使用增量 TF2IDF模型 [ 9 ] . 即每经过一个时间 ·114· 智 能 系 统 学 报 第 4卷
第2期 毋非,等:容错粗糙模型的事件检测研究 115· 窗口更新一次模型,在一个时间窗内的更新方式如 上近似集U.(d),因此在计算特征项权重时,还需 下: 要考虑那些出现在文档上近似集中,但不出现在文 6()=6()+6() 13) 档中的特征项.对于这些特征项,由于它本身并没有 式中:D.表示窗口内的文档集,6,()表示在窗口 出现在文档中,因此需要使其权值小于任意一个出 内特征项的文档频率,6:(6)为更新之后的文档 现在d,中的特征项的权值.于是,使用以下扩展权 频率,另一方面,由于在文档表示中使用了特征项的 值计算公式替换一般的TF-DF公式o N (1+ln(a,()))Xn 切'5∈d: n N 6(功 (14) m ingedwa N ,∈UR(d,)/d: 1+n 6(到 0. 其他 式中:w是在文档d,中的权值.此计算公式用d, 则系统的平均漏报率BMs、平均误报率Pa和归一 中特征项的权值的最小值,乘以一个小于1的数,确 化检测开销(CoeN。m如下所示: 保了出现在d,的上近似集中但没有出现在d,中的 RMs=∑Miss/a, (19) 特征项权值,小于任何d,中的特征项权值. 式中:,为话题个数: 文档向量的权值w的归一化方法为 (15) P=∑FA,/, 20) 式中:为话题个数, 15相似度计算 选取相似度计算函数的一个重要标准就是该函 数能否区分描述相同事件和描述不同事件的新闻报 Gae小人n-SBP+CaEa卫et m in(CMiss Purget.CFA,Purget) 道对.基于向量的相似度计算方法有多种,如余弦相 (21) 似度、Hellinger相似度等,文献12指出,余弦相似 式中:(Coon越小,表明系统性能越好,理想情况 度性能最好,也最稳定.因此采用余弦相似度作为向 下,(CDet Nom=0:CM为漏报一个新话题的代价; 量相似度计算函数. C为误报一次的代价:P是目标话题的先验概 率;P7e:=1-PeCM、C和Pag都是预设值, Sm(di.d) (16) 不同的评测中取值不一样,本文中它们的取值分别 M 为10、01、002 22文档预处理 2实验及分析 预处理的内容主要包括按照一定规则生成特征 21评测标准 项.传统的做法是根据文档的词语频率,去掉一定阈 值内的高频词和低频词,去掉停用词之后形成的集 本文依据DT评测标准,采用漏报率Mss、 误报率(EA,)以及归一化开销(Ce小m来评价 合作为特征项集合.但是由于在事件检测过程中,需 要使用增量TF-DF方法动态更新文档频率,这样, 该检测方法的性能,话题的漏报率和误报率定义 为 使用传统的特征项选择方法在计算上会比较复杂。 M1s-未检没到的与话题相关的报道数 本文提出了使用词频词典来选择特征项的方 与话题相关的报道总数 法.对于每篇新闻报道,使用哈工大信息检索研究室 (17) 语言技术平台共享包,进行分词和词性标注.将 检测到的与话题不相关的报道数 标注好的文档中的名词提取出来,作为特征候选集 FA 与话题不相关的报道总数 合,然后根据词频词典,生成相应的向量.若词典中 (18 的词在文档中出现,则在向量中标记该词出现的次 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.htp://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 窗口更新一次模型 ,在一个时间窗内的更新方式如 下 : fD′( ti ) = fD ( ti ) + fD k ( ti ). (13) 式中 : Dk 表示窗口内的文档集 , fD k ( ti )表示在窗口 内特征项 ti 的文档频率 , fD′( ti )为更新之后的文档 频率. 另一方面 ,由于在文档表示中使用了特征项的 上近似集 UR ( di ) ,因此在计算特征项权重时 ,还需 要考虑那些出现在文档上近似集中 ,但不出现在文 档中的特征项. 对于这些特征项 ,由于它本身并没有 出现在文档中 ,因此需要使其权值小于任意一个出 现在 di 中的特征项的权值. 于是 ,使用以下扩展权 值计算公式替换一般的 TF2IDF公式 [ 10211 ] . wij = (1 + ln ( fd i ( tj ) ) ) ×ln N fD ( tj ) , tj ∈ di; m int k∈d i wik × ln N fD ( tj ) 1 + ln N fD ( tj ) , tj ∈UR ( di ) / di; 0, 其他. (14) 式中 :wij是 tj在文档 di 中的权值. 此计算公式用 di 中特征项的权值的最小值 ,乘以一个小于 1的数 ,确 保了出现在 di 的上近似集中但没有出现在 di 中的 特征项权值 ,小于任何 di 中的特征项权值. 文档向量的权值 wij的归一化方法为 wij = wij ∑t k∈UR ( d i ) (wij ) 2 . (15) 1. 5 相似度计算 选取相似度计算函数的一个重要标准就是该函 数能否区分描述相同事件和描述不同事件的新闻报 道对. 基于向量的相似度计算方法有多种 ,如余弦相 似度、Hellinger相似度等 ,文献 [ 12 ]指出 ,余弦相似 度性能最好 ,也最稳定. 因此采用余弦相似度作为向 量相似度计算函数. Sim ( di , dj ) = ∑ M k =1 W ik ×W jk ( ∑ M k =1 W 2 ik ) ×( ∑ M k =1 W 2 jk ) . (16) 2 实验及分析 2. 1 评测标准 本文依据 TDT评测标准 ,采用漏报率 (M issi ) 、 误报率 (FAi )以及归一化开销 ( CDet ) Norm [ 13 ]来评价 该检测方法的性能 ,话题 i的漏报率和误报率定义 为 M issi = 未检没到的与话题 i相关的报道数 与话题 i相关的报道总数 , (17) FAi = 检测到的与话题 i不相关的报道数 与话题 i不相关的报道总数 . (18) 则系统的平均漏报率 PM iss、平均误报率 PFA和归一 化检测开销 (CDet ) Norm如下所示 : PM iss = ∑iM issi / tn , (19) 式中 : tn 为话题个数; PFA = ∑i FAi / tn , (20) 式中 : tn 为话题个数 , (CDet ) Norm = CM iss PM iss Ptarget + CFA PFA P┐target m in (CM iss Ptarget , CFA , Ptarget ) . (21) 式中 : (CDet ) Norm越小 ,表明系统性能越好 ,理想情况 下 , (CDet ) Norm = 0; CM iss为漏报一个新话题的代价; CFA为误报一次的代价; Ptarge t是目标话题的先验概 率; P┐ta rget = 1 - Ptarget; CM iss、CFA和 Ptarget都是预设值 , 不同的评测中取值不一样 ,本文中它们的取值分别 为 1. 0、0. 1、0. 02 . 2. 2 文档预处理 预处理的内容主要包括按照一定规则生成特征 项. 传统的做法是根据文档的词语频率 ,去掉一定阈 值内的高频词和低频词 ,去掉停用词之后形成的集 合作为特征项集合. 但是由于在事件检测过程中 ,需 要使用增量 TF2IDF方法动态更新文档频率 ,这样 , 使用传统的特征项选择方法在计算上会比较复杂. 本文提出了使用词频词典来选择特征项的方 法. 对于每篇新闻报道 ,使用哈工大信息检索研究室 语言技术平台共享包 [ 14 ] ,进行分词和词性标注. 将 标注好的文档中的名词提取出来 ,作为特征候选集 合 ,然后根据词频词典 ,生成相应的向量. 若词典中 的词在文档中出现 ,则在向量中标记该词出现的次 第 2期 毋 非 ,等 :容错粗糙模型的事件检测研究 ·115·
116 智能系统学报 第4卷 数,若没有出现在文档中,则标记为Q这样,每篇文 是机器都很难判断它们是否属于同一个话题 档都表示成为统一维数的向量,整个文档集被表示 另外,使用词频词典作为特征项选择方法虽然减 为特征项矩阵TE.在增量计算的过程中,可以方便 少了增量TF-DF的计算量:但是也增加了特征项矩 地计算词语在所有文档中出现的次数, 阵的稀疏性,这在一定程度上削弱了容错粗糙模型的 词频词典是搜狐研发中心提供的,该词典为 优势.但仍给出一个启示:词典可以经过进一步的降 2006年10月统计的互联网词库,涉及语料规模在1 维处理,同时,可以将词典扩充为带权值的词典,对于 亿页面以上,本文选取了词频在100万以上的高频 某些具有特殊意义的词可以提高权值.在内容安全的 名词作为实验使用的词频词典,共7338个词, 具体应用中,可以根据不同的需求,生成不同的领域 23实验语料集 词典,是实现热点新闻追踪的一个有效手段 实验语料是搜狐研发中心2006年11月提供的 实验结果还表明,容错精度较大时(>3时), 中文互联网语料s,随机选取其中的1500篇,其中 容错粗糙模型有效地降低了系统的错检率」 1000篇作为容错粗糙集的训练集,500篇作为测试 集.人工标注话题15个,将实验所得的话题聚类结 3结束语 果与人工标注话题相比较,得到最后的实验结果」 事件检测是话题检测与跟踪的核心任务,目前 24实验结果及分析 围绕该任务的检测方法有很多种.本文采用了基于 实验过程中使用了迭代Single-Pass算法进行事 特征项协同出现的容错粗糙模型来建立事件检测框 件聚类.为了同一般的V9M作比较,还实现了V9M 架,并对比了该框架使用向量空间模型的结果.实验 下的实验结果.为了探讨容错类精度对检测结果的 结果表明,应用该模型降低了检测代价,改进了系统 影响,实验中取了4个0的值进行对比,结果如表2 性能.但是本文的方法仅仅考虑了名词,在未来工作 所示 中还应该加入更加丰富的文档表示方法.另外,本文 表2实验结果表 尝试使用词频词典来选择特征项的方法,也有待进 Table 2 Experinent results 一步改进 PMiss PEA (CDe Nom 参考文献: 3 03529 003754 05029 [1]ALLEN J,CARBONELL J,DODD NGION G,YAMRON 8 02083 000897 02442 J,YANG Y.Top ic detection and tracking pibt study.final 15 02188 000417 02355 report [C ]//Proceedings of the DARPA Broadcast News 25 02292 000481 02484 Transcrip tion and Understanding Workshop Virginia:Lans- V9M02738 002373 03687 downe,.1998:194-218 [2]CONNELL M,FENG A,KUMARAN G,et al UMass at 从上表可以看出,当容错类精度较小时例如 IDT 2004 [C]//The 7th Top ic Detection and Tracking Con- 0=时),由于生成的容错类中特征项的数量很大, ference Gaithersbury,USA,2004:35-41 因此漏检率和错检率都很高,甚至比向量空间模型 [3 ]NALLAPATIR Semantic language models for opic detec- 高出很多.而随着取值的增大,特征项容错类中词 tion and tracking[C]//Proceed ings of HLT-NAACL 2003 语的个数在减少,可以找到一个比较恰当的范围 Student Research Workshop.Edmonton,CA,2003:16 如0∈[15,25少.在这个范围内,漏检率、错检率 「4苏新宁.信息检索理论与技术M1北京:科学技术文 和识别代价都达到一个稳定的水平,且总体效果优 献出版社,2004:33-35 于使用V9M的识别结果,归一化识别代价最多降低 [5 ]PAWLAK Z Rough sets theoretical aspects of reasoning a- 了312%. bout data [M Dordrecht Kluwer Academ ic Publishers, 1991:9-27. 但是,容错粗糙模型对漏检率的提高十分有限 [6]KOMOROW SKI J,POLKOW SKIL,ANDRZEJ S Rough 经过分析,认为原因是容错类建立的标准有待改进 sets a tutorial,a new trend in decisionmaking [M ]Singa- 本文在生成容错类时,仅考虑了文本中的名词,而新 pore:Springer,Singapore Pte Ltd,1998:2-5. 闻报道中的实体词地点、时间)和动词在事件框架 [7浏清.Rough集及Rough推理[M]北京:科学出版 的构成中占有重要地位,过滤掉这些词后,文档的特 社,2003:11-13 征项对文档的描述准确性会降低.同时,新闻报道本 [8 SKOWRON A,STEPAN UK J.Generalized approxmation 身也存在一定的模糊性,有一些报道无论是人工还 paces[C]//3rd Intemational Workshop on Rough Sets 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 数 ,若没有出现在文档中 ,则标记为 0. 这样 ,每篇文 档都表示成为统一维数的向量 ,整个文档集被表示 为特征项矩阵 TF. 在增量计算的过程中 ,可以方便 地计算词语在所有文档中出现的次数. 词频词典是搜狐研发中心 [ 15 ]提供的 ,该词典为 2006年 10月统计的互联网词库 ,涉及语料规模在 1 亿页面以上. 本文选取了词频在 100万以上的高频 名词作为实验使用的词频词典 ,共 7 338个词. 2. 3 实验语料集 实验语料是搜狐研发中心 2006年 11月提供的 中文互联网语料 [ 15 ] ,随机选取其中的 1 500篇 ,其中 1 000篇作为容错粗糙集的训练集 , 500篇作为测试 集. 人工标注话题 15个 ,将实验所得的话题聚类结 果与人工标注话题相比较 ,得到最后的实验结果. 2. 4 实验结果及分析 实验过程中使用了迭代 Single2Pass算法进行事 件聚类. 为了同一般的 VSM作比较 ,还实现了 VSM 下的实验结果. 为了探讨容错类精度 θ对检测结果的 影响,实验中取了 4个 θ的值进行对比,结果如表 2 所示. 表 2 实验结果表 Table 2 Exper im en t results θ PM iss PFA (CDet ) Norm 3 0. 352 9 0. 037 54 0. 502 9 8 0. 208 3 0. 008 97 0. 244 2 15 0. 218 8 0. 004 17 0. 235 5 25 0. 229 2 0. 004 81 0. 248 4 VSM 0. 273 8 0. 023 73 0. 368 7 从上表可以看出 ,当容错类精度较小时 (例如 θ= 3时 ) ,由于生成的容错类中特征项的数量很大 , 因此漏检率和错检率都很高 ,甚至比向量空间模型 高出很多. 而随着 θ取值的增大 ,特征项容错类中词 语的个数在减少 , 可以找到一个比较恰当的范围 (如 θ∈[ 15, 25 ]). 在这个范围内 ,漏检率、错检率 和识别代价都达到一个稳定的水平 ,且总体效果优 于使用 VSM的识别结果 ,归一化识别代价最多降低 了 31. 2%. 但是 ,容错粗糙模型对漏检率的提高十分有限 , 经过分析 ,认为原因是容错类建立的标准有待改进. 本文在生成容错类时 ,仅考虑了文本中的名词 ,而新 闻报道中的实体词 (地点、时间 )和动词在事件框架 的构成中占有重要地位 ,过滤掉这些词后 ,文档的特 征项对文档的描述准确性会降低. 同时 ,新闻报道本 身也存在一定的模糊性 ,有一些报道无论是人工还 是机器都很难判断它们是否属于同一个话题. 另外,使用词频词典作为特征项选择方法虽然减 少了增量 TF2IDF的计算量;但是也增加了特征项矩 阵的稀疏性,这在一定程度上削弱了容错粗糙模型的 优势. 但仍给出一个启示:词典可以经过进一步的降 维处理,同时 ,可以将词典扩充为带权值的词典,对于 某些具有特殊意义的词可以提高权值. 在内容安全的 具体应用中,可以根据不同的需求,生成不同的领域 词典,是实现热点新闻追踪的一个有效手段. 实验结果还表明 ,容错精度较大时 (θ> 3时 ) , 容错粗糙模型有效地降低了系统的错检率. 3 结束语 事件检测是话题检测与跟踪的核心任务 ,目前 围绕该任务的检测方法有很多种. 本文采用了基于 特征项协同出现的容错粗糙模型来建立事件检测框 架 ,并对比了该框架使用向量空间模型的结果. 实验 结果表明 ,应用该模型降低了检测代价 ,改进了系统 性能. 但是本文的方法仅仅考虑了名词 ,在未来工作 中还应该加入更加丰富的文档表示方法. 另外 ,本文 尝试使用词频词典来选择特征项的方法 ,也有待进 一步改进. 参考文献 : [ 1 ]ALLEN J, CARBONELL J, DODD INGTON G, YAMRON J, YANG Y. Top ic detection and tracking p ilot study: final report [ C ] / /Proceedings of the DARPA Broadcast News Transcrip tion and Understanding Workshop. V irginia: Lans2 downe, 1998: 1942218. [ 2 ]CONNELL M, FENG A, KUMARAN G, et al. UMass at TDT 2004 [C ] / /The 7 th Top ic Detection and Tracking Con2 ference. Gaithersbury, USA, 2004: 35241. [ 3 ]NALLAPATI R. Semantic language models for top ic detec2 tion and tracking[ C ] / /Proceedings of HLT2NAACL 2003 Student Research Workshop. Edmonton, CA, 2003: 126. [ 4 ]苏新宁. 信息检索理论与技术 [M ]. 北京 :科学技术文 献出版社 , 2004: 33235. [ 5 ] PAWLAK Z. Rough sets: theoretical aspects of reasoning a2 bout data [M ]. Dordrecht: Kluwer Academ ic Publishers, 1991: 9227. [ 6 ] KOMOROW SKI J, POLKOW SKI L, ANDRZEJ S. Rough sets: a tutorial, a new trend in decision2making[M ]. Singa2 pore: Sp ringer, Singapore Pte L td, 1998: 225. [ 7 ]刘 清. Rough集及 Rough推理 [M ]. 北京 :科学出版 社 , 2003: 11213. [ 8 ] SKOWRON A, STEPAN IUK J. Generalized app roximation spaces[ C ] / / 3 rd International Workshop on Rough Sets ·116· 智 能 系 统 学 报 第 4卷
第2期 毋非,等:容错粗糙模型的事件检测研究 117· and Soft Computing[s 1 ]1994:156-163 YI Gaoxiang.HU Heping A web search result clustering [9]YANG Y,PIERCE T,CARBONELL J.A study on reto- based on olerance rough set [J].Joumal of Computer Re- spective and on-line event detection C]//Proc of the SH search and Develpment,2006,43(2):275-280 GR'98 Melboume,1998:28-36 作者简介: 10 ]BAO HO T,B NH NGYEN N.Nonhierarchical docu- 毋非,女,1984年生,硕士研究 ment clustering based on a olerance rough set model[J]. 生.主要研究方向为Web新闻内容安 ntemational Joumal of Itelligent Systems,2002,17 (2): 全、信息检索 199-212 [11 ]LANG N C A olerance rough set app roach to clustering web search results [D ]Warsaw:Warsaw University, 2003 [12]YANG Y,CARBON ELL J,JN C.Top ic-conditioned nov- 封化民,男,1963年生,教授,硕士 elty detection[C]//Proceeding of the 8th ACM SIGKDD. 生导师.主要研究方向为多媒体智能信 New York:ACM Press,2002:688-693. 息处理网络安全, 13 The 2003 bpic detection and tracking TDT2003)task definition and evaluation plan EB/OL ][2003-04-211. http://www.nist gov/speech/tests/tdt/td2003 /evalp lan hm [14哈工大信息检索研究室.语言技术平台共享包[B/ 申晓晔,女,1984年生,硕士研究 OL [2008-06-12]htp://ir hit edu cn/. 生.主要研究方向为web新闻内容安 [15搜狗实验室.互联网语料库2006版[B/OL1[2008- 全、舆情倾向性分析 06-12].htp://www sogou com/labs/. [16]惕高翔,胡和平.一种基于容错粗糙集的Wb搜索结果聚 类方法[J]计算机研究与发展,2006,43(2):275-280 第48届EEE决定与控制大会和第28届中国控制大会 48th IEEE Conference on Decision and Control and 28 th Chnese Con trol Conference The combined 48th IEEE Conference on Decision and Control and 28 th Chinese Control Conference will be held during the third week of December,2009 at a location in China This will be the third tme that CDC has been held outside the Unit- ed States in the A sia-Pacific region,and it is very fitting that it is being held in China,where numbers of new IEEE mem- bers are increasing so rap idly China today is one of the most dynam ic and exciting countries in the world With a thriving economy,huge recent investment in education and research,together with an extraordinarily rich history of culture,it is the ideal location for CDC. The annual IEEE Conference on Decision and Control (CDC)is intemationally recognized as the prem ier scientific and engineering conference dedicated to the advancement of the theory and practice of systems and control The CDC brings to- gether an intemational community of researchers and practitioners to discuss new research results,perspectives on future develpments,and innovative applications relevant to decision making,automatic control,and related areas Papers are invited in the fom of regular manuscripts (allotted 6 Proceedings pages).Note that short manuscrpts are not considered Papers must be subm itted through the conference subm ission website PaperPlaza)and must confom to the subm isson policy requiring that all manuscripts be in 2-column fomat and meet strict page lm its For the purpose of re- view only,manuscripts may be up to eight (8)pages long However,nomal length for the final manuscript is lm ited to six(6)pages Papers exceeding the nomal length may be subm itted upon payment of overlength page charges of USD 175.00 for each page in excess of six A maxmum of two extra pages above nomal six are pemitted for regular papers and invited session papers W eb site:http://www.ieeecss org/CAB/conferences/cdc2009/index php?page tmetable 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net and Soft Computing[ s. l. ], 1994: 1562163. [ 9 ] YANG Y, P IERCE T, CARBONELL J. A study on retro2 spective and on2line event detection [ C ] / / Proc of the SI2 GIR’98. Melbourne, 1998: 28236. [ 10 ]BAO HO T, B INH NGUYEN N. Nonhierarchical docu2 ment clustering based on a tolerance rough set model[J ]. International Journal of Intelligent Systems, 2002, 17 (2) : 1992212. [ 11 ]LANG N C. A tolerance rough set app roach to clustering web search results [ D ]. W arsaw: W arsaw University, 2003. [ 12 ]YANG Y, CARBONELL J, J IN C. Top ic2conditioned nov2 elty detection[C ] / /Proceeding of the 8 th ACM SIGKDD. New York: ACM Press, 2002: 6882693. [ 13 ] The 2003 top ic detection and tracking ( TDT2003 ) task definition and evaluation p lan [ EB /OL ]. [ 2003204221 ]. http: / /www. nist. gov/speech / tests/ tdt/ tdt2003 / evalp lan. htm. [ 14 ]哈工大信息检索研究室. 语言技术平台共享包 [ EB / OL ]. [ 2008206212 ]. http: / / ir. hit. edu. cn /. [ 15 ]搜狗实验室. 互联网语料库 2006版 [ EB /OL ]. [ 20082 06212 ]. http: / /www. sogou. com / labs/. [16 ]易高翔 , 胡和平.一种基于容错粗糙集的 Web搜索结果聚 类方法 [J ].计算机研究与发展 , 2006, 43 (2) : 2752280. YI Gaoxiang, HU Hep ing. A web search result clustering based on tolerance rough set [J ]. Journal of Computer Re2 search and Development, 2006, 43 (2) : 2752280. 作者简介 : 毋 非 ,女 , 1984年生 ,硕士研究 生. 主要研究方向为 W eb新闻内容安 全、信息检索. 封化民 ,男 , 1963年生 ,教授 ,硕士 生导师. 主要研究方向为多媒体智能信 息处理、网络安全. 申晓晔 ,女 , 1984 年生 ,硕士研究 生. 主要研究方向为 W eb新闻内容安 全、舆情倾向性分析. 第 48届 IEEE决定与控制大会和第 28届中国控制大会 48 th IEEE Conference on Dec ision and Control and 28 th Ch inese Control Conference The combined 48 th IEEE Conference on Decision and Control and 28 th Chinese Control Conference will be held during the third week of December, 2009 at a location in China. Thiswill be the third time that CDC has been held outside the Unit2 ed States in the Asia2Pacific region, and it is very fitting that it is being held in China, where numbers of new IEEE mem2 bers are increasing so rap idly. China today is one of the most dynamic and exciting countries in the world. W ith a thriving economy, huge recent investment in education and research, together with an extraordinarily rich history of culture, it is the ideal location for CDC. The annual IEEE Conference on Decision and Control (CDC) is internationally recognized as the p remier scientific and engineering conference dedicated to the advancement of the theory and p ractice of systems and control. The CDC brings to2 gether an international community of researchers and p ractitioners to discuss new research results, perspectives on future developments, and innovative app lications relevant to decision making, automatic control, and related areas. Papers are invited in the form of regular manuscrip ts ( allotted 6 Proceedings pages). Note that short manuscrip ts are not considered. Papers must be submitted through the conference submission website ( PaperPlaza) and must conform to the submission policy requiring that all manuscrip ts be in 22column format and meet strict page limits. For the purpose of re2 view only, manuscrip ts may be up to eight (8) pages long. However, normal length for the final manuscrip t is limited to six (6) pages. Papers exceeding the normal length may be submitted upon payment of overlength page charges of USD 175. 00 for each page in excess of six. A maximum of two extra pages above normal six are permitted for regular papers and invited session papers. W eb site: http: / /www. ieeecss. org/CAB / conferences/ cdc2009 / index. php? page = timetable 第 2期 毋 非 ,等 :容错粗糙模型的事件检测研究 ·117·