第2期 刘素芹,等:命名实体的网络话题的K-means动态检测方法 ·123· 统话题检测方法 抽取特定数目的词作为该文档的特征词,形成最优 词表. 1基于命名实体的话题向量构造 4)拆分特征词表.对特征词表进行扫描,加入 基于命名实体的话题向量构造主要包括对网络 修正规则,实现对其中命名实体的有效提取,将所提 文本中的命名实体提取以及对命名实体赋予一定权 取的命名实体构造成命名实体词表,余下的特征词 重,并将其与关键词合并构成网络话题向量 形成关键词表。 1.1命名实体提取 5)构造话题向量.将所拆分后的词表分别处 命名实体首次作为一个专门术语出现是在消息 理,对命名实体词表和关键词表分别赋予不同的权 理解会议MUC6上[,根据消息理解会议的定义, 重,最终形成话题向量.权重的赋予根据经验值,将 命名实体分为七大类:人名、地名、机构名、日期、时 命名实体词表的权重加大,经过实验验证,命名实体 间、百分数和货币.这些短语都是文本中最基本的信 词表与关键词表的权重比例在3.5:1时效果最佳. 息元素,往往指示了文章的主要内容,在对文本的理 解上,命名实体的作用较之普通文本特征词来说是 2网络话题K-means聚类动态检测方法 非常重要的.因此,对文本中的命名实体进行专门提 在构造的网络话题向量的基础上,检测方法采 取,并予以与普通特征词不同的权重,将命名实体与 用K-means聚类算法,来完成网络话题的动态检测. 普通特征词结合来表示文本,可以有效提高传统特 本部分首先分析K-means聚类算法及其存在的问 征词向量对文本向量的表示,常用的命名实体主要 题,然后针对K-means聚类中K值的确定问题,引人 包括人名、地名、机构名和时间实体 了基于自相似度的最大最小原则?$],利用自相似 在真实文本中,中文句子不是以词为单位的,而 度的自收敛策略来确定K值的选取,解决了K- 是以字为单位.为了降低中文命名实体提取的复杂 means聚类话题检测中预先设定话题个数的问题, 度,常常把分词信息用在中文命名实体提取中,但是 实现了话题的动态检测 分词的错误在命名实体提取过程中如果无法得到纠 2.1 K-means聚类算法 正,会导致错误蔓延.为此,制定了4种规则,以此来 给定d维数据集X={x|x:∈R,i=1,2,…, 修正中文分词导致的命名实体提取时的错误, N},将其聚成K个类别o1,2,…,0x,质心为c1,C2, 第1种规则为合并规则,主要修正长实体在分词 …,cx,其中c=(1/n)∑x,n:是类0:中数据点 时被作为几个连续的实体切分错误以及本属于支配 的个数.聚类目标函数为:J=∑11d(,c), 关系的连续实体切分错误;第2种规则为同指人名规 其中d:(,C)是与c:之间的欧氏距离 则,旨在找到指代同一人名的词,并统一进行提取:第 K-means聚类步骤如下: 3种规则为边界修正规则,主要用于实体切分时丢失 1)从X中随机选择K个初始参照点c1,c2,…,cx; 了自身一部分的错误,此类错误主要为地名提取时, 2)以c1,c2,…,cx为参照点,对X进行划分.满 经常会发现丢失后缀的现象;第4种规则为类型修正 规侧,这种规侧主要用于修正命名实体提取时的类型 足若d(9)=吧(,6),其中=1,2, …,K,i=1,2,…,N,则将x:划分到类①中; 判断错误,地名提取时此类错误经常发生 1.2话题向量构造 3)根据式c:=(1/n:)∑xex,重新计算类的质 利用以上这4种规则对中文词语切分之后的命 心c1,c2,…,cx; 名实体作具体的修正,然后提取新闻文档中的命名 4)若对于任意ie{1,2,…,K},c=c:都成立, 实体,并结合特征词分别赋予不同的权重,以此来完 则算法结束,当前的c,c2,…,c代表最终的聚类 成话题向量的构造.具体构造步骤如下: 结果;否则,令c:=c,重新执行2) 1)预处理.扫描文档,对文档进行分词,进行停 为了防止4)中出现无限循环的情况,通常设置 用词去除处理.经过预处理所得到的词表为文档初 一个固定的阈值h,当对于所有的℃:,都有 始词表。 Ic-c:<h时,算法结束, 2)词频统计.对所提取的每一个特征词进行词 利用K-means聚类实现话题检测需要解决以下 频统计,将词所对应的词频作为该词所对应的权重; 问题: 并根据词频统计结果对初始词表进行排序。 1)聚类类别数K的确定.事先不知道所检测话 3)特征提取.对排序后的词表采取截断处理, 题的个数,所以需要确定K的值