·124: 智能系统学报 第5卷 2)初始质心的选择.K-means是以质心为参照 相似度,如果ie%,且jeo,则sh=,三im 点进行聚类的,质心的选取决定最终所聚话题的核 为类0k和®,的互相似度, 心内容,因此,如何选取聚类初始质心在动态话题检 定义全局平均自相似度门限: 测中尤为重要. sch=max(s,Smin max). (6) 2.2自相似度收敛策略 假设选取了K个质心,各类的平均自相似度分别 假设文本中一个事件为一个文本单元,任意2 为:511,52,…,3x,增加一个质心后,各类的平均自 个文本单元间的距离用余弦相似度来计算.比如文 相似度为:Ⅱ,2,…,5,5(K+1)(K+1) 本单元i的特征向量为x:=(a1,a2,…,an),j的特 定义局部自适应的平均自相似度门限5仙: 征向量为x=(b1,b2,…,bn),则2个文本单元的相 5h=(!+2+…+u+1+ 似度: s'2+…+sx)/2K, (7) sim(,)=(∑a.b)/[sq(∑c2)× 该门限值随每次聚类动态变化, 如果出现 gr(公2)1. (1) (③u+3n+…+3x) 式中:am、bn(1≤m≤n)为文本单元的第m个特征 3n-+州32-+…+3-≥ 对应的权值,n为2个文本单元的特征并集总数. (s1+22+…+5) (Is11-5h1+l52-5h|+…+|5x-5h1) 设聚类样本集合为:X={1,x2,…,xw},N为样 且 本个数.计算所有样本间的相似度simg=sim(x:, x),当i=j,则sim与=1. 5(K+10(K+)≥SGh, (8) 则继续选取下一个质心聚类 定义全局平均相似度: = S∑sim/N(N-1)/2. 3基于命名实体的话题动态检测方法 (2) +1 定义最大最小平均相似度: 基于命名实体的网络话题动态检测的主要思想 3min max =max(simg)+min(sim;)2.(3) 是在文档特征提取上面进行突破,将文本中的命名 式中:i=1,2,…,N-1,=i+1,i+2,…,N 实体和关键词进行分别处理,予以不同的权重,然后 定义平均自相似度,类别®4的平均自相似度: 将二者结合构造话题向量,从话题的向量表示上加 大了命名实体对文档表示的力度,丰富了词对文档 S= n(n4-1)/2,nk=|wkl. (4) 表示的内容.然后在K-means聚类方法中加入了基 式中: 于最大最小的自相似度收敛策略,实现了K-means 聚类方法中的K值的自动选取,从而实现了基于命 Sk=】 ∑simg (5) 名实体的话题动态检测.新方法流程图如下: i与j同为类0s中的样本,因此称sk为类0s自 规则修正 白适应相似度 网页 网页文本 巾文分词 命名实体 话题 集合 内容提取 K-means 动态 聚类 检测 关键词 话题向量构造 绮米反馈 图1基于命名实体的网络话题动态检测流程图 Fig.1 Flow chart of Web topic dynamic detection based on named entities 基于命名实体的话题动态检测的具体步骤如下: 内容,去除包括网页链接、广告、版权信息等网页噪 1)网页文本内容提取,主要完成对半结构化的 声,完成文本内容提取.本文采用实验室已有的基于 网页数据进行结构化处理,从新闻网页中抽取文本 网页树的文本内容提取方法进行