第2期 刘素芹,等:命名实体的网络话题的K-means动态检测方法 ·125· 2)中文分词,主要完成对中文网页文本内容进 4实验结果及分析 行词语的自动切分.本模块采用中科院开源ICT CLAS进行处理. 实验数据来自TDT2005标准语料中的中文语 3)命名实体提取,主要在中文分词的基础上完 料,包括27142篇新闻报道.评测标准同样采用TDT 成文本中命名实体的提取.在本部分处理中采用本 标准评测,主要包括漏报率P和错报率Pa以及 文第1.1节的规则修正策略,修正中文分词对命名 将漏报率与错报率合并成一个检测开销C及其规 实体的切分错误,从而实现文本中命名实体的完整 范式Nom(Ct)I9].其计算公式为 而准确的提取 CDe=CPmi PCFAPFAP (9) 4)话题向量构造.中文分词之后对停用词进行 式中:P为系统的漏报率,PA为系统的错报率, 有效去除,对其中的常用字等多频字也进行去除,并 Cmin、Puwt、CFA、Pntge为事先设定值,具体如下: 对所得词按照词频进行排序,截取预先设定好的词 Cmise =1.0,Ptrget =0.02,CFA =0.1;Pnontarget =1- 的个数,形成初始词表;从中提取的命名实体及其词 Pagt=0.98. 频信息形成命名实体词表,余下的词形成关键词词 为了使得到的性能指标落在更有意义的范围 表,并按照本文第1.2节的策略予以加权处理,最终 内,因此将Cpt规范化得到Nom(Coa): 构造话题向量。 Norm(Cpa)=Cpa/min(CPCrAP). 5)自相似度K-means聚类.首先选择初始聚类 (10) 质心:将上述所构造的话题向量进行相似度计算,将 可以看出,Nom(C)值越小系统的性能越好本 计算结果进行排序,选择相似度最小的2个样本s1 文实验结果均采用Micro Averageo计算各项指标 与$2作为初始质心,其他样本再按照与初始质心的 实验将本文话题检测结果与传统基于增量聚类 相似度分别划分到s1与$2所在的类别中,然后分别 的话题检测方法[31(增量聚类法)、基于命名实体话 计算311与s22,此时聚类类别数K=2.如果出现具 题检测方法[4(命名实体法)、基于K-means聚类话 有同样最小相似度的其他样本对,则同样重新计算 题检测方法(K-means聚类法)话题检测结果相比 出以此对样本为质心后各类的平均自相似度'、 较,对比结果如表1和图2所示 '2·具体方法二者选其一: 表1不同方法话题检测结果对比 ①计算不同样本对作质心后,各类之间的互相 Table 1 Contrast of topic detection results with differ- 似度和s'·比较s,与s'2,取值小的那对样 ent methods % 本作为初始质心 增量聚命名实 K-means ②不计算互相似度,仅利用平均自相似度进行 检测项目 本文方法 类法 体法 聚类法 初始质心的选取 漏报率 27.8125.63 23.74 20.88 比较(51+52)/(1s1-56m1+182-86h1)与 错报率 1.26 1.15 1.10 0.93 (s'1+'2)/(s'1-shI+Is2-saI),选取比值 召回率 72.19 74.37 76.26 80.44 较大的那对样本作为初始质心:如果比值相等,则选 准确率 72.97 75.17 75.99 81.02 择|s11-82|与1'1-'2|较小的那对样本 F1-Measure 74.33 75.17 77.56 80.73 Norm(CDet) 30.82 29.04 27.83 23.86 这种样本对选择策略有2个好处:既可以尽量 0.35 保证聚类后各类的平均自相似度不能太小,同时也 0.30 避免了选取的样本聚类后2个类的平均自相似度相 Γ0.25 0.20 差太大的情况 0.15 0.10 同样的方法选取下一个质心.聚类后计算每个 0.05 类别的平均自相似度,直到不满足式(8),停止聚 0 增量、命名K-neans本文方法 类,并确定类别数K 聚类法实体法聚类法 6)结果反馈.自相似度K-menas聚类的结果作 图24种方法的检测开销对比 为话题检测的输出,根据输出结果人工来调整话题 Fig.2 Comparison of four methods of detection of over- 向量构造及自相似度K-menas聚类算法中的参数, head 具体调整包括话题向量构造中的命名实体与关键词 从表1和图2的检测结果对比中可以看出,基 权重的比例大小及K-means聚类中参数的选释等, 于命名实体的网络话题动态检测方法比文献[3]中