第2期刘素芹，等：命名实体的网络话题的K-means动态检测方法

正在加载图片...

第2期刘素芹，等：命名实体的网络话题的K-means动态检测方法 ·125· 2)中文分词，主要完成对中文网页文本内容进 4实验结果及分析行词语的自动切分.本模块采用中科院开源ICT CLAS进行处理. 实验数据来自TDT2005标准语料中的中文语 3)命名实体提取，主要在中文分词的基础上完料，包括27142篇新闻报道.评测标准同样采用TDT 成文本中命名实体的提取.在本部分处理中采用本标准评测，主要包括漏报率P和错报率Pa以及文第1.1节的规则修正策略，修正中文分词对命名将漏报率与错报率合并成一个检测开销C及其规实体的切分错误，从而实现文本中命名实体的完整范式Nom(Ct)I9].其计算公式为而准确的提取 CDe=CPmi PCFAPFAP (9) 4)话题向量构造.中文分词之后对停用词进行式中：P为系统的漏报率，PA为系统的错报率，有效去除，对其中的常用字等多频字也进行去除，并 Cmin、Puwt、CFA、Pntge为事先设定值，具体如下：对所得词按照词频进行排序，截取预先设定好的词 Cmise =1.0,Ptrget =0.02,CFA =0.1;Pnontarget =1- 的个数，形成初始词表；从中提取的命名实体及其词 Pagt=0.98. 频信息形成命名实体词表，余下的词形成关键词词为了使得到的性能指标落在更有意义的范围表，并按照本文第1.2节的策略予以加权处理，最终内，因此将Cpt规范化得到Nom(Coa): 构造话题向量。 Norm(Cpa)=Cpa/min(CPCrAP). 5)自相似度K-means聚类.首先选择初始聚类 (10) 质心：将上述所构造的话题向量进行相似度计算，将可以看出，Nom(C)值越小系统的性能越好本计算结果进行排序，选择相似度最小的2个样本s1 文实验结果均采用Micro Averageo计算各项指标与$2作为初始质心，其他样本再按照与初始质心的实验将本文话题检测结果与传统基于增量聚类相似度分别划分到s1与$2所在的类别中，然后分别的话题检测方法[31（增量聚类法）、基于命名实体话计算311与s22,此时聚类类别数K=2.如果出现具题检测方法[4（命名实体法）、基于K-means聚类话有同样最小相似度的其他样本对，则同样重新计算题检测方法(K-means聚类法)话题检测结果相比出以此对样本为质心后各类的平均自相似度'、较，对比结果如表1和图2所示 '2·具体方法二者选其一：表1不同方法话题检测结果对比 ①计算不同样本对作质心后，各类之间的互相 Table 1 Contrast of topic detection results with differ- 似度和s'·比较s,与s'2,取值小的那对样 ent methods % 本作为初始质心增量聚命名实 K-means ②不计算互相似度，仅利用平均自相似度进行检测项目本文方法类法体法聚类法初始质心的选取漏报率 27.8125.63 23.74 20.88 比较(51+52)/(1s1-56m1+182-86h1)与错报率 1.26 1.15 1.10 0.93 (s'1+'2)/(s'1-shI+Is2-saI),选取比值召回率 72.19 74.37 76.26 80.44 较大的那对样本作为初始质心：如果比值相等，则选准确率 72.97 75.17 75.99 81.02 择|s11-82|与1'1-'2|较小的那对样本 F1-Measure 74.33 75.17 77.56 80.73 Norm(CDet) 30.82 29.04 27.83 23.86 这种样本对选择策略有2个好处：既可以尽量 0.35 保证聚类后各类的平均自相似度不能太小，同时也 0.30 避免了选取的样本聚类后2个类的平均自相似度相 Γ0.25 0.20 差太大的情况 0.15 0.10 同样的方法选取下一个质心.聚类后计算每个 0.05 类别的平均自相似度，直到不满足式(8)，停止聚 0 增量、命名K-neans本文方法类，并确定类别数K 聚类法实体法聚类法 6)结果反馈.自相似度K-menas聚类的结果作图24种方法的检测开销对比为话题检测的输出，根据输出结果人工来调整话题 Fig.2 Comparison of four methods of detection of over- 向量构造及自相似度K-menas聚类算法中的参数， head 具体调整包括话题向量构造中的命名实体与关键词从表1和图2的检测结果对比中可以看出，基权重的比例大小及K-means聚类中参数的选释等，于命名实体的网络话题动态检测方法比文献[3]中

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】命名实体的网络话题K-means动态检测方法