第10卷第2期 智能系统学报 Vol.10 No.2 2015年4月 CAAI Transactions on Intelligent Systems Apr.2015 D0:10.3969/j.issn.1673-4785.201405066 网络出版地址:http://www.enki..net/kcms/detail/23.1538.TP.20150302.1106.006.html 基于概念簇的多主题提取算法 马甲林12,张永军12,王志坚 (1.河海大学计算机与信息学院,江苏南京211100:2.淮阴工学院计算机工程学院,江苏淮安223003) 摘要:现实世界存在着大量的多主题文本,多主题在信息检索、图书情报等领域有着广泛的应用。传统主题提取 算法大多是针对文本整体提取一个主题,且存在缺乏语义信息、向量高维和稀疏等缺陷。以《知网》为知识库,构建 概念向量表示文本,根据概念的语义及上下文背景对同义词进行归并、对多义词进行排歧,并利用概念间语义关系 实现语义相似度计算:在此基础上提出基于概念簇的多主题提取算法MEABCC,该算法通过对概念进行聚类,得到 多个主题簇:在使用K-means算法进行概念聚类时,通过“预设种子”方法对其进行改进,以弥补传统K-means算法 对初始中心的敏感性所引起的时空开销不稳定、结果波动较大的缺陷。实验结果表明,该算法具有较好的准确率、 召回率和F,值。 关键词:语义;稀疏;上下文背景;知识库;概念簇;多主题提取;K-means;MEABCC 中图分类号:TP18文献标志码:A文章编号:1673-4785(2015)02-0261-06 中文引用格式:马甲林,张永军,王志坚.基于概念簇的多主题提取算法[J].智能系统学报,2015,10(2):261-266. 英文引用格式:MA Jialin,ZHANG Yongjun,WANG Zhijian..Muli-topic extraction algorithm based on concept clusters[J].CAAI Transactions on Intelligent Systems,2015,10(2):261-266. Multi-topic extraction algorithm based on concept clusters MA Jialin'2,ZHANG Yongjun'2,WANG Zhijian' (1.College of Computer and Information,Hohai University,Nanjing 211100,China;2.School of Computer Engineering,Huaiyin In- stitute of Technology,Huaian 223003,China) Abstract:There are a large number of multi-topic documents existing in the real world,and the extraction of multi- topic is widely used in the fields of information retrieval,library science and intelligence.In the traditional theme extraction algorithm,in most cases a theme is extracted for the whole text,which lacks of semantic information and has high-dimensional vector and sparse defects.Setting concept vectors to represent text based on the repository of cnki.net,merging synonyms and discriminating polysemy according to the semantic of concepts and context,there- by achieving the computation of semantic similarity in light of the semantic relation among concepts.The multi-topic extraction algorithm based on the concept of clusters (MEABCC)is proposed.The MEABCC acquires multiple top- ics by clustering concepts.The conceptual clustering made by K-means algorithm is improved through the method of presetting "default seed",which makes up the undulating time and space overlay and the unstable results.This happen to be caused by sensitivity to initial centers of traditional K-means algorithm.The experiments showed that MEABCC has good accuracy,recall and F values. Keywords:semantic;sparsity;context;knowledge base;concept clusters;multi-topic extraction;K-means;ME- ABCC 收稿日期:2014-06-01.网络出版日期:2014-03-02 现实世界存在着大量的多主题文本,据统计 基金项目:国家自然科学青年科学基金资助项目(11201168). 通信作者:马甲林.E-mail:majialin(@126.com. 36.85%文章包含多个主题,Sekine和Nobata主持的
第 10 卷第 2 期 智 能 系 统 学 报 Vol.10 №.2 2015 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2015 DOI:10.3969 / j.issn.1673⁃4785.201405066 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20150302.1106.006.html 基于概念簇的多主题提取算法 马甲林1 ,2 ,张永军1, 2 ,王志坚1 (1.河海大学 计算机与信息学院,江苏 南京 211100; 2. 淮阴工学院 计算机工程学院,江苏 淮安 223003) 摘 要:现实世界存在着大量的多主题文本,多主题在信息检索、图书情报等领域有着广泛的应用。 传统主题提取 算法大多是针对文本整体提取一个主题,且存在缺乏语义信息、向量高维和稀疏等缺陷。 以《知网》为知识库,构建 概念向量表示文本,根据概念的语义及上下文背景对同义词进行归并、对多义词进行排歧,并利用概念间语义关系 实现语义相似度计算;在此基础上提出基于概念簇的多主题提取算法 MEABCC,该算法通过对概念进行聚类,得到 多个主题簇;在使用 K⁃means 算法进行概念聚类时,通过“预设种子”方法对其进行改进,以弥补传统 K⁃means 算法 对初始中心的敏感性所引起的时空开销不稳定、结果波动较大的缺陷。 实验结果表明,该算法具有较好的准确率、 召回率和 F1 值。 关键词:语义;稀疏;上下文背景;知识库;概念簇;多主题提取; K⁃means;MEABCC 中图分类号:TP18 文献标志码:A 文章编号:1673⁃4785(2015)02⁃0261⁃06 中文引用格式:马甲林,张永军,王志坚. 基于概念簇的多主题提取算法[J]. 智能系统学报, 2015, 10(2): 261⁃266. 英文引用格式:MA Jialin, ZHANG Yongjun, WANG Zhijian. Multi⁃topic extraction algorithm based on concept clusters[J]. CAAI Transactions on Intelligent Systems, 2015, 10(2): 261⁃266. Multi⁃topic extraction algorithm based on concept clusters MA Jialin 1 ,2 , ZHANG Yongjun 1 ,2 , WANG Zhijian 1 (1. College of Computer and Information, Hohai University, Nanjing 211100,China; 2. School of Computer Engineering, Huaiyin In⁃ stitute of Technology, Huaian 223003, China) Abstract:There are a large number of multi⁃topic documents existing in the real world, and the extraction of multi⁃ topic is widely used in the fields of information retrieval, library science and intelligence. In the traditional theme extraction algorithm, in most cases a theme is extracted for the whole text, which lacks of semantic information and has high⁃dimensional vector and sparse defects. Setting concept vectors to represent text based on the repository of cnki.net, merging synonyms and discriminating polysemy according to the semantic of concepts and context, there⁃ by achieving the computation of semantic similarity in light of the semantic relation among concepts. The multi⁃topic extraction algorithm based on the concept of clusters (MEABCC) is proposed. The MEABCC acquires multiple top⁃ ics by clustering concepts. The conceptual clustering made by K⁃means algorithm is improved through the method of presetting " default seed" , which makes up the undulating time and space overlay and the unstable results. This happen to be caused by sensitivity to initial centers of traditional K⁃means algorithm. The experiments showed that MEABCC has good accuracy, recall and F1 values. Keywords:semantic; sparsity; context; knowledge base; concept clusters; multi⁃topic extraction; K⁃means; ME⁃ ABCC 收稿日期:2014⁃06⁃01. 网络出版日期:2014⁃03⁃02. 基金项目:国家自然科学青年科学基金资助项目(11201168). 通信作者:马甲林. E⁃mail:majialin@ 126.com. 现实世界存在着大量的多主题文本,据统计 36.85%文章包含多个主题,Sekine 和 Nobata 主持的
·262· 智能系统学报 第10卷 一项研究表明,日本新闻文章中的44.62%在谈论多 的基本义原为:DEF={Human l人,*Fondof I喜欢,# 个话题。从文本中提取反映不同观点的多个子主 WhileAway I休闲},所表达的意思是:“爱好者”是个 题,在信息检索、图书情报和信息安全等领域有着非 人,这个人喜欢某个东西,本词语是和休闲相关[刀 常广泛的应用[2]。大多数传统主题提取方法是针 它们之间存在语义相关性。在《知网》中,如果某个 对一篇文章从整体考虑提取一个主题,未能区分出 词只有一个意思,那么这个词对应唯一的概念,而多 文内混杂的多个子主题,文献[3]认为子主题体现 义词往往对应多个概念,为了找到某个多义词在文 在主观句子的语义中,提出CRF模型从主观句子的 中的具体含义,作如下定义: 极性角度提取子主题,该方法以形容词、副词词性判 定义1对于任意中文词汇,在《知网》中描 断句子语义的贬褒极性,未涉及其他语义信息:文献 述其对应概念的DEF的基本义原集为{c,c2,, [4]使用滑动窗口的方法可以从网络评论文本提取 cn},(m>=1)则称co与{c1,c2,…,cn}属于同一 局部子主题,适用于网络评论文本:另外,常用的 个语义类。 LDA(latent Dirichlet allocation)模型提出于2O03年, 语义类不仅与概念对应,而且与描述概念的 该模型虽然目前使用广泛,但LDA是一个完全基于 DEF对应,语义类揭示了词语之间的语义联系,描 统计的方法,在向量空间模型(VSM)下存在向量高 述某个DEF的基本义原在语义上是相关的,某个语 维和稀疏、忽略词汇语义及上下文背景等问题,同时 义类和文章语境相符时,文中很可能出现该语义类 提取过程受到同义词和多义词的干扰,因而在质量 包含的词汇,利用这一语言现象可以消除词汇歧义。 和效率上表现欠佳1。 如图1:多义词“水分”,在语义类包含{“植物”、“土 本研究利用《知网》知识库,采用概念向量模型 壤”、“阳光”、“生长”}中“水分”的含义是指“物体 (CVM)取代传统VSM模型表示文本,同时在CVM 内含有的水”,而在语义类包含{“经济”、“数据”、 模型下同义词将被自动归并,再根据上下文语义相 “增长”、“报告”}中“水分”的含义是指“夹杂不真 关性对多义词进行排歧处理:其次通过计算概念的 实成分” 语义相似度取代传统相似度计算,在此基础上提出 语义类1 语义类2 基于概,念簇的多主题提取算法(MEABCC),该算法 采用无监督学习的方法,通过改进经典K-means算 法对文本概念进行聚类后得到多个子主题簇,其中, 植物 经济 使用“预设种子”方法改进来K-means算法,以弥补 土壤 水 数据 传统K-means算法K个初始中心选择的随机性所引 阳光 分 报告 起的时空开销不稳定、结果波动较大的缺陷。 生长 增长 1 概念向量模型 图1“水分”语义类示意图 文本处理的首要问题是文本表示,本研究以中 Fig.1 The semantic class schematic diagram of 'moisture' 科院计算机语言信息工程研究中心董振东主持创立 由于汉语的复杂性,同一篇文章中一词多义和 的《知网》为知识库,建立基于概念的向量模型来表 同义词的情况非常多,单纯的机械词频统计方法无 示文本。 法处理涉及词汇语义的问题,这是影响文本主题提 1.1同义词和多义词处理 取质量的一个重要因素。为了解决多义词排歧和同 《知网》是一个以汉语和英语词汇所代表的概 义词归并问题,本研究利用《知网》,同义词在概念 念为描述对象,以揭示概念与概念之间以及概念所 映射阶段被归并到同一概念上;多义词对应多个概 具有的属性之间的关系为基本内容的常识知识库。 念,根据语义类成员词和上下文背景的语义相关性 在《知网》中,词汇语义描述被定义为概念。每一个 来为多义词选择适合该文语境的语义类。定位多义 词可以表达为几个概念,概念是由一种知识表示语 词在文中最佳语义类的思路是:如果某个语义类所 言(DEF)来描述,这种用来描述概念的“词汇”又叫 属成员词汇在本篇文中出现权值之和越大,说明该 义原,相比词汇的规模,义原的数量很少。《知网》 语义类比其他语义类更符合文章主题,则该语义类 定义了1500多个义原,分为3类:基本义原、语法 是该多义词的在此文中最合适的语义类。词汇w, 义原和关系义原,DEF中基本义原反映了概念的主 在文章中所含的信息量H(u,)计算公式为)] 要语义,例如:词汇“爱好者”,在《知网》中用DEF H(:)=-TF(e:,ST)×log[p(w:)](1)
一项研究表明,日本新闻文章中的 44.62%在谈论多 个话题。 从文本中提取反映不同观点的多个子主 题,在信息检索、图书情报和信息安全等领域有着非 常广泛的应用[1⁃2] 。 大多数传统主题提取方法是针 对一篇文章从整体考虑提取一个主题,未能区分出 文内混杂的多个子主题,文献[3]认为子主题体现 在主观句子的语义中,提出 CRF 模型从主观句子的 极性角度提取子主题,该方法以形容词、副词词性判 断句子语义的贬褒极性,未涉及其他语义信息;文献 [4]使用滑动窗口的方法可以从网络评论文本提取 局部子主题,适用于网络评论文本;另外,常用的 LDA(latent Dirichlet allocation)模型提出于 2003 年, 该模型虽然目前使用广泛,但 LDA 是一个完全基于 统计的方法,在向量空间模型(VSM)下存在向量高 维和稀疏、忽略词汇语义及上下文背景等问题,同时 提取过程受到同义词和多义词的干扰,因而在质量 和效率上表现欠佳[3⁃5] 。 本研究利用《知网》知识库,采用概念向量模型 (CVM)取代传统 VSM 模型表示文本,同时在 CVM 模型下同义词将被自动归并,再根据上下文语义相 关性对多义词进行排歧处理;其次通过计算概念的 语义相似度取代传统相似度计算,在此基础上提出 基于概念簇的多主题提取算法(MEABCC),该算法 采用无监督学习的方法,通过改进经典 K⁃means 算 法对文本概念进行聚类后得到多个子主题簇,其中, 使用“预设种子”方法改进来 K⁃means 算法,以弥补 传统 K⁃means 算法 K 个初始中心选择的随机性所引 起的时空开销不稳定、结果波动较大的缺陷。 1 概念向量模型 文本处理的首要问题是文本表示,本研究以中 科院计算机语言信息工程研究中心董振东主持创立 的《知网》为知识库,建立基于概念的向量模型来表 示文本。 1.1 同义词和多义词处理 《知网》是一个以汉语和英语词汇所代表的概 念为描述对象,以揭示概念与概念之间以及概念所 具有的属性之间的关系为基本内容的常识知识库。 在《知网》中,词汇语义描述被定义为概念 。 每一个 词可以表达为几个概念,概念是由一种知识表示语 言(DEF)来描述,这种用来描述概念的“词汇”又叫 义原,相比词汇的规模,义原的数量很少。 《知网》 定义了 1 500 多个义原,分为 3 类:基本义原、语法 义原和关系义原,DEF 中基本义原反映了概念的主 要语义,例如:词汇“爱好者”,在《知网》 中用 DEF 的基本义原为:DEF = {Human | 人,∗Fondof | 喜欢,# WhileAway |休闲},所表达的意思是:“爱好者”是个 人,这个人喜欢某个东西,本词语是和休闲相关[7] , 它们之间存在语义相关性。 在《知网》中,如果某个 词只有一个意思,那么这个词对应唯一的概念,而多 义词往往对应多个概念,为了找到某个多义词在文 中的具体含义,作如下定义: 定义 1 对于任意中文词汇 c0 ,在《知网》中描 述其对应概念的 DEF 的基本义原集为{ c1 ,c2 ,…, cm },(m > = 1) 则称 c0 与{ c1 ,c2 ,…,cm } 属于同一 个语义类。 语义类不仅与概念对应,而且与描述概念的 DEF 对应,语义类揭示了词语之间的语义联系,描 述某个 DEF 的基本义原在语义上是相关的,某个语 义类和文章语境相符时,文中很可能出现该语义类 包含的词汇,利用这一语言现象可以消除词汇歧义。 如图 1:多义词“水分”,在语义类包含{“植物”、“土 壤”、“阳光”、“生长”}中“水分”的含义是指“物体 内含有的水”,而在语义类包含{“经济”、“数据”、 “增长”、“报告”} 中“水分” 的含义是指“夹杂不真 实成分”。 图 1 “水分”语义类示意图 Fig.1 The semantic class schematic diagram of ′moisture′ 由于汉语的复杂性,同一篇文章中一词多义和 同义词的情况非常多,单纯的机械词频统计方法无 法处理涉及词汇语义的问题,这是影响文本主题提 取质量的一个重要因素。 为了解决多义词排歧和同 义词归并问题,本研究利用《知网》,同义词在概念 映射阶段被归并到同一概念上;多义词对应多个概 念,根据语义类成员词和上下文背景的语义相关性 来为多义词选择适合该文语境的语义类。 定位多义 词在文中最佳语义类的思路是:如果某个语义类所 属成员词汇在本篇文中出现权值之和越大,说明该 语义类比其他语义类更符合文章主题,则该语义类 是该多义词的在此文中最合适的语义类。 词汇 wi 在文章中所含的信息量 H(wi)计算公式为[7] H(wi) = - TF(wi,ST) × log[p(wi)] (1) ·262· 智 能 系 统 学 报 第 10 卷
第2期 马甲林,等:基于概念簇的多主题提取算法 ·263· 式中:ST表示待处理文本,TF(0:,ST)表示词汇w: 情况不符,众所周知,文献中各个词汇之间存在着复 在文中出现的频率,P(0:)为词心,的概率分布。 杂的语义联系。利用《知网》知识库,构建概念向 定义2多义词c,它的第i个语义类L权值为列 量模型来表示文本,可以建立起词汇之间语义联系, C(L)=∑H(,)×lg,n 为后续进一步的语义计算提供了可能。CVM构建过 (2) j=1 程首先对文本进行分词和预处理后得到文本的特征 式中:n为某个语义类L:成员词在文中出现的个数。 集,然后对特征集中的每个特征进行概念映射:特征 语义类权值越大,该语义类成员词对文章主题的贡 词到概念的映射过程中大量的同义词被归并到相同 献越大。 的概念中,实现了强度较大的降维:其次利用《知网》 定义3多义词c,在《知网》中对应多个语义 概念描述语义的特点,根据语义类和上下文背景的相 类,选择符合该文背景的最佳语义类公式为 关性,实现多义词排歧,其构建算法如下。 Best Max(Cwcigh(L)) (3) 算法1概念向量构建算法 1.2概念向量构建算法 输入:文本T; 传统基于特征词的向量空间模型(VSM),认为向 输出:文本T的概念向量T。 量是正交的,即词汇之间互不相关。显然,这和现实 T=[(G1,(C1,…,C)(G2,(C2,…,C))…(Gg,(Cg,…,Ck)]。 步骤如下: 采用如下步骤为Cm进行多义词排歧: 1)使用中科院ICTCLAS分词系统对T进行分 For i=1 to p 词后得T=[C:C2…C.]; 2)利用信息增益(1G)初步提取T特征后得到 利用式(1)计算语义类L所有成员词汇的信息量: T=[C1C2…Cm],其中m≤n; 利用式(2)计算L权值: 3)依次查询《知网》知识库,对特征词进行概念 映射: Next i; ①查询《知网》,若T的特征词C对应唯一的 利用式(3)为C.选择最佳语义类,最终将T 概念,则C.为单义词或同义词,直接获取C的概 的所有特征映射为概念,T。= 念,转至4); [(C,G)(C2,G2)…(Cm,Gm)]: ②:若Cm对应多个概念,则Cm为多义词,所以 4)对T。按照概念进行整理合并得到: C对应多个语义类表示为{L,L2,…,Ln}(p≥1), Tc=[(G1,(C,…,C:))(G2,(C2,…,C))…(Gg,(Cg,…,C)] 式中:G,为Tc集合中无重复的概念,q,i,j,k≤ 5)输出文本T对应概念向量T m:/现实同义概念的归并: T=[(G,(C1,…,C:)(G2,(C2,…,C))…(G。,(Cg,…,C4))]。 标,涉及到词语的词法、句法、语义甚至语用等多方 2多主题提取算法 面的信息。其中,对词语相似度影响最大的是词的 对于单主题提取,机械统计的主题提取方法通过 语义。在《知网》中,词汇被描述为概念,词汇的相 词频统计按照权值大小抽取主题句,能够得到质量达 似度计算就转化为对概念的相似度计算。词语距离 到简单应用级别的主题句6。然而,现实中存在着大 与词语相似度之间有着密切的关系。2个词语的距 量的多主题文献,单纯的统计方法无法抽取多主题。 离越大,其相似度越低:反之,2个词语的距离越小, 本研究提出的MEABCC多主题提取方法是以1.2节 其相似度越大[)。 提出的概念向量来表示文本,利用《知网》中义原的树 《知网》通过多个义原来描述概念,义原之间存 形层次体系结构计算义原相似度,进而计算概念的相 在着各种复杂的关系,如:上下位关系、同义关系、对 似度,然后通过改进K-means算法对组成文本的概念 义关系等。其中,最重要的是上下位关系,所有的义 进行聚类,形成多个子主题概念簇。 原根据上下位关系构成了一个树状的义原层次体 2.1概念相似度计算 系,所以可以通过计算义原距离得到概念的距离进 相似度是衡量2个词汇语义关系的一个重要指 而获得概念的相似度[)。假设2个义原在义原树
式中:ST 表示待处理文本,TF(wi,ST) 表示词汇 wi 在文中出现的频率,P(wi)为词 wi的概率分布。 定义2 多义词c,它的第i 个语义类Li权值为[7] CWeight(Li) = ∑ n j = 1 H(wj) × log2 n (2) 式中:n 为某个语义类 Li成员词在文中出现的个数。 语义类权值越大,该语义类成员词对文章主题的贡 献越大。 定义 3 多义词 c,在《知网》 中对应多个语义 类,选择符合该文背景的最佳语义类公式为 Best cLi = Max(CWeight(Li)) (3) 1.2 概念向量构建算法 传统基于特征词的向量空间模型(VSM),认为向 量是正交的,即词汇之间互不相关。 显然,这和现实 情况不符,众所周知,文献中各个词汇之间存在着复 杂的语义联系[5] 。 利用《知网》知识库,构建概念向 量模型来表示文本,可以建立起词汇之间语义联系, 为后续进一步的语义计算提供了可能。 CVM 构建过 程首先对文本进行分词和预处理后得到文本的特征 集,然后对特征集中的每个特征进行概念映射;特征 词到概念的映射过程中大量的同义词被归并到相同 的概念中,实现了强度较大的降维;其次利用《知网》 概念描述语义的特点,根据语义类和上下文背景的相 关性,实现多义词排歧,其构建算法如下。 算法 1 概念向量构建算法 输入:文本 T; 输出:文本 T 的概念向量 T。 T = [(G1 ,(C1 ,…, Ci)) (G 2 ,(C2 ,…, Cj)) … (G q,(Cq,…, Ck))]。 步骤如下: 1)使用中科院 ICTCLAS 分词系统对 T 进行分 词后得 T = [C1 C2 … Cn ]; 2)利用信息增益( IG)初步提取 T 特征后得到 T = [C1 C2 … Cm ],其中 m≤n; 3)依次查询《知网》知识库,对特征词进行概念 映射; ①查询《知网》,若 T 的特征词 Cm对应唯一的 概念,则 Cm 为单义词或同义词,直接获取 Cm 的概 念,转至 4); ②: 若 Cm对应多个概念,则 Cm为多义词,所以 Cm对应多个语义类表示为{ L1 ,L2 ,…,Lp} ( p≥1) , 采用如下步骤为 Cm进行多义词排歧: For i = 1 to p { 利用式(1)计算语义类 Li所有成员词汇的信息量; 利用式(2)计算 Li权值; } Next i; 利用式(3) 为 Cm选择最佳语义类,最终将 T 的 所 有 特 征 映 射 为 概 念, TG = [(C1 ,G1 ) (C2 , G2 ) … (Cm , Gm )]; 4)对 TG 按照概念进行整理合并得到: TG = [(G1 ,(C1 ,…, Ci)) (G2 ,(C2 ,…, Cj)) … (Gq,(Cq,…, Ck))] 式中:Gq 为 TG 集合中无重复的概念, q, i, j, k ≤ m; / / 现实同义概念的归并; 5)输出文本 T 对应概念向量 T T = [(G1 ,(C1 ,…, Ci)) (G2 ,(C2 ,…, Cj)) … (Gq,(Cq,…, Ck))]。 2 多主题提取算法 对于单主题提取,机械统计的主题提取方法通过 词频统计按照权值大小抽取主题句,能够得到质量达 到简单应用级别的主题句[6] 。 然而,现实中存在着大 量的多主题文献,单纯的统计方法无法抽取多主题。 本研究提出的 MEABCC 多主题提取方法是以 1.2 节 提出的概念向量来表示文本,利用《知网》中义原的树 形层次体系结构计算义原相似度,进而计算概念的相 似度,然后通过改进 K⁃means 算法对组成文本的概念 进行聚类,形成多个子主题概念簇。 2.1 概念相似度计算 相似度是衡量 2 个词汇语义关系的一个重要指 标,涉及到词语的词法、句法、语义甚至语用等多方 面的信息。 其中,对词语相似度影响最大的是词的 语义。 在《知网》中,词汇被描述为概念,词汇的相 似度计算就转化为对概念的相似度计算。 词语距离 与词语相似度之间有着密切的关系。 2 个词语的距 离越大,其相似度越低;反之,2 个词语的距离越小, 其相似度越大[8] 。 《知网》通过多个义原来描述概念,义原之间存 在着各种复杂的关系,如:上下位关系、同义关系、对 义关系等。 其中,最重要的是上下位关系,所有的义 原根据上下位关系构成了一个树状的义原层次体 系, 所以可以通过计算义原距离得到概念的距离进 而获得概念的相似度[9] 。 假设 2 个义原在义原树 第 2 期 马甲林,等:基于概念簇的多主题提取算法 ·263·
·264. 智能系统学报 第10卷 层次体系中的路径距离为d,d的计算过程如下: 统,以及领域受限等问题导致应用困难[]」 设义原集中的任意一个义原为w:,L:为义原: 本研究提出了基于概念簇的多主题提取算法 在概念树中的深度,a为距离初始阈值,b为满足不 (MEABCC),其思路是:利用《知网》知识库丰富的 等式max(L)<a/b的一个正实数,则w,与其父节点 语义信息,将文本表示成为概念向量模型,改进K- 的距离定义为[町 means算法对概念进行语义聚类,形成多个子主题 d(w;,parent(w:))=a -Lb (4) 概念簇,进而得到文章对应的多个子主题关键词集。 任意2个义原0:、心,之间的距离定义为[列 聚类算法有很多种,最典型有效的划分法之一 d(w;,w;)=og.[a -max(Li,L;)b](5) 是K-means,K-means算法是从样本中随机取出K个 式中:ω:表示第k种关系对应的权重,通常取 样本作为初始聚类中心,再通过迭代,计算每个类的 ωk≥1。可以验证,上述定义符合对距离函数的数 中心,每个样本被归入到最近的中心,重新计算类中 学要求,式(4)、(5)反映出义原在义原层次树中的 心,直到类中心不再改变。使用K-means算法进行 位置越深,二者之间的距离越小,即越相似。 聚类,首先要选取k个点作为初始聚类中心,然后进 定义4任意2个义原(0:,w)之间的语义相 行反复的迭代,由于初始中心选择具有随机性,会导 似度为[到 致结果和耗时随不同的初始输入而波动,从而引起 算法不可预测的复杂度。为了解决这一问题,借 Sim(w:,0;)= (6) d(e:,0)+8 鉴传统基于统计的主题提取思想,文章的主题很大 式中:d是,和0,在义原层次体系中的路径长度,是 程度上反映在词共现上,做进一步的延伸,文章中的 一个正整数。0是一个可调节的参数。 同义词往往围绕某一个主题,而同义词在概念向量 定义5设概念U和V分别由义原组(P1, 模型中表现为同一个概念,因而在多主题提取中,本 P2,…,Pn)和(p1,P2,…,Pm)描述,则U、V相似 研究提出根据概念向量中每个概念包含文章词的个 度为 数大小进行排序,选取包含文章词个数最多的前K (U,V) 个概念作为K-means聚类的初始中心的“预设种 Sim(U,V)= (7) w(U,)·(V, 子”,这种方法可以克服K-means算法的对初始中 式中:(U,)=立Sim(p.,)。 心的敏感性。 定义7概念集C由概念集合{C1,C2,…, 定义6 概念U由义原组(P1,P2,…,Pn)表 C.}组成,则C中心点为列 示,概念集C由概念集合{C1,C2,…,Cm}组成,概 念U和概念集C的相似度定义为U和C中所有概 i=1 certerC (9) 念相似度的最大值]: Sim(U,C)=MaxSim(U,C;)I C;E C(8) 式(9)由计算文本集合中心点的方法所得。 2.2 MEABCC算法 基于概念簇的多主题提取算法具体步骤如下: 当前主题提取的方法主要有2类:基于机械统 算法2基于概念簇的多主题提取算法 计的方法和基于语法语义分析的方法。统计的方法 基本流程如下: 能够有效利用文章表层信息抓住文章关键词汇,收 输入:文本T,聚类的个数参数k,主题个数k1, 集文章原句输出主题,优点是通用性好,适用于非受 其中k,<k<n: 限区域,然而,其几乎完全忽略词汇语义信息,难以 输出:T的k,个子主题句集合{(st1,st2,…, 得到质量较高的主题,且不易提取多主题。基于语 stiu),(S21,s2,…,2),(11,512,…,st1e)}。 法语义分析的主题提取方法被认为比传统的基于机 步骤如下: 械统计的方法更符合语言规律,提取的主题质量较 1)调用算法1得到文本T的语义概念向量T 高,但其要求极高的人工智能技术和完备的专家系 T=[(G1,(c1,…,c:))(G2,(c2…,c))…(Gg,(cg,…,c4))] 2)从T中选择K个包含词汇数目最多的概念 类中心的相似度,将对应概念分配到相似度最大的 作为聚类初始类中心Tz=[Gm1G2…Gmt], 类中: 其中mk≤q: 4)利用式(9)重新计算各类的中心点; 3)根据相似度计算式(8)计算每个概念与K个 5)重复3)和4)直到类的中心点不再改变,得
层次体系中的路径距离为 d,d 的计算过程如下: 设义原集中的任意一个义原为 wi,Li为义原 wi 在概念树中的深度,a 为距离初始阈值,b 为满足不 等式 max(L)<a / b 的一个正实数,则 wi与其父节点 的距离定义为[9] d(wi,parent(wi)) = a - Li b (4) 任意 2 个义原 wi、wj之间的距离定义为[9] d(wi,wj) = ωk .[a - max(Li,Lj)b] (5) 式中: ωk 表示第 k 种 关 系 对 应 的 权 重, 通 常 取 ωk ≥1。 可以验证,上述定义符合对距离函数的数 学要求,式(4)、(5)反映出义原在义原层次树中的 位置越深,二者之间的距离越小,即越相似。 定义 4 任意 2 个义原(wi,wj)之间的语义相 似度为[9] Sim(wi,wj) = θ d(wi,wj) + θ (6) 式中:d 是 wi和 wj在义原层次体系中的路径长度,是 一个正整数。 θ 是一个可调节的参数。 定义 5 设概念 U 和 V 分别由义原组( pu1 , pu 2 ,…, pu n )和(pv 1 , pv 2 ,…, pv m )描述,则 U、V 相似 度为 Sim(U,V) = (U,V) (U,U)·(V,V) (7) 式中: (U,V) = ∑ n i ∑ m j Sim(pui ,pvj ) 。 定义 6 概念 U 由义原组( p1 , p2 ,…, pn ) 表 示,概念集 C 由概念集合 { C1 ,C2 , …,Cm } 组成,概 念 U 和概念集 C 的相似度定义为 U 和 C 中所有概 念相似度的最大值[7] : Sim(U,C) = Max{Sim(U,Ci) | Ci ∈ C} (8) 2.2 MEABCC 算法 当前主题提取的方法主要有 2 类:基于机械统 计的方法和基于语法语义分析的方法。 统计的方法 能够有效利用文章表层信息抓住文章关键词汇,收 集文章原句输出主题,优点是通用性好,适用于非受 限区域,然而,其几乎完全忽略词汇语义信息,难以 得到质量较高的主题,且不易提取多主题。 基于语 法语义分析的主题提取方法被认为比传统的基于机 械统计的方法更符合语言规律,提取的主题质量较 高,但其要求极高的人工智能技术和完备的专家系 统,以及领域受限等问题导致应用困难[10] 。 本研究提出了基于概念簇的多主题提取算法 (MEABCC),其思路是:利用《知网》 知识库丰富的 语义信息,将文本表示成为概念向量模型,改进 K⁃ means 算法对概念进行语义聚类,形成多个子主题 概念簇,进而得到文章对应的多个子主题关键词集。 聚类算法有很多种,最典型有效的划分法之一 是 K⁃means,K⁃means 算法是从样本中随机取出 K 个 样本作为初始聚类中心,再通过迭代,计算每个类的 中心,每个样本被归入到最近的中心,重新计算类中 心,直到类中心不再改变。 使用 K⁃means 算法进行 聚类,首先要选取 k 个点作为初始聚类中心,然后进 行反复的迭代,由于初始中心选择具有随机性,会导 致结果和耗时随不同的初始输入而波动,从而引起 算法不可预测的复杂度[11] 。 为了解决这一问题,借 鉴传统基于统计的主题提取思想,文章的主题很大 程度上反映在词共现上,做进一步的延伸,文章中的 同义词往往围绕某一个主题,而同义词在概念向量 模型中表现为同一个概念,因而在多主题提取中,本 研究提出根据概念向量中每个概念包含文章词的个 数大小进行排序,选取包含文章词个数最多的前 K 个概念作为 K⁃means 聚类的初始中心的“预设种 子”,这种方法可以克服 K⁃means 算法的对初始中 心的敏感性。 定义 7 概念集 C 由概念集合{ C1 ,C2 ,…, Cn }组成,则 C 中心点为[7] certerC = ∑ n i = 1 Ci n (9) 式(9)由计算文本集合中心点的方法所得。 基于概念簇的多主题提取算法具体步骤如下: 算法 2 基于概念簇的多主题提取算法 基本流程如下: 输入:文本 T,聚类的个数参数 k,主题个数 k1 , 其中 k1<k<n; 输出:T 的 k1 个子主题句集合{( st 11 ,st 12 , …, st 1u ),( st 21 ,st 22 , …,st 2v), …(st k11 ,st k12 , …,st k1w )}。 步骤如下: 1)调用算法 1 得到文本 T 的语义概念向量 T T = [(G1 ,(c1 ,…, ci)) (G 2 ,(c2…, cj)) … (G q,(cq,…, ck))] 2)从 T 中选择 K 个包含词汇数目最多的概念 作为聚类初始类中心 TZ = [G m1 G m2 … G mk], 其中 mk≤q; 3)根据相似度计算式(8)计算每个概念与 K 个 类中心的相似度,将对应概念分配到相似度最大的 类中; 4)利用式(9)重新计算各类的中心点; 5)重复 3)和 4)直到类的中心点不再改变,得 ·264· 智 能 系 统 学 报 第 10 卷
第2期 马甲林,等:基于概念簇的多主题提取算法 ·265. 到K个类别的概念集:{{},{D2},…,{D}}; 值,分析图2的F,指标,从综合指标F,的趋势上 6)选择包含概念个数最多的前k,个概念集合, 看,F,的最高点出现在k=7时,所以算法2在本实 得到组成k,个子主题的概念集合:{{},{D}, 验样本对象下最适合的取值是k=7,需要说明的是 …,{中,},进而得到k子主题对应文章中k,个关 k的取值是和要处理的文章的有关。 键词汇集合:{(c1,C2,…,Ci),(C2,C2,…,C), 3.2算法测试 (C1,C2,…,C)}。 为了测试通过“预设种子”的方法改进K-means 3实验及结果分析 算法提取多主题的质量,实验样本仍然为预备的 500篇文档,采用3.1节参数实验中获得的结果,取 目前还没有已标注主题的中文文本标准语料 k=7,子主题个数k,为3,首先采用传统K-means算 库,复旦大学自然语言处理实验室的公开的标准语 法,随即产生k个初始中心的方法实验5次,和ME 料库共包含20个类别,19637篇文档,但均未标注 ABCC提取主题结果统计如表1所示。 主题,考虑到工作量因素,本研究从该语料库5个类 表1K-means和MEABCC多主题提取结果统计 别中选择篇幅较长、多主题特征较为明显的500篇 Table 1 K-means and MEABCC more topic extraction re- 文档,经从事汉语言工作的专业人员进行多主题词 sult statistics 标注后作为实验样本。实验结果评判采用通用的准 算法1指标次数准确率/%召回率/%F,/%耗时 确率(P)、召回率(R)和综合指标F,。 第1次 61.3 56.8 59.0 351" 反映主题的主题句数量 P= 第2次 76.8 65.1 70.5 673 抽取出的主题句总数 K-means 第3次 49.4 52.3 50.8 521" R= 抽取出的主题句的数量 文本中实际主题句总数 第4次 78.9 57.7 66.7 8'01" 2PR 第5次 50.1 68.0 57.7 421" F=P+R MEABCC 1次 81.7 68.9 74.83'39 3.1参数估计 从表1数据可以看出,传统K-means在5次随 为了得到算法2中初始聚类簇参数k的最恰当 即产生初始中心的情况下,结果的准确率、召回率以 的值,根据测试样本的实际篇幅长短、文章结构等情 及综合指标F,值都非常不稳定,算法耗时变化较 况,经汉语专业人士分析,每篇样本抽取子主题个数 大,这是由于传统的K-means算法对初始聚类中心 k,的值取3,并人工为每篇样本标注了3个子主题作 较敏感,导致结果和耗时随不同的初始输入波动较 为标准值,在k,=3的情况下实验分析k取值,图2 大。为消除这种缺陷,本研究结合主题提取特点,每 反映出k在不同取值下准确率、召回率和F,的变化 个主题往往包含多个具有相同概念的词,概念成员 情况。 词构成了一个围绕该概念的语义中心,因而可根据 100r 80 概念在文中出现成员词的数量大小,预设出可能性 60 尔 40E 最大的K个初始中心,从而改进K-means,不但提取 20H +P+R+F 的主题质量较高,算法的执行效率也有较大的提高。 0345678910市121314T5 4 结束语 图2不同k值下P、R和F:变化 Fig.2 The accuracy and recall rate and F under 向量空间模型下的传统主题提取方法忽略词语 different 间的语义联系,缺乏语义信息,提取的主题质量不 高,不适合提取多主题。本研究利用《知网》,构建 由图2可以看出,每篇样本抽取3个子主题的 概念向量模型来表示文本,对同义词进行归并,对多 情况下,MEABCC算法随着k值的增大提取主题的 义词进行语义排歧;实现了概念的语义相似度计算: 准确率不断提高,而召回率在降低,这是由于k值增 采用无监督学习的方法,提出基于概念簇的多主题 大导致聚类簇细化,所以准确率逐渐上升:通常情况 提取算法(MEABCC),该算法通过合理“预设初 下算法召回率是确定的,但在本实验中,随着k值的 值”,改进经典K-means后对概念进行聚类,得到多 增大类别不断细化,在选取前3个(k1=3)最大子主 个子主题簇。实验测试结果反映出MEABCC算法 题的时,引起了召回率下降:为了找到最合适的k 效果和效率均较优
到 K 个类别的概念集:{{ Ф1 },{Ф2 },…,{Фk }}; 6)选择包含概念个数最多的前 k1个概念集合, 得到组成 k1个子主题的概念集合:{{ Ф1 }, {Ф2 }, …,{ Фk1 }},进而得到 k1子主题对应文章中 k1 个关 键词汇集合:{(c11 ,c12 ,…,c1i),( c21 ,c22 ,…,c2j),… (ck1 1 ,ck1 2 ,…,ck1 t)}。 3 实验及结果分析 目前还没有已标注主题的中文文本标准语料 库,复旦大学自然语言处理实验室的公开的标准语 料库共包含 20 个类别,19 637 篇文档,但均未标注 主题,考虑到工作量因素,本研究从该语料库 5 个类 别中选择篇幅较长、多主题特征较为明显的 500 篇 文档,经从事汉语言工作的专业人员进行多主题词 标注后作为实验样本。 实验结果评判采用通用的准 确率(P)、召回率(R)和综合指标 F1 。 P = 反映主题的主题句数量 抽取出的主题句总数 R = 抽取出的主题句的数量 文本中实际主题句总数 F1 = 2PR P + R 3.1 参数估计 为了得到算法 2 中初始聚类簇参数 k 的最恰当 的值,根据测试样本的实际篇幅长短、文章结构等情 况,经汉语专业人士分析,每篇样本抽取子主题个数 k1的值取 3,并人工为每篇样本标注了 3 个子主题作 为标准值,在 k1 = 3 的情况下实验分析 k 取值,图 2 反映出 k 在不同取值下准确率、召回率和 F1 的变化 情况。 图 2 不同 k 值下 P、R 和 F1 变化 Fig.2 The accuracy and recall rate and F1 under different k 由图 2 可以看出,每篇样本抽取 3 个子主题的 情况下,MEABCC 算法随着 k 值的增大提取主题的 准确率不断提高,而召回率在降低,这是由于 k 值增 大导致聚类簇细化,所以准确率逐渐上升;通常情况 下算法召回率是确定的,但在本实验中,随着 k 值的 增大类别不断细化,在选取前 3 个(k1 = 3)最大子主 题的时,引起了召回率下降;为了找到最合适的 k 值,分析图 2 的 F1 指标,从综合指标 F1 的趋势上 看, F1 的最高点出现在 k = 7 时,所以算法 2 在本实 验样本对象下最适合的取值是 k = 7,需要说明的是 k 的取值是和要处理的文章的有关。 3.2 算法测试 为了测试通过“预设种子”的方法改进 K⁃means 算法提取多主题的质量,实验样本仍然为预备的 500 篇文档,采用 3.1 节参数实验中获得的结果,取 k = 7,子主题个数 k1为 3,首先采用传统 K⁃means 算 法,随即产生 k 个初始中心的方法实验 5 次,和 ME⁃ ABCC 提取主题结果统计如表 1 所示。 表 1 K⁃means 和 MEABCC 多主题提取结果统计 Table 1 K⁃means and MEABCC more topic extraction re⁃ sult statistics 算法\指标 次数 准确率/ % 召回率/ % F1 / % 耗时 第 1 次 61.3 56.8 59.0 3′51″ 第 2 次 76.8 65.1 70.5 6′73′ K⁃means 第 3 次 49.4 52.3 50.8 5′21″ 第 4 次 78.9 57.7 66.7 8′01″ 第 5 次 50.1 68.0 57.7 4′21″ MEABCC 1 次 81.7 68.9 74.8 3′39″ 从表 1 数据可以看出,传统 K⁃means 在 5 次随 即产生初始中心的情况下,结果的准确率、召回率以 及综合指标 F1 值都非常不稳定,算法耗时变化较 大,这是由于传统的 K⁃means 算法对初始聚类中心 较敏感,导致结果和耗时随不同的初始输入波动较 大。 为消除这种缺陷,本研究结合主题提取特点,每 个主题往往包含多个具有相同概念的词,概念成员 词构成了一个围绕该概念的语义中心,因而可根据 概念在文中出现成员词的数量大小,预设出可能性 最大的 K 个初始中心,从而改进 K⁃means,不但提取 的主题质量较高,算法的执行效率也有较大的提高。 4 结束语 向量空间模型下的传统主题提取方法忽略词语 间的语义联系,缺乏语义信息,提取的主题质量不 高,不适合提取多主题。 本研究利用《知网》,构建 概念向量模型来表示文本,对同义词进行归并,对多 义词进行语义排歧;实现了概念的语义相似度计算; 采用无监督学习的方法,提出基于概念簇的多主题 提取算法 ( MEABCC), 该算法通过合理 “ 预设初 值”,改进经典 K⁃means 后对概念进行聚类,得到多 个子主题簇。 实验测试结果反映出 MEABCC 算法 效果和效率均较优。 第 2 期 马甲林,等:基于概念簇的多主题提取算法 ·265·
.266· 智能系统学报 第10卷 参考文献: JIANG Min,XIAO Shibin.An improved word similarity [1]TANG Jie,YAO Limin,CHEN Dewei.Multi-topic based computing method based on HowNet[J].Journal of Chinese query-oriented summarization[C]//Proceedings of the SI- Information Processing,2008,22(5):84-89. AM International Conference on Data Mining.Sparks, [9]刘金岭.基于语义的高质量中文短信文本聚类算法[J] USA,2009:1141-1152. 计算机工程,2009,35(10):201-205. [2]LAMIREL J C.Multi-view data analysis and concept extrac- LIU Jinling.High quality algorithm for chinese short messa- tion methods for text[J].Knowledge Organization,2013, ges text clustering based on semantic[J].Computer Engi- 40(5):305-319. neering,2009,35(10):201-205. [3]NA Fan,LI Huixian,and WANG Chao.Research on senti- [10]LLORET E.Manuel palomar text summarisation in pro- ment analyzing in multi-topics texts[J].Advances in Com- gress:a literature review[J].Artificial Intelligence Re- puter Science,Intelligent System and Environment,2013, view,2012,37:1-41. 105:581-586. [11 XU Junling,XU Baowen,et al.Stable initialization [4]FU Xianghua,LIU Guo,GUO Yanyan,et al.Multi-aspect scheme for K-means clustering [J].Wuhan University sentiment analysis for Chinese online social reviews based on Journal of Natural Sciences,2009,14:24-28. topic modeling and HowNet lexicon[J].Knowledge-Based 作者简介: Systems,2013,37:186-195. 马甲林,男,1981年生,博士研究 [5]ZENG Jianping,DUAN Jiangjiao,WANG Wei,et al.Se- 生,主要研究方向为自然语言处理。曾 mantic multi-grain mixture topic model for text analysis[J]. 获第12届全国多媒体课件大赛三等 Expert Systems with Applications,2011,38:3574-3579. 奖、江苏省高等学校优秀多媒体教学课 [6]刘金龄.基于降维的短信文本语义分类及主题提取[J] 件二等奖、淮安市科技进步奖三等奖、 计算机工程与应用,2010,46(23):159-161. 发明专利1项、参编教材1部,发表学 LIU Jinling.Dimensionality reduction of short message text 术论文7篇。 classification and thematic extraction of semantic[J].Com- 张永军,男,1978年生,讲师,博士 puter Engineering and Applications,2010,46(23):159- 研究生,主要研究方向为中文信息处 161. 理、文本数据挖掘、发表学术论文8篇, [7]白秋,金春霞,周海岩概念向量文本聚类算法[J].计算 参编教程1部。 机工程与应用,2011,47(35):155-157. BAI Qiuchan,JIN Chunxia,ZHOU Haiyan.Text clustering 王志坚,男,1958年生,教授,博导. algorithm based on concept vector[J].Computer Engineer- 主研方向为基于网络的计算机应用技 ing and Applications,2011,47(35):155-157. 术、软件复用、基于网络的软件系统集 [8]江敏,肖诗斌.一种改进的基于《知网》的词语语义相似 成技术,主持国家“863”项目、江苏省基 度计算[J].中文信息学报,2008,22(5):84-89. 金项目等多项,出版专著多部
参考文献: [ 1] TANG Jie, YAO Limin, CHEN Dewei. Multi⁃topic based query⁃oriented summarization[C] / / Proceedings of the SI⁃ AM International Conference on Data Mining. Sparks, USA, 2009: 1141⁃1152. [2]LAMIREL J C. Multi⁃view data analysis and concept extrac⁃ tion methods for text [ J]. Knowledge Organization, 2013, 40(5): 305⁃319. [3]NA Fan, LI Huixian,and WANG Chao. Research on senti⁃ ment analyzing in multi⁃topics texts[ J]. Advances in Com⁃ puter Science, Intelligent System and Environment, 2013, 105: 581⁃586. [4]FU Xianghua, LIU Guo, GUO Yanyan, et al. Multi⁃aspect sentiment analysis for Chinese online social reviews based on topic modeling and HowNet lexicon [ J]. Knowledge⁃Based Systems, 2013, 37: 186⁃195. [5] ZENG Jianping, DUAN Jiangjiao, WANG Wei, et al. Se⁃ mantic multi⁃grain mixture topic model for text analysis[J]. Expert Systems with Applications, 2011, 38: 3574⁃3579. [6]刘金岭.基于降维的短信文本语义分类及主题提取[ J]. 计算机工程与应用, 2010, 46(23):159⁃161. LIU Jinling. Dimensionality reduction of short message text classification and thematic extraction of semantic[ J]. Com⁃ puter Engineering and Applications, 2010, 46( 23): 159⁃ 161. [7]白秋,金春霞,周海岩.概念向量文本聚类算法[ J]. 计算 机工程与应用, 2011, 47(35): 155⁃157. BAI Qiuchan, JIN Chunxia, ZHOU Haiyan. Text clustering algorithm based on concept vector[ J]. Computer Engineer⁃ ing and Applications, 2011, 47(35): 155⁃157. [8]江敏,肖诗斌. 一种改进的基于《知网》的词语语义相似 度计算[J]. 中文信息学报, 2008, 22(5): 84⁃89. JIANG Min, XIAO Shibin. An improved word similarity computing method based on HowNet[J]. Journal of Chinese Information Processing, 2008, 22(5): 84⁃89. [9]刘金岭.基于语义的高质量中文短信文本聚类算法[ J]. 计算机工程, 2009, 35(10): 201⁃205. LIU Jinling. High quality algorithm for chinese short messa⁃ ges text clustering based on semantic[ J]. Computer Engi⁃ neering, 2009, 35(10): 201⁃205. [10] LLORET E. Manuel palomar text summarisation in pro⁃ gress: a literature review[ J]. Artificial Intelligence Re⁃ view, 2012, 37: 1⁃41. [ 11 ] XU Junling, XU Baowen, et al. Stable initialization scheme for K⁃means clustering [ J ]. Wuhan University Journal of Natural Sciences, 2009, 14: 24⁃28. 作者简介: 马甲林,男, 1981 年生,博士研究 生,主要研究方向为自然语言处理。 曾 获第 12 届全国多媒体课件大赛三等 奖、江苏省高等学校优秀多媒体教学课 件二等奖、淮安市科技进步奖三等奖、 发明专利 1 项、参编教材 1 部,发表学 术论文 7 篇。 张永军,男,1978 年生,讲师,博士 研究生,主要研究方向为中文信息处 理、文本数据挖掘、发表学术论文 8 篇, 参编教程 1 部。 王志坚,男,1958 年生,教授,博导, 主研方向为基于网络的计算机应用技 术、软件复用、基于网络的软件系统集 成技术,主持国家“863”项目、江苏省基 金项目等多项,出版专著多部。 ·266· 智 能 系 统 学 报 第 10 卷