正在加载图片...
·400 智能系统学报 第7卷 及对原有文本不规则内容进行整理,然后对句子进行 字.计算p和01的耦合度公式为 切分,得到多字集合,用于新词发现算法处理。 3)新词发现.新词发现基于上一步得到的候选 C)=(品<A)n()< 多字集合.该方法首先统计候选多字集合中每个候 E(w1))n(E(o)<y). 选多字出现的频率,将低于某频率阈值的多字滤除 如果存在01∈T3(T3为长度为3的候选词集 出候选集合;然后分别计算每个候选多字的左右信 合),心可分解为w1+P,p为单字.计算p和01的耦 息熵,将低于某熵值的多字滤除。 合度公式为 假设词语w属于候选集,另外,A={a1,a2,…, c)=()<A)n(a(o)< am}和B={b1,b2,…,b.}分别为该词语对应的左右 单字集合,则左右嫡的定义为: ER(w1))∩(E(o)<Y). 式中:y和入为参数阈值.在耦合度计算中,如果交 E,(w)=-1∑c(o,a4)log (0,a) n deA n 集中的每个不等式都成立,则耦合度的值等于1,否 则耦合度为0.如果耦合度的值为1,则认为w不应 n=∑C(0,a); diEA 该为词,将0滤除。 En(o)=-L∑C(0,b)og9 (w,b;) 对于参数的估计,采用最小二乘法实现,首先抽 mbeB 取已过滤候选集中的1000个样本,对样本进行标 m=∑C(o,b:). biEB 注根据抽取出样本的数据,计算出织值和 式中:C(w,a:)和C(w,b:)分别是词语w的左单字 E.(o)或者E(0)值,对已得到的数据进行组合,得 a:和右单字b:出现的次数. 到候选参数集合,通过计算每对候选参数所对应的 对于一个实际存在的词而言,如果它的出现频 样本正确率,将最高正确率的参数对作为估计出的 率较高且左右单字集的频率也很高,则可以通过其 参数.实验表明,该算法可以有效地滤除候选集合中 左信息熵和右信息熵的方法进行过滤。 的非词语,并保留实际存在的词语, 通过上一步的过滤,仍然有部分非词语无法过 以此类推,可以得到更长长度的词进行耦合度 滤,如“化股份”这个词,从语义的角度来讲,该候选 过滤之后,将得到的结果放入搜索引擎进一步过滤, 词中的“股份”应该和“化”分开,之前没有分开的原 最后得到候选关键词集合。 因是由于该词的左信息熵过大,这样依据上一步的 4)TF/DF筛选.TF/DF是一种常用的计算某 规则无法被滤除.根据已有的信息嫡和候选词的出 个词在某篇文档或部分文档集合中重要程度的方 现频率,提出基于递推的耦合度过滤算法,具体算法 法.基于TF/IDF筛选是为了更好地得到与领域相 如下. 关的关键词,通过计算每个候选关键词在文本语料 ①对于字长为3的w,如果存在01∈T2(T2为 库中的TF/DF值,得到每个候选关键词在领域文 长度为2的候选词集合),w可分解为p+01,P为单 本语料库的重要程度.T℉/DF值的定义如下. 字.计算p和o1的耦合度为 对于文档d,候选关键词0对应的词频及文档 C.(p,0)=(C0<A)n(E(o)< 频度倒数特征的计算公式为: tfidf(d,w)=tf x idf, E(o1)n(E(o)<Y), 如果存在01∈T2(T2为长度为2的候选词集 f=f(w) ∑fo) 合),0可分解为01+P,卫为单字.计算p和01的耦 合度公式为 11DL+0.01 idf=og∑dl c.)=(品<A0n(E.()< 式中(w)为词o在文档d中出现的次数,∑代o)为 E(0,))n(Er(0)<y). 一篇文档的总词数,ID1为语料库中的文件总数, 式中:y和入为参数阈值.如果耦合度的值等于1, 1∑f代w)1为包含词语0的文件数目.使用类别的TF/ 则认为0不应该为词. DF作为候选词的评价函数,其公式为 ②对于字长为4的0,如果存在01∈T3(T3为 tidf(w)=∑tidf(d,o) 长度为3的候选词集合),w可分解为p+01,P为单
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有