·400 智能系统学报第7卷及对原有文本不规则内容进行整理，

正在加载图片...

·400 智能系统学报第7卷及对原有文本不规则内容进行整理，然后对句子进行字.计算p和01的耦合度公式为切分，得到多字集合，用于新词发现算法处理。 3)新词发现.新词发现基于上一步得到的候选 C)=(品<A)n()< 多字集合.该方法首先统计候选多字集合中每个候 E(w1))n(E(o)<y). 选多字出现的频率，将低于某频率阈值的多字滤除如果存在01∈T3(T3为长度为3的候选词集出候选集合；然后分别计算每个候选多字的左右信合)，心可分解为w1+P,p为单字.计算p和01的耦息熵，将低于某熵值的多字滤除。合度公式为假设词语w属于候选集，另外，A={a1,a2,…, c）=()<A)n(a(o)< am}和B={b1,b2,…,b.}分别为该词语对应的左右单字集合，则左右嫡的定义为： ER(w1))∩(E(o)<Y). 式中：y和入为参数阈值.在耦合度计算中，如果交 E,(w）=-1∑c(o,a4)log (0,a) n deA n 集中的每个不等式都成立，则耦合度的值等于1，否则耦合度为0.如果耦合度的值为1，则认为w不应 n=∑C(0,a); diEA 该为词，将0滤除。 En(o)=-L∑C(0,b)og9 (w,b;) 对于参数的估计，采用最小二乘法实现，首先抽 mbeB 取已过滤候选集中的1000个样本，对样本进行标 m=∑C(o,b:). biEB 注根据抽取出样本的数据，计算出织值和式中：C(w,a:)和C(w,b:)分别是词语w的左单字 E.(o)或者E(0)值，对已得到的数据进行组合，得 a:和右单字b:出现的次数. 到候选参数集合，通过计算每对候选参数所对应的对于一个实际存在的词而言，如果它的出现频样本正确率，将最高正确率的参数对作为估计出的率较高且左右单字集的频率也很高，则可以通过其参数.实验表明，该算法可以有效地滤除候选集合中左信息熵和右信息熵的方法进行过滤。的非词语，并保留实际存在的词语，通过上一步的过滤，仍然有部分非词语无法过以此类推，可以得到更长长度的词进行耦合度滤，如“化股份”这个词，从语义的角度来讲，该候选过滤之后，将得到的结果放入搜索引擎进一步过滤，词中的“股份”应该和“化”分开，之前没有分开的原最后得到候选关键词集合。因是由于该词的左信息熵过大，这样依据上一步的 4)TF/DF筛选.TF/DF是一种常用的计算某规则无法被滤除.根据已有的信息嫡和候选词的出个词在某篇文档或部分文档集合中重要程度的方现频率，提出基于递推的耦合度过滤算法，具体算法法.基于TF/IDF筛选是为了更好地得到与领域相如下. 关的关键词，通过计算每个候选关键词在文本语料 ①对于字长为3的w,如果存在01∈T2(T2为库中的TF/DF值，得到每个候选关键词在领域文长度为2的候选词集合)，w可分解为p+01,P为单本语料库的重要程度.T℉/DF值的定义如下. 字.计算p和o1的耦合度为对于文档d,候选关键词0对应的词频及文档 C.(p,0)=（C0<A)n(E(o)< 频度倒数特征的计算公式为： tfidf(d,w）=tf x idf, E(o1)n(E(o)<Y), 如果存在01∈T2(T2为长度为2的候选词集 f=f(w) ∑fo) 合)，0可分解为01+P,卫为单字.计算p和01的耦合度公式为 11DL+0.01 idf=og∑dl c.）=(品<A0n(E.()< 式中(w)为词o在文档d中出现的次数，∑代o)为 E(0,))n(Er(0)<y). 一篇文档的总词数，ID1为语料库中的文件总数，式中：y和入为参数阈值.如果耦合度的值等于1， 1∑f代w)1为包含词语0的文件数目.使用类别的TF/ 则认为0不应该为词. DF作为候选词的评价函数，其公式为 ②对于字长为4的0，如果存在01∈T3(T3为 tidf(w)=∑tidf(d,o) 长度为3的候选词集合)，w可分解为p+01,P为单

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】面向浏览推荐的网页关键词提取