正在加载图片...
·934· 智能系统学报 第16卷 件的情况下才成立,但是在实际应用中朴素贝叶 1)K的取值问题。在业务层面,企业往往也 斯独立性假设往往不成立。 无法提供文档类别数;在技术层面,K均值聚类算 神经网络语言模型为了应对独立性假设不成 法的K取值本身也是一个关键问题。 立的问题,采用因果思路,在语料库庞大到能覆 2)准确率低问题。K均值聚类算法,虽然是 盖所有可能语义表述的情况下,通过训练的方法 效果最好的无监督算法,但是准确率也只能到 获得条件概率P(ww?w-i)。但是收集这样一 70%,与构建样本库的要求还相去甚远。 个庞大的语料库本身就是一个问题,在特别的应 2.2.4基于无监督算法的样本库构建过程 用领域,例如各地方言与官方语体混杂语料的收 针对上述问题,基于无监督算法的样本库构 集明显不可行。 建过程如下: 2.2.2N元中文语言模型构建过程 1)从生产环境网络出口收集大量文档,作为 因此在统计语言模型的基础上提出N元中文 样本集Q: 语言模型,其核心思想是将语言模型划分为N个 2)采用N元中文语言模型对样本Q中的文 相互独立的子模型,分段训练,利用线性插值公 档进行特征提取; 式分步整合。其实施过程: 3)采用数据分析工具Pandas对样本集Q中 1)将语料库按领域和语体划分为N个语料库 的文档特征进行特征对齐: 子集; 4)采用非线性降维的算法(uniform manifold 2)针对各个语料子集训练特定语言模型; approximation and projection for dimension reduc- 3)使用线性插值公式,获得整个语言模型: tion,UMAP)降维文档特征,降低文档特征复杂 F(wlw时')=∑,PM,(r时) 性,提高聚类准确率; 5)确定K均值聚类算法的K值,具体原理和 式中0≤d≤l。A的期望最大值(expectation max- 方法为:假设真实类别数为N,所有样本到其所属 imum,EM)的迭代计算方法为 类族中心的距离的平方和为D,随着K值增加, 1)对于N个语言模型,使用随机数初始化; 样本划分的类族越来越精细,每个类族的内聚程 2)根据整个语言模型公式计算新的语言模型 度会越来越高,那么平方和D会越来越小;当 概率; K值小于N时,增加K值时会大幅增加每个族的 3)第r次迭代,第j个语言模型在第i≤m) 聚合程度,故平方和D下降梯度会很大,当K值 类上入的计算公式为 大于等于N时,继续增加K值,类族内部的聚合 写P(wh) 效果不再明显,所以平方和D下降梯度会急剧变 小,平方和D下降梯度拐点即为真实聚类数K: ∑写Pwh 式中h为历史。 D--MF 4)不断迭代,重复步骤2)、3),直至收敛。 式中:i为类族编号;C,为第i个类族;P为C中 通过上述方法,将中文语言模型的困惑度值 的某一个文档数据;M,为C,的类族中心点向 从320降低到150以下,为自然语言处理后续任 量;D为所有样本到其所属类族中心的距离的平 务奠定基础。 方和; 2.2.3无监督算法构建样本库基本原理 6)按照5)确定的K值,对样本集Q进行聚 常用的无监督聚类包括K均值聚类、均值漂 类,得到聚类结果,由于K均值聚类算法准确率 移聚类、基于密度的聚类方法、高斯混合模型的 离样本库准确率要求太远,优化K均值聚类算法 最大期望聚类和层次聚类等。经实验验证效果最 提升准确率的投入大而回报小,所以不可取。因 好的方法是K均值聚类。K均值聚类首先随机选 此采用将无监督转换为有监督,分批迭代,投票 择K个中心点,其次计算每个样本到K个中心点 筛选样本的办法来解决此问题: 的欧氏距离,然后将每个样本划分到离它最近的 7)从K均值聚类结果中挑出一部分离类族中 中心点所属类族,最后更新每个类族的中心点,重 心距离小于预设阀值M的文档作为样本集Y,可 复迭代直到所有的样本不再被重新分类为止。 以调节M的取值,确保挑中样本集Y的准确性; 此过程不需要人工标注样本,无须人工干预就可 8)将样本集Y分为训练集和验证集; 以自动区分样本及类别,但是K均值聚类面临两 9)分别采用支持向量机、TextCNN、邻近算法 个问题: 建模,并使用样本集Y训练模型;件的情况下才成立,但是在实际应用中朴素贝叶 斯独立性假设往往不成立。 P(wi |w1w2 ···wi−1) 神经网络语言模型为了应对独立性假设不成 立的问题,采用因果思路,在语料库庞大到能覆 盖所有可能语义表述的情况下,通过训练的方法 获得条件概率 。但是收集这样一 个庞大的语料库本身就是一个问题,在特别的应 用领域,例如各地方言与官方语体混杂语料的收 集明显不可行[13]。 2.2.2 N 元中文语言模型构建过程 因此在统计语言模型的基础上提出 N 元中文 语言模型,其核心思想是将语言模型划分为 N 个 相互独立的子模型,分段训练,利用线性插值公 式分步整合。其实施过程: 1) 将语料库按领域和语体划分为 N 个语料库 子集; 2) 针对各个语料子集训练特定语言模型; 3) 使用线性插值公式,获得整个语言模型: Pb ( wi |w i−1 1 ) = ∑n j=1 λjPMb j ( wi |w i−1 1 ) 式中 0 ⩽ λ ⩽ 1。λ 的期望最大值 (expectation max￾imum, EM) 的迭代计算方法为 1) 对于 N 个语言模型,使用随机数初始化 λ ; 2) 根据整个语言模型公式计算新的语言模型 概率; i(i ⩽ n) λ 3) 第 r 次迭代,第 j 个语言模型在第 类上 的计算公式为 λ r i j = λ r−1 i j Pi j(w|h) ∑n i=1 λ r−1 i j Pi j(w|h) 式中 h 为历史。 4) 不断迭代,重复步骤 2)、3),直至收敛。 通过上述方法,将中文语言模型的困惑度值 从 320 降低到 150 以下,为自然语言处理后续任 务奠定基础。 2.2.3 无监督算法构建样本库基本原理 常用的无监督聚类包括 K 均值聚类、均值漂 移聚类、基于密度的聚类方法、高斯混合模型的 最大期望聚类和层次聚类等。经实验验证效果最 好的方法是 K 均值聚类。K 均值聚类首先随机选 择 K 个中心点,其次计算每个样本到 K 个中心点 的欧氏距离,然后将每个样本划分到离它最近的 中心点所属类族,最后更新每个类族的中心点,重 复迭代直到所有的样本不再被重新分类为止[14]。 此过程不需要人工标注样本,无须人工干预就可 以自动区分样本及类别,但是 K 均值聚类面临两 个问题: 1) K 的取值问题。在业务层面,企业往往也 无法提供文档类别数;在技术层面,K 均值聚类算 法的 K 取值本身也是一个关键问题。 2) 准确率低问题。K 均值聚类算法,虽然是 效果最好的无监督算法,但是准确率也只能到 70%,与构建样本库的要求还相去甚远。 2.2.4 基于无监督算法的样本库构建过程 针对上述问题,基于无监督算法的样本库构 建过程如下: 1) 从生产环境网络出口收集大量文档,作为 样本集 Q; 2) 采用 N 元中文语言模型对样本 Q 中的文 档进行特征提取; 3) 采用数据分析工具 Pandas 对样本集 Q 中 的文档特征进行特征对齐; 4) 采用非线性降维的算法 (uniform manifold approximation and projection for dimension reduc￾tion,UMAP) 降维文档特征,降低文档特征复杂 性,提高聚类准确率; 5) 确定 K 均值聚类算法的 K 值,具体原理和 方法为:假设真实类别数为 N,所有样本到其所属 类族中心的距离的平方和为 D,随着 K 值增加, 样本划分的类族越来越精细,每个类族的内聚程 度会越来越高,那么平方和 D 会越来越小;当 K 值小于 N 时,增加 K 值时会大幅增加每个族的 聚合程度,故平方和 D 下降梯度会很大,当 K 值 大于等于 N 时,继续增加 K 值,类族内部的聚合 效果不再明显,所以平方和 D 下降梯度会急剧变 小,平方和 D 下降梯度拐点即为真实聚类数 K: D = ∑K i=1 ∑ P∈Ci |P− Mi | 2 式中:i 为类族编号;Ci 为第 i 个类族;P 为 Ci 中 的某一个文档数据; Mi 为 Ci 的类族中心点向 量;D 为所有样本到其所属类族中心的距离的平 方和; 6) 按照 5) 确定的 K 值,对样本集 Q 进行聚 类,得到聚类结果,由于 K 均值聚类算法准确率 离样本库准确率要求太远,优化 K 均值聚类算法 提升准确率的投入大而回报小,所以不可取。因 此采用将无监督转换为有监督,分批迭代,投票 筛选样本的办法来解决此问题; 7) 从 K 均值聚类结果中挑出一部分离类族中 心距离小于预设阀值 M 的文档作为样本集 Y,可 以调节 M 的取值,确保挑中样本集 Y 的准确性; 8) 将样本集 Y 分为训练集和验证集; 9) 分别采用支持向量机、TextCNN、邻近算法 建模,并使用样本集 Y 训练模型; ·934· 智 能 系 统 学 报 第 16 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有