有标注好的语料，而Ｗｅｂ分类目录的规模往往比较大，通常包含数百甚至数

正在加载图片...

第3期何力，等：基于无标记Wb数据的层次式文本分类 ·331· 有标注好的语料，而Wb分类目录的规模往往比较样技术1113]、利用外部数据生成新样例29】、采购大，通常包含数百甚至数千个类别，此时通过人工标新样例。过采样技术通过简单复制已有样本来增加记文档类别来构建语料库将是一项非常繁重的工训练集，学习过程中会产生过拟合问题，而直接购买作。因为需要为每个类别人工标记足够多的训练样数据则要承担非常高昂的代价。利用外部数据源生本，这项工作需要耗费巨大的人力成本来完成。对成新样例则可以通过技术手段获取比较有价值的新此，本文试图实现一个不需要有标记训练样本的层样例。次式文本分类方法。在生成新样例方面，已有工作主要是利用Wb 针对文本主题分类缺少训练样本的问题，已有数据为主题层次中的类别产生新的样本文档，来丰工作利用外部数据源来丰富类别的特征信息1]，富类别的特征信息[29]。Ha-Thuc等[2]根据类别层这些方法利用类别的特征关键词以及类别层次的上次为每个类别构造一个查询，查询词包括类别名称下文信息，到Wb中获取更多的相关数据，为分类类别描述以及父、子节点名称，利用Wb搜索引擎学习产生训练样本，增加类别的分类依据。因为这获取相关文档，然后采用产生式模型对文档建模，为一类方法在分类学习过程中不需要人工标记训练样每个类别建立一个语言模型，最后采用自上而下的本，称为无标记数据分类方法。无标记数据分类利分类方法对文档分类。Wetzker等[]利用类别主题用Wb搜索引擎和开放数据库来获取训练样本。名以及父类别主题名构造查询，采用雅虎搜索获取对于Wb搜索引擎，如谷歌，可以利用类别名称以每个类别的top-k相关文档，然后为每个类别学习一及类别的上下文信息搜索相关页面，那么搜索结果个中心向量，构造了一个支持多标签分类的层次式应该和该类别具有一定相关性，体现了该主题类别分类器。Zhang等[4利用ODP目录的数据集学习的特征。对于开放数据库，如维基百科、ODP等，可主题分类模型，并对知识监督学习中的预测风险进以利用主题类别在知识库中搜索相关文档，将这些行优化。Huang等1利用那些在一个类别和它祖先文档作为该类别的样本。类别中同时出现的单词构造查询，以谷歌搜索结果无标记数据分类方法借助外部数据源学习分类作为训练样本，然后采用KNN算法对文档进行分模型，但是通过Wb获得的学习样本可能会包含噪类。这些方法利用主题目录的类别层次信息和类别声数据，从而影响分类学习效果[2，)，这是其面临的知识来构造Wb查询。类别知识包括一个类别的一个主要挑战。本文针对Wb搜索结果中含有噪主题名称、关键词、描述信息等。除了类别自身知识声数据的问题，采用以下3个手段来提高分类学习之外，还可以利用主题层次的结构特征，例如类别在效果。主题层次中的父类别、子类别、邻居类别等信息。 1)利用类别知识和类别层次信息构造准确的Wb Wag等6利用维基百科知识库构造通用分类器，查询，采用节点的标签路径来产生查询关键词：该方法首先人工为每个类别确定一组关键词，然后 2)利用多数据源产生样本，同时从谷歌搜索引根据这些类别关键词到维基百科中获取相关概念与擎、维基百科这2个数据源搜索相关页面和文档，以文档，最后利用这些概念与文档训练分类器。Hug 获取更加全面的样本数据：等[78]提出了一种Wb语料获取方法，该方法首先 3)结合类别层次对样本数据分组，为每个类别为每个类别搜索少量相关度较高的Wb文档，然后获得更加完整的特征源，根据搜索到的样本数据，从这些文档中抽取出类别的关键词，然后利用这些利用主题类别层次学习分类模型，减小噪声数据的关键词搜索更多的相关Wb文档。刘丽珍等[]提影响。出一种模糊划分聚类方法，该方法对无标记样本进相比已有的无标记数据分类方法，本文提出的行模糊划分聚类，通过一定的相似度度量，将相关文方法通过这些手段可以获取更加有效的样本数据。本归并，得到少量标记文本，从而为监督学习找到了在得到样本数据之后，采用支持向量机分类算法训分类依据。练层次式分类模型，最后在ODP数据集上对提出的另外，Chen等)试图利用外部数据源学习类别无标记数据分类方法进行实验验证。和词汇之间的关系，即在每个类别中不同单词的概 1 无标记数据分类相关工作率权重，从自然语言处理角度考虑，就是为每个类别建立一个语言模型，从而实现对微博短文本的主题对于有监督学习缺少训练样本的问题，分类。K。等14)采用自举法进行机器标注样本，根 Weiss[o]可以将已有的解决策略概括为3类：过采据无标记文档集合和类别的标题词来自动生成标记有标注好的语料，而Ｗｅｂ分类目录的规模往往比较大，通常包含数百甚至数千个类别，此时通过人工标记文档类别来构建语料库将是一项非常繁重的工作。因为需要为每个类别人工标记足够多的训练样本，这项工作需要耗费巨大的人力成本来完成。对此，本文试图实现一个不需要有标记训练样本的层次式文本分类方法。针对文本主题分类缺少训练样本的问题，已有工作利用外部数据源来丰富类别的特征信息［１ ⁃ ９］，这些方法利用类别的特征关键词以及类别层次的上下文信息，到Ｗｅｂ中获取更多的相关数据，为分类学习产生训练样本，增加类别的分类依据。因为这一类方法在分类学习过程中不需要人工标记训练样本，称为无标记数据分类方法。无标记数据分类利用Ｗｅｂ搜索引擎和开放数据库来获取训练样本。对于Ｗｅｂ搜索引擎，如谷歌，可以利用类别名称以及类别的上下文信息搜索相关页面，那么搜索结果应该和该类别具有一定相关性，体现了该主题类别的特征。对于开放数据库，如维基百科、ＯＤＰ等，可以利用主题类别在知识库中搜索相关文档，将这些文档作为该类别的样本。无标记数据分类方法借助外部数据源学习分类模型，但是通过Ｗｅｂ获得的学习样本可能会包含噪声数据，从而影响分类学习效果［２，５］，这是其面临的一个主要挑战。本文针对Ｗｅｂ搜索结果中含有噪声数据的问题，采用以下３个手段来提高分类学习效果。１）利用类别知识和类别层次信息构造准确的Ｗｅｂ查询，采用节点的标签路径来产生查询关键词；２）利用多数据源产生样本，同时从谷歌搜索引擎、维基百科这２个数据源搜索相关页面和文档，以获取更加全面的样本数据；３）结合类别层次对样本数据分组，为每个类别获得更加完整的特征源，根据搜索到的样本数据，利用主题类别层次学习分类模型，减小噪声数据的影响。相比已有的无标记数据分类方法，本文提出的方法通过这些手段可以获取更加有效的样本数据。在得到样本数据之后，采用支持向量机分类算法训练层次式分类模型，最后在ＯＤＰ数据集上对提出的无标记数据分类方法进行实验验证。１无标记数据分类相关工作对于有监督学习缺少训练样本的问题，Ｗｅｉｓｓ［１０］可以将已有的解决策略概括为３类：过采样技术［１１ ⁃ １３］、利用外部数据生成新样例［２ ⁃ ９］、采购新样例。过采样技术通过简单复制已有样本来增加训练集，学习过程中会产生过拟合问题，而直接购买数据则要承担非常高昂的代价。利用外部数据源生成新样例则可以通过技术手段获取比较有价值的新样例。在生成新样例方面，已有工作主要是利用Ｗｅｂ数据为主题层次中的类别产生新的样本文档，来丰富类别的特征信息［２⁃ ９］。Ｈａ⁃Ｔｈｕｃ等［２］根据类别层次为每个类别构造一个查询，查询词包括类别名称、类别描述以及父、子节点名称，利用Ｗｅｂ搜索引擎获取相关文档，然后采用产生式模型对文档建模，为每个类别建立一个语言模型，最后采用自上而下的分类方法对文档分类。Ｗｅｔｚｋｅｒ等［３］利用类别主题名以及父类别主题名构造查询，采用雅虎搜索获取每个类别的ｔｏｐ⁃ｋ相关文档，然后为每个类别学习一个中心向量，构造了一个支持多标签分类的层次式分类器。Ｚｈａｎｇ等［４］利用ＯＤＰ目录的数据集学习主题分类模型，并对知识监督学习中的预测风险进行优化。Ｈｕａｎｇ等［５］利用那些在一个类别和它祖先类别中同时出现的单词构造查询，以谷歌搜索结果作为训练样本，然后采用ＫＮＮ算法对文档进行分类。这些方法利用主题目录的类别层次信息和类别知识来构造Ｗｅｂ查询。类别知识包括一个类别的主题名称、关键词、描述信息等。除了类别自身知识之外，还可以利用主题层次的结构特征，例如类别在主题层次中的父类别、子类别、邻居类别等信息。Ｗａｎｇ等［６］利用维基百科知识库构造通用分类器，该方法首先人工为每个类别确定一组关键词，然后根据这些类别关键词到维基百科中获取相关概念与文档，最后利用这些概念与文档训练分类器。Ｈｕｎｇ等［７ ⁃ ８］提出了一种Ｗｅｂ语料获取方法，该方法首先为每个类别搜索少量相关度较高的Ｗｅｂ文档，然后从这些文档中抽取出类别的关键词，然后利用这些关键词搜索更多的相关Ｗｅｂ文档。刘丽珍等［９］提出一种模糊划分聚类方法，该方法对无标记样本进行模糊划分聚类，通过一定的相似度度量，将相关文本归并，得到少量标记文本，从而为监督学习找到了分类依据。另外，Ｃｈｅｎ等［１］试图利用外部数据源学习类别和词汇之间的关系，即在每个类别中不同单词的概率权重，从自然语言处理角度考虑，就是为每个类别建立一个语言模型，从而实现对微博短文本的主题分类。Ｋｏ等［１４］采用自举法进行机器标注样本，根据无标记文档集合和类别的标题词来自动生成标记第３期何力，等：基于无标记Ｗｅｂ数据的层次式文本分类 ·３３１·

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】基于无标记Web数据的层次式文本分类