正在加载图片...
第3期 何力,等:基于无标记Wb数据的层次式文本分类 ·331· 有标注好的语料,而Wb分类目录的规模往往比较 样技术1113]、利用外部数据生成新样例29】、采购 大,通常包含数百甚至数千个类别,此时通过人工标 新样例。过采样技术通过简单复制已有样本来增加 记文档类别来构建语料库将是一项非常繁重的工 训练集,学习过程中会产生过拟合问题,而直接购买 作。因为需要为每个类别人工标记足够多的训练样 数据则要承担非常高昂的代价。利用外部数据源生 本,这项工作需要耗费巨大的人力成本来完成。对 成新样例则可以通过技术手段获取比较有价值的新 此,本文试图实现一个不需要有标记训练样本的层 样例。 次式文本分类方法。 在生成新样例方面,已有工作主要是利用Wb 针对文本主题分类缺少训练样本的问题,已有 数据为主题层次中的类别产生新的样本文档,来丰 工作利用外部数据源来丰富类别的特征信息1], 富类别的特征信息[29]。Ha-Thuc等[2]根据类别层 这些方法利用类别的特征关键词以及类别层次的上 次为每个类别构造一个查询,查询词包括类别名称 下文信息,到Wb中获取更多的相关数据,为分类 类别描述以及父、子节点名称,利用Wb搜索引擎 学习产生训练样本,增加类别的分类依据。因为这 获取相关文档,然后采用产生式模型对文档建模,为 一类方法在分类学习过程中不需要人工标记训练样 每个类别建立一个语言模型,最后采用自上而下的 本,称为无标记数据分类方法。无标记数据分类利 分类方法对文档分类。Wetzker等[]利用类别主题 用Wb搜索引擎和开放数据库来获取训练样本。 名以及父类别主题名构造查询,采用雅虎搜索获取 对于Wb搜索引擎,如谷歌,可以利用类别名称以 每个类别的top-k相关文档,然后为每个类别学习一 及类别的上下文信息搜索相关页面,那么搜索结果 个中心向量,构造了一个支持多标签分类的层次式 应该和该类别具有一定相关性,体现了该主题类别 分类器。Zhang等[4利用ODP目录的数据集学习 的特征。对于开放数据库,如维基百科、ODP等,可 主题分类模型,并对知识监督学习中的预测风险进 以利用主题类别在知识库中搜索相关文档,将这些 行优化。Huang等1利用那些在一个类别和它祖先 文档作为该类别的样本。 类别中同时出现的单词构造查询,以谷歌搜索结果 无标记数据分类方法借助外部数据源学习分类 作为训练样本,然后采用KNN算法对文档进行分 模型,但是通过Wb获得的学习样本可能会包含噪 类。这些方法利用主题目录的类别层次信息和类别 声数据,从而影响分类学习效果[2,),这是其面临的 知识来构造Wb查询。类别知识包括一个类别的 一个主要挑战。本文针对Wb搜索结果中含有噪 主题名称、关键词、描述信息等。除了类别自身知识 声数据的问题,采用以下3个手段来提高分类学习 之外,还可以利用主题层次的结构特征,例如类别在 效果。 主题层次中的父类别、子类别、邻居类别等信息。 1)利用类别知识和类别层次信息构造准确的Wb Wag等6利用维基百科知识库构造通用分类器, 查询,采用节点的标签路径来产生查询关键词: 该方法首先人工为每个类别确定一组关键词,然后 2)利用多数据源产生样本,同时从谷歌搜索引 根据这些类别关键词到维基百科中获取相关概念与 擎、维基百科这2个数据源搜索相关页面和文档,以 文档,最后利用这些概念与文档训练分类器。Hug 获取更加全面的样本数据: 等[78]提出了一种Wb语料获取方法,该方法首先 3)结合类别层次对样本数据分组,为每个类别 为每个类别搜索少量相关度较高的Wb文档,然后 获得更加完整的特征源,根据搜索到的样本数据, 从这些文档中抽取出类别的关键词,然后利用这些 利用主题类别层次学习分类模型,减小噪声数据的 关键词搜索更多的相关Wb文档。刘丽珍等[]提 影响。 出一种模糊划分聚类方法,该方法对无标记样本进 相比已有的无标记数据分类方法,本文提出的 行模糊划分聚类,通过一定的相似度度量,将相关文 方法通过这些手段可以获取更加有效的样本数据。 本归并,得到少量标记文本,从而为监督学习找到了 在得到样本数据之后,采用支持向量机分类算法训 分类依据。 练层次式分类模型,最后在ODP数据集上对提出的 另外,Chen等)试图利用外部数据源学习类别 无标记数据分类方法进行实验验证。 和词汇之间的关系,即在每个类别中不同单词的概 1 无标记数据分类相关工作 率权重,从自然语言处理角度考虑,就是为每个类别 建立一个语言模型,从而实现对微博短文本的主题 对于有监督学习缺少训练样本的问题, 分类。K。等14)采用自举法进行机器标注样本,根 Weiss[o]可以将已有的解决策略概括为3类:过采 据无标记文档集合和类别的标题词来自动生成标记有标注好的语料,而 Web 分类目录的规模往往比较 大,通常包含数百甚至数千个类别,此时通过人工标 记文档类别来构建语料库将是一项非常繁重的工 作。 因为需要为每个类别人工标记足够多的训练样 本,这项工作需要耗费巨大的人力成本来完成。 对 此,本文试图实现一个不需要有标记训练样本的层 次式文本分类方法。 针对文本主题分类缺少训练样本的问题,已有 工作利用外部数据源来丰富类别的特征信息[1 ⁃ 9 ] , 这些方法利用类别的特征关键词以及类别层次的上 下文信息,到 Web 中获取更多的相关数据,为分类 学习产生训练样本,增加类别的分类依据。 因为这 一类方法在分类学习过程中不需要人工标记训练样 本,称为无标记数据分类方法。 无标记数据分类利 用 Web 搜索引擎和开放数据库来获取训练样本。 对于 Web 搜索引擎,如谷歌,可以利用类别名称以 及类别的上下文信息搜索相关页面,那么搜索结果 应该和该类别具有一定相关性,体现了该主题类别 的特征。 对于开放数据库,如维基百科、ODP 等,可 以利用主题类别在知识库中搜索相关文档,将这些 文档作为该类别的样本。 无标记数据分类方法借助外部数据源学习分类 模型,但是通过 Web 获得的学习样本可能会包含噪 声数据,从而影响分类学习效果[2,5] , 这是其面临的 一个主要挑战。 本文针对 Web 搜索结果中含有噪 声数据的问题,采用以下 3 个手段来提高分类学习 效果。 1)利用类别知识和类别层次信息构造准确的 Web 查询,采用节点的标签路径来产生查询关键词; 2)利用多数据源产生样本,同时从谷歌搜索引 擎、维基百科这 2 个数据源搜索相关页面和文档,以 获取更加全面的样本数据; 3)结合类别层次对样本数据分组,为每个类别 获得更加完整的特征源, 根据搜索到的样本数据, 利用主题类别层次学习分类模型,减小噪声数据的 影响。 相比已有的无标记数据分类方法,本文提出的 方法通过这些手段可以获取更加有效的样本数据。 在得到样本数据之后,采用支持向量机分类算法训 练层次式分类模型,最后在 ODP 数据集上对提出的 无标记数据分类方法进行实验验证。 1 无标记数据分类相关工作 对于 有 监 督 学 习 缺 少 训 练 样 本 的 问 题, Weiss [ 10 ]可以将已有的解决策略概括为 3 类:过采 样技术[1 1 ⁃ 1 3 ] 、利用外部数据生成新样例[ 2 ⁃ 9 ] 、采购 新样例。 过采样技术通过简单复制已有样本来增加 训练集,学习过程中会产生过拟合问题,而直接购买 数据则要承担非常高昂的代价。 利用外部数据源生 成新样例则可以通过技术手段获取比较有价值的新 样例。 在生成新样例方面,已有工作主要是利用 Web 数据为主题层次中的类别产生新的样本文档,来丰 富类别的特征信息[2⁃ 9 ] 。 Ha⁃Thuc 等[2] 根据类别层 次为每个类别构造一个查询,查询词包括类别名称、 类别描述以及父、子节点名称,利用 Web 搜索引擎 获取相关文档,然后采用产生式模型对文档建模,为 每个类别建立一个语言模型,最后采用自上而下的 分类方法对文档分类。 Wetzker 等[3] 利用类别主题 名以及父类别主题名构造查询,采用雅虎搜索获取 每个类别的 top⁃k 相关文档,然后为每个类别学习一 个中心向量,构造了一个支持多标签分类的层次式 分类器。 Zhang 等[4] 利用 ODP 目录的数据集学习 主题分类模型,并对知识监督学习中的预测风险进 行优化。 Huang 等[5]利用那些在一个类别和它祖先 类别中同时出现的单词构造查询,以谷歌搜索结果 作为训练样本,然后采用 KNN 算法对文档进行分 类。 这些方法利用主题目录的类别层次信息和类别 知识来构造 Web 查询。 类别知识包括一个类别的 主题名称、关键词、描述信息等。 除了类别自身知识 之外,还可以利用主题层次的结构特征,例如类别在 主题层次中的父类别、子类别、邻居类别等信息。 Wang 等[ 6 ]利用维基百科知识库构造通用分类器, 该方法首先人工为每个类别确定一组关键词,然后 根据这些类别关键词到维基百科中获取相关概念与 文档,最后利用这些概念与文档训练分类器。 Hung 等[ 7 ⁃ 8 ]提出了一种 Web 语料获取方法,该方法首先 为每个类别搜索少量相关度较高的 Web 文档,然后 从这些文档中抽取出类别的关键词,然后利用这些 关键词搜索更多的相关 Web 文档。 刘丽珍等[9] 提 出一种模糊划分聚类方法,该方法对无标记样本进 行模糊划分聚类,通过一定的相似度度量,将相关文 本归并,得到少量标记文本,从而为监督学习找到了 分类依据。 另外,Chen 等[1]试图利用外部数据源学习类别 和词汇之间的关系,即在每个类别中不同单词的概 率权重,从自然语言处理角度考虑,就是为每个类别 建立一个语言模型,从而实现对微博短文本的主题 分类。 Ko 等[ 1 4 ] 采用自举法进行机器标注样本,根 据无标记文档集合和类别的标题词来自动生成标记 第 3 期 何力,等:基于无标记 Web 数据的层次式文本分类 ·331·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有