个ＳＶＭ分类器，根据林智仁小组的研究结果，Ｌｉｂ⁃ ｌｉｎｅａｒ适用

正在加载图片...

第3期何力，等：基于无标记Wb数据的层次式文本分类 ·333· 个SVM分类器，根据林智仁小组的研究结果，Lib 关文档，然后同样在维基百科中搜索该主题类别的 linear适用于具有高维特征的Web文档分类，因此相关文档，补充到该类别的训练样本中去。最后结本文采用LibLinear来实现HSVM。合所有从谷歌和维基百科获取到的样本训练分类 3实验结果与分析器，并将其记为GW-HsVM(Google Wikipedia based HSVM)。具体在实验中，取谷歌搜索结果的top-50 3.1实验准备作为相关文档，取维基百科搜索结果的top-10作为本文采用ODP简体中文网站目录作为实验对相关文档。象，ODP简体中文网站目录是一个深度为6层的类对于标注样本的有监督分类方法，文中采用有别层次树，包括参考、商业、休闲、体育、健康、计算标记的ODP数据集训练HSVM分类器，记为S-HS- 机、新闻、家庭、社会、游戏、艺术、购物、科学等13个 VM(Supervised-HSVM)。显然，GW-HSVM是基于大类，1763个类别，整个目录包括24570个网站。 Wb样本的无标记数据分类方法，S-HSVM是有监根据ODP中的网站URL爬取页面，然后对采集到督分类方法。的网页进行解析、分词和停用词过滤，最终将每个网对于文本分类问题，通常采用精度precision、召站表示为一个文档。ODP数据的类别分布和文档回率recall、F,评价分类算法的好坏，同时根据这些分布如图3所示。指标的宏平均值和微平均值来衡量算法在所有类别在ODP样本集中，有1048个类别的样本个数上的性能。微平均评价指标体现了大类别对结果的不足10个，由于这些稀有类别的实例非常少，采用影响，宏平均评价指标给每个类别以相等权重，更能现有的机器学习方法很难对这些类别的网页进行有体现算法在小类别上的性能表现。效地自动分类。为了使有监督分类算法能够同本文本文实验中的数据为单标签文档，此时preci- 提出的方法进行公平比较，采用父类别模型对稀有 sion、,recall和F,的微平均值均相等，等于分类的准类别进行分类预测，即将文档分到稀有类别的父类确率accuracy。因此，采用Macro-Precision,Macro- 别后就不再继续往下细分，以避免这些稀有类别对 Recall,Macro-F,和accuracy作为分类算法的评价有监督分类方法的性能影响。标准。另外，层次式分类方法在自上而下的分类过 ×10 ×10 程中会产生错误传播问题，对此分析了算法在不同 705 12 1L432 层级上的性能表现。在类别层次中，随着深度增加， 6 10 459 8 7227 会出现大量的小类别，对此采用宏平均指标评价算郑 329 6 4069 法在各层级上的性能。具体在计算第n级的宏平均 214 4 2 1684 指标时，只考虑第n级上所有类别精度、召回率和 13 3 0 33 125 F,的宏平均值。层级6 2 123456 层级 3.2实验结果 (a)类别分布 b)文档分布在实验中可以发现，二元分类器的HSVM和多图3数据的层次分布元分类器的HSVM在分类准确率上性能接近，但是 Fig.3 Data distribution on different level 多元分类器的HSVM需要的训练和预测时间要更网页文档是一种高维数据，因此需要进行特征少，这是因为多元分类器方法不需要在叶子节点上降维以解决文本特征向量高维问题，本文采用基于训练分类器，如图2(b)所示。因此，本文在实验中词频逆文档频率值的特征词子集选择方法进行特征采用多元分类器实现的HSVM。降维。对于有监督分类方法，先将ODP数据集随机 GW-HSVM和S-HSVM对ODP中文目录所有分为10份，其中1份为测试集，其余作为训练集，然类别的分类性能如表1所示，包括精度、召回率、F 后训练分类器并计算各评价指标，如此反复10次，的宏平均值以及准确率。可以看到，GW-HSVM的以这10次的平均值作为最终结果。对于无标记数分类准确率稍低于有监督分类方法S-HSVM,但是据分类方法，本文采用Wb样本训练分类器，然后在宏平均指标上，GW-HSVM的性能接近S-HSVM, 对ODP数据集进行测试并计算各评价指标。这说明GW-HSVM能够对小类别进行更为有效的分为了获取更加广泛的Web数据，同时从谷歌和类，这是因为GW-HSVM为每个类别采集了足够多维基百科搜索相关文档。对于一个主题类别，首先的Wb训练文档，而S-HSVM所采用的ODP数据利用谷歌搜索引擎搜索相关页面，并从中抽取出相集中则包含有大量的小类别。个ＳＶＭ分类器，根据林智仁小组的研究结果，Ｌｉｂ⁃ ｌｉｎｅａｒ适用于具有高维特征的Ｗｅｂ文档分类，因此本文采用ＬｉｂＬｉｎｅａｒ来实现ＨＳＶＭ。３实验结果与分析３．１实验准备本文采用ＯＤＰ简体中文网站目录作为实验对象，ＯＤＰ简体中文网站目录是一个深度为６层的类别层次树，包括参考、商业、休闲、体育、健康、计算机、新闻、家庭、社会、游戏、艺术、购物、科学等１３个大类，１７６３个类别，整个目录包括２４５７０个网站。根据ＯＤＰ中的网站ＵＲＬ爬取页面，然后对采集到的网页进行解析、分词和停用词过滤，最终将每个网站表示为一个文档。ＯＤＰ数据的类别分布和文档分布如图３所示。在ＯＤＰ样本集中，有１０４８个类别的样本个数不足１０个，由于这些稀有类别的实例非常少，采用现有的机器学习方法很难对这些类别的网页进行有效地自动分类。为了使有监督分类算法能够同本文提出的方法进行公平比较，采用父类别模型对稀有类别进行分类预测，即将文档分到稀有类别的父类别后就不再继续往下细分，以避免这些稀有类别对有监督分类方法的性能影响。图３数据的层次分布Ｆｉｇ．３Ｄａｔａｄｉｓｔｒｉｂｕｔｉｏｎｏｎｄｉｆｆｅｒｅｎｔｌｅｖｅｌ网页文档是一种高维数据，因此需要进行特征降维以解决文本特征向量高维问题，本文采用基于词频逆文档频率值的特征词子集选择方法进行特征降维。对于有监督分类方法，先将ＯＤＰ数据集随机分为１０份，其中１份为测试集，其余作为训练集，然后训练分类器并计算各评价指标，如此反复１０次，以这１０次的平均值作为最终结果。对于无标记数据分类方法，本文采用Ｗｅｂ样本训练分类器，然后对ＯＤＰ数据集进行测试并计算各评价指标。为了获取更加广泛的Ｗｅｂ数据，同时从谷歌和维基百科搜索相关文档。对于一个主题类别，首先利用谷歌搜索引擎搜索相关页面，并从中抽取出相关文档，然后同样在维基百科中搜索该主题类别的相关文档，补充到该类别的训练样本中去。最后结合所有从谷歌和维基百科获取到的样本训练分类器，并将其记为ＧＷ⁃ＨＳＶＭ（ＧｏｏｇｌｅＷｉｋｉｐｅｄｉａｂａｓｅｄＨＳＶＭ）。具体在实验中，取谷歌搜索结果的ｔｏｐ⁃５０作为相关文档，取维基百科搜索结果的ｔｏｐ⁃１０作为相关文档。对于标注样本的有监督分类方法，文中采用有标记的ＯＤＰ数据集训练ＨＳＶＭ分类器，记为Ｓ⁃ＨＳ⁃ ＶＭ（Ｓｕｐｅｒｖｉｓｅｄ⁃ＨＳＶＭ）。显然，ＧＷ⁃ＨＳＶＭ是基于Ｗｅｂ样本的无标记数据分类方法，Ｓ⁃ＨＳＶＭ是有监督分类方法。对于文本分类问题，通常采用精度ｐｒｅｃｉｓｉｏｎ、召回率ｒｅｃａｌｌ、Ｆ１评价分类算法的好坏，同时根据这些指标的宏平均值和微平均值来衡量算法在所有类别上的性能。微平均评价指标体现了大类别对结果的影响，宏平均评价指标给每个类别以相等权重，更能体现算法在小类别上的性能表现。本文实验中的数据为单标签文档，此时ｐｒｅｃｉ⁃ ｓｉｏｎ、ｒｅｃａｌｌ和Ｆ１的微平均值均相等，等于分类的准确率ａｃｃｕｒａｃｙ。因此，采用Ｍａｃｒｏ⁃Ｐｒｅｃｉｓｉｏｎ，Ｍａｃｒｏ⁃ Ｒｅｃａｌｌ，Ｍａｃｒｏ⁃ Ｆ１和ａｃｃｕｒａｃｙ作为分类算法的评价标准。另外，层次式分类方法在自上而下的分类过程中会产生错误传播问题，对此分析了算法在不同层级上的性能表现。在类别层次中，随着深度增加，会出现大量的小类别，对此采用宏平均指标评价算法在各层级上的性能。具体在计算第ｎ级的宏平均指标时，只考虑第ｎ级上所有类别精度、召回率和Ｆ１的宏平均值。３．２实验结果在实验中可以发现，二元分类器的ＨＳＶＭ和多元分类器的ＨＳＶＭ在分类准确率上性能接近，但是多元分类器的ＨＳＶＭ需要的训练和预测时间要更少，这是因为多元分类器方法不需要在叶子节点上训练分类器，如图２（ｂ）所示。因此，本文在实验中采用多元分类器实现的ＨＳＶＭ。ＧＷ⁃ＨＳＶＭ和Ｓ⁃ＨＳＶＭ对ＯＤＰ中文目录所有类别的分类性能如表１所示，包括精度、召回率、Ｆ１的宏平均值以及准确率。可以看到，ＧＷ⁃ＨＳＶＭ的分类准确率稍低于有监督分类方法Ｓ⁃ＨＳＶＭ，但是在宏平均指标上，ＧＷ⁃ＨＳＶＭ的性能接近Ｓ⁃ＨＳＶＭ，这说明ＧＷ⁃ＨＳＶＭ能够对小类别进行更为有效的分类，这是因为ＧＷ⁃ＨＳＶＭ为每个类别采集了足够多的Ｗｅｂ训练文档，而Ｓ⁃ＨＳＶＭ所采用的ＯＤＰ数据集中则包含有大量的小类别。第３期何力，等：基于无标记Ｗｅｂ数据的层次式文本分类 ·３３３·

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】基于无标记Web数据的层次式文本分类