正在加载图片...
.334. 智能系统学报 第9卷 表1整体分类性能比较 层,由于这些层级中包含有大量稀有类别,这时 Table 1 Overall classification performance comparison GW-HSVM的分类性能接近甚至优于S-HSVM。结 模型 Macro-P Macro-R Macro-F 准确率 合表1和图4的实验结果可以发现,本文提出的无 GW-HSVM 0.5196 0.5367 0.5280 0.4775 标记数据分类方法取得了较好的分类效果,其性能 S-HSVM 0.5285 0.5379 0.5332 0.5482 接近于有标记训练样本的监督分类方法。 本文还比较了S-HSVM和GW-HSVM在类别树 4 结束语 中不同层级上的分类性能,包括Macro-P、Macro-R 和Macro-F,如图4所示。 本文针对主题分类目录缺少训练样本的问题, 0.8 提出了一种无标记数据的层次式文本分类方法,该 △GW-HSVM 0.7 ·o.S-HSVM 方法利用搜索引擎从Wb数据中获取训练样本,通 过有效的Wb查询和样本抽取方法降低了噪声数 0.6 据的影响,获得了较好的分类效果,其分类性能接近 0.5 于有标注训练样本的监督分类方法。 0.4 参考文献: 0.3 [1]CHEN Y,LI Z,NIE L,et al.A semi-supervised bayesian 0.2 4 6 network model for microblog topic classification [C]//Pro- 层级 ceedings of the 24th International Conference on Computa- (a)Macro-P tional Linguistics.Mumbai,India,2012:561-576 0.8 [2]HA-THUC V,RENDERS J M.Large-seale hierarchical text △GW-HSVM 0.Q classification without labelled data[C]//Proceedings of the ·O·S-HSVM fourth ACM International Conference on Web Search and 0.6 Data Mining.Hong Kong,China,2011:685-694. 0.5 ··· 0···⊙ [3]WETZKER R,ALPCAN T,BAUCKHAGE C,et al.An unsupervised hierarchical approach to document categoriza- 0.4 tion[C]//Proceedings of the IEEE/WIC/ACM Internation- 0.3 al Conference on Web Intelligence.Silicon Valley,USA, 0.2 2007:482-486. 2 3 4 5 6 层级 [4]ZHANG C,XUE G R,YU Y.Knowledge supervised text classification with no labeled documents[C]//Proceedings (b)Macro-R of the 10th Pacific Rim International Conference on Artifi- 0.8 cial Intelligence.Hanoi,Vietnam,2008:509-520. 0.8 GW-HSVM [5]HUANG CC.CHUANG S L.CHIEN L F.Liveclassifier: ·O·S-HSVM creating hierarchical text classifiers through Web corpora -0.6 0 [C]//Proceedings of the 13th International Conference on World Wide Web.New York,USA,2004:184-192. 0 [6]WANG P,DOMENICONI C.Towards a universal text clas- 0.4 Q sifier:transfer learning using encyclopedic knowledge[C]// 0.3 Proceedings of the Ninth IEEE International Conference on 0.2 Data Mining Workshops.Miami,USA,2009:435-440. 3 4 5 层级 [7]HUNG C M,CHIEN L F.Web-based text classification in (c)Macro-F the absence of manually labeled training documents [J]. Journal of the American Society for Information Science and 图4不同层级上的分类性能 Technology,2007,58(1):88-96. Fig.4 Performance on different level [8]HUNG C M,CHIEN L F.Text classification using Web cor- 可以看到,GW-HSVM在第1级和第4级上的 pora and em algorithms[C]//Proceedings of the Asia Infor- 性能差于S-HSVM,这是因为ODP中文目录中这两 mation Retrieval Symposium.Beijing,China,2005:12-23. 层上的类别包含较多的实例。对于目录中其他几 [9]刘丽珍,宋瀚涛,陆玉昌.无标记训练样本的Wb文本表 1 整体分类性能比较 Table 1 Overall classification performance comparison 模型 Macro⁃P Macro⁃R Macro⁃ F1 准确率 GW⁃HSVM 0.5196 0.5367 0.5280 0.4775 S⁃HSVM 0.5285 0.5379 0.5332 0.5482 本文还比较了 S⁃HSVM 和 GW⁃HSVM 在类别树 中不同层级上的分类性能,包括 Macro⁃P、Macro⁃R 和 Macro⁃ F1 ,如图 4 所示。 (a) Macro⁃P (b) Macro⁃R (c) Macro⁃ F1 图 4 不同层级上的分类性能 Fig.4 Performance on different level 可以看到,GW⁃HSVM 在第 1 级和第 4 级上的 性能差于 S⁃HSVM,这是因为 ODP 中文目录中这两 层上的类别包含较多的实例。 对于目录中其他几 层,由于这些层级中包含有大量稀有类别, 这时 GW⁃HSVM 的分类性能接近甚至优于 S⁃HSVM。 结 合表 1 和图 4 的实验结果可以发现,本文提出的无 标记数据分类方法取得了较好的分类效果,其性能 接近于有标记训练样本的监督分类方法。 4 结束语 本文针对主题分类目录缺少训练样本的问题, 提出了一种无标记数据的层次式文本分类方法,该 方法利用搜索引擎从 Web 数据中获取训练样本,通 过有效的 Web 查询和样本抽取方法降低了噪声数 据的影响,获得了较好的分类效果,其分类性能接近 于有标注训练样本的监督分类方法。 参考文献: [1]CHEN Y, LI Z, NIE L, et al. A semi⁃supervised bayesian network model for microblog topic classification[ C] / / Pro⁃ ceedings of the 24th International Conference on Computa⁃ tional Linguistics. Mumbai, India, 2012: 561⁃576. [2]HA⁃THUC V, RENDERS J M. Large⁃scale hierarchical text classification without labelled data[C] / / Proceedings of the fourth ACM International Conference on Web Search and Data Mining. Hong Kong, China, 2011: 685⁃694. [3] WETZKER R, ALPCAN T, BAUCKHAGE C, et al. An unsupervised hierarchical approach to document categoriza⁃ tion[C] / / Proceedings of the IEEE/ WIC/ ACM Internation⁃ al Conference on Web Intelligence. Silicon Valley, USA, 2007: 482⁃486. [4] ZHANG C, XUE G R, YU Y. Knowledge supervised text classification with no labeled documents[C] / / Proceedings of the 10th Pacific Rim International Conference on Artifi⁃ cial Intelligence. Hanoi, Vietnam, 2008: 509⁃520. [5]HUANG C C, CHUANG S L, CHIEN L F. Liveclassifier: creating hierarchical text classifiers through Web corpora [C] / / Proceedings of the 13th International Conference on World Wide Web. New York, USA, 2004: 184⁃192. [6]WANG P, DOMENICONI C. Towards a universal text clas⁃ sifier: transfer learning using encyclopedic knowledge[C] / / Proceedings of the Ninth IEEE International Conference on Data Mining Workshops. Miami, USA, 2009: 435⁃440. [7]HUNG C M, CHIEN L F. Web⁃based text classification in the absence of manually labeled training documents [ J ]. Journal of the American Society for Information Science and Technology, 2007, 58(1): 88⁃96. [8]HUNG C M, CHIEN L F. Text classification using Web cor⁃ pora and em algorithms[C] / / Proceedings of the Asia Infor⁃ mation Retrieval Symposium. Beijing, China, 2005: 12⁃23. [9]刘丽珍, 宋瀚涛, 陆玉昌. 无标记训练样本的 Web 文本 ·334· 智 能 系 统 学 报 第 9 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有