表１整体分类性能比较Ｔａｂｌｅ１Ｏｖｅｒａｌｌｃｌａｓｓｉｆｉ

正在加载图片...

.334. 智能系统学报第9卷表1整体分类性能比较层，由于这些层级中包含有大量稀有类别，这时 Table 1 Overall classification performance comparison GW-HSVM的分类性能接近甚至优于S-HSVM。结模型 Macro-P Macro-R Macro-F 准确率合表1和图4的实验结果可以发现，本文提出的无 GW-HSVM 0.5196 0.5367 0.5280 0.4775 标记数据分类方法取得了较好的分类效果，其性能 S-HSVM 0.5285 0.5379 0.5332 0.5482 接近于有标记训练样本的监督分类方法。本文还比较了S-HSVM和GW-HSVM在类别树 4 结束语中不同层级上的分类性能，包括Macro-P、Macro-R 和Macro-F,如图4所示。本文针对主题分类目录缺少训练样本的问题， 0.8 提出了一种无标记数据的层次式文本分类方法，该 △GW-HSVM 0.7 ·o.S-HSVM 方法利用搜索引擎从Wb数据中获取训练样本，通过有效的Wb查询和样本抽取方法降低了噪声数 0.6 据的影响，获得了较好的分类效果，其分类性能接近 0.5 于有标注训练样本的监督分类方法。 0.4 参考文献： 0.3 [1]CHEN Y,LI Z,NIE L,et al.A semi-supervised bayesian 0.2 4 6 network model for microblog topic classification [C]//Pro- 层级 ceedings of the 24th International Conference on Computa- (a)Macro-P tional Linguistics.Mumbai,India,2012:561-576 0.8 [2]HA-THUC V,RENDERS J M.Large-seale hierarchical text △GW-HSVM 0.Q classification without labelled data[C]//Proceedings of the ·O·S-HSVM fourth ACM International Conference on Web Search and 0.6 Data Mining.Hong Kong,China,2011:685-694. 0.5 ··· 0···⊙ [3]WETZKER R,ALPCAN T,BAUCKHAGE C,et al.An unsupervised hierarchical approach to document categoriza- 0.4 tion[C]//Proceedings of the IEEE/WIC/ACM Internation- 0.3 al Conference on Web Intelligence.Silicon Valley,USA, 0.2 2007:482-486. 2 3 4 5 6 层级 [4]ZHANG C,XUE G R,YU Y.Knowledge supervised text classification with no labeled documents[C]//Proceedings (b)Macro-R of the 10th Pacific Rim International Conference on Artifi- 0.8 cial Intelligence.Hanoi,Vietnam,2008:509-520. 0.8 GW-HSVM [5]HUANG CC.CHUANG S L.CHIEN L F.Liveclassifier: ·O·S-HSVM creating hierarchical text classifiers through Web corpora -0.6 0 [C]//Proceedings of the 13th International Conference on World Wide Web.New York,USA,2004:184-192. 0 [6]WANG P,DOMENICONI C.Towards a universal text clas- 0.4 Q sifier:transfer learning using encyclopedic knowledge[C]// 0.3 Proceedings of the Ninth IEEE International Conference on 0.2 Data Mining Workshops.Miami,USA,2009:435-440. 3 4 5 层级 [7]HUNG C M,CHIEN L F.Web-based text classification in (c)Macro-F the absence of manually labeled training documents [J]. Journal of the American Society for Information Science and 图4不同层级上的分类性能 Technology,2007,58(1):88-96. Fig.4 Performance on different level [8]HUNG C M,CHIEN L F.Text classification using Web cor- 可以看到，GW-HSVM在第1级和第4级上的 pora and em algorithms[C]//Proceedings of the Asia Infor- 性能差于S-HSVM,这是因为ODP中文目录中这两 mation Retrieval Symposium.Beijing,China,2005:12-23. 层上的类别包含较多的实例。对于目录中其他几 [9]刘丽珍，宋瀚涛，陆玉昌.无标记训练样本的Wb文本表１整体分类性能比较Ｔａｂｌｅ１Ｏｖｅｒａｌｌｃｌａｓｓｉｆｉｃａｔｉｏｎｐｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｉｓｏｎ模型Ｍａｃｒｏ⁃ＰＭａｃｒｏ⁃ＲＭａｃｒｏ⁃ Ｆ１准确率ＧＷ⁃ＨＳＶＭ０．５１９６０．５３６７０．５２８００．４７７５Ｓ⁃ＨＳＶＭ０．５２８５０．５３７９０．５３３２０．５４８２本文还比较了Ｓ⁃ＨＳＶＭ和ＧＷ⁃ＨＳＶＭ在类别树中不同层级上的分类性能，包括Ｍａｃｒｏ⁃Ｐ、Ｍａｃｒｏ⁃Ｒ和Ｍａｃｒｏ⁃ Ｆ１，如图４所示。（ａ）Ｍａｃｒｏ⁃Ｐ（ｂ）Ｍａｃｒｏ⁃Ｒ（ｃ）Ｍａｃｒｏ⁃ Ｆ１图４不同层级上的分类性能Ｆｉｇ．４Ｐｅｒｆｏｒｍａｎｃｅｏｎｄｉｆｆｅｒｅｎｔｌｅｖｅｌ可以看到，ＧＷ⁃ＨＳＶＭ在第１级和第４级上的性能差于Ｓ⁃ＨＳＶＭ，这是因为ＯＤＰ中文目录中这两层上的类别包含较多的实例。对于目录中其他几层，由于这些层级中包含有大量稀有类别，这时ＧＷ⁃ＨＳＶＭ的分类性能接近甚至优于Ｓ⁃ＨＳＶＭ。结合表１和图４的实验结果可以发现，本文提出的无标记数据分类方法取得了较好的分类效果，其性能接近于有标记训练样本的监督分类方法。４结束语本文针对主题分类目录缺少训练样本的问题，提出了一种无标记数据的层次式文本分类方法，该方法利用搜索引擎从Ｗｅｂ数据中获取训练样本，通过有效的Ｗｅｂ查询和样本抽取方法降低了噪声数据的影响，获得了较好的分类效果，其分类性能接近于有标注训练样本的监督分类方法。参考文献：［１］ＣＨＥＮＹ，ＬＩＺ，ＮＩＥＬ，ｅｔａｌ．Ａｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｂａｙｅｓｉａｎｎｅｔｗｏｒｋｍｏｄｅｌｆｏｒｍｉｃｒｏｂｌｏｇｔｏｐｉｃｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅ２４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａ⁃ ｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｍｕｍｂａｉ，Ｉｎｄｉａ，２０１２：５６１⁃５７６．［２］ＨＡ⁃ＴＨＵＣＶ，ＲＥＮＤＥＲＳＪＭ．Ｌａｒｇｅ⁃ｓｃａｌｅｈｉｅｒａｒｃｈｉｃａｌｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈｏｕｔｌａｂｅｌｌｅｄｄａｔａ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｆｏｕｒｔｈＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｅｂＳｅａｒｃｈａｎｄＤａｔａＭｉｎｉｎｇ．ＨｏｎｇＫｏｎｇ，Ｃｈｉｎａ，２０１１：６８５⁃６９４．［３］ＷＥＴＺＫＥＲＲ，ＡＬＰＣＡＮＴ，ＢＡＵＣＫＨＡＧＥＣ，ｅｔａｌ．Ａｎｕｎｓｕｐｅｒｖｉｓｅｄｈｉｅｒａｒｃｈｉｃａｌａｐｐｒｏａｃｈｔｏｄｏｃｕｍｅｎｔｃａｔｅｇｏｒｉｚａ⁃ ｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ／ＷＩＣ／ＡＣＭＩｎｔｅｒｎａｔｉｏｎ⁃ ａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｅｂＩｎｔｅｌｌｉｇｅｎｃｅ．ＳｉｌｉｃｏｎＶａｌｌｅｙ，ＵＳＡ，２００７：４８２⁃４８６．［４］ＺＨＡＮＧＣ，ＸＵＥＧＲ，ＹＵＹ．Ｋｎｏｗｌｅｄｇｅｓｕｐｅｒｖｉｓｅｄｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈｎｏｌａｂｅｌｅｄｄｏｃｕｍｅｎｔｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１０ｔｈＰａｃｉｆｉｃＲｉｍＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉ⁃ ｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ｈａｎｏｉ，Ｖｉｅｔｎａｍ，２００８：５０９⁃５２０．［５］ＨＵＡＮＧＣＣ，ＣＨＵＡＮＧＳＬ，ＣＨＩＥＮＬＦ．Ｌｉｖｅｃｌａｓｓｉｆｉｅｒ：ｃｒｅａｔｉｎｇｈｉｅｒａｒｃｈｉｃａｌｔｅｘｔｃｌａｓｓｉｆｉｅｒｓｔｈｒｏｕｇｈＷｅｂｃｏｒｐｏｒａ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１３ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｏｒｌｄＷｉｄｅＷｅｂ．ＮｅｗＹｏｒｋ，ＵＳＡ，２００４：１８４⁃１９２．［６］ＷＡＮＧＰ，ＤＯＭＥＮＩＣＯＮＩＣ．Ｔｏｗａｒｄｓａｕｎｉｖｅｒｓａｌｔｅｘｔｃｌａｓ⁃ ｓｉｆｉｅｒ：ｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇｕｓｉｎｇｅｎｃｙｃｌｏｐｅｄｉｃｋｎｏｗｌｅｄｇｅ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮｉｎｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＭｉｎｉｎｇＷｏｒｋｓｈｏｐｓ．Ｍｉａｍｉ，ＵＳＡ，２００９：４３５⁃４４０．［７］ＨＵＮＧＣＭ，ＣＨＩＥＮＬＦ．Ｗｅｂ⁃ｂａｓｅｄｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎｉｎｔｈｅａｂｓｅｎｃｅｏｆｍａｎｕａｌｌｙｌａｂｅｌｅｄｔｒａｉｎｉｎｇｄｏｃｕｍｅｎｔｓ［Ｊ］．ＪｏｕｒｎａｌｏｆｔｈｅＡｍｅｒｉｃａｎＳｏｃｉｅｔｙｆｏｒＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，２００７，５８（１）：８８⁃９６．［８］ＨＵＮＧＣＭ，ＣＨＩＥＮＬＦ．ＴｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇＷｅｂｃｏｒ⁃ ｐｏｒａａｎｄｅｍａｌｇｏｒｉｔｈｍｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｓｉａＩｎｆｏｒ⁃ ｍａｔｉｏｎＲｅｔｒｉｅｖａｌＳｙｍｐｏｓｉｕｍ．Ｂｅｉｊｉｎｇ，Ｃｈｉｎａ，２００５：１２⁃２３．［９］刘丽珍，宋瀚涛，陆玉昌．无标记训练样本的Ｗｅｂ文本 ·３３４· 智能系统学报第９卷

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】基于无标记Web数据的层次式文本分类