正在加载图片...
文档表示与特征选择 历些毛子科枝大多 XIDIAN UNIVERSITY →特征选择 ■缺点 >人工指定耗时费力,不一定准确 >如何应对新文档的加入? ■如何将这些代表某一类的词自动地选出来呢? >一种方法:在每一个类中计算每一个词的词频值 想法:某词t在某一个类别文本中出现频率高,而在其他类别的 文本中几乎不出现,则该词对分类的贡献较大;若某词在所有类 别的文本中均出现,则该词对分类作用小 两个要素: 1)一个词在当前类别中出现了多少次 2)有多少类别含有这个词 2017/5/6 软件工程系2017/5/6 软件工程系 文档表示与特征选择  特征选择  缺点 ➢ 人工指定耗时费力,不一定准确 ➢ 如何应对新文档的加入?  如何将这些代表某一类的词自动地选出来呢? ➢ 一种方法:在每一个类中计算每一个词的词频值 - 想法:某词 t 在某一个类别文本中出现频率高,而在其他类别的 文本中几乎不出现,则该词对分类的贡献较大;若某词在所有类 别的文本中均出现,则该词对分类作用小 - 两个要素: 1) 一个词在当前类别中出现了多少次 2) 有多少类别含有这个词
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有