正在加载图片...
文本分类任务 面些毛子种枝大等 XIDIAN UNIVERSITY )文档表示 口预处理:分词(中文) ■对文档进行分词,去掉与分类关联不大的词汇(如停用词) > 停用词:的,啊,了,么等没有意义的词;我、你、他等意义不 大的词 > 实现方法:有成形的工具,如中科院,清华,哈工大,西电的分 词工具 口文档表示(通用方法) 词表 ■向量空间法→将文档表示成一个向量 词频表示法 人民:10 日报:11 引领:12 位置编号 01234567 89… 民族:13 引领民族复兴的战 这个D0c=(14,15,10,10,11,11,13,… 复兴:14 战略:15 2017/5/6 软件工程系 文本分类任务  文档表示 预处理:分词(中文)  对文档进行分词,去掉与分类关联不大的词汇(如停用词) ➢ 停用词:的,啊,了,么等没有意义的词;我、你、他等意义不 大的词 ➢ 实现方法:有成形的工具,如中科院,清华,哈工大,西电的分 词工具 文档表示(通用方法)  向量空间法  将文档表示成一个向量 ➢ 词频表示法 词表 … 人民:10 日报:11 引领:12 民族:13 复兴:14 战略:15 … 0 1 2 3 4 5 6 7 8 9… (14, 15, 10, 10, 11, 11, 13, …) 位置编号 这个Doc=
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有