正在加载图片...
文本分类通常有文本的预处理、文本的向量空 间模型表示、文本特征提取和分类器的训练四个步 骤。在研究文本分类的过程中,特征提取是最关键 的环节之一,可以起到降低向量维数、简化计算 去除噪声等作用。故而,特征提取的好坏将直接影 响文本分类的准确率。特征提取的基本思想是构造 个评估函数,对特征集中的每个特征词进行权重 计算,然后对所有的特征词按照其权重值的大小进 行排序,选择预定数目的最佳特征作为最终的特征 子集。在文本分类中常使用的特征选择方法包括文 档频率7 document frequency)互信意 ( mutual information)、信息增益 ( information gain)、X2统计(CH|)、期望 交叉熵( cross entropy 文本证据权(the eight of evidence for text) 优势率(odds at0)和词频反文档频率等。文本分类通常有文本的预处理、文本的向量空 间模型表示、文本特征提取和分类器的训练四个步 骤。在研究文本分类的过程中,特征提取是最关键 的环节之一,可以起到降低向量维数、简化计算、 去除噪声等作用。故而,特征提取的好坏将直接影 响文本分类的准确率。特征提取的基本思想是构造 一个评估函数,对特征集中的每个特征词进行权重 计算,然后对所有的特征词按照其权重值的大小进 行排序,选择预定数目的最佳特征作为最终的特征 子集。在文本分类中常使用的特征选择方法包括文 档频率(document frequency)、互信息 (mutual information)、信息增益 (information gain)、χ2 统计(CHI)、期望 交叉熵(cross entropy)、文本证据权(the weight of evidence for text)、优势率(odds ratio)和词频反文档频率等
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有