文本分类通常有文本的预处理、文本的向量空间模型表示、文本特征提取和分类器

正在加载图片...

文本分类通常有文本的预处理、文本的向量空间模型表示、文本特征提取和分类器的训练四个步骤。在研究文本分类的过程中,特征提取是最关键的环节之一,可以起到降低向量维数、简化计算去除噪声等作用。故而,特征提取的好坏将直接影响文本分类的准确率。特征提取的基本思想是构造个评估函数,对特征集中的每个特征词进行权重计算,然后对所有的特征词按照其权重值的大小进行排序,选择预定数目的最佳特征作为最终的特征子集。在文本分类中常使用的特征选择方法包括文档频率7 document frequency)互信意 ( mutual information)、信息增益 ( information gain)、X2统计(CH|)、期望交叉熵( cross entropy 文本证据权(the eight of evidence for text) 优势率(odds at0)和词频反文档频率等。文本分类通常有文本的预处理、文本的向量空间模型表示、文本特征提取和分类器的训练四个步骤。在研究文本分类的过程中，特征提取是最关键的环节之一，可以起到降低向量维数、简化计算、去除噪声等作用。故而，特征提取的好坏将直接影响文本分类的准确率。特征提取的基本思想是构造一个评估函数，对特征集中的每个特征词进行权重计算，然后对所有的特征词按照其权重值的大小进行排序，选择预定数目的最佳特征作为最终的特征子集。在文本分类中常使用的特征选择方法包括文档频率（document frequency）、互信息（mutual information）、信息增益（information gain）、χ２统计（CHI）、期望交叉熵（cross entropy）、文本证据权（the weight of evidence for text）、优势率（odds ratio）和词频反文档频率等

<<向上翻页向下翻页>>

点击下载：基于语义关联和信息增益的TFIDF改进算法研究