信息检索与数据挖掘 2019年4月16日 信息检索与数据挖掘 第10章文本分类 part1:文本分类及朴素贝叶斯方法 part2:基于向量空间的文本分类 part3:支持向量机及机器学习方法
信息检索与数据挖掘 2019年4月16日 信息检索与数据挖掘 第10章 文本分类 part1: 文本分类及朴素贝叶斯方法 part2: 基于向量空间的文本分类 part3: 支持向量机及机器学习方法
信息检索与数据挖掘 2019年4月16日 讨论3-3-1:分类器(分类函数) ·学习方法不同,得到的分类函数Y不同 ·若学习方法固定,训练集D不同,Y是否相同? (d)=arg max P(c)II P(Xx=tlc) cEC 1<k<nd Cmap arg max P(cld)=arg max P(c)P(tklc) ceC ceC 1≤k≤na P(c)-N P(1c)= ·训练集D改变则P(c)和Ptc改变→Y改变 对于某固定学习方法,训练集改变使分类函数变化,不同的分类函数产生的 决策结果如果基本一致,我们说该学习方法的方差不大,如果不同分类函数 的决策结果差异性很大,我们说该学习方法的方差大
信息检索与数据挖掘 2019年4月16日 讨论3-3-1:分类器(分类函数) • 学习方法不同,得到的分类函数 不同 • 若学习方法固定,训练集 不同, 是否相同? • 训练集 改变则^P(c)和^P(tk |c)改变 改变 对于某固定学习方法,训练集改变使分类函数变化,不同的分类函数产生的 决策结果如果基本一致,我们说该学习方法的方差不大,如果不同分类函数 的决策结果差异性很大,我们说该学习方法的方差大 2
信息检索与数据挖掘 2019年4月16日 讨论3-3-2:分类器(分类函数)的误差 ·实际情沉是P(cd 。学习后分类器输出P(Cd) ·P(cd)与P(cldW之间的差异就是误差 14.6章节,p216 ·误差常用MSE衡量,MSE:ELP(C-P(CI2 E[x-a2=Ex2-2Exa +a2=Ex-ap2+E[x-Ex 2 ·令x=P(c记为P=P(cW记为P .EIAP-P2=EAP-PP+EAP-EAP2 偏差bias、方差variance 3
信息检索与数据挖掘 2019年4月16日 讨论3-3-2:分类器(分类函数)的误差 • 实际情况是 P(c|d) • 学习后分类器输出 ^P(c|d) • ^P(c|d) 与 P(c|d) 之间的差异就是误差 • 误差常用MSE衡量,MSE:Ed [^P(c|d) - P(c|d) ] 2 • E[x- α] 2 = Ex2 − 2Exα +α2 = [Ex − α] 2 + E[x − Ex ] 2 • 令x= ^P(c|d) 记为^P, α= P(c|d) 记为P • E[^P- P] 2 = [E^P − P]2 + E[^P − E^P ] 2 • 偏差 bias、方差 variance 14.6章节,p216 3
信息检索与数据挖掘 2019年4月16日 讨论3-3-3:偏差一方差折中准则 学习误差=偏差+方差。通常情况下,这两个部 分不会同时最小。当我们比较两个学习方法T和T2 时,大部分情况下最后的结果都是,其中一个方法 偏差高方差低而另一个方法偏差低方差高。因此, 从两个学习方法中选择一个时,我们不是简单地选 择能够在不同训练集上产生好的分类器的学习方法 (方差小),也不是选择那些能学出复杂决策边界 的学习方法(偏差小)。实际的做法是,根据应用 的需要,选择不同的权重对偏差和方差进行加权求 和。这种折衷称为偏差-方差折衷准则(bias variance tradeoff)
信息检索与数据挖掘 2019年4月16日 讨论3-3-3:偏差—方差折中准则 • 学习误差 = 偏差 + 方差。通常情况下,这两个部 分不会同时最小。当我们比较两个学习方法Г1和Г2 时,大部分情况下最后的结果都是,其中一个方法 偏差高方差低而另一个方法偏差低方差高。因此, 从两个学习方法中选择一个时,我们不是简单地选 择能够在不同训练集上产生好的分类器的学习方法 (方差小),也不是选择那些能学出复杂决策边界 的学习方法(偏差小)。实际的做法是,根据应用 的需要,选择不同的权重对偏差和方差进行加权求 和。这种折衷称为偏差-方差折衷准则(bias– variance tradeoff)。 4
信息检索与数据挖掘 2019年4月16日 讨论3-34: “偏差一方差”示例 白色分类边界:偏差大 (一直存在错分);但方 差小(不怎么受零星出现 在某一类别中的另一类别 文档的影响) 黄色分类边界:偏差小,但是方差大(大部分情况下正确, 但如果有文档出现在三角形所示位置,容易出现错分。故 总体判决表现为时好时坏) 5
信息检索与数据挖掘 2019年4月16日 讨论3-3-4:“偏差—方差”示例 黄色分类边界:偏差小,但是方差大(大部分情况下正确, 但如果有文档出现在三角形所示位置,容易出现错分。故 总体判决表现为时好时坏) 白色分类边界:偏差大 (一直存在错分);但方 差小(不怎么受零星出现 在某一类别中的另一类别 文档的影响) 5
信息检索与数据挖掘 2019年4月16日 课程内容 。1 第1章绪论 ·第2章布尔检索及倒排索引 Information Retrieval(IR):从大规模非 第3章词项词典和倒排记录表 结构化数据(通常是文本)的集合(通 ·第4章索引构建和索引压缩 常保存在计算机上)中找出满足用户信 ·第5章向量模型及检索系统 息需求的资料(通常是文档)的过程 ·第6章检索的评价 ·第7章相关反馈和查询扩展 ·第8章概率模型 ·第9章基于语言建模的检索模型 第10章文本分类 ·文本分类及朴素贝叶斯方法 。 基于向量空间的文本分类 数据挖掘(Data Mining)从大量的、不 。支持向量机及机器学习方法 完全的、有噪声的、模糊的、随机的实 。第11章文本聚类 际应用数据中,提取隐含在其中的、人 ·第12章Web搜索 们事先不知道的、但又是潜在有用的信 ·第13章多媒体信息检索 。 息和知识的过程 第14章其他应用简介
信息检索与数据挖掘 2019年4月16日 课程内容 • „第1章 绪论 • 第2章 布尔检索及倒排索引 • 第3章 词项词典和倒排记录表 • 第4章 索引构建和索引压缩 • 第5章 向量模型及检索系统 • 第6章 检索的评价 • 第7章 相关反馈和查询扩展 • 第8章 概率模型 • 第9章 基于语言建模的检索模型 • 第10章 文本分类 • 文本分类及朴素贝叶斯方法 • 基于向量空间的文本分类 • 支持向量机及机器学习方法 • 第11章 文本聚类 • 第12章 Web搜索 • 第13章 多媒体信息检索 • 第14章 其他应用简介 数据挖掘(Data Mining)从大量的、不 完全的、有噪声的、模糊的、随机的实 际应用数据中,提取隐含在其中的、人 们事先不知道的、但又是潜在有用的信 息和知识的过程 Information Retrieval(IR):从大规模非 结构化数据(通常是文本)的集合(通 常保存在计算机上)中找出满足用户信 息需求的资料(通常是文档)的过程 6
信息检索与数据挖掘 2019年4月16日 本讲内容:基于向量空间的文本分类 第10章文本分类 。文本分类及朴素贝叶斯方法 ·基于向量空间的文本分类 ·Rocchio方法 ·kNN(k近邻)方法 。线性分类器 ·支持向量机及机器学习方法 多项式模型:是在d中出现的词项序列 贝努利模型:是一个M维的布尔向量 向量空间模型:每个词项对应一个维度(分量) 7
信息检索与数据挖掘 2019年4月16日 本讲内容:基于向量空间的文本分类 • 第10章 文本分类 • 文本分类及朴素贝叶斯方法 • 基于向量空间的文本分类 • Rocchio方法 • kNN(k 近邻)方法 • 线性分类器 • 支持向量机及机器学习方法 多项式模型:是在d 中出现的词项序列 贝努利模型:是一个M维的布尔向量 向量空间模型:每个词项对应一个维度(分量) 7
信息检索与数据挖掘 2019年4月16日 基于向量空间模型的文本分类的思路 长度归一化的欧式距离计算与余弦相似 向量空间模型 度计算结果是一致的 。词项-文档矩阵:二值计数→权重矩阵(tf-idf值) ·相关性=向量距离:欧氏距离→夹角→余弦相似度 利用向量空间模型进行文本分类 的思路主要基于邻近假设 (contiguity hypothesis) ①同一类的文档会构成一个邻近 区域,②而不同类的邻近区域 之间是互不重叠的。 ● Government 核心问题是如何找到分类面 O Science 决策边界(decision boundary), ●ArtS
信息检索与数据挖掘 2019年4月16日 基于向量空间模型的文本分类的思路 • 向量空间模型 • 词项-文档矩阵:二值→ 计数 → 权重矩阵( tf-idf值) • 相关性=向量距离:欧氏距离→夹角→余弦相似度 利用向量空间模型进行文本分类 的思路主要基于邻近假设 (contiguity hypothesis): ①同一类的文档会构成一个邻近 区域, ②而不同类的邻近区域 之间是互不重叠的。 核心问题是如何找到分类面 决策边界(decision boundary) Government Science Arts 长度归一化的欧式距离计算与余弦相似 度计算结果是一致的 9
信息检索与数据挖掘 2019年4月16日 Test Document Government? Test Document Science? ·给定训练集可能存在多种分类面方案 ·选定的分类面方案有可能将测试文档归入错误的类中 ●Government O Science ●Arts
信息检索与数据挖掘 2019年4月16日 Test Document = Government? Test Document = Science? • 给定训练集可能存在多种分类面方案 • 选定的分类面方案有可能将测试文档归入错误的类中 Government Science Arts10
信息检索与数据挖掘 2019年4月16日 例:可用超平面来分割多维空间 .A hyperplane is a set of the form {x aTx=b),where a∈Rn,a≠0,andb∈R. Geometrically,the hyperplane {x aTx=b}can be interpreted as the set of points with a constant inner product to a given vector a,or as a hyperplane with normal vector a;the constant b E R determines the offset of the hyperplane from the origin. A hyperplane divides Rn into two halfspaces.A (closed)halfspace is a set of the form {x aTx<b), 11
信息检索与数据挖掘 2019年4月16日 例:可用超平面来分割多维空间 • A hyperplane is a set of the form {x | aTx = b}, where a ∈ Rn , a ≠ 0, and b ∈ R. • Geometrically, the hyperplane {x | aTx = b} can be interpreted as the set of points with a constant inner product to a given vector a, or as a hyperplane with normal vector a; the constant b ∈ R determines the offset of the hyperplane from the origin. • A hyperplane divides Rn into two halfspaces. A (closed) halfspace is a set of the form {x | aTx ≤ b}, 11