正在加载图片...
信息检索与数据挖掘 2019年4月16日 基于向量空间模型的文本分类的思路 长度归一化的欧式距离计算与余弦相似 向量空间模型 度计算结果是一致的 。词项-文档矩阵:二值计数→权重矩阵(tf-idf值) ·相关性=向量距离:欧氏距离→夹角→余弦相似度 利用向量空间模型进行文本分类 的思路主要基于邻近假设 (contiguity hypothesis) ①同一类的文档会构成一个邻近 区域,②而不同类的邻近区域 之间是互不重叠的。 ● Government 核心问题是如何找到分类面 O Science 决策边界(decision boundary), ●ArtS信息检索与数据挖掘 2019年4月16日 基于向量空间模型的文本分类的思路 • 向量空间模型 • 词项-文档矩阵:二值→ 计数 → 权重矩阵( tf-idf值) • 相关性=向量距离:欧氏距离→夹角→余弦相似度 利用向量空间模型进行文本分类 的思路主要基于邻近假设 (contiguity hypothesis): ①同一类的文档会构成一个邻近 区域, ②而不同类的邻近区域 之间是互不重叠的。 核心问题是如何找到分类面 决策边界(decision boundary) Government Science Arts 长度归一化的欧式距离计算与余弦相似 度计算结果是一致的 9
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有