本科:Web信息搜索 §4.2文本分类 (Text Classification) 徐悦甡 ysxu@xidian.edu.cn/xuyueshen@163.com 知识与数据工程研究中心 历些毛子种技大学 XIDIAN UNIVERSITY
§4.2 文本分类 (Text Classification) 徐悦甡 ysxu@xidian.edu.cn / xuyueshen@163.com 知识与数据工程研究中心 本科:Web信息搜索
本节提纲 历些毛子种技大学 XIDIAN UNIVERSITY ▣文本分类(Text Classification) ■示例、定义与范畴 ■文档表示与特征选择 ■中文文本类别与层次分类结构(人工) ■文本分类方法 >分类流程 >基于划分的方法(e.g,K近邻) >基于模型的方法(不细讲) ■分类效果评估 2017/5/6 软件工程系
2017/5/6 软件工程系 本节提纲 文本分类(Text Classification) 示例、定义与范畴 文档表示与特征选择 中文文本类别与层次分类结构(人工) 文本分类方法 ➢ 分类流程 ➢ 基于划分的方法(e.g., K近邻) ➢ 基于模型的方法(不细讲) 分类效果评估
示例、定义与范畴 历些毛子种枝大等 XIDIAN UNIVERSITY 一般性分类任务举例 口举例 ■形状分组(已知四类) 第一类:圆 第二类:长方形 A 第三类:三角形 第四类:不规侧 各自应该属于哪个类? 第一类、第二类、 第三类、第四类:已知标记 ←→对比,聚类问题中是没有任何已知标记的 2017/5/6 软件工程系
2017/5/6 软件工程系 示例、定义与范畴 一般性分类任务举例 举例 形状分组(已知四类) 3 第一类:圆 第三类:三角形 第二类:长方形 第四类:不规则 各自应该属于哪个类? 第一类、第二类、第三类、第四类:已知标记 对比,聚类问题中是没有任何已知标记的
示例、定义与范畴 历些毛子科枚大多 XIDIAN UNIVERSITY →范畴与示例 口一般性分类 ■事先已知部分样本的类别,然后将新样本划分到相应别中的 问题 口文本分类 已知一部分文档的类别,根据给定的新文本的内容,将其判 别为事先确定的若干个类别中的某一类或某几类的过程 井监贸微整美 热 边免捉 方入市党委书记易人 失散19年,儿子问家 民族复兴 新闻类 体育类 应该属于哪一类?
2017/5/6 软件工程系 一般性分类 事先已知部分样本的类别,然后将新样本划分到相应别中的 问题 文本分类 已知一部分文档的类别,根据给定的新文本的内容,将其判 别为事先确定的若干个类别中的某一类或某几类的过程 示例、定义与范畴 范畴与示例 新闻类 体育类 应该属于哪一类?
示例、定义与范畴 历些毛子种枝大等 XIDIAN UNIVERSITY →范畴与示例 口文本分类与信息检索的关系 ■每一本信息检索的教材中都会讲到“文本分类 >相似网页归类(主要由文本组成, →发现相似内容的网页,组成相似网页组 →提升搜索体验,提升搜索结果的多样性 →对于后台,节省计算时间,提高排序/建索引效率 >垃圾网页识别 中360安全中心量您 >病毒/异常网页识别 您访问的是木马网站 >垃圾邮件识别 当前页面带有木马或病毒,木马或病毒会给的电脑安全造成威胁,建议立即关闭此页面。 > 异常网页文本内容识 您访问g的网址是:http://www1com/ 2017/5/6 忽缩警告,继续访问 关闭页面
2017/5/6 软件工程系 示例、定义与范畴 范畴与示例 文本分类与信息检索的关系 每一本信息检索的教材中都会讲到“文本分类” ➢ 相似网页归类 (主要由文本组成) 发现相似内容的网页,组成相似网页组 提升搜索体验,提升搜索结果的多样性 对于后台,节省计算时间,提高排序/建索引效率 5 ➢ 垃圾网页识别 ➢ 病毒/异常网页识别 ➢ 垃圾邮件识别 ➢ 异常网页文本内容识别
示例、定义与范畴 历些毛子科枚大》 XIDIAN UNIVERSITY →范畴与示例 ▣文本分类与信息检索的关系 >我们不是在学《搜索引擎使用手册》或《搜索引擎使用技巧》 面向人民群众v.s.面向专业数据人员 >我们也不是在学《搜索引擎优化技巧(SEO)》 面向网站运营人员V.s.面向专业数据人员 Seorch Ege SE0教程 高‘ 达人述DUMMIES 援索引擎优化入门与进阶 接亲警优化(SE0】 方法与技巧) 电脑上网叠 SEO te mard m w出 清大系社 多A2 2017/5/6 软件工程系
2017/5/6 软件工程系 示例、定义与范畴 范畴与示例 文本分类与信息检索的关系 ➢ 我们不是在学《搜索引擎使用手册》或《搜索引擎使用技巧》 - 面向人民群众 v.s. 面向专业数据人员 ➢ 我们也不是在学《搜索引擎优化技巧(SEO)》 - 面向网站运营人员 v.s. 面向专业数据人员
文本分类任务 面些毛子种枝大等 XIDIAN UNIVERSITY )文档表示 口预处理:分词(中文) ■对文档进行分词,去掉与分类关联不大的词汇(如停用词) > 停用词:的,啊,了,么等没有意义的词;我、你、他等意义不 大的词 > 实现方法:有成形的工具,如中科院,清华,哈工大,西电的分 词工具 口文档表示(通用方法) 词表 ■向量空间法→将文档表示成一个向量 词频表示法 人民:10 日报:11 引领:12 位置编号 01234567 89… 民族:13 引领民族复兴的战 这个D0c=(14,15,10,10,11,11,13,… 复兴:14 战略:15
2017/5/6 软件工程系 文本分类任务 文档表示 预处理:分词(中文) 对文档进行分词,去掉与分类关联不大的词汇(如停用词) ➢ 停用词:的,啊,了,么等没有意义的词;我、你、他等意义不 大的词 ➢ 实现方法:有成形的工具,如中科院,清华,哈工大,西电的分 词工具 文档表示(通用方法) 向量空间法 将文档表示成一个向量 ➢ 词频表示法 词表 … 人民:10 日报:11 引领:12 民族:13 复兴:14 战略:15 … 0 1 2 3 4 5 6 7 8 9… (14, 15, 10, 10, 11, 11, 13, …) 位置编号 这个Doc=
文本分类任务 历些莞子种拔大 XIDIAN UNIVERSITY )文档表示 ▣常用词表构建方法 ■通用电子词典 Pocket. LONGMAN Oxford PRONUNCIATION DICTIONARY >词汇量大,全面 ENGLISH Collegiate Dictionary Dictionary C Wells eventh Elici >同时,也过于全面 ■特定领域词库 >市场的要求:电信、旅游、教育、 互联网等领域均有自己的词汇 > 学科的要求:化学、物理、数学、医药、生物、通信等学科也有 自己的词汇 > 针对性强,需要积累与收集 Medical Terminology CHEMICAL PHARMACY Systems ■用户贡献(评论与标签) TECHNOLOGY TERMINOLOGY 2017/5/6
2017/5/6 软件工程系 文本分类任务 文档表示 常用词表构建方法 通用电子词典 ➢ 词汇量大,全面 ➢ 同时,也过于全面 特定领域词库 ➢ 市场的要求:电信、旅游、教育、互联网等领域均有自己的词汇 ➢ 学科的要求:化学、物理、数学、医药、生物、通信等学科也有 自己的词汇 ➢ 针对性强,需要积累与收集 用户贡献(评论与标签)
文档表示与特征选择 历粤毛子种技大》 XIDIAN UNIVERSITY →特征选择 口特征选择 >去除了的、啊、了、么之后,哪些词更能代表一个类? >举例 体育类 这些词:足球、篮球、斯诺克、奥运、NBA、博尔特,… 七边晚报 图为狐 入市党委书记易人 新闻类 失散19年,儿了叫家 这些词:会议,政策,战略,报告,主席,市长
2017/5/6 软件工程系 文档表示与特征选择 特征选择 特征选择 ➢ 去除了的、啊、了、么之后 ,哪些词更能代表一个类? ➢ 举例 这些词:足球、篮球、斯诺克、奥运、NBA、博尔特,… 这些词:会议,政策,战略,报告,主席,市长,… 新闻类 体育类
文档表示与特征选择 历些毛子科枝大多 XIDIAN UNIVERSITY →特征选择 ■缺点 >人工指定耗时费力,不一定准确 >如何应对新文档的加入? ■如何将这些代表某一类的词自动地选出来呢? >一种方法:在每一个类中计算每一个词的词频值 想法:某词t在某一个类别文本中出现频率高,而在其他类别的 文本中几乎不出现,则该词对分类的贡献较大;若某词在所有类 别的文本中均出现,则该词对分类作用小 两个要素: 1)一个词在当前类别中出现了多少次 2)有多少类别含有这个词 2017/5/6 软件工程系
2017/5/6 软件工程系 文档表示与特征选择 特征选择 缺点 ➢ 人工指定耗时费力,不一定准确 ➢ 如何应对新文档的加入? 如何将这些代表某一类的词自动地选出来呢? ➢ 一种方法:在每一个类中计算每一个词的词频值 - 想法:某词 t 在某一个类别文本中出现频率高,而在其他类别的 文本中几乎不出现,则该词对分类的贡献较大;若某词在所有类 别的文本中均出现,则该词对分类作用小 - 两个要素: 1) 一个词在当前类别中出现了多少次 2) 有多少类别含有这个词