当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

西安电子科技大学:《信息检索》课程教学资源(课件讲稿)文本分类(Text Classification)

资源类别:文库,文档格式:PDF,文档页数:29,文件大小:1.67MB,团购合买
文本分类(Text Classification)  示例、定义与范畴  文档表示与特征选择  中文文本类别与层次分类结构(人工)  文本分类方法 分类流程 基于划分的方法(e.g., K近邻) 基于模型的方法(不细讲)  分类效果评估
点击下载完整版文档(PDF)

本科:Web信息搜索 §4.2文本分类 (Text Classification) 徐悦甡 ysxu@xidian.edu.cn/xuyueshen@163.com 知识与数据工程研究中心 历些毛子种技大学 XIDIAN UNIVERSITY

§4.2 文本分类 (Text Classification) 徐悦甡 ysxu@xidian.edu.cn / xuyueshen@163.com 知识与数据工程研究中心 本科:Web信息搜索

本节提纲 历些毛子种技大学 XIDIAN UNIVERSITY ▣文本分类(Text Classification) ■示例、定义与范畴 ■文档表示与特征选择 ■中文文本类别与层次分类结构(人工) ■文本分类方法 >分类流程 >基于划分的方法(e.g,K近邻) >基于模型的方法(不细讲) ■分类效果评估 2017/5/6 软件工程系

2017/5/6 软件工程系 本节提纲 文本分类(Text Classification)  示例、定义与范畴  文档表示与特征选择  中文文本类别与层次分类结构(人工)  文本分类方法 ➢ 分类流程 ➢ 基于划分的方法(e.g., K近邻) ➢ 基于模型的方法(不细讲)  分类效果评估

示例、定义与范畴 历些毛子种枝大等 XIDIAN UNIVERSITY 一般性分类任务举例 口举例 ■形状分组(已知四类) 第一类:圆 第二类:长方形 A 第三类:三角形 第四类:不规侧 各自应该属于哪个类? 第一类、第二类、 第三类、第四类:已知标记 ←→对比,聚类问题中是没有任何已知标记的 2017/5/6 软件工程系

2017/5/6 软件工程系 示例、定义与范畴  一般性分类任务举例 举例  形状分组(已知四类) 3 第一类:圆 第三类:三角形 第二类:长方形 第四类:不规则 各自应该属于哪个类? 第一类、第二类、第三类、第四类:已知标记  对比,聚类问题中是没有任何已知标记的

示例、定义与范畴 历些毛子科枚大多 XIDIAN UNIVERSITY →范畴与示例 口一般性分类 ■事先已知部分样本的类别,然后将新样本划分到相应别中的 问题 口文本分类 已知一部分文档的类别,根据给定的新文本的内容,将其判 别为事先确定的若干个类别中的某一类或某几类的过程 井监贸微整美 热 边免捉 方入市党委书记易人 失散19年,儿子问家 民族复兴 新闻类 体育类 应该属于哪一类?

2017/5/6 软件工程系 一般性分类  事先已知部分样本的类别,然后将新样本划分到相应别中的 问题 文本分类  已知一部分文档的类别,根据给定的新文本的内容,将其判 别为事先确定的若干个类别中的某一类或某几类的过程 示例、定义与范畴  范畴与示例 新闻类 体育类 应该属于哪一类?

示例、定义与范畴 历些毛子种枝大等 XIDIAN UNIVERSITY →范畴与示例 口文本分类与信息检索的关系 ■每一本信息检索的教材中都会讲到“文本分类 >相似网页归类(主要由文本组成, →发现相似内容的网页,组成相似网页组 →提升搜索体验,提升搜索结果的多样性 →对于后台,节省计算时间,提高排序/建索引效率 >垃圾网页识别 中360安全中心量您 >病毒/异常网页识别 您访问的是木马网站 >垃圾邮件识别 当前页面带有木马或病毒,木马或病毒会给的电脑安全造成威胁,建议立即关闭此页面。 > 异常网页文本内容识 您访问g的网址是:http://www1com/ 2017/5/6 忽缩警告,继续访问 关闭页面

2017/5/6 软件工程系 示例、定义与范畴  范畴与示例 文本分类与信息检索的关系  每一本信息检索的教材中都会讲到“文本分类” ➢ 相似网页归类 (主要由文本组成)  发现相似内容的网页,组成相似网页组  提升搜索体验,提升搜索结果的多样性  对于后台,节省计算时间,提高排序/建索引效率 5 ➢ 垃圾网页识别 ➢ 病毒/异常网页识别 ➢ 垃圾邮件识别 ➢ 异常网页文本内容识别

示例、定义与范畴 历些毛子科枚大》 XIDIAN UNIVERSITY →范畴与示例 ▣文本分类与信息检索的关系 >我们不是在学《搜索引擎使用手册》或《搜索引擎使用技巧》 面向人民群众v.s.面向专业数据人员 >我们也不是在学《搜索引擎优化技巧(SEO)》 面向网站运营人员V.s.面向专业数据人员 Seorch Ege SE0教程 高‘ 达人述DUMMIES 援索引擎优化入门与进阶 接亲警优化(SE0】 方法与技巧) 电脑上网叠 SEO te mard m w出 清大系社 多A2 2017/5/6 软件工程系

2017/5/6 软件工程系 示例、定义与范畴  范畴与示例 文本分类与信息检索的关系 ➢ 我们不是在学《搜索引擎使用手册》或《搜索引擎使用技巧》 - 面向人民群众 v.s. 面向专业数据人员 ➢ 我们也不是在学《搜索引擎优化技巧(SEO)》 - 面向网站运营人员 v.s. 面向专业数据人员

文本分类任务 面些毛子种枝大等 XIDIAN UNIVERSITY )文档表示 口预处理:分词(中文) ■对文档进行分词,去掉与分类关联不大的词汇(如停用词) > 停用词:的,啊,了,么等没有意义的词;我、你、他等意义不 大的词 > 实现方法:有成形的工具,如中科院,清华,哈工大,西电的分 词工具 口文档表示(通用方法) 词表 ■向量空间法→将文档表示成一个向量 词频表示法 人民:10 日报:11 引领:12 位置编号 01234567 89… 民族:13 引领民族复兴的战 这个D0c=(14,15,10,10,11,11,13,… 复兴:14 战略:15

2017/5/6 软件工程系 文本分类任务  文档表示 预处理:分词(中文)  对文档进行分词,去掉与分类关联不大的词汇(如停用词) ➢ 停用词:的,啊,了,么等没有意义的词;我、你、他等意义不 大的词 ➢ 实现方法:有成形的工具,如中科院,清华,哈工大,西电的分 词工具 文档表示(通用方法)  向量空间法  将文档表示成一个向量 ➢ 词频表示法 词表 … 人民:10 日报:11 引领:12 民族:13 复兴:14 战略:15 … 0 1 2 3 4 5 6 7 8 9… (14, 15, 10, 10, 11, 11, 13, …) 位置编号 这个Doc=

文本分类任务 历些莞子种拔大 XIDIAN UNIVERSITY )文档表示 ▣常用词表构建方法 ■通用电子词典 Pocket. LONGMAN Oxford PRONUNCIATION DICTIONARY >词汇量大,全面 ENGLISH Collegiate Dictionary Dictionary C Wells eventh Elici >同时,也过于全面 ■特定领域词库 >市场的要求:电信、旅游、教育、 互联网等领域均有自己的词汇 > 学科的要求:化学、物理、数学、医药、生物、通信等学科也有 自己的词汇 > 针对性强,需要积累与收集 Medical Terminology CHEMICAL PHARMACY Systems ■用户贡献(评论与标签) TECHNOLOGY TERMINOLOGY 2017/5/6

2017/5/6 软件工程系 文本分类任务  文档表示 常用词表构建方法  通用电子词典 ➢ 词汇量大,全面 ➢ 同时,也过于全面  特定领域词库 ➢ 市场的要求:电信、旅游、教育、互联网等领域均有自己的词汇 ➢ 学科的要求:化学、物理、数学、医药、生物、通信等学科也有 自己的词汇 ➢ 针对性强,需要积累与收集  用户贡献(评论与标签)

文档表示与特征选择 历粤毛子种技大》 XIDIAN UNIVERSITY →特征选择 口特征选择 >去除了的、啊、了、么之后,哪些词更能代表一个类? >举例 体育类 这些词:足球、篮球、斯诺克、奥运、NBA、博尔特,… 七边晚报 图为狐 入市党委书记易人 新闻类 失散19年,儿了叫家 这些词:会议,政策,战略,报告,主席,市长

2017/5/6 软件工程系 文档表示与特征选择  特征选择 特征选择 ➢ 去除了的、啊、了、么之后 ,哪些词更能代表一个类? ➢ 举例 这些词:足球、篮球、斯诺克、奥运、NBA、博尔特,… 这些词:会议,政策,战略,报告,主席,市长,… 新闻类 体育类

文档表示与特征选择 历些毛子科枝大多 XIDIAN UNIVERSITY →特征选择 ■缺点 >人工指定耗时费力,不一定准确 >如何应对新文档的加入? ■如何将这些代表某一类的词自动地选出来呢? >一种方法:在每一个类中计算每一个词的词频值 想法:某词t在某一个类别文本中出现频率高,而在其他类别的 文本中几乎不出现,则该词对分类的贡献较大;若某词在所有类 别的文本中均出现,则该词对分类作用小 两个要素: 1)一个词在当前类别中出现了多少次 2)有多少类别含有这个词 2017/5/6 软件工程系

2017/5/6 软件工程系 文档表示与特征选择  特征选择  缺点 ➢ 人工指定耗时费力,不一定准确 ➢ 如何应对新文档的加入?  如何将这些代表某一类的词自动地选出来呢? ➢ 一种方法:在每一个类中计算每一个词的词频值 - 想法:某词 t 在某一个类别文本中出现频率高,而在其他类别的 文本中几乎不出现,则该词对分类的贡献较大;若某词在所有类 别的文本中均出现,则该词对分类作用小 - 两个要素: 1) 一个词在当前类别中出现了多少次 2) 有多少类别含有这个词

点击下载完整版文档(PDF)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
共29页,试读已结束,阅读完整版请下载
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有