文本分类 (Text Categorization) 刘挺 哈工大信息检索研究室 2004年秋
文本分类 (Text Categorization) 刘挺 哈工大信息检索研究室 2004年秋
提纲 ■文本分类概述 ■特征提取 ■主要分类算法 ·Rocchio法 ▣贝叶斯 ·K近邻 。决策树
提纲 文本分类概述 特征提取 主要分类算法 Rocchio 法 贝叶斯 K近邻 决策树
文本分类概述
文本分类概述
分类的概念 ■给定: ■一个实例的描述,XX是实例空间 ·一个固定的文本分类体系:C={C1,C2.G} ·由于类别是事先定义好的,因此分类是有指 导的(或者说是有监督的) ■确定: ■实例的类别(x)ECG(x)是一个分类函 数,定义域是X,值域是C
分类的概念 给定: 一个实例的描述, x∈ X, X是实例空间 一个固定的文本分类体系: C={ c1, c2 , … cn } 由于类别是事先定义好的,因此分类是有指 导的(或者说是有监督的) 确定: 实例 x的类别 c( x) ∈C, c( x) 是一个分类函 数,定义域是 X ,值域是 C
说明 分类模式 。2类问题, 属于或不属于(binary) ■于 多类问题,多个类别(multi--class), 可拆分成2 类问题 ·一个文本可以属于多类(muti-label) ■分类体系一般人工构造 ·政治、体育、军事 。中美关系、恐怖事件 ■很多分类体系:Reuters分类体系、中图分类
说明 分类模式 2类问题,属于或不属于(binary) 多类问题,多个类别(multi-class),可拆分成2 类问题 一个文本可以属于多类(multi-label) 分类体系一般人工构造 政治、体育、军事 中美关系、恐怖事件 很多分类体系: Reuters分类体系、中图分类
中图分类法 A类马列主义、毛泽东思想 TB类一般工业技术 B类 哲学 TD类矿业工程 C类社会科学总论 TE类石油、天然气工业 D类政治、法律 TF类冶金工业 E类军事 TG类金属学、金属工艺 F类经济 TH类机械、仪表工艺 G类文化、科学、教育、体育 T类武器工业 H类语言、文字 TK类动力工业 类文学 TL类原子能技术 类 艺术 TM类电工技术 K类 历史、地理 TN类无线电电子学、电信技术 N类自然科学总论 TP类自动化技术、计算技术 0类 数理科学和化学 TQ类化学工业 P类 天文学、地球科学 TS类轻工业、手工业 Q类生物科学 TU类建筑科学 R类医药、卫生 V类水利工程 S类农业科学 U类 交通运输 V类 航空、航天 X类 环境科学、劳动保护科学(安全科学)
中图分类法 A类 马列主义、毛泽东思想 B类 哲学 C类 社会科学总论 D类 政治、法律 E类 军事 F类 经济 G类 文化、科学、教育、体育 H类 语言、文字 I类 文学 J类 艺术 K类 历史、地理 N类 自然科学总论 O类 数理科学和化学 P类 天文学、地球科学 Q类 生物科学 R类 医药、卫生 S类 农业科学 U类 交通运输 V类 航空、航天 X类 环境科学、劳动保护科学(安全科学) TB类 一般工业技术 TD类 矿业工程 TE类 石油、天然气工业 TF类 冶金工业 TG类 金属学、金属工艺 TH类 机械、仪表工艺 TJ类 武器工业 TK类 动力工业 TL类 原子能技术 TM类 电工技术 TN类 无线电电子学、电信技术 TP类 自动化技术、计算技术 TQ类 化学工业 TS类 轻工业、手工业 TU类 建筑科学 TV类 水利工程
系统结构 训练数据 预处理 标注工具 文本 模型数据 机器学习工具 标注的样本 新数据 预处理 分类工具 类别 文本
系统结构 标注工具 模型数据 机器学习工具 标注的样本 分类工具 类别 预处理 预处理 训练数据 文本 新数据 文本
分类的一般过程 收集训练集和测试集,对文本进行预处 理 ■对文本类别进行人工标注 ■对文本进行特征提取 ■训练(学习) ■评价 ·精确率、召回率、F1 。宏平均,微平均
分类的一般过程 收集训练集和测试集,对文本进行预处 理 对文本类别进行人工标注 对文本进行特征提取 训练(学习) 评价 精确率、召回率、F1 宏平均,微平均
文本分类示例 "planning language 测试数据 proof intelligence" (AI) (Programming) (HCI) 类别 ML Planning Semantics Garb.Coll. Multimedia GUI learning planning programming garbage intelligence temporal semantics collection algorithm reasoning language memory 训练数据 reinforcement plan proof... optimization network... language... region
文本分类示例 “planning language proof intelligence” ML Semantics Garb.Coll. Multim edia GUI 测试数据 (AI) (Programming) (HCI) 类别 Planning garbage collection memory optimization region... programming semantics language proof... planning temporal reasoning plan language... learning intelligence algorithm reinforcement network... ... ... 训练数据
预处理 去掉网页中的导航信息 ■去掉HTL网页中的tag标记 ■(中文)分词、词性标注、短语识别、 . ■ 去除停用词和词根还原(stemming) ■数据清洗:去掉不合适的噪声文档或文档内垃 圾数据 0。●00
预处理 去掉网页中的导航信息 去掉HTML网页中的tag标记 (中文)分词、词性标注、短语识别、… 去除停用词和词根还原(stemming) 数据清洗:去掉不合适的噪声文档或文档内垃 圾数据 ⋅⋅⋅⋅⋅⋅