本科:Web信息检索 §4.1文本聚类 (Text Clustering) 徐悦牲Yueshen Xu) ysxu@xidian.edu.cn/xuyueshen@163.com 知识与数据工程研究中心 历毛子代牧大粤 XIDIAN UNIVERSITY
§4.1 文本聚类 (Text Clustering) 徐悦甡(Yueshen Xu) ysxu@xidian.edu.cn / xuyueshen@163.com 知识与数据工程研究中心 本科:Web信息检索
整体课程安排 历些毛子秋枚大学 XIDIAN UNIVERSITY 信息检索引擎 Google 含sK景同 查询 bing Query YAHOO! C0u9ou胸 中国雅虎 为了用户 Bal芯百度 /数据 S0S0搜搜 Sog9Lu搜狗 索引 聚类 倒排 分类 G中拽 有道y9udao 查询 推荐 爬虫 过滤 分布式 评估 相似性 为了系统 建模 /智能 排序 (Modeling) 2017/4/25 Ranking 软件工程系
2017/4/25 软件工程系 整体课程安排 查询 (Query) 建模 (Modeling) 排序 (Ranking) 信息检索引擎 为了用户 /数据 为了系统 /智能 索引 倒排 查询 爬虫 分布式 … 聚类 分类 推荐 过滤 评估 相似性
后续课程安排 历些毛子种枝大等 XIDIAN UNIVERSITY →计划 ▣文本聚类 问题背景→通用方法→针对文本的方法 口文本分类 口推荐系统 ■基于协同过滤的推荐方法 Query-free Information ■基于内容的推荐方法 Retrieval ■基于网络的推荐方法 口信息归纳与过滤 ■话题建模 ■垃圾信息过滤 口检索结果评估 2017/14/25 软件工程系
2017/4/25 软件工程系 后续课程安排 计划 文本聚类 文本分类 推荐系统 基于协同过滤的推荐方法 基于内容的推荐方法 基于网络的推荐方法 信息归纳与过滤 话题建模 垃圾信息过滤 检索结果评估 4 问题背景 通用方法 针对文本的方法 Query-free Information Retrieval
推荐教材 历忠毛子代枚大学 XIDIAN UNIVERSITY 口英文教材 Christopher D.Manning search prabhakar Raghavan C.D.Manning,P.Raghavan and H.Schuit Retrieval,Cambridge University Press,2008 to B.Croft,D.Metzler,T.Strohman.Search E Search Engines ion Practice,Addison-Wesley Information Retrievala 口中文教材 in Practice ■以上两本书的译版 口资源(公开课等) CE CRO 0 Chengxiang Zhai(顶级R学者,有幸在电梯 https://www.coursera.org/learn/text-retrieval C.D.Manning顶级NLP学者): http://web.stanford.edu/class/cs276/course_schedule.html R.J.Mooney(顶级NLP学者):htps:www.cs.utexas.edu/users/mooney/ 2017/14/25 软件工程系
2017/4/25 软件工程系 英文教材 C. D. Manning, P. Raghavan and H. Schütze. Introduction to Information Retrieval, Cambridge University Press, 2008 B. Croft, D. Metzler, T. Strohman. Search Engines: Information Retrieval in Practice, Addison-Wesley 中文教材 以上两本书的译版 资源(公开课等) Chengxiang Zhai (顶级IR学者,有幸在电梯里碰到过): https://www.coursera.org/learn/text-retrieval C.D. Manning (顶级NLP学者): http://web.stanford.edu/class/cs276/course_schedule.html R. J. Mooney(顶级NLP学者):https://www.cs.utexas.edu/users/mooney/ 推荐教材 5
推荐教材(续) 历些毛子种枝大学 XIDIAN UNIVERSITY ▣周边学科教材(中文) ■自然语言理解 >宗成庆.统计自然语言处理(第2版),清华大学出版社,2013 ■机器学习 >周志华.机器学习,清华大学出版社,2016 >李航.统计学习方法,清华大学出版社,2012 >j 刘铁岩.排序学习,课件 ■推荐系统 >项亮.推荐系统实践,人民邮电出版社,2012 >我自己主页上的课件与讲义 2017/14/25 软件工程系
2017/4/25 软件工程系 推荐教材(续) 周边学科教材(中文) 自然语言理解 ➢ 宗成庆. 统计自然语言处理(第2版), 清华大学出版社, 2013 机器学习 ➢ 周志华. 机器学习, 清华大学出版社,2016 ➢ 李航. 统计学习方法,清华大学出版社,2012 ➢ 刘铁岩. 排序学习,课件 推荐系统 ➢ 项亮. 推荐系统实践,人民邮电出版社,2012 ➢ 我自己主页上的课件与讲义 6
本节提纲 历些毛子代枚大多 XIDIAN UNIVERSITY ▣文本聚类(Text Clustering) ■一般性聚类任务 >聚类任务引出;应用背景;相似性度量;学科栈 ■文本聚类任务 >聚类对象与文本特征 >基于划分的方法(e.g,K-Means) >基于层次的方法 >基于密度的方法((e.g,DBScan) 聚类效果评估 注意与一般性聚类任务的 异同 2017/14/25 软件工程系
2017/4/25 软件工程系 本节提纲 文本聚类(Text Clustering) 一般性聚类任务 ➢ 聚类任务引出;应用背景;相似性度量;学科栈 文本聚类任务 ➢ 聚类对象与文本特征 ➢ 基于划分的方法(e.g., K-Means) ➢ 基于层次的方法 ➢ 基于密度的方法(e.g., DBScan) 聚类效果评估 注意与一般性聚类任务的 异同
一 般性聚类任务 历些毛子种枝大等 XIDIAN UNIVERSITY )举例 口举例 ■形状分组 ●● 1 聚类的核 心即为自 问题:可分为 问题:一定是四组么? 分簇 几组?哪些形 每组内一定是现在的分 状应该在一组? 组方式么? 2017/4/25 软件工程系
2017/4/25 软件工程系 一般性聚类任务 举例 举例 形状分组 8 问题:可分为 几组?哪些形 状应该在一组? 问题:一定是四组么? 每组内一定是现在的分 组方式么? 聚类的核 心即为自 动分簇
般性聚类任务 历些毛子种枝大》 XIDIAN UNIVERSITY 范畴与目标 口聚类范畴 根据数据样本预先定义的相似性度量,将样本分成两个或多 个组簇/团的任务 口聚类目标 ■在同一个类内,数据之间具有高的相似性,不同类之间数据 具有低的相似性;即,类内相似性大,类间相似性小 可视化△△ ▣口 △△△ △△ 880 2017/4/25 9 软件工程系
2017/4/25 软件工程系 聚类范畴 根据数据样本预先定义的相似性度量,将样本分成两个或多 个组/簇/团的任务 聚类目标 在同一个类内,数据之间具有高的相似性,不同类之间数据 具有低的相似性;即,类内相似性大,类间相似性小 一般性聚类任务 范畴与目标 9 可视化
找到相关新闻约1,270.000篇 。新闻全文○新闻标题」按焦点排序 般性聚类 《丛民的名义》育良书记:导演让演祁同伟最想演李达康 →范畴与目标 中国吉年网2小时前 原标题:专访育良书记”张志坚:《人民的名义》传播了正确价值观采访 张志坚,有时候已经会条件反射似的脱口而出直呼其为育良书记”,他听 了也高兴,呵呵笑起来9条相同新闻·百度快照 口文本聚类与信 外媒评《人民的名义》:体现反腐自信不怕揭短 ■每一本信息检索 新浪新闻15小时前 参考消息网4月8日报道外媒称,有“史上最大尺度反腐剧之称的中国电 视剧《人民的名义》目前在中国热播。受访学者认为,此剧除了满足观 >发现相似网页(但 众的猎奇心理,并起到警示…42条相同新闻·百度快照 →去重,去噪,成网友认为《么民的名义》受欢迎源于照见现实 凤凰娱乐18小时前 →提升搜索体 近日,开年最大的一匹电视剧黑马《人民的名义》成为全国观众热议对 :品 象。在P偶像剧大行其道的市场环境下,反腐大剧《人民的名义》一举 →提升搜索结 拿下了某网站9.1的高分。剧中.…20条相同新闻·百度快照 >发现相关联网页 →提升排序质量:网页的相似性是重要的排序指标 →分析网络空间结构:相似网页的分布与来源 >其它作用:论文查重等 2017/14/25 o 软件工程系
2017/4/25 软件工程系 一般性聚类任务 范畴与目标 文本聚类与信息检索的关系 每一本信息检索的教材中都会讲到“文本聚类” ➢ 发现相似网页 (主要由文本组成) 去重,去噪,节省计算时间 提升搜索体验 提升搜索结果的多样性 10 ➢ 发现相关联网页 提升排序质量:网页的相似性是重要的排序指标 分析网络空间结构:相似网页的分布与来源 ➢ 其它作用:论文查重等
般性聚类任务 历些毛子科枚大》 XIDIAN UNIVERSITY →相似性度量 ▣相似性度量 ■如何得知两个数据点相似与否?回忆:聚类的目标 ■一般性相似性度量方法 >空间距离相似性计算方法:闵可夫斯基距离(Minkowski distance) dis(元,)= xi-yilP) p=2hTrr Euclidean Distance p=1 Eucidean C(-y月 2017/4/25 Manhattan distance
2017/4/25 软件工程系 一般性聚类任务 相似性度量 相似性度量 如何得知两个数据点相似与否?回忆:聚类的目标 一般性相似性度量方法 ➢ 空间距离相似性计算方法:闵可夫斯基距离 (Minkowski distance) 11 p=2: 欧氏距离 (Euclidean distance) p=1:曼哈顿距离(Manhattan distance) 𝑑𝑖𝑠 𝑥 Ԧ , 𝑦 Ԧ = ( 𝑖=1 𝑛 | 𝑥𝑖 − 𝑦𝑖 | 𝑝 ) 1 𝑝