关键词抽取、社会标签推荐 及其在社会计算中的应用 刘知远
关键词抽取、社会标签推荐 及其在社会计算中的应用 刘知远
目录 关键词抽取和社会标签推荐简介 关键词抽取方法 ·关键词抽取的应用 ·展望
目录 • 关键词抽取和社会标签推荐简介 • 关键词抽取方法 • 关键词抽取的应用 • 展望
问题描述 关键词自动抽取 Automatic Keyphrase Extraction ·定义:自动从文档中抽取关键词作为文档摘要 ·特点: 多个词或短语 一般来自文档内容
问题描述 • 关键词自动抽取 Automatic Keyphrase Extraction • 定义:自动从文档中抽取关键词作为文档摘要 • 特点: • 多个词或短语 • 一般来自文档内容
关键词抽取的典型应用场景 新闻、学术论文 社会化标注 ABSTRACT 计算|络1通信能源|新衬料|生物医药|商努科技|3大奖 This paper presents a new query recommendation method that generates recommended query list by mining large-scale 惠普抢占个人云计算先机 user logs, Starting from the user logs of click-through data 作者:里卡·课恩发和时:201-②154.19白击:94 we construct a bipartite network where the nodes on one side correspond to unique queries on the other side to unique URLs. Inspired by the bipartite network based resource 关键词:单到计图(mb 云( cloud- facilitated)】【杰弗 ·安查 na anderson)l allocation method, we try to extract the hidden information from the Query-URL bipartite network. The recommended (b)新闻关键词 queries generated by the Method are asymmetrical which means two related queries may have different strength to commend ench other. To evaluate the method, we use 红高粱(1987) one week user logs from Chinese search engine Sogou. The 导张艺谋 81 method is not only 'content ignorant, but also can be casily implemented in a paralleled manner, which is feasible for commercial search engines to handle large scale user logs Categories and Subject Descriptors: H 3.3 Information Storage and Retrieval Information Search and Retrieval 嘉 编阵创雨/朱伟莫宫(原著) (287B8人评份 主美文验 类型剧情请战争 决法257% 制片国家地区中国 会197% 语言汉语盐通话 白11% 片长91分神 General Terms: Algorithins, Experimentation 互遊成员常用的标签(共1279个) Keywords: Asymmetrical query recommendation, user log analysis, network resource allocation, bipartite network 张艺谋(8168}文(4516)巩(3654)中国电112}大陆(1915》中图(1041)爱雷(1192)剧(922 (a)论文关键词 (c)社会标签
关键词抽取的典型应用场景 新闻、学术论文 社会化标注
关键词标注方式 关键词抽取 关键词标注 关键词分配 社会化标注
关键词标注方式 关键词标注 关键词抽取 关键词分配 社会化标注
关键词标注方法 二分类 有监督 多分类 关键词抽取 词频 无监督 图方法
关键词标注方法 关键词抽取 有监督 二分类 多分类 无监督 词频 图方法
有监督方法 转化为二分类问题 判断某个候选关键词是否为关键词 · Frank199.用朴素贝叶斯分类器 · Turney2000采用G4.5决策树分类器 转化为多分类多标签问题 ·传统文本分类方法 受限词表作为候选关键词集合(分类标签) 人工标注训练数据费时费力不适用于网络时代
有监督方法 • 转化为二分类问题 • 判断某个候选关键词是否为关键词 • Frank 1999采用朴素贝叶斯分类器 • Turney 2000采用C4.5决策树分类器 • 转化为多分类多标签问题 • 传统文本分类方法 • 受限词表作为候选关键词集合(分类标签) 人工标注训练数据 费时费力 不适用于网络时代
无监督方法 ·词频 基于 TFIDF及其变形对候选关键词进行排序 图方法 Rada 2004: PageRank TextRank Huang2006:复杂网络统计性质 Litvak and last 2007: hits
无监督方法 • 词频 • 基于TFIDF及其变形对候选关键词进行排序 • 图方法 • Rada 2004: PageRank ➔ TextRank • Huang 2006: 复杂网络统计性质 • Litvak and Last 2007: HITS
词频方法 Term-frequency inverse document-frequency(TF IDF TF: the importance of the term within the document I DF the informat i veness of the term in the document set D TFIDFw=tfw. log2 law]
词频方法 • Term-frequency inverse document-frequency (TFIDF) • TF: the importance of the term within the document • IDF: the informativeness of the term in the document set TFIDF 𝑤 = 𝑡𝑓𝑤 ∙ 𝑙𝑜𝑔2 𝐷 {𝑑𝑓𝑤}
TextRank 构建词网 PageRank 选取排序最高 的词为关键词 R()=A∑"o R()+(1-入 R(W):W的 Page Rank值 o(w:W的出度 eW,W:W→W边上的权重 v节点集合 Pagerank :平滑因子
TextRank 构建词网 PageRank 选取排序最高 的词为关键词 • R(w): w的PageRank值 • O(w): w的出度 • e(𝑤𝑗 , 𝑤𝑖 ): 𝑤𝑗 → 𝑤𝑖边上的权重 • V: 节点集合 • 𝜆: 平滑因子