正在加载图片...
第1期 王占一,等:智能文本搜索新技术 43 在2009和2010年的话题检索任务中,笔者使 表达一种观点或陈述一个事实的强烈程度,来对这 用的方法基本相同,都是将其看作Learning to Rank 些博客进行排序, 问题,即通过学习博文的排序,利用一定的算法来获 笔者在2008和2009年都使用了同一种情感分 得博客的排序.针对这一问题,采用Voting模型1o, 析模型2],对于博客的观点度打分如式(4): 即一个博客里的博文被看作是这个博客的支持者, I Nos -Neg I (4) 该博客里的博文对于话题的相关性就越大,同时相 S。=N。-+Ns 关的博文数量越多,该博客的相关性就越大,排序越 式中:N和N分别代表主观和客观的博文数, 靠前 与前2年不同,2010年的博客检索中使用了基 具体的方法如下:将所有的数据以博文为单位 于词典的方法,主要分为3个步骤: 输入Indi建立索引,用话题Q在Indri里进行查询, 1)利用信息增益与互信息自动生成“主观词词 得到博文的相关性分数和排序.通过此排序来获得 典”和“客观词词典”.通过信息增益在训练集中挑 博客排序,如式(3): 选对观点型博客和客观型博客区分度高的词,作为 Scone (B,Q)=>Sooe (p,Q)/1 BI. (3) 词典的候选词.由信息增益生成的候选词并没有被 分类为“观点型”或“客观型”,为了生成最终的2种 式中:B表示一个博客,博客B中的一篇博文用p表 词典,利用互信息进一步将这些候选词分为“观点 示,Se(B,Q)表示一个博客的相关性得分, 型”和“客观型”[3]」 Se(p,Q)表示从Indi中获得的博文的相关性分 2)计算观点度得分和客观度得分.对于每个查 数,BI表示一个博客下博文的数量.将获得的相关 询q和词典中的词t,在相关文档集中计算TF-DF 博客的分数排序,排在前100的被认为是与话题最 权重0(t),同时用一种词权重模型4]计算查询 相关的博客。 权重wa(q),然后将2个权重相加得到博客的观 1.3.2个人与官方(personal vs..official) 点度得分Sm和客观度得分Sa 博客的兴起使个人和组织的言论表达变得更加 3)排序.首先在相关文档集中找到每篇博客的 便利,然而因特网用户可能不大喜欢宣传性、商业性 相关性得分Se(B,Q),然后将S(B,Q)×Sm和 的博客,更加喜欢以个人的名义发表的文章,这样就 Se(B,Q)×Sa分别作为观,点度排序和客观度排序 使得个人、组织搜索的研究变得具有现实意义 的最终得分. 博客的个人、组织检索,是TREC评测2009年 1.3.4深入分祈与浅层描述(in-depth vs.shallow) 新增加的一项子任务,被安排在话题检索之后.在话 2009年首次提出博客的深浅度分析任务.笔者 题检索中,得到与话题相关的博客,再对其进行个 提出了L-Qu系数进行博文的深浅度分析51.然后 人、组织检索.最近2年分别采用了2种不同的方法 根据每一个博客下深度博文与浅度博文的数量,得 来进行个人、组织检索。 到每一个博客的深度分析程度或浅度分析程度的排 2009年主要采用了组织机构名的区分方法,因 序.最后将每一个博客深浅度的排序值与相应的博 为官方/组织的博客的书写惯例,一般会将组织名称 客精选的相关性值合并得到最终结果 放在文章的开头位置,有种“开门见山”的感觉;所 1)根据LQ系数进行每一篇博文的深浅度分析: 以根据相同的组织机构名称在文章中出现的频率和 k(L-Qtf)= 位置来给相关的博客进行打分,最后根据分数的高 1+ln(1+ln(f)) 低来进行排序和检索,即可分别得到个人和组织的 teOnD 博客。 (1-s)+si 2010年主要采用了基于机器学习的分类方法, 式中:∫:和f分别为查询中的单词在博文中的词频 将个人和组织的检索看作是一种分类的问题,在训 和在查询中的词频,在计算f和f之前,进行词干 练模型中,利用机器学习的方法来分别构建含有个 化处理(stemming),其作用是将词的各个词形变化 人和组织信息的词典.在构建词典前会做一个文本 还原为同一词干,例如“selling”和“sels”是“sell”的 特征降维的处理,然后利用VSM模型用这2个词典 不同词形,这样的处理可以提高查询词在博文中的 对相关博客进行打分和排序[山,最后分别得到个人 覆盖率;4为博文的长度;1为同一查询下全部相 和组织的博客。 关博文的平均长度;在实验中参数s设置为0.2 1.3.3表达观,点与描述事实(opinionated vs.factual) 2)根据博文的L-Q:系数进行博客的深浅度分 博客的观点度与客观度排序评测旨在开发一种 析.在同一查询下,根据LQ壮系数的值对博文进行 有效的检索系统,使其能根据博客中关于某话题所 排序,取该排序的前45%判定为深度表述的博文
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有