当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

哈尔滨工业大学:《信息检索》课程教学资源(课件讲义)搜索引擎技术 SearchEngine

资源类别:文库,文档格式:PDF,文档页数:118,文件大小:501.69KB,团购合买
文本处理 term处理 文本的特性 索引与检索 倒排文件 Signature文件 PAT Tree Query处理 相关反馈 查询扩展
点击下载完整版文档(PDF)

搜索引擎技术 刘挺 哈工大信息检索研究室 2004年秋

搜索引擎技术 刘挺 哈工大信息检索研究室 2004年秋

提纲 ■文本处理 ,term处理 ·文本的特性 ■索引与检索 。倒排文件 ·Signature文件 ·PAT Tree Query处理 相关反馈 。查询扩展

提纲 „ 文本处理 „ term处理 „ 文本的特性 „ 索引与检索 „ 倒排文件 „ Signature文件 „ PAT Tree „ Query处理 „ 相关反馈 „ 查询扩展

文本处理 term处理

文本处理 ——term处理

信息检索系统的体系结构 用户界面 文本 用户 需求 文本处理 逻辑视图 用户 提问处理 建索引 数据库 反馈 管理 倒排文档 提问 搜索 索引 文本 排序后 数据库 的文档 排序 检出的文档

信息检索系统的体系结构 文本 数据库 数据库 管理 建索引 索引 提问处理 搜索 排序 排序后 的文档 用户 反馈 文本处理 用户界面 检出的文档 用户 需求 文本 提问 逻辑视图 倒排文档

文本表示 文本可以表示为 ,一个字符串 词的集合 ■语言单元(例如:名词、短语) ■简单的表示(如:单个词项)效果好 。以往的一些研究显示:基于短语的索引不如基于词 的索引 ·短语可能太特殊了

文本表示 „ 文本可以表示为 „ 一个字符串 „ 词的集合 „ 语言单元 (例如:名词、短语) „ 简单的表示 (如:单个词项) 效果好 „ 以往的一些研究显示:基于短语的索引不如基于词 的索引 „ 短语可能太特殊了

Stemming 克服词形的变化,把所有同根词转变为单一形式 RECOGNIZE,RECOGNISE,RECOGNIZED,RECOGNIZATION Stemming的优点: 。减少不同term的数量 ·识别相似的词 ·改进了检索性能,但不采用语言分析的方法 ■Stemming的缺点: ■正确率显然达不到100% ·不正确的stemming算法可能改变词的含义 ■需要避免过分的截断 ■MEDICAL和MEDIA被识别为MED*,并被认为是意义相近的,这就 错了

Stemming „ 克服词形的变化,把所有同根词转变为单一形式 „ RECOGNIZE, RECOGNISE, RECOGNIZED, RECOGNIZATION „ Stemming的优点: „ 减少不同term的数量 „ 识别相似的词 „ 改进了检索性能,但不采用语言分析的方法 „ Stemming的缺点: „ 正确率显然达不到100% „ 不正确的stemming算法可能改变词的含义 „ 需要避免过分的截断 „ MEDICAL和MEDIA被识别为MED*,并被认为是意义相近的,这就 错了

异文合并(Conflation)方法 异文合并方法 手工 自动(Stemmers) 删除词缀 后继变化数 Successor 查表 N-gram Variety 最长匹配 简单删除

异文合并(Conflation)方法 异文合并方法 手工 自动 (Stemmers) 删除词缀 后继变化数 Successor Variety 查表 N-gram 最长匹配 简单删除

查表 ■创建一个term和stem的对应表 TERM STEM engineering engineer engineered engineer engineer engineer ■表可以被索引起来,以便加快查找速度 ■创建这样的表很困难 ■存储空间的开销较大

查表 „ 创建一个term和stem的对应表 „ 表可以被索引起来,以便加快查找速度 „ 创建这样的表很困难 „ 存储空间的开销较大 TERM STEM engineering engineer engineered engineer engineer engineer

词缀删除算法 词缀删除算法将term的前缀和/或后缀删除,留 下词干 ■大多数算法删除后缀,例如:-SES,-ATION, ING等等 ■最长匹配 ■从词中删除最长匹配的后缀: computability-->comput singing-->sing avoid:ability->NULL,sing->s ▣迭代式最长匹配 。重复最长匹配的过程: ·WILLINGNESS->删除NESS->删除ING

词缀删除算法 „ 词缀删除算法将term的前缀和 /或后缀删除,留 下词干 „ 大多数算法删除后缀,例如:-SES, -ATION, - ING等等 „ 最长匹配 „ 从词中删除最长匹配的后缀: computability --> comput singing --> sing avoid: ability ->NULL, sing->s „ 迭代式最长匹配 „ 重复最长匹配的过程: „ WILLINGNESS --> 删除NESS --> 删除ING

上下文有关和上下文无关 ■上下文无关 ·根据后缀表删除后缀(或基于规则集) ■上下文有关 ■考虑词的其它性质,例如: .happily→happi-→happy ·定义一个上下文敏感的转换规则:如果一个词根以结尾,ⅰ 前面是p,那么将转换为y ■需要控制许多例外规则 ·从TABLE中删除-ABLE不行,从GAS中删除-S也不行 ·有时需要删除“双写字母” ·FORGETTING→FORGET

上下文有关和上下文无关 „ 上下文无关 „ 根据后缀表删除后缀 (或基于规则集 ) „ 上下文有关 „ 考虑词的其它性质,例如: „ happily → happi → happy „ 定义一个上下文敏感的转换规则:如果一个词根以i结尾,i 前面是 p,那么将i转换为 y „ 需要控制许多例外规则 „ 从TABLE中删除-ABLE不行,从GAS中删除-S也不行 „ 有时需要删除 “双写字母 ” „ FORGETTING → FORGET

点击下载完整版文档(PDF)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
共118页,可试读30页,点击继续阅读 ↓↓
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有