搜索引擎技术 刘挺 哈工大信息检索研究室 2004年秋
搜索引擎技术 刘挺 哈工大信息检索研究室 2004年秋
提纲 ■文本处理 ,term处理 ·文本的特性 ■索引与检索 。倒排文件 ·Signature文件 ·PAT Tree Query处理 相关反馈 。查询扩展
提纲 文本处理 term处理 文本的特性 索引与检索 倒排文件 Signature文件 PAT Tree Query处理 相关反馈 查询扩展
文本处理 term处理
文本处理 ——term处理
信息检索系统的体系结构 用户界面 文本 用户 需求 文本处理 逻辑视图 用户 提问处理 建索引 数据库 反馈 管理 倒排文档 提问 搜索 索引 文本 排序后 数据库 的文档 排序 检出的文档
信息检索系统的体系结构 文本 数据库 数据库 管理 建索引 索引 提问处理 搜索 排序 排序后 的文档 用户 反馈 文本处理 用户界面 检出的文档 用户 需求 文本 提问 逻辑视图 倒排文档
文本表示 文本可以表示为 ,一个字符串 词的集合 ■语言单元(例如:名词、短语) ■简单的表示(如:单个词项)效果好 。以往的一些研究显示:基于短语的索引不如基于词 的索引 ·短语可能太特殊了
文本表示 文本可以表示为 一个字符串 词的集合 语言单元 (例如:名词、短语) 简单的表示 (如:单个词项) 效果好 以往的一些研究显示:基于短语的索引不如基于词 的索引 短语可能太特殊了
Stemming 克服词形的变化,把所有同根词转变为单一形式 RECOGNIZE,RECOGNISE,RECOGNIZED,RECOGNIZATION Stemming的优点: 。减少不同term的数量 ·识别相似的词 ·改进了检索性能,但不采用语言分析的方法 ■Stemming的缺点: ■正确率显然达不到100% ·不正确的stemming算法可能改变词的含义 ■需要避免过分的截断 ■MEDICAL和MEDIA被识别为MED*,并被认为是意义相近的,这就 错了
Stemming 克服词形的变化,把所有同根词转变为单一形式 RECOGNIZE, RECOGNISE, RECOGNIZED, RECOGNIZATION Stemming的优点: 减少不同term的数量 识别相似的词 改进了检索性能,但不采用语言分析的方法 Stemming的缺点: 正确率显然达不到100% 不正确的stemming算法可能改变词的含义 需要避免过分的截断 MEDICAL和MEDIA被识别为MED*,并被认为是意义相近的,这就 错了
异文合并(Conflation)方法 异文合并方法 手工 自动(Stemmers) 删除词缀 后继变化数 Successor 查表 N-gram Variety 最长匹配 简单删除
异文合并(Conflation)方法 异文合并方法 手工 自动 (Stemmers) 删除词缀 后继变化数 Successor Variety 查表 N-gram 最长匹配 简单删除
查表 ■创建一个term和stem的对应表 TERM STEM engineering engineer engineered engineer engineer engineer ■表可以被索引起来,以便加快查找速度 ■创建这样的表很困难 ■存储空间的开销较大
查表 创建一个term和stem的对应表 表可以被索引起来,以便加快查找速度 创建这样的表很困难 存储空间的开销较大 TERM STEM engineering engineer engineered engineer engineer engineer
词缀删除算法 词缀删除算法将term的前缀和/或后缀删除,留 下词干 ■大多数算法删除后缀,例如:-SES,-ATION, ING等等 ■最长匹配 ■从词中删除最长匹配的后缀: computability-->comput singing-->sing avoid:ability->NULL,sing->s ▣迭代式最长匹配 。重复最长匹配的过程: ·WILLINGNESS->删除NESS->删除ING
词缀删除算法 词缀删除算法将term的前缀和 /或后缀删除,留 下词干 大多数算法删除后缀,例如:-SES, -ATION, - ING等等 最长匹配 从词中删除最长匹配的后缀: computability --> comput singing --> sing avoid: ability ->NULL, sing->s 迭代式最长匹配 重复最长匹配的过程: WILLINGNESS --> 删除NESS --> 删除ING
上下文有关和上下文无关 ■上下文无关 ·根据后缀表删除后缀(或基于规则集) ■上下文有关 ■考虑词的其它性质,例如: .happily→happi-→happy ·定义一个上下文敏感的转换规则:如果一个词根以结尾,ⅰ 前面是p,那么将转换为y ■需要控制许多例外规则 ·从TABLE中删除-ABLE不行,从GAS中删除-S也不行 ·有时需要删除“双写字母” ·FORGETTING→FORGET
上下文有关和上下文无关 上下文无关 根据后缀表删除后缀 (或基于规则集 ) 上下文有关 考虑词的其它性质,例如: happily → happi → happy 定义一个上下文敏感的转换规则:如果一个词根以i结尾,i 前面是 p,那么将i转换为 y 需要控制许多例外规则 从TABLE中删除-ABLE不行,从GAS中删除-S也不行 有时需要删除 “双写字母 ” FORGETTING → FORGET