哈尔滨工业大学：《信息检索》课程教学资源（课件讲义）搜索引擎技术 SearchEngine

文本处理 term处理文本的特性索引与检索倒排文件 Signature文件 PAT Tree Query处理相关反馈查询扩展

团购合买资源类别：文库，文档格式：PDF，文档页数：118，文件大小：501.69KB

搜索引擎技术刘挺哈工大信息检索研究室 2004年秋

提纲 ■文本处理 ,term处理 ·文本的特性 ■索引与检索。倒排文件 ·Signature文件 ·PAT Tree Query处理相关反馈。查询扩展

提纲文本处理 term处理文本的特性索引与检索倒排文件 Signature文件 PAT Tree Query处理相关反馈查询扩展

文本处理 term处理

文本处理 ——term处理

信息检索系统的体系结构用户界面文本用户需求文本处理逻辑视图用户提问处理建索引数据库反馈管理倒排文档提问搜索索引文本排序后数据库的文档排序检出的文档

信息检索系统的体系结构文本数据库数据库管理建索引索引提问处理搜索排序排序后的文档用户反馈文本处理用户界面检出的文档用户需求文本提问逻辑视图倒排文档

文本表示文本可以表示为 ,一个字符串词的集合 ■语言单元（例如：名词、短语） ■简单的表示（如：单个词项）效果好。以往的一些研究显示：基于短语的索引不如基于词的索引 ·短语可能太特殊了

文本表示文本可以表示为一个字符串词的集合语言单元 (例如：名词、短语) 简单的表示 (如：单个词项) 效果好以往的一些研究显示：基于短语的索引不如基于词的索引短语可能太特殊了

Stemming 克服词形的变化，把所有同根词转变为单一形式 RECOGNIZE,RECOGNISE,RECOGNIZED,RECOGNIZATION Stemming的优点：。减少不同term的数量 ·识别相似的词 ·改进了检索性能，但不采用语言分析的方法 ■Stemming的缺点： ■正确率显然达不到100% ·不正确的stemming算法可能改变词的含义 ■需要避免过分的截断 ■MEDICAL和MEDIA被识别为MED*,并被认为是意义相近的，这就错了

Stemming 克服词形的变化，把所有同根词转变为单一形式 RECOGNIZE, RECOGNISE, RECOGNIZED, RECOGNIZATION Stemming的优点: 减少不同term的数量识别相似的词改进了检索性能，但不采用语言分析的方法 Stemming的缺点：正确率显然达不到100% 不正确的stemming算法可能改变词的含义需要避免过分的截断 MEDICAL和MEDIA被识别为MED*，并被认为是意义相近的，这就错了

异文合并(Conflation)方法异文合并方法手工自动(Stemmers) 删除词缀后继变化数 Successor 查表 N-gram Variety 最长匹配简单删除

异文合并(Conflation)方法异文合并方法手工自动 (Stemmers) 删除词缀后继变化数 Successor Variety 查表 N-gram 最长匹配简单删除

查表 ■创建一个term和stem的对应表 TERM STEM engineering engineer engineered engineer engineer engineer ■表可以被索引起来，以便加快查找速度 ■创建这样的表很困难 ■存储空间的开销较大

查表创建一个term和stem的对应表表可以被索引起来，以便加快查找速度创建这样的表很困难存储空间的开销较大 TERM STEM engineering engineer engineered engineer engineer engineer

词缀删除算法词缀删除算法将term的前缀和/或后缀删除，留下词干 ■大多数算法删除后缀，例如：-SES,-ATION, ING等等 ■最长匹配 ■从词中删除最长匹配的后缀： computability-->comput singing-->sing avoid:ability->NULL,sing->s ▣迭代式最长匹配。重复最长匹配的过程： ·WILLINGNESS->删除NESS->删除ING

词缀删除算法词缀删除算法将term的前缀和 /或后缀删除，留下词干大多数算法删除后缀，例如：-SES, -ATION, - ING等等最长匹配从词中删除最长匹配的后缀: computability --> comput singing --> sing avoid: ability ->NULL, sing->s 迭代式最长匹配重复最长匹配的过程： WILLINGNESS --> 删除NESS --> 删除ING

上下文有关和上下文无关 ■上下文无关 ·根据后缀表删除后缀（或基于规则集） ■上下文有关 ■考虑词的其它性质，例如： .happily→happi-→happy ·定义一个上下文敏感的转换规则：如果一个词根以结尾，ⅰ 前面是p,那么将转换为y ■需要控制许多例外规则 ·从TABLE中删除-ABLE不行，从GAS中删除-S也不行 ·有时需要删除“双写字母” ·FORGETTING→FORGET

上下文有关和上下文无关上下文无关根据后缀表删除后缀 (或基于规则集 ) 上下文有关考虑词的其它性质，例如： happily → happi → happy 定义一个上下文敏感的转换规则：如果一个词根以i结尾，i 前面是 p，那么将i转换为 y 需要控制许多例外规则从TABLE中删除-ABLE不行，从GAS中删除-S也不行有时需要删除 “双写字母 ” FORGETTING → FORGET

点击下载完整版文档（PDF格式）

共118页，可试读30页，点击继续阅读 ↓↓

点击下载（PDF格式）

浏览记录