信息检索模型 刘挺 哈工大信息检索研究室 2004年秋
信息检索模型 刘挺 哈工大信息检索研究室 2004年秋
提纲 信息检索模型的概述 ■布尔模型 ■向量空间模型(VSM) ■扩展的布尔模型 ■潜在语义索引模型(LSI) ■概率模型 ■基于统计语言模型的信息检索模型 ■基于本体论的信息检索模型
提纲 信息检索模型的概述 布尔模型 向量空间模型(VSM) 扩展的布尔模型 潜在语义索引模型(LSI) 概率模型 基于统计语言模型的信息检索模型 基于本体论的信息检索模型
信息检索模型的概述
信息检索模型的概述
什么是模型? 模型是采用数学工具,对现实世界某种事物或 某种运动的抽象描述 ■面对相同的输入,模型的输出应能够无限地逼 近现实世界的输出 ·举例:天气的预测模型 ■模型和实现的区别 ·一个模型可以用多种方法实现 .例如:布尔模型可以用倒排文档(inverted file)实 现,也可以用B-tree实现
什么是模型? 模型是采用数学工具,对现实世界某种事物或 某种运动的抽象描述 面对相同的输入,模型的输出应能够无限地逼 近现实世界的输出 举例:天气的预测模型 模型和实现的区别 一个模型可以用多种方法实现 例如:布尔模型可以用倒排文档(inverted file) 实 现,也可以用B-tree实现
信息检索模型 四元组[D,Q,F,R(q,d)] ■D:文档集的机内表示 ■Q:用户需求的机内表示 ·F:文档表示、查询表示和它们之间的关系的模型框 架(Frame) ·R(q,d:给query g,和document d;评分 ■信息检索模型决定于: ·从什么样的视角去看待查询式和文档 ·基于什么样的理论去看待查询式和文档的关系 ·如何计算查询式和文档之间的相似度
信息检索模型 四元组[D, Q, F, R(qi, d j)] D: 文档集的机内表示 Q: 用户需求的机内表示 F: 文档表示、查询表示和它们之间的关系的模型框 架(Frame) R(qi, dj): 给query qi 和document dj评分 信息检索模型决定于: 从什么样的视角去看待查询式和文档 基于什么样的理论去看待查询式和文档的关系 如何计算查询式和文档之间的相似度
模型分类 集合论 模糊集 扩展的布尔模型 信息检索模型 布尔 代数 向量空间 扩展的向量空间 概率 隐性语义索引 知识 神经网络 人工智能 概率 语言模型 基于本体论的模型 推理网络 信念网络
模型分类 信息检索模型 布尔 向量空间 概率 知识 模糊集 扩展的布尔模型 集合论 代数 扩展的向量空间 隐性语义索引 神经网络 语言模型 推理网络 信念网络 概率 基于本体论的模型 人工智能
布尔模型(Boolean Model)
布尔模型(Boolean Model)
布尔模型 ■文档表示 ■一个文档被表示为关键词的集合 ■查询式表示 ·查询式(Queries)被表示为关键词的布尔组合,用“与或非"”连接 起来,并用括弧指示优先次序 ■匹配 ·一个文档当且仅当它能够满足布尔查询式时,才将其检索出 来 ■不同的系统可以使用: ·不同的去除停用词(stopword removal,策略和stemming策略 ·索引中不同类型的辅助信息 ·不同的实现方法
布尔模型 文档表示 一个文档被表示为关键词的集合 查询式表示 查询式(Queries)被表示为关键词的布尔组合,用“与或非”连接 起来,并用括弧指示优先次序 匹配 一个文档当且仅当它能够满足布尔查询式时,才将其检索出 来 不同的系统可以使用: 不同的去除停用词(stopword removal)策略和stemming策略 索引中不同类型的辅助信息 不同的实现方法
强调 到目前为止,布尔模型是最常用的检索模型, 因为: ·由于查询简单,因此容易理解 ·通过使用复杂的布尔表达式,可以很方便地控制查 询结果 ■相当有效的实现方法 ·相当于识别包含了一个某个特定term的文档 经过某种训练的用户可以容易地写出布尔查询 式 布尔模型可以通过扩展来包含排序的功能,即 “护展的布尔模型
强调 到目前为止,布尔模型是最常用的检索模型, 因为: 由于查询简单,因此容易理解 通过使用复杂的布尔表达式,可以很方便地控制查 询结果 相当有效的实现方法 相当于识别包含了一个某个特定term的文档 经过某种训练的用户可以容易地写出布尔查询 式 布尔模型可以通过扩展来包含排序的功能,即 “扩展的布尔模型
问题 布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分 匹配,而完全匹配会导致太多或者太少的结果文档被返回 非常刚性:“与”意味着全部;“或”意味着任何一个 ·如果“我想要n个词中个词同时出现的文档”,怎么表示? 。不可能企望用户自己规定m值 ·系统可以从m=n开始,然后逐渐减少m,但很麻烦 ■很难表示用户复杂的需求 ■很难控制被检索的文档数量 ·原则上讲,所有被匹配的文档都将被返回 ■很难对输出进行排序 ·不考虑索引词的权重,所有文档都以相同的方式和查询相匹配 很难进行自动的相关反馈 ·如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询 式呢?
问题 布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分 匹配,而完全匹配会导致太多或者太少的结果文档被返回 非常刚性: “与”意味着全部; “或”意味着任何一个 如果“我想要n个词中m个词同时出现的文档”,怎么表示? 不可能企望用户自己规定m值 系统可以从m=n开始,然后逐渐减少m,但很麻烦 很难表示用户复杂的需求 很难控制被检索的文档数量 原则上讲,所有被匹配的文档都将被返回 很难对输出进行排序 不考虑索引词的权重,所有文档都以相同的方式和查询相匹配 很难进行自动的相关反馈 如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询 式呢?