1-3信息检索的基本原理 、信息检索的基本原理 信息检索原理的阐释 讨论题 附录:我国企业人员获取信息的方式 2021/2/20
2021/2/20 1 1-3 信息检索的基本原理 一、信息检索的基本原理 二、信息检索原理的阐释 讨论题 附录:我国企业人员获取信息的方式
信息检索的基本原理 检索的基本原理:对信息集合与需求集合的匹配和选择 需求集合D 个人问题特征化选择与特征化 信息 与知识 表示 匹配D&I表示 集合I 2021/220
2021/2/20 2 一、信息检索的基本原理 检索的基本原理:对信息集合与需求集合的匹配和选择。 个人问题 特征化 选择与 特征化 信息 与知识 表示 匹配D&I 表示 集合I 需求集合D
查寻Q 标引Q (借助于检 索语言)信—输出vq 息处理中心o 文献D—标引D 信息检索基本过程可定义为一个四维组,即5=(D,Q,T,5)D为 文献集合,Q为用户查询,T是标引集合,而δ为匹配函数。δ: DXQR,D是标引的文献集合,Q是标引的查询集合,R为函 数值集合。每个具体的δ值就表示具体的文献d关于某次查询q的 相关程度 2021/220
2021/2/20 3 信息检索基本过程可定义为一个四维组,即S=(D,Q,T,δ)。D为 文献集合,Q为用户查询,T是标引集合,而δ为匹配函数。δ: D/×Q/→R,D/是标引的文献集合,Q/是标引的查询集合,R为函 数值集合。每个具体的δ值就表示具体的文献d关于某次查询q的 相关程度。 (借助于检 索语言)信 息处理中心σ 查寻Q 标引Q’ 输出ψ(q) 文献D 标引D’
二、信息检索基本原理的阐释 1、需求集合 2、信息集 3、匹配与选择 2021/220
2021/2/20 4 二、信息检索基本原理的阐释 1、需求集合 2、信息集合 3、匹配与选择
1、需求集合 需求集合涉及人类生存所必需的一切东西,其中包括信息需求 信息需求的结构与规律 (1)信息需求是一种运动状态,并表现为三个层次结构。 (2)信息需求的心理行为规律包括 Mooers定律、zipf最少省力法则、马 太效应和罗宾汉效应 3)学生信息需求特征。 信息需求的识别与表达。 信息需求的处理与加工。即采用特定的检索语言将信息需求表示 出来,换言之,将检索问题或课题进行处理,抽取出主题内容或 其他特征。经过这样处理的信息需求称之为 Query 2021/220 5
2021/2/20 5 1、需求集合 需求集合涉及人类生存所必需的一切东西,其中包括信息需求。 ◼ 信息需求的结构与规律。 ⑴ 信息需求是一种运动状态,并表现为三个层次结构。 ⑵ 信息需求的心理行为规律包括Mooers定律、Zipf最少省力法则、马 太效应和罗宾汉效应。 ⑶ 学生信息需求特征。 ◼ 信息需求的识别与表达。 ◼ 信息需求的处理与加工。即采用特定的检索语言将信息需求表示 出来,换言之,将检索问题或课题进行处理,抽取出主题内容或 其他特征。经过这样处理的信息需求称之为Query
2、信息集合 信息集合是指有关某一领域的文献或数据的集合。 信息集合的复杂性 信息集合的序化。 Access point。每件信息都包含有其内部和外部的特征即信息 的属性,这些特征可以用来作为检索的出发点和匹配的依据 我们称之为检索点。 2021/220 6
2021/2/20 6 2、信息集合 信息集合是指有关某一领域的文献或数据的集合。 ◼ 信息集合的复杂性。 ◼ 信息集合的序化。 ◼ Access point。每件信息都包含有其内部和外部的特征即信息 的属性,这些特征可以用来作为检索的出发点和匹配的依据。 我们称之为检索点
3、匹配与选择 匹配与选择是一种机制,它负责把需求集合与信息集合进行相似性比 较,然后根据一定的标准选出符合需要的信息。 采用布尔模型,一个文档通过一个关键词条的集合来表示,这些 词条来自一个词典。在查询与文档的匹配过程中,主要看该文档 中的词条是否满足查询的条件 ■采用向量模型,计量文档向量与査询词串之间的相似度。 采用概率论模型,将文档按照与査询的概率相关性的大小进行排 序,排在最前面的文档是最有可能被获取的文档 此外,还可以采用神经网络模型、基于命题逻辑模型、聚类模型 基于规则模型、模糊模型和语义模型等,来深入硏究査询与文档 之间的匹配过程。 2021/220
2021/2/20 7 3、匹配与选择 匹配与选择是一种机制,它负责把需求集合与信息集合进行相似性比 较,然后根据一定的标准选出符合需要的信息。 ◼ 采用布尔模型,一个文档通过一个关键词条的集合来表示,这些 词条来自一个词典。在查询与文档的匹配过程中,主要看该文档 中的词条是否满足查询的条件。 ◼ 采用向量模型,计量文档向量与查询词串之间的相似度。 ◼ 采用概率论模型,将文档按照与查询的概率相关性的大小进行排 序,排在最前面的文档是最有可能被获取的文档。 ◼ 此外,还可以采用神经网络模型、基于命题逻辑模型、聚类模型、 基于规则模型、模糊模型和语义模型等,来深入研究查询与文档 之间的匹配过程
讨论题 OpIC 你了解哪些信息需求和信息系统? Topic2你在学习方面的信息需求的分布状况(按降 序或升序排列)? opIC 3你查寻信息的基本途径有哪些? 2021/220 8
2021/2/20 8 讨论题 Topic 你了解哪些信息需求和信息系统? Topic 你在学习方面的信息需求的分布状况(按降 序或升序排列)? Topic 你查寻信息的基本途径有哪些?
Topic1你了解哪些信息需求和信息系统? ■由于父母培养孩子的方法不当,尤其是在最初三年间,许多孩 子不能充分发挥其潜力 信息经济日新月异,但西北地区的信息水平却很低。 孩子教育费用、抚育费用逐年变化情况 肚子饿了,想在兰州市找家饭店却无法弄清孰好孰坏。 2021/220 9
2021/2/20 9 Topic 你了解哪些信息需求和信息系统? ◼ 由于父母培养孩子的方法不当,尤其是在最初三年间,许多孩 子不能充分发挥其潜力 ◼ 信息经济日新月异,但西北地区的信息水平却很低。 ◼ 孩子教育费用、抚育费用逐年变化情况。 ◼ 肚子饿了,想在兰州市找家饭店却无法弄清孰好孰坏
Topi2你在学习方面的信息需求的分布状况? ■类型上:教科书、专著、工具书、研究报告、专利文献等; 内容上:专业文献、课外读物(文学、管理、经济、政治等)等 地域上:本单位、外单位、外地等; 语种上:中文、外文、少数民族文字等。 2021/220 10
2021/2/20 10 Topic 你在学习方面的信息需求的分布状况? ◼ 类型上:教科书、专著、工具书、研究报告、专利文献等; ◼ 内容上:专业文献、课外读物(文学、管理、经济、政治等)等; ◼ 地域上:本单位、外单位、外地等; ◼ 语种上:中文、外文、少数民族文字等