中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第8章概率模型

• 概率基础知识 • 概率排序原理 • 二元假设检验与概率排序原理 • 概率排序的实现方式 • BIM模型 • 二值独立概率模型BIM • BIM排序函数的推导 • RSV的估算方法 • BM25模型

团购合买资源类别：文库，文档格式：PDF，文档页数：58，文件大小：1.32MB

信息检索与数据挖掘 2019/3/31 1 信息检索与数据挖掘第8章概率模型

信息检索与数据挖掘 2019/3/31 2 书上第10章XML检索[自学] ·上世纪90年代末，使用不同的数据管理系统来存储和搜索他们的关键数据。 ·2001年进入了XML时代。分析企业中的非结构化和半结构化数据的时代诞生。如今，所有类型数据的激增。我们处于另一个演化方向的顶端，通常称为大数据。表10-1RDB搜索、非结构化IR及结构化IR。对于结构化检索来说，尽管很多学者都认为Xquery(10.5 节)将会成为结构化查询的标准，但是关于这一点目前还没有最后定论 RDB搜索非结构化检索结构化检索对象记录非结构化文档以文本为叶节点的树模型关系模型向量空间或其他主要数据结构表格倒排索引查询语言 SQL查询自由文本查询 http://www.ibm.com/developerworks/cn/bigdata/ebook/

信息检索与数据挖掘 2019/3/31 2 书上第10章 XML检索[自学] • 上世纪 90 年代末，使用不同的数据管理系统来存储和搜索他们的关键数据。 • 2001 年进入了 XML 时代。分析企业中的非结构化和半结构化数据的时代诞生。 • 如今，所有类型数据的激增。我们处于另一个演化方向的顶端，通常称为大数据。 http://www.ibm.com/developerworks/cn/bigdata/ebook/

信息检索与数据挖掘 2019/3/313 is0(1) org MIB(management information base) dod 树形结构的数据随 internet 处可见，人们习惯 mgmt private 于有序地组织所有 17 的数据。这类数据 mib-2 enterprises 的检索既不同于传 11 140 统的RDMS,也不 system snmp bea 同于自由文本检索。个不个 305 beaDomainList 300 200 beaSystem bealntAgt tuxedo 不 .1.3.6.1.4.1.140.300 absolute OID for "tuxedo"MIB

信息检索与数据挖掘 2019/3/31 3 MIB(management information base) 树形结构的数据随处可见，人们习惯于有序地组织所有的数据。这类数据的检索既不同于传统的RDMS，也不同于自由文本检索

信息检索与数据挖掘 2019/3/314 使用流计算，执行一种类似于持 V3→V4 续查询，得到持续更新的结果 80%的信息是非结构化的。非结构化信息正在以15倍孑结构化和非结结构化信息的速率增长。构化批量数据 ariety Big Vel ocity Value 结构化 Data 流数据 TB ZB 1 Terabyte(TB)=1024 GL 1 Petabyte(PB)=1024 TB Volume 1 Exabyte(EB)=1024 PB 1 Zettabyte(ZB)=1024 EB 可用3个特征来定义大数据：数量、种类和速度

信息检索与数据挖掘 2019/3/31 4 V 3V 4 可用 3 个特征来定义大数据：数量、种类和速度 1 Terabyte (TB) = 1024 GB 1 Petabyte (PB) = 1024 TB 1 Exabyte (EB) = 1024 PB 1 Zettabyte (ZB) = 1024 EB 使用流计算，执行一种类似于持续查询，得到持续更新的结果 80% 的信息是非结构化的。非结构化信息正在以 15 倍于结构化信息的速率增长。 Value

信息检索与数据挖掘 2019/3/315 信息检索与数据挖掘第8章概率模型

信息检索与数据挖掘 2019/3/31 5 信息检索与数据挖掘第8章概率模型

信息检索与数据挖掘 2019/3/316 回顾：词项-文档关联矩阵 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 7 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 Calpurnia 0 1 0 Cleopatra 1 0 0 0 mercy 1 worser 0 1 1 1 0 ·每个文档用一个二维向量表示∈{0,1}M ·布尔检索的本质 ·将查询q中出现的词项对应行取出做布尔运算

信息检索与数据挖掘 2019/3/31 6 回顾：词项-文档关联矩阵 • 每个文档用一个二维向量表示∈{0,1}|V| • 布尔检索的本质 • 将查询q中出现的词项对应行取出做布尔运算 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 1 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1 Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0 mercy 1 0 1 1 1 1 worser 1 0 1 1 1 0

信息检索与数据挖掘 2019/3/31 7 词项-文档计数矩阵 ·考虑词项在文档中出现的次数 ·将每个文档看成是一个计数向量：矩阵中的一列 ·查询q对应的向量与文档对应的列向量求相似度 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 157 73 0 0 0 0 Brutus 4 157 0 1 0 0 Caesar 232 227 0 2 1 Calpurnia 0 10 0 0 0 Cleopatra 57 0 0 0 0 0 mercy 2 0 3 5 5 1 worser 2 0 1 1 1 0 tf,查询q中词项在文档中出现的频度→词项的概率表征相关性？

信息检索与数据挖掘 2019/3/31 7 词项-文档计数矩阵 • 考虑词项在文档中出现的次数 • 将每个文档看成是一个计数向量：矩阵中的一列 • 查询q对应的向量与文档对应的列向量求相似度 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 157 73 0 0 0 0 Brutus 4 157 0 1 0 0 Caesar 232 227 0 2 1 1 Calpurnia 0 10 0 0 0 0 Cleopatra 57 0 0 0 0 0 mercy 2 0 3 5 5 1 worser 2 0 1 1 1 0 tf,查询q中词项在文档中出现的频度词项的概率表征相关性？

信息检索与数据挖掘 2019/3/318 二值→计数→权重矩阵（tf-idf值) Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 5.25 3.18 0 0 0 0.35 Brutus 1.21 6.1 0 1 0 0 Caesar 8.59 2.54 0 1.51 0.25 0 Calpurnia 0 1.54 0 0 0 0 Cleopatra 2.85 0 0 0 0 0 mercy 1.51 0 1.9 0.12 5.25 0.88 worser 1.37 0 0.11 4.15 0.25 1.95 ·每个文档可看成一个向量，其中每个分量对于词典中一个词项，分量值为对于词项的tf-idf值 t「，查询g中词项在文档中出现的频度→词项的概率表征相关性？ idf,罕见词的idf高而高频词的ⅰdf低→根据语言学修正词项的概率

信息检索与数据挖掘 2019/3/31 8 二值→ 计数 → 权重矩阵（ tf-idf值） • 每个文档可看成一个向量，其中每个分量对于词典中一个词项，分量值为对于词项的tf-idf值 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 5.25 3.18 0 0 0 0.35 Brutus 1.21 6.1 0 1 0 0 Caesar 8.59 2.54 0 1.51 0.25 0 Calpurnia 0 1.54 0 0 0 0 Cleopatra 2.85 0 0 0 0 0 mercy 1.51 0 1.9 0.12 5.25 0.88 worser 1.37 0 0.11 4.15 0.25 1.95 tf,查询q中词项在文档中出现的频度词项的概率表征相关性？ idf,罕见词的idf高而高频词的idf低根据语言学修正词项的概率

信息检索与数据挖掘 2019/3/319 回顾：从布尔模型到向量空间模型布尔检索结果太 d和q的相关性是0或1 布尔模型少或太多布尔词项-文档关联矩阵音词项频率TF 词项-文档计数文档和查询均矩阵表示成分向量，计算词项-文档权重 TF-IDF 余弦矩阵相似度对结果进行排序向量空间模型 d和q的相关性是0-1之间的一个数值

信息检索与数据挖掘 2019/3/31 9 回顾：从布尔模型到向量空间模型文档评分布尔检索结果太少或太多对结果进行排序词项频率TF TF-IDF 布尔词项-文档计数矩阵词项-文档权重矩阵词项-文档关联矩阵布尔模型向量空间模型文档和查询均表示成向量，计算余弦相似度 d和q的相关性是0或1 d和q的相关性是0-1之间的一个数值

信息检索与数据挖掘 2019/3/31 10 回顾：信息检索模型的作用信息检索模型是指如何对查询和文档进行表示，。然后对它们进行相似度计算的框架和方法。本质上是对相关度建模。信息检索模型是R中的核心内容之一原始查询查询表示文档表示原始文档相关度计算 •相关度的表示：0或1→0-1间的数值→概率

信息检索与数据挖掘 2019/3/31 10 回顾：信息检索模型的作用 • 信息检索模型是指如何对查询和文档进行表示，然后对它们进行相似度计算的框架和方法 • 本质上是对相关度建模 • 信息检索模型是IR中的核心内容之一 • 相关度的表示：0或1  0-1间的数值  概率

点击下载完整版文档（PDF格式）

共58页，可试读20页，点击继续阅读 ↓↓

点击下载（PDF格式）

浏览记录