当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

中国科学技术大学:《信息检索与数据挖掘》课程教学资源(课件讲稿)第8章 概率模型

资源类别:文库,文档格式:PDF,文档页数:58,文件大小:1.32MB,团购合买
• 概率基础知识 • 概率排序原理 • 二元假设检验与概率排序原理 • 概率排序的实现方式 • BIM模型 • 二值独立概率模型BIM • BIM排序函数的推导 • RSV的估算方法 • BM25模型
点击下载完整版文档(PDF)

信息检索与数据挖掘 2019/3/31 1 信息检索与数据挖掘 第8章概率模型

信息检索与数据挖掘 2019/3/31 1 信息检索与数据挖掘 第8章 概率模型

信息检索与数据挖掘 2019/3/31 2 书上第10章XML检索[自学] ·上世纪90年代末,使用不同的数据管理系统来存储 和搜索他们的关键数据。 ·2001年进入了XML时代。分析企业中的非结构化 和半结构化数据的时代诞生。 如今,所有类型数据的激增。我们处于另一个演化 方向的顶端,通常称为大数据 。 表10-1RDB搜索、非结构化IR及结构化IR。对于结构化检索来说,尽管很多学者都认为Xquery(10.5 节)将会成为结构化查询的标准,但是关于这一点目前还没有最后定论 RDB搜索 非结构化检索 结构化检索 对象 记录 非结构化文档 以文本为叶节点的树 模型 关系模型 向量空间或其他 主要数据结构 表格 倒排索引 查询语言 SQL查询 自由文本查询 http://www.ibm.com/developerworks/cn/bigdata/ebook/

信息检索与数据挖掘 2019/3/31 2 书上第10章 XML检索[自学] • 上世纪 90 年代末,使用不同的数据管理系统来存储 和搜索他们的关键数据。 • 2001 年进入了 XML 时代。分析企业中的非结构化 和半结构化数据的时代诞生。 • 如今,所有类型数据的激增。我们处于另一个演化 方向的顶端,通常称为大数据。 http://www.ibm.com/developerworks/cn/bigdata/ebook/

信息检索与数据挖掘 2019/3/313 is0(1) org MIB(management information base) dod 树形结构的数据随 internet 处可见,人们习惯 mgmt private 于有序地组织所有 17 的数据。这类数据 mib-2 enterprises 的检索既不同于传 11 140 统的RDMS,也不 system snmp bea 同于自由文本检索。 个不 个 305 beaDomainList 300 200 beaSystem bealntAgt tuxedo 不 .1.3.6.1.4.1.140.300 absolute OID for "tuxedo"MIB

信息检索与数据挖掘 2019/3/31 3 MIB(management information base) 树形结构的数据随 处可见,人们习惯 于有序地组织所有 的数据。这类数据 的检索既不同于传 统的RDMS,也不 同于自由文本检索

信息检索与数据挖掘 2019/3/314 使用流计算,执行一种类似于持 V3→V4 续查询,得到持续更新的结果 80%的信息是非结构化的。 非结构化信息正在以15倍孑 结构化和非结 结构化信息的速率增长。 构化 批量数据 ariety Big Vel ocity Value 结构化 Data 流数据 TB ZB 1 Terabyte(TB)=1024 GL 1 Petabyte(PB)=1024 TB Volume 1 Exabyte(EB)=1024 PB 1 Zettabyte(ZB)=1024 EB 可用3个特征来定义大数据:数量、种类和速度

信息检索与数据挖掘 2019/3/31 4 V 3V 4 可用 3 个特征来定义大数据:数量、种类和速度 1 Terabyte (TB) = 1024 GB 1 Petabyte (PB) = 1024 TB 1 Exabyte (EB) = 1024 PB 1 Zettabyte (ZB) = 1024 EB 使用流计算,执行一种类似于持 续查询,得到持续更新的结果 80% 的信息是非结构化的。 非结构化信息正在以 15 倍于 结构化信息的速率增长。 Value

信息检索与数据挖掘 2019/3/315 信息检索与数据挖掘 第8章概率模型

信息检索与数据挖掘 2019/3/31 5 信息检索与数据挖掘 第8章 概率模型

信息检索与数据挖掘 2019/3/316 回顾:词项-文档关联矩阵 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 7 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 Calpurnia 0 1 0 Cleopatra 1 0 0 0 mercy 1 worser 0 1 1 1 0 ·每个文档用一个二维向量表示∈{0,1}M ·布尔检索的本质 ·将查询q中出现的词项对应行取出做布尔运算

信息检索与数据挖掘 2019/3/31 6 回顾:词项-文档关联矩阵 • 每个文档用一个二维向量表示∈{0,1}|V| • 布尔检索的本质 • 将查询q中出现的词项对应行取出做布尔运算 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 1 1 0 0 0 1 Brutus 1 1 0 1 0 0 Caesar 1 1 0 1 1 1 Calpurnia 0 1 0 0 0 0 Cleopatra 1 0 0 0 0 0 mercy 1 0 1 1 1 1 worser 1 0 1 1 1 0

信息检索与数据挖掘 2019/3/31 7 词项-文档计数矩阵 ·考虑词项在文档中出现的次数 ·将每个文档看成是一个计数向量:矩阵中的一列 ·查询q对应的向量与文档对应的列向量求相似度 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 157 73 0 0 0 0 Brutus 4 157 0 1 0 0 Caesar 232 227 0 2 1 Calpurnia 0 10 0 0 0 Cleopatra 57 0 0 0 0 0 mercy 2 0 3 5 5 1 worser 2 0 1 1 1 0 tf,查询q中词项在文档中出现的频度→词项的概率表征相关性?

信息检索与数据挖掘 2019/3/31 7 词项-文档计数矩阵 • 考虑词项在文档中出现的次数 • 将每个文档看成是一个计数向量 :矩阵中的一列 • 查询q对应的向量与文档对应的列向量求相似度 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 157 73 0 0 0 0 Brutus 4 157 0 1 0 0 Caesar 232 227 0 2 1 1 Calpurnia 0 10 0 0 0 0 Cleopatra 57 0 0 0 0 0 mercy 2 0 3 5 5 1 worser 2 0 1 1 1 0 tf,查询q中词项在文档中出现的频度词项的概率表征相关性?

信息检索与数据挖掘 2019/3/318 二值→计数→权重矩阵(tf-idf值) Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 5.25 3.18 0 0 0 0.35 Brutus 1.21 6.1 0 1 0 0 Caesar 8.59 2.54 0 1.51 0.25 0 Calpurnia 0 1.54 0 0 0 0 Cleopatra 2.85 0 0 0 0 0 mercy 1.51 0 1.9 0.12 5.25 0.88 worser 1.37 0 0.11 4.15 0.25 1.95 ·每个文档可看成一个向量,其中每个分量对于词典 中一个词项,分量值为对于词项的tf-idf值 t「,查询g中词项在文档中出现的频度→词项的概率表征相关性? idf,罕见词的idf高而高频词的ⅰdf低→根据语言学修正词项的概率

信息检索与数据挖掘 2019/3/31 8 二值→ 计数 → 权重矩阵( tf-idf值) • 每个文档可看成一个向量,其中每个分量对于词典 中一个词项,分量值为对于词项的tf-idf值 Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth Antony 5.25 3.18 0 0 0 0.35 Brutus 1.21 6.1 0 1 0 0 Caesar 8.59 2.54 0 1.51 0.25 0 Calpurnia 0 1.54 0 0 0 0 Cleopatra 2.85 0 0 0 0 0 mercy 1.51 0 1.9 0.12 5.25 0.88 worser 1.37 0 0.11 4.15 0.25 1.95 tf,查询q中词项在文档中出现的频度词项的概率表征相关性? idf,罕见词的idf高而高频词的idf低根据语言学修正词项的概率

信息检索与数据挖掘 2019/3/319 回顾:从布尔模型到向量空间模型 布尔检索结果太 d和q的相关性是0或1 布尔模型 少或太多 布尔 词项-文档关联 矩阵 音 词项频率TF 词项-文档计数 文档和 查询均 矩阵 表示成 分 向量, 计算 词项-文档权重 TF-IDF 余弦 矩阵 相似度 对结果进行排序 向量空间模型 d和q的相关性是0-1之间的一个数值

信息检索与数据挖掘 2019/3/31 9 回顾:从布尔模型到向量空间模型 文 档 评 分 布尔检索结果太 少或太多 对结果进行排序 词项频率TF TF-IDF 布尔 词项-文档计数 矩阵 词项-文档权重 矩阵 词项-文档关联 矩阵 布尔模型 向量空间模型 文档和 查询均 表示成 向量, 计算 余弦 相似度 d和q的相关性是0或1 d和q的相关性是0-1之间的一个数值

信息检索与数据挖掘 2019/3/31 10 回顾:信息检索模型的作用 信息检索模型是指如何对查询和文档进行表示, 。 然后对它们进行相似度计算的框架和方法 。本质上是对相关度建模 。信息检索模型是R中的核心内容之一 原始查询 查询表示 文档表示 原始文档 相关度计算 •相关度的表示:0或1→0-1间的数值→概率

信息检索与数据挖掘 2019/3/31 10 回顾:信息检索模型的作用 • 信息检索模型是指如何对查询和文档进行表示, 然后对它们进行相似度计算的框架和方法 • 本质上是对相关度建模 • 信息检索模型是IR中的核心内容之一 • 相关度的表示:0或1  0-1间的数值  概率

点击下载完整版文档(PDF)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
共58页,可试读20页,点击继续阅读 ↓↓
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有