《信息检索》课程教学资源（PPT课件讲稿）第四章 Strategy of Information Retrieval（4-3）信息检索效果

4-3 Information Retrieval Effectiveness 一、信息检索效果的概念和研究状况二、检索效率指标三、提高检索效率的措施

团购合买资源类别：文库，文档格式：PPT，文档页数：19，文件大小：268KB

4-3 Information Retrieval Effectiveness 信息检索效果的概念和研究状况 ■检索效率指标提高检索效率的措施思考题

1 4-3 Information Retrieval Effectiveness ◼ 信息检索效果的概念和研究状况 ◼ 检索效率指标 ◼ 提高检索效率的措施思考题

信息检索效果的概念和研究状况信息检索效果是利用检索系统进行检索所产生的有效结果 ■ Cranfield试验及其主要结论 (1)UDC、标题语言、元词语言和专业组面分类法等4种索引语言性能相差无几。 (2)如果同时考虑査全率和查准率两个性能,那么检索效果最好的是自然语言 (3)收录范围、查全率、查准率、响应时间、用户负担和输出形式等6 项是评价检索效果和检索系统的主要指标。 (4)查全率与查准率存在互逆相关关系。王云等对截词检索、条件检索、关键词检索、分类号检索、作者检索、期刊检索及其检索效果等进行了实证研究

2 一、信息检索效果的概念和研究状况 ◼ 信息检索效果是利用检索系统进行检索所产生的有效结果。 ◼ Cranfield试验及其主要结论 ⑴ UDC、标题语言、元词语言和专业组面分类法等4种索引语言性能相差无几。 ⑵ 如果同时考虑查全率和查准率两个性能，那么检索效果最好的是自然语言。 ⑶ 收录范围、查全率、查准率、响应时间、用户负担和输出形式等6 项是评价检索效果和检索系统的主要指标。 ⑷ 查全率与查准率存在互逆相关关系。 ◼ 王云等对截词检索、条件检索、关键词检索、分类号检索、作者检索、期刊检索及其检索效果等进行了实证研究

What to Evaluate? What can be measured that reflects users' ability to use system? Coverage of information Form of presentation Effort required/ease of use Time and space efficiency 0- Recall Proportion of relevant material actually retrieved Precision Proportion of retrieved material actually relevant

3 • What to Evaluate? Effectiveness What can be measured that reflects users’ ability to use system? – Coverage of information – Form of presentation – Effort required/ease of use – Time and space efficiency – Recall ▪ Proportion of relevant material actually retrieved – Precision ▪ Proportion of retrieved material actually relevant

检索效率指标检索效率是指评价检索系统性能和质量的各种比率。包括査全率查准率、新颖率、检索速度、检索方便性和成本效益比等。 ■FW· Lancaster2×2表: 用户相关性 Doc is Relevant Doc is NOT总计系统相关性 relevant Doc is retrieved a(命中) b(误检) a+b DOC IS NOT c(漏检) d(应拒) c+d retrieved 总计 atc b+d a+b+c +d=n

4 二、检索效率指标 ◼ 检索效率是指评价检索系统性能和质量的各种比率。包括查全率、查准率、新颖率、检索速度、检索方便性和成本效益比等。 ◼ F·W·Lancaster 2×2表：用户相关性系统相关性 Doc is Relevant Doc is NOT relevant 总计 Doc is retrieved a（命中） b（误检） a+b Doc is NOT retrieved c（漏检） d（应拒） c+d 总计 a+c b+d a+b+c +d= n

1、ReCa∥ ratio 查全率:检出的相关文献数与系统内的相关文献总数之比 (W·佩里和A肯特,1956) R=检出的相关文献/文献内相关文献总数×100%。漏检率=未检出的相关文献数/文献库内相关文献总数×100%。在公式中,a值经过一次检索即可确定,而c值即漏检文献数一般可以用下列4种方法测定出来:(1)若n值不大,逐篇鉴别各篇文献;(2)若n值很大,可对检出的文献随机抽样;(3)由有经验的用户去鉴别检出的文献;(4)通过不同途径去检索同一课题的文献,把各次检出的文献加在一起,剔除重复,形成一份较完整的相关文献清单,以此对比每次检出的相关文献,即可知道相应的c值

5 1、Recall ratio ◼ 查全率：检出的相关文献数与系统内的相关文献总数之比（W·佩里和A·肯特，1956）。 ◼ R＝检出的相关文献/文献内相关文献总数×100%。漏检率＝未检出的相关文献数/文献库内相关文献总数×100%。在公式中，a值经过一次检索即可确定，而c值即漏检文献数一般可以用下列4种方法测定出来：(1)若n值不大，逐篇鉴别各篇文献；(2)若n值很大，可对检出的文献随机抽样；(3)由有经验的用户去鉴别检出的文献；(4)通过不同途径去检索同一课题的文献，把各次检出的文献加在一起，剔除重复，形成一份较完整的相关文献清单，以此对比每次检出的相关文献，即可知道相应的c值

2、 Precision ratio 查准率:检出的相关文献数与检出的文献总数之比,它是衡量一个检索系统的信号噪声比,测度检索系统拒绝非相关文献能力大小的一项指标(佩里和背特,1956)。 P=检出的相关文献数/检出的文献总数×100%。与此相应, 我们称系统检出的非相关文献数与检出的文献总数的比率为误检率( Noise ratio),其值为ba+b,它是查准率的补数

6 2、Precision ratio ◼ 查准率：检出的相关文献数与检出的文献总数之比，它是衡量一个检索系统的信号噪声比，测度检索系统拒绝非相关文献能力大小的一项指标(佩里和肯特，1956)。 ◼ P=检出的相关文献数/检出的文献总数×100%。与此相应，我们称系统检出的非相关文献数与检出的文献总数的比率为误检率(Noise ratio)，其值为b/a+b，它是查准率的补数

Relevant vs. Retrieved Recall I Rel retrieved I Rel retrieved Precision I Rel in Collection Retrieved I All Docs Retrieved Relevant

3、R-P关系 C W. Cleverdon指出,在同一个检索中,当R和P达到一定阀值,即查全率为60~70%,查准率为40~50%后,二者呈互逆相关 (1) Get as much good stuff while at the same time getting little junk as possible precision (2)There is a tradeoff between Precision and recall (3)So measure Precision at different levels of Recall X (4)Note: this is an AVERAGE ecall over MANY queries 影响査全率和査准的因素包括标引因素、词表因素、检索程序的功能因素、系统与用户的交互因素、检索策略因素和薮据库选择因素等

8 3、R-P关系 ◼ C·W·Cleverdon指出，在同一个检索中，当R和P达到一定阀值，即查全率为60~70%，查准率为40~50%后，二者呈互逆相关。 (1) Get as much good stuff while at the same time getting as little junk as possible； (2) There is a tradeoff between Precision and Recall； (3) So measure Precision at different levels of Recall； (4) Note: this is an AVERAGE over MANY queries ◼ 影响查全率和查准的因素包括标引因素、词表因素、检索程序的功能因素、系统与用户的交互因素、检索策略因素和数据库选择因素等。 precision recall x x x x

o Retrieved vs relevant documents Very high precision, very low recall Relevant

9 •Retrieved vs. Relevant Documents Very high precision, very low recall Relevant

Retrieved vs. Relevant documents Very low precision, very low recall(0 in fact) Relevant

10 • Retrieved vs. Relevant Documents Very low precision, very low recall (0 in fact) Relevant

点击进入文档下载页（PPT格式）

共19页，试读已结束，阅读完整版请下载

点击下载（PPT格式）

浏览记录