0检索语言墩展前沿 北京大学信管理原马年 分类语言的网络应用 分类语言的网络应用。 主题语言的自然语言化。 传统分类语言网络版的提供 检索语言一体化 传统分类语言在网络组织中的应用 ●关于检索语言使用方式的改进。 自动化 网络分类语言的建立 兼容与互换的应用。 分类自动化。(入自动化) 传统分类语言网络版的提供 传统分类语言网络版的特点 《杜威十进分类法》D 数据完备、及时更新。提供充分数据和更新版本 电子版: Electronic Dewey199, 查寻功能强。如 WebDewey可从分类号、LCSH,相 网络版: WebDerey2000 关索引、注释等多种途径查找 ·《国会图书馆分类法》①C 相关教据充分。LCC网络版允许检索或者浏览完整 电子版:C1 assification Plus1996 的LCSH,并可根据国会馆书目库记录中LCC号与标 题的对应关系,浏览有关数据。 ·《国际十进分类法》C 类号组配标引功能。如UDC注重构造精确的分类 电于版:1987 法,窗口设计上左屏有对3种检索浏览选择(术语、类 网络版:Uc0line2001 号、简表)的简单描述,右边建立有构造类号窗口 如LCC提供复分号计算。 传统分类语言在网络组织中的应用 ·使用比较多的有 DDC ·其他综合性分类法 专业分类法 参见 Beyond Bookmarks
1 检索语言发展前沿 北京大学信息管理系 马张华 z 分类语言的网络应用。 z 主题语言的自然语言化。 z 检索语言一体化。 z 关于检索语言使用方式的改进。 z 自动化。 z 兼容与互换的应用。 分类语言的网络应用 • 传统分类语言网络版的提供; • 传统分类语言在网络组织中的应用; • 网络分类语言的建立; • 分类自动化。(入自动化) 传统分类语言网络版的提供 • 《杜威十进分类法》 (DDC) – 电子版:Electronic Dewey1993, – 网络版:WebDewey2000 • 《国会图书馆分类法》(LCC) – 电子版:Classification Plus 1996 – 网络版:Classification Web。 • 《国际十进分类法》(UDC) – 电子版:1987 – 网络版:UDC Online 2001 传统分类语言网络版的特点 • 数据完备、及时更新。提供充分数据和更新版本。 • 查寻功能强。如WebDewey可从分类号、LCSH,相 关索引、注释等多种途径查找。 • 相关数据充分。LCC网络版允许检索或者浏览完整 的LCSH,并可根据国会馆书目库记录中LCC号与标 题的对应关系,浏览有关数据。 • 类号组配标引功能。如UDC注重构造精确的分类方 法,窗口设计上左屏有对3种检索浏览选择(术语、类 号、简表)的简单描述,右边建立有构造类号窗口, 如LCC提供复分号计算。 传统分类语言在网络组织中的应用 • 使用比较多的有 • DDC • UDC • LCC • 其他综合性分类法 • 专业分类法 参见Beyond Bookmarks Beyond Bookmarks BUBL LINK Catalogue of selected Internet resources Home| Search | Subject Menus | A-Z | Dewey | Countries | Types | Updates | Random | About 000 Generalities 001 Knowledge, humanities and research Includes: scholarship, humanities, research methods, research funding 002 The book Includes: book arts, book history 003 Systems Includes: complexity, cybernetics, simulation 004-006 Computing and the Internet Includes: computer science, data processing, networking, programming, programs. See also software archives, mathematics and computing subject terms 010 Bibliography Includes: guides on citing references 020 Library and information sciences Includes: library home pages, library operations, digital libraries. See also LIS subject terms, library catalogues 030 General encyclopaedic works Includes: encyclopaedia, thesauri, dictionaries 060 General organisations and museology Includes: virtual tours of museum exhibits 070 News media, journalism, publishing Includes: booksellers and electronic publishing 080 General collections Includes: collections of online books, texts, journals and magazines 090 Manuscripts, rare books, other rare printed materials
典型网络分类系统 -、播新*款翻歌让 网络分类与文献分类的不同 歡蠱静八酮 1.体系不同。主题中心结合学科。 nsmn蝸乐、工作与收入、物、计算、人群与聊天,题动、生播方式、算 2.类目特点不同。类目分布的差异,功能 质不同 螽:念文批学是增区同星 3.结拘不同。单维与多维 4.同位类排列方式不同。系统与字顺。 生新服务、就肯就、寶化济,人 5.适用性不同。图书馆用户与终端用户 述、数复德 调梨乐修属海网你备连强疗、女学升 6形式的不同。类目、素引发展了不同显示形 抽立部原、兼,利 超文本在多元展开中应用示例 球类起 主题语言的自然语言化 析辉体 球 各种主题语言增加检索入口 控制语言与自然语言的结合应用; 自然语言标引系统的大量应用 ·文本检索系统自然语言检索成为组织和检 索的主流。 各种主题语言增加检索入口 REference books 控制语言与自然语言的结合应用 2711 UF Bibliegra eference books 为控制语言建立自然语言接口 eference books. English 同时在一个系统中使用控制语言与自然O 语言 T Bibliography Best books 在自然语言标引系统的基础上引入控制 Encyclopedias and d ¨whmB时 rancisce(Calif), Journalism, Shakspeare
2 典型网络分类系统 Yahoo! 艺术与人文、商业经济、计算机与互联网、教育、娱乐、政府、健康 、新闻与媒体、娱乐与运动、参考、地区、科学、社会科学、社会与 文化 Open Directory 艺术、商业、计算机、游戏、健康、家庭、儿童、新闻、娱乐、参考 、地区、科学、购物、社会、运动、世界 LookSmart 娱乐、工作与收入、购物、计算、人群与聊天、运动、生活方式、旅 行 、图书馆 、个人生活 搜狐 娱乐休闲 、工商经济、公司企业、文学、体育健身、卫生健康、生活 服务、社会文化、社会科学、国家地区、电脑网络、教育培训、艺术 、新闻媒体、科学技术、旅游交通、政法军事 、个人主页 新浪 娱乐休闲、计算机与互联网、商业经济、教育就业、文学、艺术、体 育健身、医疗健康、生活服务、社会文化、科学技术、社会科学、政 法军事、新闻媒体、参考资料、个人主页、国家与地区、少儿搜索 蓝帆 计算机与网络、娱乐休闲、医疗健康、旅游交通、体育健身、文学、 艺术、新闻媒体、综合参考、生活服务、教育就业、商业经济、人物 明星、社会文化、科学技术、政治军事、社会科学、国家与地区 网易 娱乐休闲、电脑网络、经济金融、医疗健康、文学作品、艺术分类、 生活资讯、体育竞技、教育学习、情感绿洲、政法军事、少儿乐园、 社会文化、新闻出版、旅游自然、科学技术、公司企业、个人主页 网络分类与文献分类的不同 1.体系不同。主题中心结合学科。 2. 类目特点不同。类目分布的差异,功能、性 质不同。 3. 结构不同。单维与多维。 4.同位类排列方式不同。系统与字顺。 5.适用性不同。图书馆用户与终端用户。 6. 形式的不同。类目、索引发展了不同显示形 式。 超文本在多元展开中应用示例 ———————————————————————————————————— 体育与健身 球类运动 新闻媒体 报 纸 报 纸 足 球 @ 足 球 篮 球 @ 篮 球 ---- 棋 牌 期 刊 A ----- ------- ------ 足 球 期 刊 报 纸 @ 田 径 期 刊 @ 球类运动 俱乐部 足 球 赛 事 篮 球 --- 其 他 篮 球 棋 牌 报 纸 @ ------ 期 刊 @ 电 台 俱乐部 电视台 赛 事 -------- ———————————————————————————————————— 主题语言的自然语言化 • 各种主题语言增加检索入口; • 控制语言与自然语言的结合应用; • 自然语言标引系统的大量应用; • 文本检索系统自然语言检索成为组织和检 索的主流。 各种主题语言增加检索入口 Reference books [Z711] UF Bibliography- Reference books Books, Reference Libraries-- Reference books Reference books,English BT Bibliography Books and reading NT Bibliography--Best books Children’s reference books Encyclopedias and dictionaries -- Bibliography [Z1035 ]----------副标题 NT Bibliography-best books Bibliography -Bibliography -- Chemistry,[San Francisco (Calif.), Journalism,Shakspeare, William,1564-1616, etc] 控制语言与自然语言的结合应用; • 为控制语言建立自然语言接口; • 同时在一个系统中使用控制语言与自然 语言; • 在自然语言标引系统的基础上引入控制 结构;
自然语言标引系统的大量应用;。 自然语言应用的改进与检索语 言控制方式的变化 期刊论文的关键词字段检索一一如中文期刊库; ■检索方法的完善,如包括:简单检索 杂检索、各种类型检索 ·人工自然语言标引一一如一些报纸试验标引系 ■检索结果提供形式的改进 统 查询优化形式的发展 ·自动语词标引 检索语言和词汇控制方式的应用。后控 制;预处理:先其处理:多因素结合 实时处理;概念系统的纳入 Google Google高搜索 一世重认14大金 包吉征下全群的等词 但上指 “言以下字 二贵过复+盒 「cog简单检索界面、类型选择 Google的高级检索 提供形式的改进 Cge墨 排序方式的改进,如结合 PageRank排列; 过滤检索 相关检索,如 Isimilar to 题界后,.一 类型区分提供的探索使用 ·各种检索优化形式的应用等。 Google发展中的项目
3 自然语言标引系统的大量应用; • 期刊论文的关键词字段检索--如中文期刊库; • 人工自然语言标引--如一些报纸试验标引系 统; • 自动语词标引; 自然语言应用的改进与检索语 言控制方式的变化 检索方法的完善,如包括:简单检索、 复杂检索、各种类型检索; 检索结果提供形式的改进; 查询优化形式的发展; 检索语言和词汇控制方式的应用。后控 制;预处理;先其处理;多因素结合; 实时处理;概念系统的纳入; Google简单检索界面、类型选择 Google的高级检索 Google发展中的项目 提供形式的改进 • 排序方式的改进,如结合PageRank排列; • 过滤检索; • 相关检索,如similar to; • 类型区分提供的探索使用; • 各种检索优化形式的应用等
G00显示界面 个韩国网站的显示方式 查询优化形式的发展 查询优化形式的发展 alltheweb p 出其是 上一 天平 ”化速 查询优化形式的发展
4 Google显示界面 一个韩国网站的显示方式 查询优化形式的发展 查询优化形式的发展 查询优化形式的发展
查询优化形式的发展; 文本检索系统中控制以及特点 Yvivisimo' 所谓的自由文本检素系统中充满了控制 控制方式的特点和形式 后控制一一如, 预处遐一一如停用词等的排除 先期处,文本权值的先期计算 多因素结合一一词汇、各种相关因素的结合 实时处一一动态处速 概念系统的纳入;如后控词衰的应用等 检索语言一体化 网络检索中分类主题的结合应用 6e心。 分类主题一体化包括, 传统检索语言系统中的一体化方式,如分类主题 体化词表: 网络系统中的分类与主题的结合应用 语义网络与 Ontology-一类表构建与应用问题 引文与链接因素的引入 如引文索引的采用,一般结合关键词检索 Pagerank与 community的引入 多因素控制的应用 语词、链接、用户因素的结合 主题检索系统中引文检索的结合使用 写引文索引 b中分典斜二 日+口平器 【僧】具 应.中营息是.中同
5 查询优化形式的发展; 文本检索系统中控制以及特点 • 所谓的自由文本检索系统中充满了控制 。 • 控制方式的特点和形式 – 后控制--如,后组 – 预处理--如停用词等的排除 – 先期处理,文本权值的先期计算 – 多因素结合--词汇、各种相关因素的结合 – 实时处理--动态处理; – 概念系统的纳入;如后控词表的应用等 检索语言一体化 • 分类主题一体化包括, – 传统检索语言系统中的一体化方式,如分类主题 一体化词表; – 网络系统中的分类与主题的结合应用; – 语义网络与Ontology--类表构建与应用问题。 • 引文与链接因素的引入, – 如引文索引的采用,一般结合关键词检索; – Pagerank与community的引入。 • 多因素控制的应用。 – 语词、链接、用户因素的结合。 网络检索中分类主题的结合应用 主题检索系统中引文检索的结合使用 【 篇 名】 关于“中文网页自动分类竞赛”结果的分析 CAJ原文下载 PDF原文下载 【作者】 冯是聪. 王继民. 【 刊 名】 中文信息学报 2003年05期 编辑部Email 《中文核心期刊要目总览》来源期刊 ASPT来源刊 CJFD收录期刊 【机构】 北京大学计算机科学与技术系. 北京大学计算机科学与技术系 北京 100871 . 【关键 词】 计算机应用. 中文信息处理. 机器学习. 中文网页自动分类. TREC评测. 【聚类检 索】 同类文献 引用文献 被引用文献 【摘要】 在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共 有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果, 从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈 现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文 网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。 引文索引
引文引 PageRank与网络的结构 O/authorities 检索语言一体化 文献自动化 分类主题一体化包括, 传统检索语言系统中的一体化方式,如分类主题 体化词表: 归类系统( automatic classification) 网络系统中的分类与主题的结合应用 语义网络与 Ontology-一类表构建与应用问题 聚类系统( clustering) 引文与链接因素的引入 ·动态自动聚类( Dynamic clustering) 如引文索引的采用,一般结合关键词检索 Pagerank与 community的引入 分类依据:基于语词的自动分类和基于 多因素控制的应用 语词、链接、用户因素的结合 非语词特征如引文关系的分类 自动归类知识库片断 基于预先构建类表的自动归类 保险社会保障制度中国F842 保险世界 保险市场竞争云南省F84 在建立关键词一分类表基 保险市场营销中国 ·保险弹老保险 础上的自动归类 险养者保险制度 保险养老金宜兴市 基于标引实例的训练法基 保险运输保险山西r40.63 ·保险灾害保险上海市F840 础上的归类。 保险中国 险资金中国 F4.4 840.4 保险费
6 引文索引 PageRank 与网络的结构 检索语言一体化 • 分类主题一体化包括, – 传统检索语言系统中的一体化方式,如分类主题 一体化词表; – 网络系统中的分类与主题的结合应用; – 语义网络与Ontology--类表构建与应用问题。 • 引文与链接因素的引入, – 如引文索引的采用,一般结合关键词检索; – Pagerank与community的引入。 • 多因素控制的应用。 – 语词、链接、用户因素的结合。 文献自动化 • 归类系统(automatic automatic classicfication) • 聚类系统(clustering) • 动态自动聚类(Dynamic clustering) 分类依据:基于语词的自动分类和基于 非语词特征如引文关系的分类 基于预先构建类表的自动归类 –在建立关键词-分类表基 础上的自动归类; –基于标引实例的训练法基 础上的归类。 自动归类知识库片断 • 保险—社会保障制度—中国 F842 • 保险—世界 F841 • 保险—市场—中国 F842 • 保险—市场竞争—云南省 F842 • 保险—市场营销—中国 F842 • 保险—养老保险 F840.69 • 保险—养老保险制度 F840.69 • 保险—养老金—宜兴市 F840.69 • 保险—运输保险—山西 F840.63 • 保险—灾害保险—上海市 F840.64 • 保险—中国 F842 • 保险—资金—中国 F842.4 • 保险单 F840.4 • 保险费 F840.4
动态自动聚类系统 处理文件{外怀 自动归类系统运行 自幽调表 分共号转频主胞河分炎号表 Vivisimo对中文聚类 兼容与转换的应用 v Vivisimo 多语言系统的出现一一如 Open Directory中的 本地系统的识别应用一一如 google等自动按当 ,二 代语言检索 ·分类主题系统中的兼容与互换 试雷,出” 主题系统与引文索引之间的兼容与转换 0DP的多语言检索 Ae4。件 新组织和检索类型的发展 ·如图形识别和检索 音频识别和检索 视频识别和检索 最号?与mB ◎·智能化系统的发展等
7 自 动 归 类 系 统 运 行 动态自动聚类系统 Vivisimo对中文聚类 兼容与转换的应用 • 多语言系统的出现--如Open Directory中的 world类; • 本地系统的识别应用--如google等自动按当 代语言检索; • 分类主题系统中的兼容与互换; • 主题系统与引文索引之间的兼容与转换 ODP的多语言检索 新组织和检索类型的发展 • 如图形识别和检索; • 音频识别和检索; • 视频识别和检索; • 智能化系统的发展等
信息组织发展总体特点 信息组织研究有关问题的思考 各种新形式不断出现 信息组织的范围,自动标引属于信息组 多种类型同时并存。独立存在,同时发展 织还是信息检索? 各种技术方法相互渗透。 信息组织研究主体的泛化:计算机界、O 文献领域与语言学领域: 与现代技术的发展联系密切。其显着的特点 国内外信息组织研究特点:国外更加重 是应用方式的改变。 视试验、严谨 更加重视用户。用户中心。重视易用性 ·信息组织在当前发展中的变化:使用方 式上的变化 各种内容角度组织方法的使用情况 一个完善的系统一般同时采用分类法、主题法; ·在计算机检宗系统中,分类法般采用浏览方式 使用,主题法常用于文本检索但也有的系统 提供标题浏览 谢谢! ·图书馆对图书的处理一般采用受控标引的方法 对论文的标引,通常进行分类标引的同时,采用 受控主题标引,或同时结合自由词标引 用关键词标引; ·信息资源数量大增加快的系统采用的形式,分类 标引+自由词标引+后控 人机结合赋词标引
8 信息组织发展总体特点 • 各种新形式不断出现。 • 多种类型同时并存。独立存在,同时发展。 • 各种技术方法相互渗透。 • 与现代技术的发展联系密切。其显著的特点 是应用方式的改变。 • 更加重视用户。用户中心。重视易用性。 信息组织研究有关问题的思考 • 信息组织的范围,自动标引属于信息组 织还是信息检索? • 信息组织研究主体的泛化:计算机界、 文献领域与语言学领域; • 国内外信息组织研究特点:国外更加重 视试验、严谨; • 信息组织在当前发展中的变化:使用方 式上的变化。 谢谢! • 一个完善的系统一般同时采用分类法、主题法; • 在计算机检索系统中,分类法一般采用浏览方式 使用,主题法通常用于文本框检索但也有的系统 提供标题浏览; • 图书馆对图书的处理一般采用受控标引的方法; • 对论文的标引,通常进行分类标引的同时,采用 受控主题标引,或同时结合自由词标引,或直接 用关键词标引; • 信息资源数量大增加快的系统采用的形式,分类 标引+自由词标引+后控 • 人机结合赋词标引 各种内容角度组织方法的使用情况