第一节儐息描述的意义 第三章信息描述 含义与作用 信息描述—即信息资源描述,指根据信 第一节信息描述的意义 息组织和检索的需要,对信息资源的形式 第二节描述项目、标识和描述级次 特征和内容进行分析、选择、记录的活动 第三节检索点与规范文档 元数据关于数据的数据,或关于 第四节计算机编码 据的结构化的数据,是信息描述的结果 第五节都柏林核心集介绍 元数据通常是从信息资源中抽取出来的用 第六节编目方式 于说明其特征、内容的数据,如题名,版 本、出版数据、相关说明,包括检索点等。 信息描述的作用 信息描述规范一文献著录标准 识别。记录信息资源的各种基本特征,包括题 名、责任者、形式、状况等,帮助用户识别 1971-1976,国际图书馆协会联合会(IFLA)编目委员会 资源 颁布了《单行着作国际标准书目奢录》(sBD(M)) 定位。确定资源位置,供访问使用 以及丛书、乐谱、地图资料、非书资料等为对象的书目 述的国际标准、《国际标准书目着录总则》(ISBD 检索。提供检索点,方便检索利用。 G)) 选择。通过对信息对象的内容特征的记录,供 用户对信息资源的使用价值进行判断 国家标准80年代起,在全国文献工作标准化 技术委员会的努力下确定。 信息描述的规范一文献著录标准 结合电子环境特点建立的描述规范 我国制订的文献着录标准: 文本编码倡议〔 Text encoded initiative,TEI) 【文就著录总则》1983 都柏林核心集( Dublin Core) 《普通图书著录规则》19851 ·政府信息定位服务( Government Information 《连续出版物著着录规则》19852 Locator Service, GILS) 《非书资料著录规则》1985 数字地球空间元数据( Content Standard Digital 《地图资料著录规则》1986 Geospatial Metadata, CSDGM) 《档案奢录规则》19855 可视资源核心范( Core Categories for visual 《古精著录规则》19871 Resources,CCⅤR) 《检索期刊条目着录规则》 ·编码档案描述( Encoded Archival Description,EDA 博物馆信息的计算机交换( Computer Interchange of 《文后参考文献著录规则》
1 第三章 信息描述 第一节 信息描述的意义 第二节 描述项目、标识和描述级次 第三节 检索点与规范文档 第四节 计算机编码 第五节 都柏林核心集介绍 第六节 编目方式 第一节 信息描述的意义 一. 含义与作用 • 信息描述——即信息资源描述,指根据信 息组织和检索的需要,对信息资源的形式 特征和内容进行分析、选择、记录的活动。 • 元数据——关于数据的数据,或关于数 据的结构化的数据,是信息描述的结果。 • 元数据通常是从信息资源中抽取出来的用 于说明其特征、内容的数据,如题名,版 本、出版数据、相关说明,包括检索点等。 信息描述的作用 识别。记录信息资源的各种基本特征,包括题 名、责任者、形式、状况等,帮助用户识别 资源; 定位。确定资源位置,供访问使用。 检索。提供检索点,方便检索利用。 选择。通过对信息对象的内容特征的记录,供 用户对信息资源的使用价值进行判断。 二. 信息描述规范 ——文献著录标准 国际标准: 1971—1976,国际图书馆协会联合会(IFLA)编目委员会 颁布了《单行著作国际标准书目著录》(ISBD(M)), 以及丛书、乐谱、地图资料、非书资料等为对象的书目 描述的国际标准、《国际标准书目著录总则》(ISBD (G))。 国家标准——80年代起,在全国文献工作标准化 技术委员会的努力下确定。 二. 信息描述的规范 ——文献著录标准 我国制订的文献著录标准 : 《文献著录总则》1983.7 《普通图书著录规则》 1985.1 《连续出版物著录规则》 1985.2 《非书资料著录规则》 1985.2 《地图资料著录规则》 1986.6 《档案著录规则》 1985.5 《古籍著录规则》1987.1 《检索期刊条目著录规则》 《文后参考文献著录规则》 结合电子环境特点建立的描述规范 • 文本编码倡议(Text Encoded Initiative,TEI) • 都柏林核心集(Dublin Core) • 政府信息定位服务(Government Information Locator Service,GILS) • 数字地球空间元数据(Content Standard Digital Geospatial Metadata ,CSDGM) • 可视资源核心范畴(Core Categories for Visual Resources,CCVR) • 编码档案描述(Encoded Archival Description,EDA) • 博物馆信息的计算机交换(Computer Interchange of Museum Information,CIMI
第二节描述项目、标识和级次 都柏林核心集描述项目 信息描述项目是用以揭示信息资源内容、特征的记录事项 ①题名和责任者项 主题和关健词 Subject and Keywords) 描述 Description ②版本项 出版者( Publisher) ③文献殊细节项 其他参与者 Other Contributor) ④出版发行项 ⑤载体形态项 ⑥丛项 资源标识 Resource ldentifier 附柱项: ⑧文献标准编号及有关记载项 ⑨提项 盖范 Coverage) 权限 Right management 第二节描述项目、标识和级次 文就着录标准的项目标识符: 第二节描述项目、标识和级次 各大项符号。 并列题名,并列丛编名。 正题名=并列题名;副题名及说明题名文字文就类 副题名及说明题名文字、出版者或发行者、图书及其他 型标识第一實任着;其他责任着一编次及其他版本 形态、副丛编名、价格。 形式/与本版有关的责任者.一文献特殊细节一出版地 /第一责任者名 或发行地:出版者与发行者,出版日期或发行日期 第二部分、第二出版地或发行地、尺寸、从编编号。 (印制地:印制者,印制日期)一数t及其单位:图 分辑(卷)题名、相同著作方式的其他责任说明、出版 及其他形态;尺寸或开本+附件一(丛编名贵任者 日期、国际标准连续出版物编号、分段页码、其他载体形 国际标准连续出版物编号;丛编编号附属丛编) 附注一国际文献标准编号:中国文就标准编号 分辑(卷)次、附属丛编 附件 订):价格 ∥析出文献的出处 第二节描述项目、标识和级次 第二节描述项目、标识和级次 文献著录规则中的主要项目一识别文献必须有 简县级次—仅记录主要项目。小型文献单位或 的项目。包括 编制书本式目录使用。 题名和责任者项的正题名 基本级次—在记录主要项目的同时,记录部分选 第一實任者 择项目。文献单位实践中最常用的级次。 版本项 出版发行项的出版地成发行地、出版者发行 详细级次—记录主要项目和全部选择项目。适合 者、出版日期发行日期 于国家书目或集中编目。 载体形态项 网络描述中,未设置明确的限制
2 第二节 描述项目、标识和级次 信息描述项目是用以揭示信息资源内容、特征的记录事项。 ①题名和责任者项 ②版本项 ③文献特殊细节项 ④出版发行项 ⑤载体形态项 ⑥丛编项 ⑦附注项: ⑧文献标准编号及有关记载项 ⑨提要项 都柏林核心集描述项目 题名(Title) 作者或创作者(Author or Creator) 主题和关键词(Subject and Keywords) 描述(Description) 出版者(Publisher) 其他参与者(Other Contributor) 日期(Date) 资源类型(Resource Type) 格式(Format) 资源标识(Resource Identifier) 来源(Source) 语言(Language) 关联(Relation) 覆盖范围(Coverage) 权限管理(Right Management) 第二节 描述项目、标识和级次 文献著录标准的项目标识符 : .— 各大项符号。 = 并列题名,并列丛编名。 : 副题名及说明题名文字、出版者或发行者、图书及其他 形态、副丛编名、价格。 / 第一责任者名。 ; 不同著作方式的责任说明、同一责任者的合辑题名中的 第二部分、第二出版地或发行地、尺寸、丛编编号。 , 分辑(卷)题名、相同著作方式的其他责任说明、出版 日期、国际标准连续出版物编号、分段页码、其他载体形 态。 . 分辑(卷)次、附属丛编。 + 附件。 // 析出文献的出处。 第二节 描述项目、标识和级次 正题名=并列题名;副题名及说明题名文字[文献类 型标识]/第一责任者;其他责任者.—编次及其他版本 形式/与本版有关的责任者.—文献特殊细节.—出版地 或发行地:出版者与发行者,出版日期或发行日期 (印制地:印制者,印制日期).—数量及其单位:图 及其他形态;尺寸或开本+附件.—(丛编名/责任者, 国际标准连续出版物编号;丛编编号.附属丛编).— 附注.—国际文献标准编号;中国文献标准编号(装 订):价格 提要 第二节 描述项目、标识和级次 文献著录规则中的主要项目—识别文献必须有 的项目。包括: – 题名和责任者项的正题名, – 第一责任者, – 版本项, – 出版发行项的出版地或发行地、出版者或发行 者、出版日期或发行日期, – 载体形态项。 第二节 描述项目、标识和级次 简要级次——仅记录主要项目。小型文献单位或 编制书本式目录使用。 基本级次——在记录主要项目的同时,记录部分选 择项目。文献单位实践中最常用的级次。 详细级次——记录主要项目和全部选择项目。适合 于国家书目或集中编目。 网络描述中,未设置明确的限制
Identifier. URI ww.ih. pku.edu.cn Type. OCLCg Text data CHina· Beijin nal Peking Univ ersity Libran L氯20.0.401s Date. created 1996-10.25 epage. brief introduction 棘論哥。上 x thtml Peking University Library OCLC协作机资源目系统(CORC)中元的是示界面 第二节描述项目、标识和级次 第三节检索点和规范文档 描述信息源—即著录信息源、著录根据,指进行 检索点—指检索信息资源所使用的题名、责任者 信息资源描述时描述信息的来源和出处 分类号、主题词等各种供检索使用的数据。 图书的主要描述信息源是书名页:载有题名、责任 在手检系统中,亦称标目。作用,一,作为排检依 者、出版事项等文献特征,是信息描述的主要根 据;二,决定款目性质,供组织相应检索工具使 用 着录版本项和出版项发行项,以版权页为准 在卡片式目录中,我国文献单位一般编制题名、贵 任者、分类、主恿四种款目,并组织相应的目录 从前言、附录等也可选择必要著录项目,但不同项 在机检系统中,通过规定可检字段和检索方式确定 不一致时,以主要信息源为准 我国文献单位题名检索点选择方法 个人责任者检索点选择方法 ①正题名主接选作标目。例 ①鲁贵任者、两人合著中的第二个贵任者名称可以作标 《中国近代史》为单纯题名,可直接以该题名为标目 例:《图书馆自动化基础教程》傅守灿、陈文广合著,均 《石头记一名红楼梦》,交替题名石头记、红楼梦可同时选作 《简明中国图书分类法教程》由陈树年等5人编著, 适当选择副题名和附注项中的合辑题名作标目。通常选比正 只选陈树年 题名更能反映文献主题的副题名。例: ②其他责任着,包括注释者、译者、编译者、校点者、 《科学技术哲学引论—科学技术时代的自然辩证法》 者、摄修等亦可选作标目 ③并列题名一般不作标目。例: 《庄子全译》一书,张耿光译注、可选作为 《中国人的精神》( the Spirit of the Chinese People) ③附注项录的责任者,以及其他有关责任者 ④一文就名检索点一不宜超过两个,但题名分析款目不受 目,但必要时,著名学着或着名 此限制
3 拓扑学的首要概念:线段、曲线、圆周与圆片的映 射的几何学/(美)陈锡驹(Chinn, W. G.),(美 )斯廷路德(Steenrod,N. E.)著;蒋首方,江泽涵 译。上海:上海科学技术出版社,1984.3 196页;32开 书名原文:First concept of topoloqy 0.88元 1. 拓…2.①陈…②斯…③蒋…④江3. 4.O189 详细级次描述样例 拓扑学的首要概念:线段、曲线、圆周与圆片的映射的几 何学/(美)陈锡驹(Chinn, W. G.),等著。上海:上 海科学技术出版社,1984.3 196页;32开 简 要 1. 拓…2.①陈…②斯…③蒋…④江3. 4.O189 级 次 描 述 样例 Title Peking University Library Identifier.URI http://www.lib.pku.edu.cn Type.OCLCg Text data Type text/html; charset=gb2312 Coverage.spatial P.R.China - Beijing Coverage.temporal 1902- Creator.namePersonal Peking University Library Date.created 1996-10-25 Description Library homepage, brief introduction, electronic resources, OPAC, User Guide, News, digital library, Inter-library Loan, FAQ, Navigations, Focus, User training program, CALIS, CAI Format text/html Language.ISO639-2 chi Publisher Peking University Library Relation.hasVersion http://www.lib.pku.edu.cn/enhtml/index.htm OCLC 协作联机资源编目系统(CORC)中元数据的显示界面 第二节 描述项目、标识和级次 描述信息源 —— 即著录信息源、著录根据,指进行 信息资源描述时描述信息的来源和出处。 图书的主要描述信息源是书名页:载有题名、责任 者、出版事项等文献特征,是信息描述的主要根 据。 著录版本项和出版项发行项,以版权页为准。 从前言、附录等也可选择必要著录项目,但不同项 目不一致时,以主要信息源为准。 第三节 检索点和规范文档 检索点——指检索信息资源所使用的题名、责任者、 分类号、主题词等各种供检索使用的数据。 在手检系统中,亦称标目。作用,一,作为排检依 据;二,决定款目性质,供组织相应检索工具使 用。 在卡片式目录中,我国文献单位一般编制题名、责 任者、分类、主题四种款目,并组织相应的目录。 在机检系统中,通过规定可检字段和检索方式确定。 我国文献单位题名检索点选择方法 ①正题名直接选作标目。例: 《中国近代史》为单纯题名,可直接以该题名为标目; 《石头记 一名 红楼梦》,交替题名石头记、红楼梦可同时选作 标目。 ②适当选择副题名和附注项中的合辑题名作标目。通常选比正 题名更能反映文献主题的副题名。 例: 《科学技术哲学引论——科学技术时代的自然辩证法》 ③并列题名一般不作标目。例: 《中国人的精神》(the Spirit of the Chinese People ) ④一文献题名检索点一般不宜超过两个,但题名分析款目不受 此限制。 个人责任者检索点选择方法 ①第一责任者、两人合著中的第二个责任者名称可以作标 目。3人以上合著只以第一责任者名作标目。 例:《图书馆自动化基础教程》傅守灿、陈文广合著,均 作标目; 《简明中国图书分类法教程》由陈树年等5人编著, 只选陈树年。 ②其他责任者,包括注释者、译者、编译者、校点者、整 理者、绘图者、摄影者等亦可选作标目。 例:《庄子全译》一书,张耿光译注、可选作为检索标目。 ③附注项著录的责任者,以及其他有关责任者,一般不作 标目,但必要时,著名学者或著名著作的责任者也可作 标目
个人责任者检索点的选择 4.参照法 以书名命名的编写组不作检索点,在知道责任者名 时,可用實任者名称为检索点 ·参照法一一指引用户从检索工具中的一个 例如:《图书分类》“北京大学图书馆学系《图书分 标目或款目去查找另一个标目或款目的方 类》编写组”编著,以第一责任者李严作检索标目。 法,其作用是指引检索系统中检索对象之 丛书综合款目的责任者选择与单书相同;分散著录 间的联系,说明检索系统的编制和使用方 时,单书作者为第一责任者。编者为出版社时不编 制责任者综合款目 分为单纯参照、相关参照和一般参照 ⑥一文献责任者检点的数量般不超过4个为宜 4.参照法 4.参照法 单纯参照一一又称为直接参照,它是从 相关参照一一又称为兼互参照,是从 不用作标目的标识去查找用作标目的标 个使用的标目去参考另一条或几条相关 识的参照。 标目的参照。 例如,《石头记》见《红楼梦》 例:数理统计参见统计学 统计学参见数理统计。 又如,周树人见鲁迅, 4.参照法 第三节检索点和名称规范档 般参照一一又称为普通参照,是提供关 规范文档( authority file)—一种根据信息 于一定编目事项的说明,介绍用户使用 组织的需要,对元数据记录的标目进行控制 检索系统的方法。 跟踪、维护的工具,包括名称规范档、主题 规范档等。 名称规范档 种对信息资源描述中的名称 注:本词只作副标题词使用。如:计算 机一设计 标目进行规范控制的工具。处理对象包括人 名、机构团体名、著作题名等
4 个人责任者检索点的选择 ④以书名命名的编写组不作检索点,在知道责任者名 时,可用责任者名称为检索点。 例如:《图书分类》“北京大学图书馆学系《图书分 类》编写组”编著,以第一责任者李严作检索标目。 ⑤丛书综合款目的责任者选择与单书相同;分散著录 时,单书作者为第一责任者。编者为出版社时不编 制责任者综合款目。 ⑥一文献责任者检索点的数量一般不超过4个为宜。 4.参照法 • 参照法--指引用户从检索工具中的一个 标目或款目去查找另一个标目或款目的方 法,其作用是指引检索系统中检索对象之 间的联系,说明检索系统的编制和使用方 法。 • 分为单纯参照、相关参照和一般参照。 4.参照法 • 单纯参照--又称为直接参照,它是从 不用作标目的标识去查找用作标目的标 识的参照。 • 例如,《石头记》 见 《红楼梦》; • 又如,周树人 见 鲁迅。 4.参照法 • 相关参照--又称为兼互参照,是从一 个使用的标目去参考另一条或几条相关 标目的参照。 例:数理统计 参见 统计学; 统计学 参见 数理统计。 4.参照法 一般参照--又称为普通参照,是提供关 于一定编目事项的说明,介绍用户使用 检索系统的方法。 例: 设计 注:本词只作副标题词使用。如:计算 机-设计” 。 第三节 检索点和 名称规范档 规范文档(authority file)——一种根据信息 组织的需要,对元数据记录的标目进行控制、 跟踪、维护的工具,包括名称规范档、主题 规范档等。 名称规范档——一种对信息资源描述中的名称 标目进行规范控制的工具。处理对象包括人 名、机构团体名、著作题名等
规范控制的作用 规范款目格式 A.有利于以统一的方式加以记录。通过同义词、多义词处理 规范款目一规范标目(亦即统一标目)及其有关参照的完整记 使一作着或题名的着作,集中在同一标目之下;区别同 录。设有七个著录项目 名称下不同对象的资源 B.以规范、通用的形式加以记录。根据标引和检索需要,对 统一标目 标目形式加以规范,改进使用效果 C.方便标引和检蜜。规范记录收有各种未被选用的形式,词 如m (非用词) D.相关信息资源的联系得到揭示 或>统一款目 A5592134 参照款目实例 说明款目著录格式 说明款日——是关于规范档编制规范的说明,包 活标目的选择方法、组织原则、目录使用方法 iE (Mark Twain 1835-1910) 对于这个作者的著作见其规范名 >(美)马克.吐温( Mark Twain1835~ 说明标目 1910) 标目附注 编目机构名称:编目条例或标准,日期 编目规范数据号
5 规范控制的作用 A. 有利于以统一的方式加以记录。通过同义词、多义词处理, 使一作者或题名的著作,集中在同一标目之下;区别同一 名称下不同对象的资源。 B. 以规范、通用的形式加以记录。根据标引和检索需要,对 标目形式加以规范,改进使用效果。 C. 方便标引和检索。规范记录收有各种未被选用的形式,词 间联系,可作查找入口。 D. 相关信息资源的联系得到揭示。 E. 促进国际书目共享。各文种规范文档,可作为不同文字之 间转换依据。 名称规范档通常由规范款目、参照款目、说明款目组成。 规范款目格式 规范款目——规范标目(亦即统一标目)及其有关参照的完整记 录。设有七个著录项目: ———————————————————— 统一标目 =并列标目 标目附注 或>>统一款目 ———————————— 参照款目实例 —————————————————— 吐温(Mark Twain 1835~1910) 对于这个作者的著作见其规范名 >(美) 马克.吐温(Mark Twain 1835~ 1910) ————————————————— 说明款目著录格式 说明款目——是关于规范档编制规范的说明,包 括标目的选择方法、组织原则、目录使用方法 等。 ————————————————————— 说明标目 标目附注 编目机构名称;编目条例或标准,日期 编目规范数据号 —————————————————————
说明款目实例 名称规范控制 名称规范控制——是根据确定标目的需要 定统一使用的名称的活动,包括对人名、 中国人民解放军 团体名、题名等的控制。 以“中国人民解放军”开头的名称,一律改为“解放 军”。如:解放军总政治部、解放军总后勤部卫 名称规范处理包括 生部、解放军海军政治部、解放军装甲兵司令 ①选择以何种名称作为使用的规范名称 部、解放军兰州军区等。 京图书馆:BDM,1993.09.7 ②确定规范名称的明确表达形式: A93-51174 ③确定款目词,并对名称作必要的附加说明 以便对相同或相似名称加以区分,并根据各 种名称类型的特点加以处理。 人名规范控制 人名规范控制 作者名包括:姓名、别名、笔名、艺名、室名、封号 ③个人名称主要成分相同时,通过加生卒年、性别、学科 等名称。人名规范做法一般是 职业、籍贯等区分 ①选择還用的名称为标目。选择著作中出现最多的署 例:许杰(地质学家1901~1989) 名,可是本名或笔名。例如:鲁迅又名周树人,以 许杰(作家1901~) 鲁迅为标目;老舍、舒舍予,以老舍为标目 ②包括必要附加成分修饰、说明。附加成分包括民族、 ④西方语言及有关国家人名,取汉译姓氏为标目的主要部 朝代、国别、原文名、性别、生卒年等。 分:日、朝、慈南、匈牙利等国及海外华人姓名,按汉 顺序著录。姓名前注明国别:姓名后注明性别、原文 例:鲁迅(1881-1936) (唐)李白(701-~762) 例:(英)达雷尔( Durrell, Lawrence George912-) (满)溥仪(1906-1967) 日)川瑞康成( Kawabata Yasunari1899-1972) 冰心(女,1900-1999)等 (美)李政道(1926~) 人名规范控制 第四节计算机编码 ⑤有多种中译名时,原则上取汉译姓氏、简称或 惯称为标目。例如: (美)杰克伦敦( Jack London l976-1916) (法)戴高乐( de gaulle, Charles I890-1970) 一.计算机编码格式 ⑥一个著者名为若干人合作笔名时,分别为合作 二.计算机标识语言 笔名、个人名称作规范款目,并建立相关参照 例如:马铁丁为郭小川、陈笑雨、张铁夫合用笔 名,同时为马铁丁及三人分别编规范款目。 ⑦按上面方法仍无法确定规范人名时,按文献机 构已编名称为标目
6 说明款目实例 ———————————————————— 中国人民解放军…… 以“中国人民解放军”开头的名称,一律改为“解放 军”。如:解放军总政治部、解放军总后勤部卫 生部、解放军海军政治部、解放军装甲兵司令 部、解放军兰州军区等。 北京图书馆;BDM,1993.09.17 A93-51174 ————————————————————— 名称规范控制 名称规范控制——是根据确定标目的需要, 规定统一使用的名称的活动,包括对人名、 团体名、题名等的控制。 名称规范处理包括: ①选择以何种名称作为使用的规范名称; ②确定规范名称的明确表达形式; ③确定款目词,并对名称作必要的附加说明, 以便对相同或相似名称加以区分,并根据各 种名称类型的特点加以处理。 人名规范控制 作者名包括:姓名、别名、笔名、艺名、室名、封号 等名称。人名规范做法一般是: ①选择通用的名称为标目。选择著作中出现最多的署 名,可是本名或笔名。例如:鲁迅又名周树人,以 鲁迅为标目;老舍、舒舍予,以老舍为标目。 ②包括必要附加成分修饰、说明。附加成分包括民族、 朝代、国别、原文名、性别、生卒年等。 例:鲁迅(1881~1936); (唐)李白(701~762); (满)溥仪(1906~1967); 冰心(女,1900~1999)等。 人名规范控制 ③个人名称主要成分相同时,通过加生卒年、性别、学科、 职业、籍贯等区分。 例:许杰(地质学家 1901~1989); 许杰(作家 1901~); 许杰(高级经济师)。 ④西方语言及有关国家人名,取汉译姓氏为标目的主要部 分;日、朝、越南、匈牙利等国及海外华人姓名,按汉 译顺序著录。姓名前注明国别;姓名后注明性别、原文 名、生卒年等。 例:(英)达雷尔(Durrell,Lawrence George 1912~); (日)川瑞康成(Kawabata Yasunari 1899~1972); (美)李政道(1926~)。 人名规范控制 ⑤有多种中译名时,原则上取汉译姓氏、简称或 惯称为标目。例如: (美)杰克.伦敦(Jack London 1976~1916); (法)戴高乐 (de Gaulle, Charles 1890~1970)。 ⑥一个著者名为若干人合作笔名时,分别为合作 笔名、个人名称作规范款目,并建立相关参照。 例如:马铁丁为郭小川、陈笑雨、张铁夫合用笔 名,同时为马铁丁及三人分别编规范款目。 ⑦按上面方法仍无法确定规范人名时,按文献机 构已编名称为标目。 第四节 计算机编码 一.计算机编码格式 二.计算机标识语言
计算机编码格式 机读编目格式的结构 机读躺目 Machine Readable Cataloging Format, M 称MARC格式)—根据文献特点和文献机构之间信息 数据字段区 交换的需要建立的标准化的计算机可读形式 国外著名MARC格式:国际图联的《通用机读目录格式》 (简称 UNIMARC),美国国会图书馆的 USMARC等 我国北图的《中国机读目录格式》(简称 CNMARC) 用 ①以一致方式处理和显示。例:MARC的700表示资源作 里:: ②提供检案点。例,调用100、700字段,从作者角度检索 ③促进资源共享。由于进行了结构化处理,即使采用不同 编码语言,也可以通过转换,共同使用 机读编目格式结构 《中国机读目录格式》数据字 段区的10个功能块 目录级别、记录完整 0标识块 标识书目实体本身的需要 一码信息块 (2)地址目次区。是关于数据字段区记录情况的有关数 记载每一字段长度、起始位置,由各字段 3附柱块 字段长度、起始字符位置等,由计算机自动生 4连接敢目块 数据字段区。用以记录有关文献的各种信息,包括 编目数据、主题数据、分类数据等,是记录的主体 按等级展开,首先设置若干功能块,再在功能块下 依次分出字段、子字段 8国际使用块 (4)记录分隔符。用于表示不同记录之间的区分。 9—国内使用块 二计算机标识语言 通用标识语言对数据的表述 计算机标识语言( Markup Language)是一种插 述信息资源的格式成份等的计算机语言 SGML以成分和属性规定数据。 准通用标识语言( Standardized General Markup Language,简称SGML),为目前最通用元语 分—文本的特定单元,如:题名、章节名、段 言,可以控制文件出版格式,在该格式中记录 元数据。 属性—指明成分的信息。如注明作者为鲁迅。 HML( Hyper Text Markup Language,超文本标识 SGML描述的标识一由定义符和标识组成 语言)是SGM控制网页显示的一个应用 定义符 来定义的符号,如:,即是一个标识。 标识语言),是在SGML的基础上发展的一个重 标识——通常在成分前后出现,形式为,成分 要子集。 (例鲁迅)。属性值通过 或“…表示。标识可以嵌套
7 一. 计算机编码格式 机读编目格式(Machine Readable Cataloging Format,简 称 MARC格式)——根据文献特点和文献机构之间信息 交换的需要建立的标准化的计算机可读形式。 国外著名MARC格式:国际图联的《通用机读目录格式》 (简称UNIMARC),美国国会图书馆的USMARC等。 我国北图的《中国机读目录格式》 (简称CNMARC) 作用: ①以一致方式处理和显示。 例:MARC的700表示资源作 者名称,可按需要方式显示。 ②提供检索点。例,调用100、700字段,从作者角度检索。 ③促进资源共享。由于进行了结构化处理,即使采用不同 编码语言,也可以通过转换,共同使用。 机读编目格式的结构 记 录 头 标 区 地 址 目 次 区 数 据字段 区 0 标 识 块 1 代 码 信 息 块 2 著 录 块 3 附 著 块 4 款 目 连 接 块 5 相 关 题 名 块 6 主 题 分 析 块 7 知 识 责 任 块 8 国 际 使 用 块 9 国 内 使 用 块 记 录 分 隔 符 机读编目格式结构 ⑴记录头标区。包括记录类型、目录级别、记录完整 程度等有关数据,由24个字符构成,用于满足记录 处理和标识书目实体本身的需要。 ⑵地址目次区。是关于数据字段区记录情况的有关数 据,用以记载每一字段长度、起始位置,由各字段 号、字段长度、起始字符位置等,由计算机自动生 成。 ⑶数据字段区。用以记录有关文献的各种信息,包括 编目数据、主题数据、分类数据等,是记录的主体。 按等级展开,首先设置若干功能块,再在功能块下 依次分出字段、子字段 ⑷记录分隔符。用于表示不同记录之间的区分。 《中国机读目录格式》数据字 段区的10个功能块 0—标识块 1—编码信息块 2—著录信息块 3—附注块 4—连接款目块 5—相关题名块 6—主题分析块 7—责任者块 8—国际使用块 9—国内使用块 二.计算机标识语言 计算机标识语言(Markup Language)是一种描 述信息资源的格式成份等的计算机语言。 标准通用标识语言(Standardized General Markup Language,简称SGML ),为目前最通用元语 言,可以控制文件出版格式,在该格式中记录 元数据。 HTML(HyperText Markup Language,超文本标识 语言)是SGML控制网页显示的一个应用。 XML(Extensible Markup Language,可扩展的 标识语言),是在SGML的基础上发展的一个重 要子集。 通用标识语言对数据的表述 SGML以成分和属性规定数据。 成分——文本的特定单元,如:题名、章节名、段 落等。 属性——指明成分的信息。如注明作者为鲁迅。 SGML描述的标识——由定义符和标识组成。 定义符——用来定义的符号,如:,即是一个标识。 标识——通常在成分前后出现,形式为,成分 (例鲁迅)。属性值通过“…” 或‘…’表示。标识可以嵌套
文献类型定义(DTD) DTD集 DTD生成方式 SGML对信息资源的描述结构,通常通过文 ·可为一特定文献生成,包含在文本开头, 献类型定义( Document Type Definition, ·根据文献特征,确定供广泛使用的DID DTD)规定 集。使用时加以调用。可供使用的DTD 集 DTD的作用:定义一特定类型文献的结构。包 TE供文本文献编码的DTD集 括:一特定文献类型的所有成分:是否可以 HIML—一供网页编码的DTD 重复;排列次序:;何种标识可以省略:标识 EAD—供档案编码的DTD集 性质及默认值:容许的实体名称等 MARC DTD—供 USMARC记录编码的 DTD集 HTML编码哈佛大学网站描述记录示例 XML记录北大图书馆网站示例 Curi"ConteNt*hTtp:/www.harard.edu/> Peking University Library PRChina-Beijing 1902. Peking University Library text/html Peking University Library 1996-10-25 Library homepage, brief introduction, electronic resources. oPAC. User Guide. News 邛五节柏林心集介绍 digital library, Inter-library Loan, FAQ, Navigations Focus, User training program, CALIS 都柏林核心元素集( Dublin Core element set,简 http://www.lib.pku.edu.cnchi 1995年,在美俄亥俄州都柏林召开的第一次元数 http://www.libpku.edu.cn/enhtml/index. tm 据会议上,与会图书馆界、计算机界、网络界 Text data 代表一致认为,有必要建立一个能为全球广泛 text/html; charset=gb2312 接受的元数据集,提出一个由13个描述项目组 成的数据集合。称为都柏林核心集。 其后通过多次会议和研究加以发展
8 文献类型定义( DTD ) SGML 对信息资源的描述结构,通常通过文 献类型定义(Document Type Definition, DTD ) 规定。 DTD的作用:定义一特定类型文献的结构。包 括:一特定文献类型的所有成分;是否可以 重复;排列次序;何种标识可以省略;标识 性质及默认值;容许的实体名称等。 DTD集 DTD生成方式—— • 可为一特定文献生成,包含在文本开头。 • 根据文献特征,确定供广泛使用的DTD 集。使用时加以调用。可供使用的DTD 集,如: – TEI——供文本文献编码的DTD集; – HTML——供网页编码的DTD集; – EAD——供档案编码的DTD集; – MARC DTD——供USMARC记录编码的 DTD集。 HTML编码哈佛大学网站描述记录示例 Peking University Library P.R.China - Beijing 1902- Peking University Library text/html Peking University Library 1996-10-25 XML记录北大图书馆网站示例 Library homepage, brief introduction, electronic resources, OPAC, User Guide, News, digital library, Inter-library Loan, FAQ, Navigations, Focus, User training program, CALIS, CAI http://www.lib.pku.edu.cn chi http://www.lib.pku.edu.cn/enhtml/index. htm Text data text/html; charset=gb2312 第五节 都柏林核心集介绍 都柏林核心元素集(Dublin Core Element Set,简 称DC)是一个根据网络信息资源描述的需要建 立的通用的元数据规范。 1995年,在美俄亥俄州都柏林召开的第一次元数 据会议上,与会图书馆界、计算机界、网络界 代表一致认为,有必要建立一个能为全球广泛 接受的元数据集,提出一个由13个描述项目组 成的数据集合。称为都柏林核心集。 其后通过多次会议和研究加以发展
都柏林核心集层次和状况 都柏林核心的描述项目 第一层都柏林核心集 是名(Tile)标识:Tie 作者或创作者 Author or Creator)标识: 已经完成,共15个 主和关健词( Subject and Keywords)标识: 第二层都柏林核心集子集 述 Description)标识: Description 已经完成 第三层正在进行中的各社团都柏林核心集 其他参与者 Other Contributor)标识: Contributor 在不影响互操作性的情况下优化成分 日期(Date 通过增加的成分集扩充核心集 资源类孤 Resource Type)标识:Type 都柏林核心的描述项目 都柏林核心的描述项目 格式( Format)标识: Format ·题名(Tite) 资源标识符 Resouree ldentifier)标识: Identifier 由创作者或出版者赋予资源的名称 作者或创作者( Author or Creator) 来源 Souree) 标识 Source 主要负责创作资源知识内容的个人或组织 语言( Language)标识 anguage 例如:文献作者、可视资源的艺术家、摄 关联( Relation) 标识: Relation 影师、插图作者 援盖范围( Coverage)标识: Coverage 主题和关键词( Subject and Keywords) 权限管理( Right management)标识: Right 资源主题通常用描述资源主题或内容的关 键词或短语表达。鼓励使用控制词表或正 都柏林核心的描述项目 都柏林核心的描述项目 描述 Description 日期(Date) 资源内容的文字描述,包括文献对象的文摘或视 频资源的内容描述 资源以目前形式提供的日期。推荐使用o8601(hp 出版者 Publisher) /www3org/ TR/NOTE-datetime)中定义的格式,采用 负责使资源以现有形式提供的实体,如出版社、 年年年年月月日日的形式表示 大学的部门、团体等 资源类型( Resource Type) ·其他参与者 Other Contributor) 资源类型,如网页、小说、诗歌、工作报告、技术报 对资源作出重要智力贡献,但其贡献小于创作者 告等。因互可操作性需要,类型应参考相关列表。见 而没有在创作字段中注明的个人或组织 http://wwwsunsite.berkeleyedu/metatata/types.htmd)
9 都柏林核心集 层次和状况 • 第一层 都柏林核心集 已经完成,共15个 • 第二层 都柏林核心集子集 已经完成 • 第三层 正在进行中的各社团都柏林核心集 – 在不影响互操作性的情况下优化成分 – 通过增加的成分集扩充核心集 都柏林核心的描述项目 题名(Title) 标识:Title。 作者或创作者(Author or Creator) 标识:Creator 主题和关键词(Subject and Keywords) 标识:Subject 描述(Description) 标识:Description 出版者(Publisher) 标识:Publisher 其他参与者(Other Contributor) 标识:Contributor 日期(Date) 标识:Date 资源类型(Resource Type) 标识:Type 都柏林核心的描述项目 格式(Format) 标识:Format 资源标识符(Resource Identifier) 标识:Identifier 来源(Source) 标识Source 语言(Language) 标识Language 关联(Relation) 标识:Relation 覆盖范围(Coverage) 标识:Coverage 权限管理(Right Management) 标识:Right 都柏林核心的描述项目 题名(Title) 由创作者或出版者赋予资源的名称。 作者或创作者(Author or Creator) 主要负责创作资源知识内容的个人或组织。 例如:文献作者、可视资源的艺术家、摄 影师、插图作者。 主题和关键词(Subject and Keywords) 资源主题通常用描述资源主题或内容的关 键词或短语表达。鼓励使用控制词表或正 式的分类法。 都柏林核心的描述项目 • 描述(Description) 资源内容的文字描述,包括文献对象的文摘或视 频资源的内容描述。 出版者(Publisher) 负责使资源以现有形式提供的实体,如出版社、 大学的部门、团体等。 其他参与者(Other Contributor) 对资源作出重要智力贡献,但其贡献小于创作者, 因而没有在创作字段中注明的个人或组织。 都柏林核心的描述项目 • 日期(Date) 资源以目前形式提供的日期。推荐使用ISO8601(http: //www.w3.org/TR/NOTE-datetime)中定义的格式,采用 8位数字,按照年年年年-月月-日日的形式表示。 • 资源类型(Resource Type) 资源类型,如网页、小说、诗歌、工作报告、技术报 告等。因互可操作性需要,类型应参考相关列表。见 http://wwwsunsite.berkeley.edu/metatata/types.html)
都柏林核心的描述项目 都柏林核心的描述项目 格式(F 来源( Source 资源数据格式,用以识别显示或操作资源的 用来识别该资源派生的著作的唯一词符串或 软件和硬件,因互操作性的缘故,格式也应 号码 从列表中选择。 ·语言( anguage) ·资源标识符( Resource ldentifier) 资源中使用的语言。推荐遵循RFC1766所规 用来识别资源的唯一的字符串或数字。如 定的号码,使用ISO639的2个字母的语言代码 包括的网络资源。其他全球性唯一识别符, (http://info.internetisi.edu/in-notes/rfc/files/ 如国际标准书号ISBN。 rfc1766text) 都柏林核心集的特点 都柏林核心的描述项目 简明性元素集成分含义明确,易于理解,便于操作,同时具有机 ·关联( Relation) 械操作和人工理解的作用 另一资源的标识符与当前资源的关系。此成分用于 易用性对所描述数据形式没有严格规定,如,对外国人名,可按 揭示相关资源之间的联系。因互操作性需要,对关 原次序记录,也可按文献单位要求的次序记录:主题数据,可依 联的著录应从从相关列表中选取。 据推荐的词表,也可用自由词。 盖范國( Coverage 选择性对描述的元素成分没有限制,都是可选择的 资源内容的空间和时间方面的特征。此成分目前仍 语法独立各个元素之间没有固定次序,所有元素都是独立的。 试验性的。 可复性所有元素都是可以重复的 ·权限管理( Right management) 可扩展性所有元素成分都可以在现有基础上进一步设置子项目 与版权说明、版权管理声明或提供关于检索资源的 加以扩充 术语信息的服务相联系。此成分目前仍是试验性的 就容性各种元数据之间有较好兼容性,可在现有框架下,对不同 第六节编目方式 coRc编目实践 按照编目采用的形式,常见方式有 集中编目一由一中心编目机构进行编目,向 CORC-OCLC Cooperative 其他机构提供编目数据的编目方法。 Online Resource Catalog 共享编目—-指两或多个编目机构共同进行编 http://corepracticeoclc.org 目活动,通过各个参加机构通力协作,使编 目结果为各参加机构共享的编目形式 AUTHORRIZATION: 100215238 ·在版编目一-通过在文献出版过程中进行编目, PASSWARD: user10 使编目数据得以与文献一起提供,方便文献 机构使用
10 都柏林核心的描述项目 • 格式(Format) 资源数据格式,用以识别显示或操作资源的 软件和硬件,因互操作性的缘故,格式也应 从列表中选择。 资源标识符(Resource Identifier) 用来识别资源的唯一的字符串或数字。如, 包括的网络资源。其他全球性唯一识别符, 如国际标准书号ISBN。 都柏林核心的描述项目 来源(Source) 用来识别该资源派生的著作的唯一词符串或 号码。 语言(Language) 资源中使用的语言。推荐遵循RFC1766所规 定的号码,使用ISO639的2个字母的语言代码。 ( http://info.internet.isi.edu/in-notes/rfc/files/ rfc1766.text) 都柏林核心的描述项目 关联(Relation) 另一资源的标识符与当前资源的关系。此成分用于 揭示相关资源之间的联系。因互操作性需要,对关 联的著录应从从相关列表中选取。 覆盖范围(Coverage) 资源内容的空间和时间方面的特征。此成分目前仍 是试验性的。 权限管理(Right Management) 与版权说明、版权管理声明或提供关于检索资源的 术语信息的服务相联系。此成分目前仍是试验性的。 都柏林核心集的特点 简明性 元素集成分含义明确,易于理解,便于操作,同时具有机 械操作和人工理解的作用。 易用性 对所描述数据形式没有严格规定,如,对外国人名,可按 原次序记录,也可按文献单位要求的次序记录;主题数据,可依 据推荐的词表,也可用自由词。 选择性 对描述的元素成分没有限制,都是可选择的。 语法独立 各个元素之间没有固定次序,所有元素都是独立的。 可重复性 所有元素都是可以重复的 。 可扩展性 所有元素成分都可以在现有基础上进一步设置子项目, 加以扩充。 兼容性 各种元数据之间有较好兼容性,可在现有框架下,对不同 元数据集合进行转换。 第六节 编目方式 按照编目采用的形式,常见方式有: • 集中编目--由一中心编目机构进行编目,向 其他机构提供编目数据的编目方法。 • 共享编目--指两或多个编目机构共同进行编 目活动,通过各个参加机构通力协作,使编 目结果为各参加机构共享的编目形式。 • 在版编目--通过在文献出版过程中进行编目, 使编目数据得以与文献一起提供,方便文献 机构使用。 CORC编目实践 • CORC——OCLC Cooperative Online Resource Catalog http://corc_practice.oclc.org AUTHORRIZATION: 100215238 PASSWARD: user10