第六章NCB数据模型 页码,5/15 据数据库中的记录。即使由于要追求更好的目的,科学家在继续工作,即使关于它们的知识 在增长而数据库保持静态的。很少有繁忙的科学家会有兴趣去学习数据库系统,并能保持个 人记录能及时更新。 NCB有一系列进行中的项目能保证 GenBank记录的高可靠性,提供便利和强大的记录更新工 具,以及与科学家日常工作习惯相应的有用数据。不管怎样,与出版物保持可靠的联系能保 证及时对数据库记录进行最丰富的注解。 般来说,实际的数据库并没有对引用的形式和内容进行详细的分析,因此不同数据库之 间,引用的质量、格式和内容等有很大的出入。我们认识到和出版物相互联系的重要性,认 识到科学知识相对文献的动态性以及NCBI的优势(因为NCBI是国际健康组织的国际医药图书 馆的一部分),我们认为仔细和完整的工作是一项有意义的工作,尽管很多专业人士告诫说 这是一项艰巨的任务。以下是一些数据库的说明,可供对NCB有兴趣的科学家和使用者参 考,完整的说明需要另外一章。 作者 在不同的数据库中作者的姓名是有不同的格式的:只有姓、姓和首字母、姓-逗号-首字母 姓/名,名首字母和全称姓的作者、带有和不带有称谓(如Ph.D)或尾缀(Jr.,1)。一些 文献数据库(如 MEDLINE)可能仅用一个固定的数字代表作者。尽管这只是不便于读者阅读, 但这对数据库系统产生了严重的问题,就象 Entrez那样,只能提供按作者姓搜索的简单功 能。由于这个原因,该说明提供了两种可选择的作者姓名代表格式,一个是简单的字符串形 式,另一个是包含姓、名和其它等的结构域。当数据直接被送到NCB|或作者姓名有固定格式 的其它数据库(如 MEDLINE)时使用结构形式。当该形式不能破译是则仍然被看成为字符串形 式,但这时复现受到限制,但至少还是能用其他的方法复现出一些数据的。 即使是结构形式的作者姓名也必须支持多样性,这是因为一些文献只给首字母,而另一些只 给名和中间名。这时要强调两点:第一点,NCB数据格式是为了适合于我们直接阅读以及能 和现存数据相一致;第二点,在一个特殊的资源被转化时软件开发者必须了解该格式的意 义。一般说来,NCB尽量使数据形式满足统一格式,但可能也会使其它的性能下降。 作者的社会关系(如作者的工作地点等)就更加复杂了。至于作者姓名对于支持结构形式和 字符串形式也还有一些问题。然而,即使对那些有统一格式作者姓名的文献来源,也不能将 社会关系分解成结构形式。而且,也有很多作者是属于相同的机构或一个作者参与了几个机 构。NCBI数据模型支持以上情况。尽管在写本文时, MEDLI NEI或 Gen Bank只支持前一种格式, 而两种格式都出现在出版物上。 文章 最常见的生物科学的文献标题是期刊文献,所以对于生物数据库的引用格式缺省为期刊文 献。然而,文章也可能出现在书、手稿以及电子期刊上,数据模型应该能引用书、期刊或手 稿。文章出处占有一个域,其它域用于存储其它的能唯一确定其在书、期刊或手稿中的有用 信息,如文章的作者(对应与书的作者或编辑者)、文章的标题、页码等等 那些能辨识文章出处的域以及对数据库使用者有用的能识别相同文章的域是完全不同的 NCBI出处比对服务(见本章末)使用出处域来区分定位文献的出处,这个比对过程包含能同 时配合相同的期刊名、年份、文章的首页以及文章作者的姓。其他的信息(例如文章标题 页数、全部页数、作者名单)仅用于观看而对输入来源不起作用。作为出处的数据模型要容 许最小信息集能作用,和 MEDLINE比对后,被从 MEDLINE中得到的完整的域所替代,从而满足 科学研究精确的需要。 专利权 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18᭄ᑧЁⱘ䆄ᔩDŽेՓ⬅Ѣ㽕䗑∖དⱘⳂⱘˈ⾥ᄺᆊ㒻㓁ᎹˈेՓ݇ѢᅗӀⱘⶹ䆚 䭓㗠᭄ᑧֱᣕ䴭ᗕⱘDŽᕜᇥ᳝㐕ᖭⱘ⾥ᄺᆊӮ᳝݈䍷এᄺд᭄ᑧ㋏㒳ˈᑊ㛑ֱᣕϾ Ҏ䆄ᔩ㛑ঞᯊᮄDŽ NCBI᳝ϔ㋏߫䖯㸠Ёⱘ乍Ⳃ㛑ֱ䆕GenBank䆄ᔩⱘ催ৃ䴴ᗻˈᦤկ߽֓ᔎⱘ䆄ᔩᮄᎹ ˈҹঞϢ⾥ᄺᆊ᮹ᐌᎹдᛃⳌᑨⱘ᳝⫼᭄DŽϡㅵᗢḋˈϢߎ⠜⠽ֱᣕৃ䴴ⱘ㘨㋏㛑ֱ 䆕ঞᯊᇍ᭄ᑧ䆄ᔩ䖯㸠᳔Єᆠⱘ⊼㾷DŽ ϔ㠀ᴹ䇈ˈᅲ䰙ⱘ᭄ᑧᑊ≵᳝ᇍᓩ⫼ⱘᔶᓣݙᆍ䖯㸠䆺㒚ⱘߚᵤˈℸϡৠ᭄ᑧП 䯈ˈᓩ⫼ⱘ䋼䞣ǃḐᓣݙᆍㄝ᳝ᕜⱘߎܹDŽ៥Ӏ䅸䆚ࠄߎ⠜⠽ⳌѦ㘨㋏ⱘ䞡㽕ᗻˈ䅸 䆚ࠄ里ᄺⶹ䆚Ⳍᇍ᭛⤂ⱘࡼᗕᗻҹঞNCBIⱘӬ˄ЎNCBIᰃ䰙عᒋ㒘㒛ⱘ䰙ए㥃к 佚ⱘϔ䚼ߚˈ˅៥Ӏ䅸ЎҨ㒚ᅠᭈⱘᎹᰃϔ乍᳝ᛣНⱘᎹˈሑㅵᕜϧϮҎਞ䆿䇈 䖭ᰃϔ乍㡄ᎼⱘӏࡵDŽҹϟᰃϔѯ᭄ᑧⱘ䇈ᯢˈৃկᇍNCBI᳝݈䍷ⱘ⾥ᄺᆊՓ⫼㗙খ 㗗ˈᅠᭈⱘ䇈ᯢ䳔㽕ϔゴDŽ 㗙 ϡৠⱘ᭄ᑧЁ㗙ⱘྦྷৡᰃ᳝ϡৠⱘḐᓣⱘ˖া᳝ྦྷǃྦྷ佪ᄫ↡ǃྦྷ䗫ো佪ᄫ↡ǃ ྦྷৡˈৡ佪ᄫ↡ܼ⿄ྦྷⱘ㗙ǃᏺ᳝ϡᏺ᳝⿄䇧˄བPh.D˅ሒ㓔˄Jr.ˈIII˅DŽϔѯ ᭛⤂᭄ᑧ˄བMEDLINE˅ৃ㛑ҙ⫼ϔϾᅮⱘ᭄ᄫҷ㸼㗙DŽሑㅵ䖭াᰃϡ֓Ѣ䇏㗙䯙䇏ˈ Ԛ䖭ᇍ᭄ᑧ㋏㒳ѻ⫳њϹ䞡ⱘ䯂乬ˈህ䈵Entrez䙷ḋˈা㛑ᦤկᣝ㗙ྦྷ᧰㋶ⱘㅔऩࡳ 㛑DŽ⬅Ѣ䖭Ͼॳˈ䆹䇈ᯢᦤկњϸ⾡ৃ䗝ᢽⱘ㗙ྦྷৡҷ㸼ḐᓣˈϔϾᰃㅔऩⱘᄫヺІᔶ ᓣˈϔϾᰃࣙྦྷǃৡ݊ᅗㄝⱘ㒧ᵘඳDŽᔧ᭄Ⳉ㹿䗕ࠄNCBI㗙ྦྷৡ᳝ᅮḐᓣ ⱘ݊ᅗ᭄ᑧ˄བMEDLINE˅ᯊՓ⫼㒧ᵘᔶᓣDŽᔧ䆹ᔶᓣϡ㛑⸈䆥ᰃ߭ҡ✊㹿ⳟ៤ЎᄫヺІᔶ ᓣˈԚ䖭ᯊ⦄ফࠄ䰤ࠊˈԚ㟇ᇥ䖬ᰃ㛑⫼݊Ҫⱘᮍ⊩⦄ߎϔѯ᭄ⱘDŽ ेՓᰃ㒧ᵘᔶᓣⱘ㗙ྦྷৡгᖙ乏ᬃᣕḋᗻˈ䖭ᰃЎϔѯ᭛⤂া㒭佪ᄫ↡ˈ㗠ϔѯা 㒭ৡЁ䯈ৡDŽ䖭ᯊ㽕ᔎ䇗ϸ⚍˖ϔ⚍ˈNCBI᭄ḐᓣᰃЎњ䗖ড়Ѣ៥ӀⳈ䯙䇏ҹঞ㛑 ⦄ᄬ᭄Ⳍϔ㟈˗Ѡ⚍ˈϔϾ⡍⅞ⱘ䌘⑤㹿䕀࣪ᯊ䕃ӊᓔথ㗙ᖙ乏њ㾷䆹Ḑᓣⱘᛣ НDŽϔ㠀䇈ᴹˈNCBIሑ䞣Փ᭄ᔶᓣ⒵䎇㒳ϔḐᓣˈԚৃ㛑гӮՓ݊ᅗⱘᗻ㛑ϟ䰡DŽ 㗙ⱘ⼒Ӯ݇㋏˄བ㗙ⱘᎹഄ⚍ㄝ˅ህࡴᴖњDŽ㟇Ѣ㗙ྦྷৡᇍѢᬃᣕ㒧ᵘᔶᓣ ᄫヺІᔶᓣг䖬᳝ϔѯ䯂乬DŽ✊㗠ˈेՓᇍ䙷ѯ᳝㒳ϔḐᓣ㗙ྦྷৡⱘ᭛⤂ᴹ⑤ˈгϡ㛑ᇚ ⼒Ӯ݇㋏ߚ㾷៤㒧ᵘᔶᓣDŽ㗠Ϩˈг᳝ᕜ㗙ᰃሲѢⳌৠⱘᴎᵘϔϾ㗙খϢњϾᴎ ᵘDŽNCBI᭄ൟᬃᣕҹϞᚙމDŽሑㅵݭᴀ᭛ᯊˈMEDLINEGenBankাᬃᣕࠡϔ⾡Ḑᓣˈ 㗠ϸ⾡Ḑᓣ䛑ߎ⦃ߎ⠜⠽ϞDŽ ᭛ゴ ᳔ᐌ㾕ⱘ⫳⠽⾥ᄺⱘ᭛⤂ᷛ乬ᰃᳳߞ᭛⤂ˈ᠔ҹᇍѢ⫳⠽᭄ᑧⱘᓩ⫼Ḑᓣ㔎ⳕЎᳳߞ᭛ ⤂DŽ✊㗠ˈ᭛ゴгৃ㛑ߎ⦃кǃ〓ҹঞ⬉ᄤᳳߞϞˈ᭄ൟᑨ䆹㛑ᓩ⫼кǃᳳߞ 〓DŽ᭛ゴߎ໘ऴ᳝ϔϾඳˈ݊ᅗඳ⫼Ѣᄬټ݊ᅗⱘ㛑ଃϔ⹂ᅮ݊кǃᳳߞ〓Ёⱘ᳝⫼ ֵᙃˈབ᭛ゴⱘ㗙˄ᇍᑨϢкⱘ㗙㓪䕥㗙˅ǃ᭛ゴⱘᷛ乬ǃ义ⷕㄝㄝDŽ 䙷ѯ㛑䕼䆚᭛ゴߎ໘ⱘඳҹঞᇍ᭄ᑧՓ⫼㗙᳝⫼ⱘ㛑䆚߿Ⳍৠ᭛ゴⱘඳᰃᅠܼϡৠⱘDŽ NCBIߎ໘↨ᇍ᳡ࡵ˄㾕ᴀゴ˅Փ⫼ߎ໘ඳᴹऎߚᅮԡ᭛⤂ⱘߎ໘ˈ䖭Ͼ↨ᇍ䖛ࣙ㛑ৠ ᯊ䜡ড়Ⳍৠⱘᳳߞৡǃᑈӑǃ᭛ゴⱘ佪义ҹঞ᭛ゴ㗙ⱘྦྷDŽ݊Ҫⱘֵᙃ˄՟བ᭛ゴᷛ乬ǃ 义᭄ǃܼ䚼义᭄ǃ㗙ৡऩ˅ҙ⫼Ѣ㾖ⳟ㗠ᇍ䕧ܹᴹ⑤ϡ䍋⫼DŽЎߎ໘ⱘ᭄ൟ㽕ᆍ 䆌᳔ᇣֵᙃ䲚㛑⫼ˈMEDLINE↨ᇍৢˈ㹿ҢMEDLINEЁᕫࠄⱘᅠᭈⱘඳ᠔᳓ҷˈҢ㗠⒵䎇 ⾥ᄺⷨお㊒⹂ⱘ䳔㽕DŽ ϧ߽ᴗ ݁ゴ NCBI᭄ൟ 义ⷕˈ5/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com