第六章NCB数据模型 页码,6/15 随着专利的出现,我们需要将专利而不是文章当作文献条目进行引用。NCB支持由美国专利 局合作的完整的专利引用顺序。实际上,专利说明书倾向于限制科学的作用,理由如下: 专利是合法的文献而不是科学的文献,它的目的是支持专利的声明和存在,而不是完全描述 生物的过程。这是为在律师办公室的情况,不是为做研究的科学家。所以存在的说明书只是 解释专利中的一些方面,而不是文章的核心。只要不是基因的专利,组织信息、生物特征位 点等等根本不可能出现。不管怎样大多数出现在专利说明书中的序列也以一些更有用的格式 (对科学家)出现在公共数据库中。 从NCB的观点, Gen Bank列出专利说明中的序列的目的是能复现序列本身(通过相似性比 较),用以定位和某序列相关的专利。这种情况下要实现合法的确定,我们必须检査专利的 全文。要评价生物序列,人们必须定位专利中没有包含的信息。这里的联系是序列和专利号 之间的联系。其它在专利定位中使用的域是诸如专利名称和发明者的姓名等 引用电子数据 和 Gen bank类似,这是一类相对新的包含了数据提交数据库的方法的方案,这也是一种形式但 又和一般期刊不完全相同的出版物。在一般情况下,文章的出版需要经过相当长的时间,而 且从来没有数据库的积累会赶在发表之前,因此数据的积累会有一定的间隔。提交的数据由 于是一种形式的出版物可能包含了在本记录中工作过的科学家的姓名,这和真正出版物列出 的名单可能不一致。大多数情况下提交数据给数据库的科学家是提交数据的作者,但也不完 全是,特别是大序列中心。最终NCB提出了也引用修改的记录,在记录的修改栏里做简单的 注释,注释记录的变化,所有的提交数据都在记录中保存留下编辑的历史记录。 MEDLI NE和 PubMed ul ds 旦文章的出处和 MEDLINE中的匹配,最简单和最可靠的方法去找到该篇文章的方法是 MEDLINE唯一辨识器(MD),这是一个简单的整数。NCB|提供了许多服务去使用MU|D来恢复 出处和从MUD获得摘要、将数据和文章联系起来或者提供WW的网上连接 最近根据和 MEDLINE以及许多出版者的协定,NCB提出了 PubMed。和直接由出版者提供类似, PubMed包含了所有的 MEDLI NE,而且 PubMed还包含了最近出版的文章,还包括了一些由于它们 的主题原因将永远不能在 MEDLI NE中出现的文章。这时,NCB提出了一种新的文章辨识器叫 PubMed辨识器(PM|D)。出现在 MEDLI NE中的文章将同时有PMD和MUD。只出现在 PubMed中的 文章则只有PMD。PMD和MuD提供了相同的目的是提供一种简单可靠的和出处的连接或一种 方法建立网上热连接。NCB|现在正将所有的服务转向使用PM|D。 NCBI数据模型存储了大部分的出处,即所谓的出版等价物,是由一系列的出处等价物组成, 复,因为辨识器提供了一个可靠的记录的出处的联系或是说索引。 Seq-ldS:序列标识 NCB|数据模型定义了一类对象,被称为序列辨识器( Seql d)。需要这类对象是因为NCB合成 了许多用不同方法命名的数据源并且这些名字具有不同的含义。例如一个简单的情况:PIR, SⅧISs-PRoT和核甘酸序列数据库都使用有类似格式的序列号,光说"A10234″是不能唯一地 从所有这些数据库集合中找到序列记录的。我们必须区别从SMSs-P0RT和从PR中的A10234。 (DDBJ/EMBL/ GenBank核酸数据库共用一套序列号,所以从EMBL中的A12345和从 Gen Bank中的 A12345是相同的。)这些形式也可能是不相同的,因此当序列数据库处理仅考虑包含一序列 的一条记录时,PDB记录只有一个简单的结构,该结构有可能包含不只一个序列。所以PDB的 Seql d包含了分子名称和链状|D去标识一个唯一的序列。下面一部分就叙述通常使用的几种 Seql d的格式以及使用。 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18䱣ⴔϧ߽ⱘߎˈ⦃៥Ӏ䳔㽕ᇚϧ߽㗠ϡᰃ᭛ゴᔧ᭛⤂ᴵⳂ䖯㸠ᓩ⫼DŽNCBIᬃᣕ⬅㕢ϧ߽ ሔড়ⱘᅠᭈⱘϧ߽ᓩ⫼乎ᑣDŽᅲ䰙Ϟˈϧ߽䇈ᯢкؒѢ䰤ࠊ里ᄺⱘ⫼ˈ⧚⬅བϟ˖ ϧ߽ᰃড়⊩ⱘ᭛⤂㗠ϡᰃ⾥ᄺⱘ᭛⤂ˈᅗⱘⳂⱘᰃᬃᣕϧ߽ⱘໄᯢᄬˈ㗠ϡᰃᅠܼᦣ䗄 ⫳⠽ⱘ䖛DŽ䖭ᰃЎᕟᏜࡲ݀ᅸⱘᚙމˈϡᰃЎخⷨおⱘ⾥ᄺᆊDŽ᠔ҹᄬⱘ䇈ᯢкাᰃ 㾷䞞ϧ߽Ёⱘϔѯᮍ䴶ˈ㗠ϡᰃ᭛ゴⱘḌᖗDŽা㽕ϡᰃⱘϧ߽ˈ㒘㒛ֵᙃǃ⫳⠽⡍ᕕԡ ⚍ㄝㄝḍᴀϡৃ㛑ߎ⦃DŽϡㅵᗢḋ᭄ߎ⦃ϧ߽䇈ᯢкЁⱘᑣ߫гҹϔѯ᳝⫼ⱘḐᓣ ˄ᇍ⾥ᄺᆊ˅ߎ݅݀⦃᭄ᑧЁDŽ ҢNCBIⱘ㾖⚍ˈGenBank߫ߎϧ߽䇈ᯢЁⱘᑣ߫ⱘⳂⱘᰃ㛑⦄ᑣ߫ᴀ䑿˄䗮䖛ⳌԐᗻ↨ 䕗˅ˈ⫼ҹᅮԡᶤᑣ߫Ⳍ݇ⱘϧ߽DŽ䖭⾡ᚙމϟ㽕ᅲ⦄ড়⊩ⱘ⹂ᅮˈ៥Ӏᖙ乏Ẕᶹϧ߽ⱘ ܼ᭛DŽ㽕䆘Ӌ⫳⠽ᑣ߫ˈҎӀᖙ乏ᅮԡϧ߽Ё≵᳝ࣙⱘֵᙃDŽ䖭䞠ⱘ㘨㋏ᰃᑣ߫ϧ߽ো П䯈ⱘ㘨㋏DŽ݊ᅗϧ߽ᅮԡЁՓ⫼ⱘඳᰃ䇌བϧ߽ৡ⿄থᯢ㗙ⱘྦྷৡㄝDŽ ᓩ⫼⬉ᄤ᭄ GenBank㉏Ԑˈ䖭ᰃϔ㉏Ⳍᇍᮄⱘࣙњ᭄ᦤѸ᭄ᑧⱘᮍ⊩ⱘᮍḜˈ䖭гᰃϔ⾡ᔶᓣԚ জϔ㠀ᳳߞϡᅠܼⳌৠⱘߎ⠜⠽DŽϔ㠀ᚙމϟˈ᭛ゴⱘߎ⠜䳔㽕㒣䖛Ⳍᔧ䭓ⱘᯊ䯈ˈ㗠 ϨҢᴹ≵᭄᳝ᑧⱘ⿃㌃Ӯ䍊থ㸼Пࠡˈℸ᭄ⱘ⿃㌃Ӯ᳝ϔᅮⱘ䯈䱨DŽᦤѸⱘ᭄⬅ Ѣᰃϔ⾡ᔶᓣⱘߎ⠜⠽ৃ㛑ࣙњᴀ䆄ᔩЁᎹ䖛ⱘ⾥ᄺᆊⱘྦྷৡˈ䖭ⳳℷߎ⠜⠽߫ߎ ⱘৡऩৃ㛑ϡϔ㟈DŽ᭄ᚙމϟᦤѸ᭄㒭᭄ᑧⱘ⾥ᄺᆊᰃᦤѸ᭄ⱘ㗙ˈԚгϡᅠ ܼᰃˈ⡍߿ᰃᑣ߫ЁᖗDŽ᳔㒜NCBIᦤߎњгᓩ⫼ׂᬍⱘ䆄ᔩˈ䆄ᔩⱘׂᬍᷣ䞠خㅔऩⱘ ⊼䞞ˈ⊼䞞䆄ᔩⱘব࣪ˈ᠔᳝ⱘᦤѸ᭄䛑䆄ᔩЁֱᄬ⬭ϟ㓪䕥ⱘग़䆄ᔩDŽ MEDLINEPubMed UIDs ϔᮺ᭛ゴⱘߎ໘MEDLINEЁⱘऍ䜡ˈ᳔ㅔऩ᳔ৃ䴴ⱘᮍ⊩এᡒࠄ䆹㆛᭛ゴⱘᮍ⊩ᰃ MEDLINEଃϔ䕼䆚఼˄MUID˅ˈ䖭ᰃϔϾㅔऩⱘᭈ᭄DŽNCBIᦤկњ䆌᳡ࡵএՓ⫼MUIDᴹᘶ ߎ໘ҢMUID㦋ᕫᨬ㽕ǃᇚ᭄᭛ゴ㘨㋏䍋ᴹ㗙ᦤկWWWⱘ㔥Ϟ䖲DŽ ᳔䖥ḍMEDLINEҹঞ䆌ߎ⠜㗙ⱘणᅮˈNCBIᦤߎњPubMedDŽⳈ⬅ߎ⠜㗙ᦤկ㉏Ԑˈ PubMedࣙњ᠔᳝ⱘMEDLINEˈ㗠ϨPubMed䖬ࣙњ᳔䖥ߎ⠜ⱘ᭛ゴˈ䖬ࣙᣀњϔѯ⬅ѢᅗӀ ⱘЏ乬ॳᇚ∌䖰ϡ㛑MEDLINEЁߎ⦃ⱘ᭛ゴDŽ䖭ᯊˈNCBIᦤߎњϔ⾡ᮄⱘ᭛ゴ䕼䆚఼ি PubMed䕼䆚఼˄PMID˅DŽߎ⦃MEDLINEЁⱘ᭛ゴᇚৠᯊ᳝PMIDMUIDDŽাߎ⦃PubMedЁⱘ ᭛ゴ߭া᳝PMIDDŽPMIDMUIDᦤկњⳌৠⱘⳂⱘᰃᦤկϔ⾡ㅔऩৃ䴴ⱘߎ໘ⱘ䖲ϔ⾡ ᮍ⊩ᓎゟ㔥Ϟ⛁䖲DŽNCBI⦄ℷᇚ᠔᳝ⱘ᳡ࡵ䕀Փ⫼PMIDDŽ NCBI᭄ൟᄬټњ䚼ߚⱘߎ໘ˈे᠔䇧ⱘߎ⠜ㄝӋ⠽ˈᰃ⬅ϔ㋏߫ⱘߎ໘ㄝӋ⠽㒘៤ˈ ࣙᣀৃ䴴ⱘ䕼䆚఼˄PMIDMUID˅ߎ໘ᴀ䑿DŽߎ໘ḐᓣⱘᄬՓᕫϡ⫼Ң᭄ᑧЁ⡍߿ᘶ ˈЎ䕼䆚఼ᦤկњϔϾৃ䴴ⱘ䆄ᔩⱘߎ໘ⱘ㘨㋏ᰃ䇈㋶ᓩDŽ Seq-IdS˖ᑣ߫ᷛ䆚 NCBI᭄ൟᅮНњϔ㉏ᇍ䈵ˈ㹿⿄Ўᑣ߫䕼䆚఼˄SeqId˅DŽ䳔㽕䖭㉏ᇍ䈵ᰃЎNCBIড়៤ њ䆌⫼ϡৠᮍ⊩ੑৡⱘ᭄⑤ᑊϨ䖭ѯৡᄫ᳝ϡৠⱘНDŽ՟བϔϾㅔऩⱘᚙމ˖PIRˈ SWISS-PROTḌ⫬䝌ᑣ᭄߫ᑧ䛑Փ⫼᳝㉏ԐḐᓣⱘᑣ߫োˈܝ䇈“A10234”ᰃϡ㛑ଃϔഄ Ң᠔᳝䖭ѯ᭄ᑧ䲚ড়Ёᡒࠄᑣ߫䆄ᔩⱘDŽ៥Ӏᖙ乏ऎ߿ҢSWISS-PORTҢPIRЁⱘA10234DŽ ˄DDBJ/EMBL/GenBankḌ䝌᭄ᑧ݅⫼ϔ༫ᑣ߫োˈ᠔ҹҢEMBLЁⱘA12345ҢGenBankЁⱘ A12345ᰃⳌৠⱘDŽ˅䖭ѯᔶᓣгৃ㛑ᰃϡⳌৠⱘˈℸᔧᑣ᭄߫ᑧ໘⧚ҙ㗗㰥ࣙϔᑣ߫ ⱘϔᴵ䆄ᔩᯊˈPDB䆄ᔩা᳝ϔϾㅔऩⱘ㒧ᵘˈ䆹㒧ᵘ᳝ৃ㛑ࣙϡাϔϾᑣ߫DŽ᠔ҹPDBⱘ SeqIdࣙњߚᄤৡ⿄䫒⢊IDএᷛ䆚ϔϾଃϔⱘᑣ߫DŽϟ䴶ϔ䚼ߚህভ䗄䗮ᐌՓ⫼ⱘ辵 SeqIdⱘḐᓣҹঞՓ⫼DŽ ݁ゴ NCBI᭄ൟ 义ⷕˈ6/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?݁ゴ NCBI᭄ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com