正在加载图片...
第六章NCB数据模型 页码,7/15 L0CUS名称 L0CUS出现在 Gen Bank中的L0CUS行以及DBJ记录( EMBLE的1D行)是 Gen Bank中最初的辨识器 就象基因L0CUS名称一样,它兼有唯一辨识器、功能记忆以及序列的组织源等功能。由于 L0CUS行是有固定的格式,L0CUS的名称限制在少于或等于10个数字或大写字母。在 Gen Bank 中,名字的前三个字母是组织码,剩下的字母是基因码(如: HUMHBE代表人体β-球蛋白区 域)。然而,当该区域的功能和原先设想的功能不同时,L0CUS中的基因码会发生变化。这种 不稳定性显然是复现中的一个问题。另一个问题是 Gen Bank中的序列和组织随时间呈几何指数 增长,这使得发明或修改记忆名称是不可能的。基于以上几点使得L0CUS名称在 GenBank中不 再作为有用的名称,尽管它将永远存在在数据的首行,这只是为了和以往的数据格式兼容。 序列号 由于使用L0CUS(或1D)名称作为对核酸序列唯一辨识器的困难,国际核酸序列数据库合作者 们(DDBJ/EMBL/ Gen Bank)引入了序列号。开始时它不具有生物意义是为了保证其相对的稳定 性。它是由一个大写字母和五个数字组成。(新的序列号是由两个大写字母和六个数字组 成。)首字母是为了分配到不同的数据库以便序列号对于不同的数据库是唯一的。 序列号是对L0CUS/D号的改进,但实际使用中,问题和不足是显然的。例如,当序列对于时 间是稳定时,许多使用者发现用相同的序列号复现出的序列并不总是相同的。这是因为序列 号标明了整个数据库的记录,一旦记录被修改了(或者说从开始部分插入了1000bp)的时 候,序列号不变(只是相同记录的升级版)。如果我们分析起始序列和记录序列U0000的第 100个位置假设是与蛋白质相关的位点,升级后一个完全不同的序列将在第100个位置上 序列号出现在 GenBank的 ACCESS|ON行上。该行的第一个序列号称为基本序列号,它是复现该 记录的关键,大部分记录只有这个序列号。第二级序列号是为了给该记录提供历史信息。例 如如果U00001和U00002是同一个记录的不同版本,则U00002将成为一个新记录的基本序列 号,U0000是二级序列号。在实际的标准中U0000记录将从 Gen Bank中删除因为旧的记录已经 过时,二级序列号将取代旧的成为用户需要复现的记录。这时应该标注二级序列号不是指同 对象,所以用户应仔细检查它们的注释。(数据库的不同,甚至是同一数据库的不同时 间)使用二级序列号也有自己的问题,这是因为没有足够的信息去确定怎样发生和为什么会 发生。但不管怎样,序列号仍然是DBJ/ EMBL/Gen Bank记录恢复中最可控最稳定的方法。 G|号 1992年NCB开始对所有 Entrez中的序列使用基因信息号(gi),其中包含从 DDBJ/EMBL/ Gen Bank中的核酸序列、根据CDS特征翻译的蛋白质序列以及从SWSS-PROT、PIR、 PRE、PDB、专利以及其它得到的蛋白质序列等。Gi是由原数据库提供的另外的 Seql d。尽管由 于原数据库的不同Seqd的形式和意义不同,但gi在意义和形式上对不同源数据库是相同的 在形式上,它只是简单的整数(所以有时被称为G号)。它只是一些特定序列的辨识器。假 定一个序列加入 Gen Bank,给定序列号U00001。当该序列在NCB所内部处理时,它加入所谓的 D数据库。1D确认以前从未见过U0001就给它一个g号54。当提交器通过改变出处修改记 录时,U00001又加入1D。ID认出该记录出现过,恢复原先的U00001和新记录进行比较,如果 完全相同,则给该记录g号54:如果不相同,即使只有一对碱基不同,则给新gi号88。然而 因为原数据库的意义,新序列仍保持序列号U001。这时1D标识旧记录(gi54)的替换时 间,并将它加入历史指示它被gi88的记录替代。1D也加入历史gi88指出它替代了gi54 Gi号有三种主要功能 1.提供了从多源数据库序列间的简单标志 file://E:wcb生物信息学(中译本)\第六章NCB|数据模型.htm 2005-1-18LOCUSৡ⿄ LOCUSߎ೼⦃GenBankЁⱘLOCUS㸠ҹঞDDBJ䆄ᔩ˄EMBLEⱘID㸠˅ᰃGenBankЁ᳔߱ⱘ䕼䆚఼DŽ ህ䈵෎಴LOCUSৡ⿄ϔḋˈᅗݐ᳝ଃϔ䕼䆚఼ǃࡳ㛑䆄ᖚҹঞᑣ߫ⱘ㒘㒛⑤ㄝࡳ㛑DŽ⬅Ѣ LOCUS㸠ᰃ᳝೎ᅮⱘḐᓣˈLOCUSⱘৡ⿄䰤ࠊ೼ᇥѢ៪ㄝѢ10Ͼ᭄ᄫ៪໻ݭᄫ↡DŽ೼GenBank ЁˈৡᄫⱘࠡϝϾᄫ↡ᰃ㒘㒛ⷕˈ࠽ϟⱘᄫ↡ᰃ෎಴ⷕ˄བ˖HUMHBBҷ㸼ҎԧE -⧗㲟ⱑऎ ඳ˅DŽ✊㗠ˈᔧ䆹ऎඳⱘࡳ㛑੠ॳܜ䆒ᛇⱘࡳ㛑ϡৠᯊˈLOCUSЁⱘ෎಴ⷕӮথ⫳ব࣪DŽ䖭⾡ ϡ〇ᅮᗻᰒ✊ᰃ໡⦄ЁⱘϔϾ䯂乬DŽ঺ϔϾ䯂乬ᰃGenBankЁⱘᑣ߫੠㒘㒛䱣ᯊ䯈ਜ޴ԩᣛ᭄ ๲䭓ˈ䖭Փᕫথᯢ៪ׂᬍ䆄ᖚৡ⿄ᰃϡৃ㛑ⱘDŽ෎ѢҹϞ޴⚍ՓᕫLOCUSৡ⿄೼GenBankЁϡ ݡ԰Ў᳝⫼ⱘৡ⿄ˈሑㅵᅗᇚ∌䖰ᄬ೼೼᭄᥂ⱘ佪㸠ˈ䖭াᰃЎњ੠ҹᕔⱘ᭄᥂ḐᓣݐᆍDŽ ᑣ߫ো ⬅ѢՓ⫼LOCUS˄៪ID˅ৡ⿄԰ЎᇍḌ䝌ᑣ߫ଃϔ䕼䆚఼ⱘೄ䲒ˈ೑䰙Ḍ䝌ᑣ᭄߫᥂ᑧড়԰㗙 Ӏ˄DDBJ/EMBL/GenBank˅ᓩܹњᑣ߫োDŽᓔྟᯊᅗϡ݋⫳᳝⠽ᛣНᰃЎњֱ䆕݊Ⳍᇍⱘ〇ᅮ ᗻDŽᅗᰃ⬅ϔϾ໻ݭᄫ↡੠ѨϾ᭄ᄫ㒘៤DŽ˄ᮄⱘᑣ߫োᰃ⬅ϸϾ໻ݭᄫ↡੠݁Ͼ᭄ᄫ㒘 ៤DŽ˅佪ᄫ↡ᰃЎњߚ䜡ࠄϡৠⱘ᭄᥂ᑧҹ֓ᑣ߫োᇍѢϡৠⱘ᭄᥂ᑧᰃଃϔⱘDŽ ᑣ߫োᰃᇍLOCUS/IDোⱘᬍ䖯ˈԚᅲ䰙Փ⫼Ёˈ䯂乬੠ϡ䎇ᰃᰒ✊ⱘDŽ՟བˈᔧᑣ߫ᇍѢᯊ 䯈ᰃ〇ᅮᯊˈ䆌໮Փ⫼㗙থ⦄⫼Ⳍৠⱘᑣ߫ো໡⦄ߎⱘᑣ߫ᑊϡᘏᰃⳌৠⱘDŽ䖭ᰃ಴Ўᑣ߫ োᷛᯢњᭈϾ᭄᥂ᑧⱘ䆄ᔩˈϔᮺ䆄ᔩ㹿ׂᬍњ˄៪㗙䇈Ңᓔྟ䚼ߚᦦܹњ1000bp˅ⱘᯊ ׭ˈᑣ߫োϡব˄াᰃⳌৠ䆄ᔩⱘछ㑻⠜˅DŽབᵰ៥Ӏߚᵤ䍋ྟᑣ߫੠䆄ᔩᑣ߫U00001ⱘ㄀ 100Ͼԡ㕂؛䆒ᰃϢ㲟ⱑ䋼Ⳍ݇ⱘԡ⚍ˈछ㑻ৢϔϾᅠܼϡৠⱘᑣ߫ᇚ೼㄀100Ͼԡ㕂ϞDŽ ᑣ߫োߎ೼⦃GenBankⱘACCESSION㸠ϞDŽ䆹㸠ⱘ㄀ϔϾᑣ߫ো⿄Ў෎ᴀᑣ߫োˈᅗᰃ໡⦄䆹 䆄ᔩⱘ݇䬂ˈ໻䚼ߚ䆄ᔩা᳝䖭Ͼᑣ߫োDŽ㄀Ѡ㑻ᑣ߫োᰃЎњ㒭䆹䆄ᔩᦤկग़৆ֵᙃDŽ՟ བབᵰU00001੠U00002ᰃৠϔϾ䆄ᔩⱘϡৠ⠜ᴀˈ߭U00002ᇚ៤ЎϔϾᮄ䆄ᔩⱘ෎ᴀᑣ߫ োˈU00001ᰃѠ㑻ᑣ߫োDŽ೼ᅲ䰙ⱘᷛޚЁU00001䆄ᔩᇚҢGenBankЁߴ䰸಴Ўᮻⱘ䆄ᔩᏆ㒣 䖛ᯊˈѠ㑻ᑣ߫োᇚপҷᮻⱘ៤Ў⫼᠋䳔㽕໡⦄ⱘ䆄ᔩDŽ䖭ᯊᑨ䆹ᷛ⊼Ѡ㑻ᑣ߫োϡᰃᣛৠ ϔᇍ䈵ˈ᠔ҹ⫼᠋ᑨҨ㒚ẔᶹᅗӀⱘ⊼䞞DŽ˄᭄᥂ᑧⱘϡৠˈ⫮㟇ᰃৠϔ᭄᥂ᑧⱘϡৠᯊ 䯈˅Փ⫼Ѡ㑻ᑣ߫োг᳝㞾Ꮕⱘ䯂乬ˈ䖭ᰃ಴Ў≵᳝䎇໳ⱘֵᙃএ⹂ᅮᗢḋথ⫳੠ЎҔМӮ থ⫳DŽԚϡㅵᗢḋˈᑣ߫োҡ✊ᰃDDBJ/EMBL/GenBank䆄ᔩᘶ໡Ё᳔ৃ᥻᳔〇ᅮⱘᮍ⊩DŽ Giো 1992ᑈNCBIᓔྟᇍ᠔᳝EntrezЁⱘᑣ߫Փ⫼෎಴ֵᙃো˄gi˅ˈ݊Ёࣙ৿Ң DDBJ/EMBL/GenBankЁⱘḌ䝌ᑣ߫ǃḍ᥂CDS⡍ᕕ㗏䆥ⱘ㲟ⱑ䋼ᑣ߫ҹঞҢSWISS-PROTǃPIRǃ PREǃPDBǃϧ߽ҹঞ݊ᅗᕫࠄⱘ㲟ⱑ䋼ᑣ߫ㄝDŽGiᰃ⬅ॳ᭄᥂ᑧᦤկⱘ঺໪ⱘSeqIdDŽሑㅵ⬅ Ѣॳ᭄᥂ᑧⱘϡৠSeqIdⱘᔶᓣ੠ᛣНϡৠˈԚgi೼ᛣН੠ᔶᓣϞᇍϡৠ⑤᭄᥂ᑧᰃⳌৠⱘDŽ ೼ᔶᓣϞˈᅗাᰃㅔऩⱘᭈ᭄˄᠔ҹ᳝ᯊ㹿⿄ЎGIো˅DŽᅗাᰃϔѯ⡍ᅮᑣ߫ⱘ䕼䆚఼DŽ؛ ᅮϔϾᑣ߫ࡴܹGenBankˈ㒭ᅮᑣ߫োU00001DŽᔧ䆹ᑣ߫೼NCBI᠔ݙ䚼໘⧚ᯊˈᅗࡴܹ᠔䇧ⱘ ID᭄᥂ᑧDŽID⹂䅸ҹࠡҢ᳾㾕䖛U00001ˈህ㒭ᅗϔϾgiো54DŽᔧᦤѸ఼䗮䖛ᬍবߎ໘ׂᬍ䆄 ᔩᯊˈU00001জࡴܹIDDŽID䅸ߎ䆹䆄ᔩߎ⦃䖛ˈᘶ໡ॳܜⱘU00001੠ᮄ䆄ᔩ䖯㸠↨䕗ˈབᵰ ᅠܼⳌৠˈ߭㒭䆹䆄ᔩgiো54˗བᵰϡⳌৠˈेՓা᳝ϔᇍ⺅෎ϡৠˈ߭㒭ᮄgiো88DŽ✊㗠 ಴Ўॳ᭄᥂ᑧⱘᛣНˈᮄᑣ߫ҡֱᣕᑣ߫োU00001DŽ䖭ᯊIDᷛ䆚ᮻ䆄ᔩ˄gi54˅ⱘ᳓ᤶᯊ 䯈ˈᑊᇚᅗࡴܹग़৆ᣛ⼎ᅗ㹿gi88ⱘ䆄ᔩ᳓ҷDŽIDгࡴܹग़৆gi88ᣛߎᅗ᳓ҷњgi54DŽ Giো᳝ϝ⾡Џ㽕ࡳ㛑˖ 1. ᦤկњҢ໮⑤᭄᥂ᑧᑣ߫䯈ⱘㅔऩᷛᖫ˗ ㄀݁ゴ NCBI᭄᥂῵ൟ 义ⷕˈ7/15 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀݁ゴ NCBI᭄᥂῵ൟ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有