《生物信息学》课程教学资源（中译本）第五章生物数据库的信息检索

如第二章所述,建立 GenBank是为了适应人类基应组工程等科学研究产生的大量序列数据的信息爆炸。总的来说, GenBank是带有注释的公用DNA蛋白质序列的集合。写作本书时, GenBank中有160万条链的纪录,含超过10亿个核苷酸碱基。向GenBank存入新的序列有两种方法:通过 Sequi nBankl和等工具直接提交,或通过国际核苷酸序列数据库的组成部分 GenBank,eml,和DDB等相互之间传递数据的共享协议。

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：169.91KB

第五章生物数据库的信息检索页第五章生物数据库的信息检索 Andreas d baxevanis 国家人类基因组研究学会,基因组技术部国家保健学会马里兰州, Bethesda 如第二章所述,建立 Gen Bank是为了适应人类基应组工程等科学研究产生的大量序列数据的信息爆炸。总的来说, Gen Bank是带有注释的公用DNA,蛋白质序列的集合。写作本书时 Gen Bank中有160万条链的纪录,含超过10亿个核苷酸碱基。向 Gen Bank存入新的序列有两种方法:通过 Sequi n和 Bankl t等工具直接提交,或通过国际核苷酸序列数据库的组成部分 Gen Bank,EMBL,和DDBJ等相互之间传递数据的共享协议。关于提交工具及这种数据协作的性质的进一步的信息参见第14章。 Gen Bank或其他任何有关的生物数据库必须容易查找而且查出的记录的格式便于使用??,否则就不会有很大的用处。??另外,因为总的来说生物学界还不能有效的利用隐藏在这些上百万的碱基及氨基酸之中的信息,排序的工作也没有很大的用处。为了使这些数据对于一般的使用者容易利用而做过很多努力,这些工作的结果一一程序和界面是本章的重点。因为这些更通用的数据库与生物学家通常使用的那些数据库相差很远,所以本章的论述集中在如何查询NCBI数据库上,但是本章同时也注意到一些较小的较专门的数据库,它们提供的信息在 Gen Bank中未必能找到。检索数据库记录:检索服务器查询NCB数据库最简单的方法可能是使用名为 Retrieve的邮件服务器。检索服务器通过简单的关键字搜索来查询记录。一次可以检索一个可用的数据库,可以是简单的(只含有一个关键字)或复合的(含有由逻辑算符组合的多个关键字)。服务器的地址为 retri eveancbi.nlm.nih.gov。同大多数邮件服务器一样,如果向服务器发送一封正文只含一个单词Help的邮件将会返回一个关于如何使用检索服务器的详尽的解释。回顾第一章,使用一个邮件服务器时,向服务器发送的消息必须是严格的符合服务器可以理解的指令格式。如下例所示: 此处,消息的标题与服务器无关。由于返回查询结果时将会带有原来的标题,因此发送多条消息给服务器的时候加上一个描述性的标题有助于使用者区分不同的查询结果。消息正文以名为 DATALIB的査询参数开始,该参数表示应检索那一个可用的数据库(这里是查询SWSS PROT)。标志“ BEGIN”表示没有别的检索参数了,紧接着的词都是搜索条件。可以用逻辑符号AND,OR,及№0T组合检索条件;圆括用于分隔检索条件;引号表示必须组合在一起的短语。本例中,服务器将会返回所有含有短语 hi stone h1"且含有单词 Saccharomyces及 Schi zosaccharomyces之一的记录。如果不用逻辑运算符及分隔符(即,检索条件为 hi stone H1 Saccharomyces Schi zosaccharomyces),则在条件之间将会自动加上0R,这不符合使用者的要求。这个复合查询的结果显示于图5.1。通常,提交的检索范围过大,返回的记录数远多于对查询者有用的数目。例如,前面的检索如果没写种类名的话将会失败,因为含有" hi stone h1"的记录太多。况且,即使这条短语并不是某条记录的真正主题,它也有可能出现在该记录之中:例如,这个短语是某篇论文的标 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

㄀Ѩゴ ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶ Andreas D Baxevanis ೑ᆊҎ㉏෎಴㒘ⷨおᄺӮˈ෎಴㒘ᡔᴃ䚼 ೑ᆊֱعᄺӮ 偀䞠݄ᎲˈBethesda བ㄀Ѡゴ᠔䗄ˈᓎゟGenBankᰃЎњ䗖ᑨҎ㉏෎ᑨ㒘Ꮉ⿟ㄝ⾥ᄺⷨおѻ⫳ⱘ໻䞣ᑣ᭄߫᥂ⱘֵ ᙃ⟚⚌Ǆᘏⱘᴹ䇈ˈGenBankᰃᏺ᳝⊼䞞ⱘ݀⫼DNA,㲟ⱑ䋼ᑣ߫ⱘ䲚ড়Ǆݭ԰ᴀкᯊˈ GenBankЁ᳝160ϛᴵ䫒ⱘ㑾ᔩˈ৿䍙䖛10ғϾḌ㣋䝌⺅෎Ǆ৥GenBankᄬܹᮄⱘᑣ᳝߫ϸ⾡ᮍ ⊩˖䗮䖛Sequin੠BankItㄝᎹ݋Ⳉ᥹ᦤѸˈ៪䗮䖛೑䰙Ḍ㣋䝌ᑣ᭄߫᥂ᑧⱘ㒘៤䚼ߚ GenBankˈEMBLˈ੠DDBJㄝⳌѦП䯈Ӵ䗦᭄᥂ⱘ݅ѿण䆂Ǆ݇ѢᦤѸᎹ݋ঞ䖭⾡᭄᥂ण԰ⱘᗻ 䋼ⱘ䖯ϔℹⱘֵᙃখ㾕㄀14ゴǄ GenBank៪݊Ҫӏԩ᳝݇ⱘ⫳⠽᭄᥂ᑧᖙ乏ᆍᯧᶹᡒ㗠Ϩᶹߎⱘ䆄ᔩⱘḐᓣ֓ѢՓ⫼??ˈ৺߭ ህϡӮ᳝ᕜ໻ⱘ⫼໘Ǆ˛˛঺໪ˈ಴Ўᘏⱘᴹ䇈⫳⠽ᄺ⬠䖬ϡ㛑᳝ᬜⱘ߽⫼䱤㮣೼䖭ѯϞⱒ ϛⱘ⺅෎ঞ⇼෎䝌ПЁⱘֵᙃˈᥦᑣⱘᎹ԰г≵᳝ᕜ໻ⱘ⫼໘ǄЎњՓ䖭ѯ᭄᥂ᇍѢϔ㠀ⱘ Փ⫼㗙ᆍᯧ߽⫼㗠خ䖛ᕜ໮࡯ࡾˈ䖭ѯᎹ԰ⱘ㒧ᵰˉˉ⿟ᑣ੠⬠䴶ᰃᴀゴⱘ䞡⚍Ǆ಴Ў䖭ѯ ᳈䗮⫼ⱘ᭄᥂ᑧϢ⫳⠽ᄺᆊ䗮ᐌՓ⫼ⱘ䙷ѯ᭄᥂ᑧⳌᏂᕜ䖰ˈ᠔ҹᴀゴⱘ䆎䗄䲚Ё೼བԩᶹ 䆶NCBI᭄᥂ᑧϞˈԚᰃᴀゴৠᯊг⊼ᛣࠄϔѯ䕗ᇣⱘ䕗ϧ䮼ⱘ᭄᥂ᑧˈᅗӀᦤկⱘֵᙃ೼ GenBankЁ᳾ᖙ㛑ᡒࠄǄ Ẕ㋶᭄᥂ᑧ䆄ᔩ˖Ẕ㋶᳡ࡵ఼ ᶹ䆶NCBI᭄᥂ᑧ᳔ㅔऩⱘᮍ⊩ৃ㛑ᰃՓ⫼ৡЎRetrieveⱘ䚂ӊ᳡ࡵ఼ǄẔ㋶᳡ࡵ఼䗮䖛ㅔऩ ⱘ݇䬂ᄫ᧰㋶ᴹᶹ䆶䆄ᔩǄϔ⃵ৃҹẔ㋶ϔϾৃ⫼ⱘ᭄᥂ᑧˈৃҹᰃㅔऩⱘ˄া৿᳝ϔϾ݇ 䬂ᄫǓ៪໡ড়ⱘ˄৿᳝⬅䘏䕥ㅫヺ㒘ড়ⱘ໮Ͼ݇䬂ᄫ˅Ǆ᳡ࡵ఼ⱘഄഔЎ retrieve@ncbi.nlm.nih.govǄৠ໻໮᭄䚂ӊ᳡ࡵ఼ϔḋˈབᵰ৥᳡ࡵ఼থ䗕ϔᇕℷ᭛া৿ϔ Ͼऩ䆡Helpⱘ䚂ӊᇚӮ䖨ಲϔϾ݇ѢབԩՓ⫼Ẕ㋶᳡ࡵ఼ⱘ䆺ሑⱘ㾷䞞Ǆ ಲ乒㄀ϔゴˈՓ⫼ϔϾ䚂ӊ᳡ࡵ৥ˈᯊ఼᳡ࡵ఼থ䗕ⱘ⍜ᙃᖙ乏ᰃϹḐⱘヺড়᳡ࡵৃ఼ҹ⧚ 㾷ⱘᣛҸḐᓣǄབϟ՟᠔⼎˖ ℸ໘ˈ⍜ᙃⱘᷛ乬Ϣ᳡ࡵ఼᮴݇Ǆ⬅Ѣ䖨ಲᶹ䆶㒧ᵰᯊᇚӮᏺ᳝ॳᴹⱘᷛ乬ˈ಴ℸথ䗕໮ᴵ ⍜ᙃ㒭᳡ࡵ఼ⱘᯊࡴ׭ϞϔϾᦣ䗄ᗻⱘᷛ乬᳝ࡽѢՓ⫼㗙ऎߚϡৠⱘᶹ䆶㒧ᵰǄ⍜ᙃℷ᭛ҹ ৡЎDATALIBⱘᶹ䆶খ᭄ᓔྟˈ䆹খ᭄㸼⼎ᑨẔ㋶䙷ϔϾৃ⫼ⱘ᭄᥂ᑧ˄䖭䞠ᰃᶹ䆶SWISSˉ PROT˅Ǆᷛᖫ“BEGIN”㸼⼎≵᳝߿ⱘẔ㋶খ᭄њˈ㋻᥹ⴔⱘ䆡䛑ᰃ᧰㋶ᴵӊǄৃҹ⫼䘏䕥ヺ োANDˈORˈঞNOT㒘ড়Ẕ㋶ᴵӊ˗೚ᣀ⫼Ѣߚ䱨Ẕ㋶ᴵӊ˗ᓩো㸼⼎ᖙ乏㒘ড়೼ϔ䍋ⱘⷁ 䇁Ǆᴀ՟Ёˈ᳡ࡵ఼ᇚӮ䖨ಲ᠔᳝৿᳝ⷁ䇁"histone H1"Ϩ৿᳝ऩ䆡Saccharomycesঞ SchizosaccharomycesПϔⱘ䆄ᔩǄབᵰϡ⫼䘏䕥䖤ㅫヺঞߚ䱨ヺ˄ेˈẔ㋶ᴵӊЎhistone H1 Saccharomyces SchizosaccharomycesǓˈ߭೼ᴵӊП䯈ᇚӮ㞾ࡴࡼϞORˈ䖭ϡヺড়Փ⫼ 㗙ⱘ㽕∖Ǆ䖭Ͼ໡ড়ᶹ䆶ⱘ㒧ᵰᰒ⼎Ѣ೒5.1Ǆ 䗮ᐌˈᦤѸⱘẔ㋶㣗ೈ䖛໻ˈ䖨ಲⱘ䆄ᔩ᭄䖰໮Ѣᇍᶹ䆶㗙᳝⫼ⱘ᭄ⳂǄ՟བˈࠡ䴶ⱘẔ㋶ བᵰ≵ݭ辵㉏ৡⱘ䆱ᇚӮ༅䋹ˈ಴Ў৿᳝"histone H1"ⱘ䆄ᔩ໾໮ǄމϨˈेՓ䖭ᴵⷁ䇁ᑊ ϡᰃᶤᴵ䆄ᔩⱘⳳℷЏ乬ˈᅗг᳝ৃ㛑ߎ೼⦃䆹䆄ᔩПЁ˖՟བˈ䖭Ͼⷁ䇁ᰃᶤ㆛䆎᭛ⱘᷛ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶义ⷕˈ1/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索页码,2/8 的一部分,但论文是讨论别的序列的。当査到的记录太多无法处理的时候,将会产生错误。输出行数及检索到的记录数都有上限;这主要是由于很多电子邮件系统不能处理太大的电子邮件信息,而且过多的泛泛的査询只会降低系统的速度。为了提高检索质量,用户可以设定额外的检索参数;用于改变行数或记录数的限制,或只返回记录的标题而不是全部列出。用户也可以限制实际检索的域。回到上面的例子,如果检索条件以" hi stone h1"[DEF]开始,则表示仅在记录的定义行中查找这个短语。可以在检索帮助文档中找到检索参数和域限制条件的完整的清单,以及可以检索的数据库的列表图5.1提交检索服务器的一个复合查询的结果。注意检索在SMSS一PR0T和更新过的SWSS PROT上运行共两次(后者含有上一个数据库主版本之后的新的记录)。此处提交的查询只返回了一条记录。集成信息检索: ENTREZ系统检索服务器可以对有目标的检索记录,但它主要的缺陷在于一次只能从一个数据库中检索到记录;想对一批数据库进行检索的用户必须为每一个目标数据库分别发出一次申请。很明显,这些大量的公用数据库之间存在着逻辑联系。例如, MEDLINE中的一篇论文可能描述一个基因的序列,该基因又在 GenBank中出现。其核苷酸序列所编码的蛋白质的序列又存放在蛋白质数据库中。这种蛋白质的三维结构可能又是己知的,结构的数据可能出现在结构数据库中。最后,基因可能定位在某条染色体的某个区域,这类信息存放在图谱数据库中。在这些生物学上的联系的基础上开发了一种方法;可以通过它查询所有与某一特殊的生物学实体有关的所有信息,而不必按次序查询分立的数据库。这就是一个名为 Entrez的分子检索系统。它由NCB|开发和维护, Entrez在所有的主要的数据库计算机平台上均可使用,允许对 PubMed(MED№E)的记录,核苷酸和蛋白质的序列数据,三维结构信息,图谱信息进行集成的访问。全部信息只需经过一次查询。 Entrez能够通过数据库之间的两种类型联系:相近性和硬连接来提供集成的信息检索。相近性相近性联系着一个给定的数据库之内的记录。使用者在查看MEDL|NE中某条记录时可以要求 Entrez"找出所有类似的论文”,类似的,使用者在查看一个序列的同时可以要求 Entrez"找出所有与这个序列类似的序列"。一个数据库之内的相近性关系是建立在对相似性的统计计算上的 BLAST序列数据可以用基本局部对比搜索工具( Basi c Local Al i gnment Search Tool,即简记为HSPs),即能够无缺口的对齐且达到一定的分数的成对的序列。第7章详细的讨论了 BLAST算法系列及它们的应用。 VAST几套坐标数据之间的比较采用一种名为ⅥAST的基于向量的算法。VAST即 Vector Al i gnment Search Tool( Madej等,195; Gi brat等,1996)。VAST的比较有三个步骤: 1.第一,在坐标数据的基础上,标出所有的构成蛋白质的核心部分的α螺旋和β片层。然后根据这些二级结构单位的位置计算向量。以下的步骤使用这些向量来做对比而不是整个一套坐标 2.然后,算法试图最佳的匹配这些向量,寻找类型和相对方位相同的成对的结构单位,并且在这些单位之间还要有同样的连接方式。其目标在于识别高度相似的″核心结构",这些成对结构的匹配性要比随机的选择蛋白质相互比较得到的高得多。 3.最后,在每个残基位置上使用蒙特一卡洛方法对结构的排列进行优化。 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

乬ⱘϔ䚼ߚˈԚ䆎᭛ᰃ䅼䆎߿ⱘᑣ߫ⱘǄᔧᶹࠄⱘ䆄ᔩ໾໮᮴⊩໘⧚ⱘᯊ׭ˈᇚӮѻ⫳䫭䇃Ǆ䕧ߎ㸠᭄ঞẔ㋶ࠄⱘ䆄ᔩ᭄䛑᳝Ϟ䰤˗䖭Џ㽕ᰃ⬅Ѣᕜ໮⬉ᄤ䚂ӊ㋏㒳ϡ㛑໘⧚໾໻ⱘ ⬉ᄤ䚂ӊֵᙃˈ㗠Ϩ䖛໮ⱘ⊯⊯ⱘᶹ䆶াӮ䰡Ԣ㋏㒳ⱘ䗳ᑺǄЎњᦤ催Ẕ㋶䋼䞣ˈ⫼᠋ৃҹ 䆒ᅮ乱໪ⱘẔ㋶খ᭄˗⫼Ѣᬍব㸠᭄៪䆄ᔩ᭄ⱘ䰤ࠊ៪ˈা䖨ಲ䆄ᔩⱘᷛ乬㗠ϡᰃܼ䚼߫ ߎǄ⫼᠋гৃҹ䰤ࠊᅲ䰙Ẕ㋶ⱘඳǄಲࠄϞ䴶ⱘ՟ᄤˈབᵰẔ㋶ᴵӊҹ"histone H1"[DEF]ᓔ ྟˈ߭㸼⼎ҙ೼䆄ᔩⱘᅮН㸠Ёᶹᡒ䖭Ͼⷁ䇁Ǆৃҹ೼Ẕ㋶ᐂࡽ᭛ḷЁᡒࠄẔ㋶খ᭄੠ඳ䰤 ࠊᴵӊⱘᅠᭈⱘ⏙ऩˈҹঞৃҹẔ㋶ⱘ᭄᥂ᑧⱘ߫㸼. ೒5.1 ᦤѸẔ㋶᳡ࡵ఼ⱘϔϾ໡ড়ᶹ䆶ⱘ㒧ᵰǄ⊼ᛣẔ㋶೼SWISSˉPROT੠᳈ᮄ䖛ⱘSWISSˉ PROTϞ䖤㸠݅ϸ⃵˄ৢ㗙৿᳝ϞϔϾ᭄᥂ᑧЏ⠜ᴀПৢⱘᮄⱘ䆄ᔩ˅Ǆℸ໘ᦤѸⱘᶹ䆶া䖨 ಲњϔᴵ䆄ᔩǄ 䲚៤ֵᙃẔ㋶˖ENTREZ㋏㒳 Ẕ㋶᳡ࡵৃ఼ҹᇍ᳝ⳂᷛⱘẔ㋶䆄ᔩˈԚᅗЏ㽕ⱘ㔎䱋೼Ѣϔ⃵া㛑ҢϔϾ᭄᥂ᑧЁẔ㋶ࠄ 䆄ᔩ˗ᛇᇍϔᡍ᭄᥂ᑧ䖯㸠Ẕ㋶ⱘ⫼᠋ᖙ乏Ў↣ϔϾⳂ᭄ᷛ᥂ᑧ߿ߚথߎϔ⃵⬇䇋Ǆᕜᯢ ᰒˈ䖭ѯ໻䞣ⱘ݀⫼᭄᥂ᑧП䯈ᄬ೼ⴔ䘏䕥㘨㋏Ǆ՟བˈMEDLINEЁⱘϔ㆛䆎᭛ৃ㛑ᦣ䗄ϔϾ ෎಴ⱘᑣ߫ˈ䆹෎಴জ೼GenBankЁߎ⦃Ǆ݊Ḍ㣋䝌ᑣ߫᠔㓪ⷕⱘ㲟ⱑ䋼ⱘᑣ߫জᄬᬒ೼㲟ⱑ 䋼᭄᥂ᑧЁǄ䖭⾡㲟ⱑ䋼ⱘϝ㓈㒧ᵘৃ㛑জᰃᏆⶹⱘˈ㒧ᵘⱘ᭄᥂ৃ㛑ߎ೼⦃㒧ᵘ᭄᥂ᑧ ЁǄ᳔ৢˈ෎಴ৃ㛑ᅮԡ೼ᶤᴵᶧ㡆ԧⱘᶤϾऎඳˈ䖭㉏ֵᙃᄬᬒ೼೒䈅᭄᥂ᑧЁǄ ೼䖭ѯ⫳⠽ᄺϞⱘ㘨㋏ⱘ෎⸔Ϟᓔথњϔ⾡ᮍ⊩˗ৃҹ䗮䖛ᅗᶹ䆶᠔᳝Ϣᶤϔ⡍⅞ⱘ⫳⠽ᄺ ᅲԧ᳝݇ⱘ᠔ֵ᳝ᙃˈ㗠ϡᖙᣝ⃵ᑣᶹ䆶ߚゟⱘ᭄᥂ᑧǄ䖭ህᰃϔϾৡЎEntrezⱘߚᄤẔ㋶㋏㒳Ǆᅗ⬅NCBIᓔথ੠㓈ᡸˈEntrez೼᠔᳝ⱘЏ㽕ⱘ᭄᥂ᑧ䅵ㅫᴎᑇৄϞഛৃՓ⫼ˈܕ䆌ᇍ PubMed˄MEDINE˅ⱘ䆄ᔩˈḌ㣋䝌੠㲟ⱑ䋼ⱘᑣ᭄߫᥂ˈϝ㓈㒧ᵘֵᙃˈ೒䈅ֵᙃ䖯㸠䲚៤ ⱘ䆓䯂Ǆܼ䚼ֵᙃা䳔㒣䖛ϔ⃵ᶹ䆶ǄEntrez㛑໳䗮䖛᭄᥂ᑧП䯈ⱘϸ⾡㉏ൟ㘨㋏˖Ⳍ䖥ᗻ ੠⹀䖲᥹ᴹᦤկ䲚៤ⱘֵᙃẔ㋶Ǆ Ⳍ䖥ᗻ Ⳍ䖥ᗻ㘨㋏ⴔϔϾ㒭ᅮⱘ᭄᥂ᑧПݙⱘ䆄ᔩǄՓ⫼㗙೼ᶹⳟMEDLINEЁᶤᴵ䆄ᔩᯊৃҹ㽕∖ Entrez"ᡒߎ᠔᳝㉏Ԑⱘ䆎᭛ˈ㉏ԐⱘˈՓ⫼㗙೼ᶹⳟϔϾᑣ߫ⱘৠᯊৃҹ㽕∖Entrez"ᡒߎ ᠔᳝Ϣ䖭Ͼᑣ߫㉏Ԑⱘᑣ߫ǄϔϾ᭄᥂ᑧПݙⱘⳌ䖥ᗻ݇㋏ᰃᓎゟ೼ᇍⳌԐᗻⱘ㒳䅵䅵ㅫϞ ⱘ˖ BLASTᑣ᭄߫᥂ৃҹ⫼෎ᴀሔ䚼ᇍ↨᧰㋶Ꮉ݋˄Basic Local Alignment Search Tool,े BLAST˅ⳌѦ↨䕗Ǆ䖭Ͼㅫ⊩䆩೒ᡒࠄ催ᑺऍ䜡ⱘ⠛↉ᇍ˄high-scoring segment pairs, ㅔ䆄ЎHSPs˅ˈे㛑໳᮴㔎ষⱘᇍ唤Ϩ䖒ࠄϔᅮⱘߚ᭄ⱘ៤ᇍⱘᑣ߫Ǆ㄀ゴ䆺㒚ⱘ䅼䆎њ BLASTㅫ⊩㋏߫ঞᅗӀⱘᑨ⫼Ǆ VAST޴༫ത᭄ᷛ᥂П䯈ⱘ↨䕗䞛⫼ϔ⾡ৡЎVASTⱘ෎Ѣ৥䞣ⱘㅫ⊩ǄVASTेVector Alignment Search Tool˄Madejㄝˈ1995˗Gibratㄝˈ1996˅ǄVASTⱘ↨䕗᳝ϝϾℹ偸˖ 1.㄀ϔˈ೼ത᭄ᷛ᥂ⱘ෎⸔Ϟˈᷛߎ᠔᳝ⱘᵘ៤㲟ⱑ䋼ⱘḌᖗ䚼ߚⱘĮ㶎ᮟ੠ȕ⠛ሖǄ✊ৢḍ ᥂䖭ѯѠ㑻㒧ᵘऩԡⱘԡ㕂䅵ㅫ৥䞣Ǆҹϟⱘℹ偸Փ⫼䖭ѯ৥䞣ᴹخᇍ↨㗠ϡᰃᭈϾϔ༫ത ᷛǄ 2.✊ৢˈㅫ⊩䆩೒᳔Շⱘऍ䜡䖭ѯ৥䞣ˈᇏᡒ㉏ൟ੠ⳌᇍᮍԡⳌৠⱘ៤ᇍⱘ㒧ᵘऩԡˈᑊϨ ೼䖭ѯऩԡП䯈䖬㽕᳝ৠḋⱘ䖲᥹ᮍᓣǄ݊Ⳃᷛ೼Ѣ䆚߿催ᑺⳌԐⱘḌᖗ㒧ᵘˈ䖭ѯ៤ᇍ 㒧ᵘⱘऍ䜡ᗻ㽕↨䱣ᴎⱘ䗝ᢽ㲟ⱑ䋼ⳌѦ↨䕗ᕫࠄⱘ催ᕫ໮Ǆ 3.᳔ৢˈ೼↣Ͼ⅟෎ԡ㕂ϞՓ⫼㩭⡍ˉव⋯ᮍ⊩ᇍ㒧ᵘⱘᥦ߫䖯㸠Ӭ࣪Ǆ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶义ⷕˈ2/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索页码,3/8 使用这个方法有可能找到一些序列相似性不明显的蛋白质之间的结构上的关系(可能在功能上也有关系)。最后的对齐结果不一定是全局的,可能在不同的蛋白质的单独的结构域之间配对。需要重点注意的是ⅥAST不是确定结构相似性的最好办法,因为还可以利用三维坐标文件中的其它信息来做更进一步的修正,如考虑侧链的位置及侧链之间的相互作用的热力学特点。而把结构压缩成一列矢量必然会导致信息的丢失。然而,考虑到这个问题的数量级一即需要做的成对比较的次数一及采用更高级的方法所需要的计算能力和时间,VAST至少为结构相似性问题提供了一个简单和快速的答案。关于别的基于X射线或№R坐标数据的结构预测方法可以加权的关键词序列数据对比问题与 MEDLI NE记录的对比相比较还是容易一点, MEDLI NE的记录是自由书写的文本,语法上不固定。 Entrez使用了名为"相关配对模式检索"的方法来做这种对比,该方法依靠的基础是加权关键词(Wi|bur和 Caffee,1994; Wi l bur和Yang1996),这个概念用具体的例子来描述比较合适。考虑具有下面两个标题的两篇文稿这两个标题含有公共词BRCA, Breast,和 Cancer,这些公共词的存在显示这些文稿的主题可能是相似的。同时也考虑单词之间的距离,对两条记录中的公共词距离较近的给予较高的分数,分开较远的给予较低的分数。在这个例子中,对词 Breast和 Cancer将给予较高的分数, 因为这两个词是相邻的,比它们之中的任何一个与BRCA之间的距离短。标题中找到的公共的词比摘要中的公共词得分高,因为一般认为标题的词比摘要中的词″更重要"。一个词的总的权重取决于它在MEDL№E中的所有记录中出现的频率,在数据库中总的来说出现较少的词得到较高的权重。如果不算相近关系所基于的那些方法,实际确定和利用这些关系的能力是基于所有这些分支数据库的数据的底层格式。这种格式称为抽象语法形式( Abstract Syntax Notati on,即 ASNI),所有类似的域(如引用书目)可以以完全一样的方式在这种格式中结构化,而不管这条记录是在蛋白质数据库,核酸数据库或其它数据库之中。№CBI的这种数据模式将在第6 中深入的讨论。硬连接硬连接的概念比相近性的概念更容易接受。硬连接用于联系不同的数据库中的记录,只要这些记录之间存在逻辑联系,就存在硬连接。举例来说,如果一条 MEDLI NE记录是关于??装配型质粒的,那么在这条记录和对应的核酸记录之间就建立一条硬连接。如果这个装配型质粒?? 上的一个开放阅读框架编码某种已知的蛋白质,那么在核酸记录和蛋白质记录之间就建立一条硬连接。如果这种蛋白质恰好已经有实验测出了它的结构,那么在这条蛋白质记录和结构记录之间也会建立一条硬连接。相近性和硬连接的关系可以用图5.2来解释。每个分支数据库( MEDLI NE,蛋白质,核酸,结构及基因)用一个五角形表示。从每个五角形引出又回到自身的曲线表示相近性关系,根据相近性关系可以在同一数据库内寻找相关的记录。图的中心从五角形到五角形的直线连接代表硬连接关系。根据硬连接关系可以在几个数据库之间寻找相关记录。使用者通过合理的使用这两种类型的关系可以只进行一次查询就可以获取多得不可思议的信息,比对单个的数据库分别进行查询所花的时间少得多 ##图5.2 Entrez集成信息查询相同中的关系的示意图。每个五角形表示一个数据库;每个五角形上指向自身的曲线代表相近性关系,图的中心的直线表示硬连接搜索的入口点 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

Փ⫼䖭Ͼᮍ⊩᳝ৃ㛑ᡒࠄϔѯᑣ߫ⳌԐᗻϡᯢᰒⱘ㲟ⱑ䋼П䯈ⱘ㒧ᵘϞⱘ݇㋏˄ৃ㛑೼ࡳ㛑 Ϟг᳝݇㋏˅Ǆ᳔ৢⱘᇍ唤㒧ᵰϡϔᅮᰃܼሔⱘˈৃ㛑೼ϡৠⱘ㲟ⱑ䋼ⱘऩ⣀ⱘ㒧ᵘඳП䯈䜡ᇍǄ 䳔㽕䞡⚍⊼ᛣⱘᰃVASTϡᰃ⹂ᅮ㒧ᵘⳌԐᗻⱘ᳔དࡲ಴ˈ⫣Ў䖬ৃҹ߽⫼ϝ㓈തᷛ᭛ӊЁⱘ ݊ᅗֵᙃᴹخ᳈䖯ϔℹⱘׂℷˈབ㗗㰥ջ䫒ⱘԡ㕂ঞջ䫒П䯈ⱘⳌѦ԰⫼ⱘ⛁࡯ᄺ⡍⚍Ǆ㗠 ᡞ㒧ᵘय़㓽៤ϔ߫ⶶ䞣ᖙ✊Ӯᇐ㟈ֵᙃⱘ϶༅Ǆ✊㗠ˈ㗗㰥ࠄ䖭Ͼ䯂乬ⱘ᭄䞣㑻ˉे䳔㽕خ ⱘ៤ᇍ↨䕗ⱘ⃵᭄ˉঞ䞛⫼᳈催㑻ⱘᮍ⊩᠔䳔㽕ⱘ䅵ㅫ㛑࡯ᯊ੠䯈ˈVAST㟇ᇥЎ㒧ᵘⳌԐᗻ 䯂乬ᦤկњϔϾㅔऩ੠ᖿ䗳ⱘㄨḜǄ݇Ѣ߿ⱘ෎Ѣ;ᇘ㒓៪NMRത᭄ᷛ᥂ⱘ㒧ᵘ乘⌟ᮍ⊩ৃҹ খ㾕㄀11ゴǄ ࡴᴗⱘ݇䬂䆡ᑣ᭄߫᥂ᇍ↨䯂乬ϢMEDLINE䆄ᔩⱘᇍ↨Ⳍ↨䕗䖬ᰃᆍᯧϔ⚍ˈMEDLINEⱘ䆄ᔩ ᰃ㞾⬅кݭⱘ᭛ᴀˈ䇁⊩Ϟϡ೎ᅮǄEntrezՓ⫼њৡЎⳌ݇䜡ᇍ῵ᓣẔ㋶ⱘᮍ⊩ᴹخ䖭⾡ ᇍ↨ˈ䆹ᮍ⊩ձ䴴ⱘ෎⸔ᰃࡴᴗ݇䬂䆡˄Wilbur੠Caffee,1994;Wilbur੠Yang 1996˅ˈ䖭Ͼ ὖᗉ⫼݋ԧⱘ՟ᄤᴹᦣ䗄↨䕗ড়䗖Ǆ㗗㰥݋᳝ϟ䴶ϸϾᷛ乬ⱘϸ㆛᭛〓˖ 䖭ϸϾᷛ乬৿᳝݀݅䆡BRCAI,Breast,੠Cancerˈ䖭ѯ݀݅䆡ⱘᄬ೼ᰒ⼎䖭ѯ᭛〓ⱘЏ乬ৃ㛑 ᰃⳌԐⱘǄৠᯊг㗗㰥ऩ䆡П䯈ⱘ䎱⾏ˈᇍϸᴵ䆄ᔩЁⱘ݀݅䆡䎱⾏䕗䖥ⱘ㒭ќ䕗催ⱘߚ ᭄ˈߚᓔ䕗䖰ⱘ㒭ќ䕗Ԣⱘߚ᭄Ǆ೼䖭Ͼ՟ᄤЁˈᇍ䆡Breast੠Cancerᇚ㒭ќ䕗催ⱘߚ᭄ˈ ಴Ў䖭ϸϾ䆡ᰃⳌ䚏ⱘˈ↨ᅗӀПЁⱘӏԩϔϾϢBRCAIП䯈ⱘ䎱⾏ⷁǄᷛ乬Ёᡒࠄⱘ݀݅ⱘ 䆡↨ᨬ㽕Ёⱘ݀݅䆡ᕫߚ催ˈ಴Ўϔ㠀䅸Ўᷛ乬ⱘ䆡↨ᨬ㽕Ёⱘ䆡᳈䞡㽕ǄϔϾ䆡ⱘᘏⱘ ᴗ䞡পއѢᅗ೼MEDLINEЁⱘ᠔᳝䆄ᔩЁߎ⦃ⱘ乥⥛ˈ೼᭄᥂ᑧЁᘏⱘᴹ䇈ߎ⦃䕗ᇥⱘ䆡ᕫࠄ 䕗催ⱘᴗ䞡Ǆ བᵰϡㅫⳌ䖥݇㋏᠔෎Ѣⱘ䙷ѯᮍ⊩ˈᅲ䰙⹂ᅮ੠߽⫼䖭ѯ݇㋏ⱘ㛑࡯ᰃ෎Ѣ᠔᳝䖭ѯߚᬃ ᭄᥂ᑧⱘ᭄᥂ⱘᑩሖḐᓣǄ䖭⾡Ḑᓣ⿄Ўᢑ䈵䇁⊩ᔶᓣ˄Abstract Syntax Notation,े ASNI˅ˈ᠔᳝㉏Ԑⱘඳ˄བᓩ⫼кⳂ˅ৃҹҹᅠܼϔḋⱘᮍᓣ೼䖭⾡ḐᓣЁ㒧ᵘ࣪ˈ㗠ϡㅵ 䖭ᴵ䆄ᔩᰃ೼㲟ⱑ䋼᭄᥂ᑧˈḌ䝌᭄᥂ᑧ៪݊ᅗ᭄᥂ᑧПЁǄNCBIⱘ䖭⾡᭄᥂῵ᓣᇚ೼㄀ゴ Ё⏅ܹⱘ䅼䆎Ǆ ⹀䖲᥹ ⹀䖲᥹ⱘὖᗉ↨Ⳍ䖥ᗻⱘὖᗉ᳈ᆍᯧ᥹ফǄ⹀䖲᥹⫼Ѣ㘨㋏ϡৠⱘ᭄᥂ᑧЁⱘ䆄ᔩˈা㽕䖭 ѯ䆄ᔩП䯈ᄬ೼䘏䕥㘨㋏ˈህᄬ೼⹀䖲᥹ǄВ՟ᴹ䇈ˈབᵰϔᴵMEDLINE䆄ᔩᰃ݇Ѣ??㺙䜡ൟ 䋼㉦ⱘˈ䙷М೼䖭ᴵ䆄ᔩ੠ᇍᑨⱘḌ䝌䆄ᔩП䯈ህᓎゟϔᴵ⹀䖲᥹Ǆབᵰ䖭Ͼ㺙䜡ൟ䋼㉦?? ϞⱘϔϾᓔᬒ䯙䇏Ḛᶊ㓪ⷕᶤ⾡Ꮖⶹⱘ㲟ⱑ䋼ˈ䙷М೼Ḍ䝌䆄ᔩ੠㲟ⱑ䋼䆄ᔩП䯈ህᓎゟϔ ᴵ⹀䖲᥹Ǆབᵰ䖭⾡㲟ⱑ䋼ᙄདᏆ㒣᳝ᅲ偠⌟ߎњᅗⱘ㒧ᵘˈ䙷М೼䖭ᴵ㲟ⱑ䋼䆄ᔩ੠㒧ᵘ 䆄ᔩП䯈гӮᓎゟϔᴵ⹀䖲᥹Ǆ Ⳍ䖥ᗻ੠⹀䖲᥹ⱘ݇㋏ৃҹ⫼೒5.2ᴹ㾷䞞Ǆ↣Ͼߚᬃ᭄᥂ᑧ˄MEDLINEˈ㲟ⱑ䋼ˈḌ䝌ˈ㒧 ᵘঞ෎಴˅⫼ϔϾѨ㾦ᔶ㸼⼎ǄҢ↣ϾѨ㾦ᔶᓩߎজಲࠄ㞾䑿ⱘ᳆㒓㸼⼎Ⳍ䖥ᗻ݇㋏ˈḍ᥂ Ⳍ䖥ᗻ݇㋏ৃҹ೼ৠϔ᭄᥂ᑧݙᇏᡒⳌ݇ⱘ䆄ᔩǄ೒ⱘЁᖗҢѨ㾦ᔶࠄѨ㾦ᔶⱘⳈ㒓䖲᥹ҷ 㸼⹀䖲᥹݇㋏Ǆḍ᥂⹀䖲᥹݇㋏ৃҹ೼޴Ͼ᭄᥂ᑧП䯈ᇏᡒⳌ݇䆄ᔩǄՓ⫼㗙䗮䖛ড়⧚ⱘՓ ⫼䖭ϸ⾡㉏ൟⱘ݇㋏ৃҹা䖯㸠ϔ⃵ᶹ䆶ህৃҹ㦋প໮ᕫϡৃᗱ䆂ⱘֵᙃˈ↨ᇍऩϾⱘ᭄᥂ ᑧ߿ߚ䖯㸠ᶹ䆶᠔㢅ⱘᯊ䯈ᇥᕫ໮Ǆ ʿʿ೒5.2 Entrez䲚៤ֵᙃᶹ䆶ⳌৠЁⱘ݇㋏ⱘ⼎ᛣ೒Ǆ↣ϾѨ㾦ᔶ㸼⼎ϔϾ᭄᥂ᑧ˗↣Ͼ Ѩ㾦ᔶϞᣛ৥㞾䑿ⱘ᳆㒓ҷ㸼Ⳍ䖥ᗻ݇㋏ˈ೒ⱘЁᖗⱘⳈ㒓㸼⼎⹀䖲᥹Ǆ ᧰㋶ⱘܹষ⚍ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶义ⷕˈ3/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索页码,4/8 如图5.2所指出的,基本上可以从任何地方开始使用 Entre系统搜索一使用者不必考虑从何处进入信息的空间。然而,选取不同的数据库作为搜索的起点就会有不同的域可以用于搜索。这显然是由于不同类型的数据库中的记录必须有不同的组织方式,以反映了它们所编目的实体的生物学特点。表5.1列出了每个 Entrez系统中的数据库可以用于搜索的域。实现不考虑平台的差异, Entrez的搜索可以用两种界面进行。第一种称为 Networκ K Entrez,是用客户一服务器方式实现的。这是 Entrez程序中最快的,它直接连接到一个NCB的"发送者其图形用户界面的特点是一套窗口。由于客户软件存于用户的计算机上,需要用户去获取, 安装和维护软件,软件加入了新的特征时可以下载更新的部分。安装的过程相当简单。第二种实现方法是在环球网上,称为 WW Entrez或者 b entrez。可以利用各种可用的网页浏览器,例如 nternet explorer或 Netscape,它们把搜索结果传回桌面上。使用网络浏览器的用户不必再确认是否安装了最新的 Entrez版本一只要浏览器是较新的版本,查询的结果总是通过最新的 Entrez版本得到的。Web版还有另外一项用处,上述所有的相近性关系和硬连接关系都可以用超文本表示,用户可以通过点击记录上的特定的词来浏览用网页实现比网络版进步的地方在于网页可以有连接到外部数据源的能力。如由某个杂志或出版社维护的论文的全文版本,或某些本来不是 Entrez组成部分的专门的数据库。网络版的速度上的优势同时导致了这方面的限制,直接连接到NCB发送者意味着用户一旦连接到NCB 就不能再转移到别的任何地方。这两种方法的另一个主要区别在于表达方式上,网络版用套窗口而网页版用一系列的网页,服从标准的网页规范。选择哪一种是用户的爱好问题,两种方法在 Entrez的搜索空间中得到的一样的结果。 Entrez的查询方法:举例 ## 图5.3从 MEDLINE开始作 entrez查询,使用网页版的 Entrez版本 (http://ww.ncbi.nlm.nih.gov/entrez)详细说明参见正文为了解释前面的Eηtrez系统的集成特性并且把相近性联系的特性讲透彻,最好的方法是考虑个生物学的实例。此处使用Web版的 Entrez界面。从NCB|网址上的 Entrez主页开始,用户可以选择组成Enηtrez系统的五个数据库之一作为查询的起点。此处查询从 MEDLINE开始。 PubMed 的査询主页显示于图5.3,此页上的表格要求进行两项选择然后提交査询。首先用户必须选择査询域,把搜索范围限制在数据库入口的一个特定的域上(例如,生物学分类或标题)。其次,用户必须选择一种查询模式,指定客户和服务器的交互方法。如果是 Automatic模式,服务器会自动的査看搜索框中输入的词条,在数据库中査找符合得最好的词条。显然 Automati c 模式和 ist terms模式常常返回同样的结果,但由于在开始查询的时候记录的可能的索引方式用户可能还不太清楚,建议使用 List terms模式。假设用户要检索关于hiv1的摘要。使用 Entrez査询窗口,在查询框中输入hiv1,选定Text Words为检索域(即在标题和摘要中査找HⅤ1的出现),选择 Li st terms为査询模式。(当然也可以用 Organi sm作为检索域;使用两种不同的方法进行检索并观察输出的不同对用户来说是一个很好的练习。)检索命中后会打开一个新的网页(图5.4)。这一页包含一个词条选择窗口,用户可以浏览与原来的词条(HV1)最接近的词条。注意选择窗口在HV1后面还显示了很多略有区别的其它条目。如果用户选择的是 Automati c模式,就会忽略这些额外的条目,这样可能忽略了重要的信息。采用 Li st terms模式,就可以使用户看到原来的检索词的各种变种 ##图5.4在 MEDLINE数据库上进行 Entrez检索查的所有条目。详细说明参见正文 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

བ೒5.2᠔ᣛߎⱘˈ෎ᴀϞৃҹҢӏԩഄᮍᓔྟՓ⫼Entrz㋏㒳᧰㋶ˉՓ⫼㗙ϡᖙ㗗㰥Ңԩ໘ 䖯ֵܹᙃⱘぎ䯈Ǆ✊㗠ˈ䗝পϡৠⱘ᭄᥂ᑧ԰Ў᧰㋶ⱘ䍋⚍ህӮ᳝ϡৠⱘඳৃҹ⫼Ѣ᧰㋶Ǆ 䖭ᰒ✊ᰃ⬅Ѣϡৠ㉏ൟⱘ᭄᥂ᑧЁⱘ䆄ᔩᖙ乏᳝ϡৠⱘ㒘㒛ᮍᓣˈҹড᯴њᅗӀ᠔㓪Ⳃⱘᅲ ԧⱘ⫳⠽ᄺ⡍⚍Ǆ㸼5.1߫ߎњ↣ϾEntrez㋏㒳Ёⱘ᭄᥂ᑧৃҹ⫼Ѣ᧰㋶ⱘඳǄ ᅲ⦄ ϡ㗗㰥ᑇৄⱘᏂᓖˈEntrezⱘ᧰㋶ৃҹ⫼ϸ⾡⬠䴶䖯㸠Ǆ㄀ϔ⾡⿄ЎNetwork Entrezˈᰃ⫼ ᅶ᠋ˉ᳡ࡵ఼ᮍᓣᅲ⦄ⱘǄ䖭ᰃEntrez⿟ᑣЁ᳔ᖿⱘˈᅗⳈ᥹䖲᥹ࠄϔϾNCBIⱘথ䗕㗙Ǆ ݊೒ᔶ⫼᠋⬠䴶ⱘ⡍⚍ᰃϔ༫にষǄ⬅Ѣᅶ᠋䕃ӊᄬѢ⫼᠋ⱘ䅵ㅫᴎϞˈ䳔㽕⫼᠋এ㦋পˈ ᅝ㺙੠㓈ᡸ䕃ӊˈ䕃ӊࡴܹњᮄⱘ⡍ᕕᯊৃҹϟ䕑᳈ᮄⱘ䚼ߚǄᅝ㺙ⱘ䖛⿟ⳌᔧㅔऩǄ ㄀Ѡ⾡ᅲ⦄ᮍ⊩ᰃ೼⦃⧗㔥Ϟˈ⿄ЎWWW Entrez៪㗙Web EntrezǄৃҹ߽⫼ৃ辵৘⫼ⱘ㔥义 ⌣㾜఼ˈ՟བInternet explorer៪Netscape,ᅗӀᡞ᧰㋶㒧ᵰӴಲḠ䴶ϞǄՓ⫼㔥㒰⌣㾜఼ ⱘ⫼᠋ϡᖙݡ⹂䅸ᰃ৺ᅝ㺙њ᳔ᮄⱘEntrez⠜ᴀˉা㽕⌣㾜఼ᰃ䕗ᮄⱘ⠜ᴀˈᶹ䆶ⱘ㒧ᵰᘏ ᰃ䗮䖛᳔ᮄⱘEntrez⠜ᴀᕫࠄⱘǄWeb⠜䖬᳝঺໪ϔ乍⫼໘ˈϞ䗄᠔᳝ⱘⳌ䖥ᗻ݇㋏੠⹀䖲᥹ ݇㋏䛑ৃҹ⫼䍙᭛ᴀ㸼⼎ˈ⫼᠋ৃҹ䗮䖛⚍ߏ䆄ᔩϞⱘ⡍ᅮⱘ䆡ᴹ⌣㾜Ǆ ⫼㔥义ᅲ⦄↨㔥㒰⠜䖯ℹⱘഄᮍ೼Ѣ㔥义ৃҹ᳝䖲᥹ࠄ໪䚼᭄᥂⑤ⱘ㛑࡯Ǆབ⬅ᶤϾᴖᖫ៪ ߎ⠜⼒㓈ᡸⱘ䆎᭛ⱘܼ᭛⠜ᴀˈ៪ᶤѯᴀᴹϡᰃEntrez㒘៤䚼ߚⱘϧ䮼ⱘ᭄᥂ᑧǄ㔥㒰⠜ⱘ 䗳ᑺϞⱘӬ࢓ৠᯊᇐ㟈њ䖭ᮍ䴶ⱘ䰤ࠊˈⳈ᥹䖲᥹ࠄNCBIথ䗕㗙ᛣੇⴔ⫼᠋ϔᮺ䖲᥹ࠄNCBI ህϡ㛑ݡ䕀⿏߿ࠄⱘӏԩഄᮍǄ䖭ϸ⾡ᮍ⊩ⱘ঺ϔϾЏ㽕ऎ߿೼Ѣ㸼䖒ᮍᓣϞˈ㔥㒰⠜⫼ϔ ༫にষ㗠㔥义⠜⫼ϔ㋏߫ⱘ㔥义ˈ᳡Ңᷛޚⱘ㔥义㾘㣗Ǆ䗝ᢽાϔ⾡ᰃ⫼᠋ⱘ⠅ད䯂乬ˈϸ ⾡ᮍ⊩೼Entrezⱘ᧰㋶ぎ䯈Ёᕫࠄⱘϔḋⱘ㒧ᵰǄ Entrezⱘᶹ䆶ᮍ⊩˖В՟ ʿʿ ೒5.3 ҢMEDLINEᓔྟ԰entrezᶹ䆶ˈՓ⫼㔥义⠜ⱘEntrez⠜ᴀ ˄http://www.ncbi.nlm.nih.gov/entrez˅Ǆ䆺㒚䇈ᯢখ㾕ℷ᭛Ǆ Ўњ㾷䞞ࠡ䴶ⱘEntrez㋏㒳ⱘ䲚៤⡍ᗻᑊϨᡞⳌ䖥ᗻ㘨㋏ⱘ⡍ᗻ䆆䗣ᕏˈ᳔དⱘᮍ⊩ᰃ㗗㰥 ϔϾ⫳⠽ᄺⱘᅲ՟Ǆℸ໘Փ⫼Web⠜ⱘEntrez⬠䴶ǄҢNCBI㔥ഔϞⱘEntrezЏ义ᓔྟˈ⫼᠋ৃ ҹ䗝ᢽ㒘៤Entrez㋏㒳ⱘѨϾ᭄᥂ᑧПϔ԰Ўᶹ䆶ⱘ䍋⚍Ǆℸ໘ᶹ䆶ҢMEDLINEᓔྟǄPubMed ⱘᶹ䆶Џ义ᰒ⼎Ѣ೒5.3ˈℸ义Ϟⱘ㸼Ḑ㽕∖䖯㸠ϸ乍䗝ᢽ✊ৢᦤѸᶹ䆶Ǆ佪ܜ᠋⫼ᖙ乏䗝ᢽ ᶹ䆶ඳˈᡞ᧰㋶㣗ೈ䰤ࠊ೼᭄᥂ᑧܹষⱘϔϾ⡍ᅮⱘඳϞ˄՟བˈ⫳⠽ᄺߚ㉏៪ᷛ乬˅Ǆ݊ ⃵ˈ⫼᠋ᖙ乏䗝ᢽϔ⾡ᶹ䆶῵ᓣˈᣛᅮᅶ᠋੠᳡ࡵ఼ⱘѸѦᮍ⊩ǄབᵰᰃAutomatic῵ᓣˈ᳡ ࡵ఼Ӯ㞾ࡼⱘᶹⳟ᧰㋶ḚЁ䕧ܹⱘ䆡ᴵˈ೼᭄᥂ᑧЁᶹᡒヺড়ᕫ᳔དⱘ䆡ᴵǄᰒ✊Automatic ῵ᓣ੠List Terms῵ᓣᐌᐌ䖨ಲৠḋⱘ㒧ᵰˈԚ⬅Ѣ೼ᓔྟᶹ䆶ⱘᯊ׭䆄ᔩⱘৃ㛑ⱘ㋶ᓩᮍ ᓣ⫼᠋ৃ㛑䖬ϡ໾⏙Ἦˈᓎ䆂Փ⫼List Terms῵ᓣǄ ؛䆒⫼᠋㽕Ẕ㋶݇Ѣhiv 1ⱘᨬ㽕ǄՓ⫼Entrezᶹ䆶にষˈ೼ᶹ䆶ḚЁ䕧ܹhiv 1ˈ䗝ᅮText WordsЎẔ㋶ඳ˄े೼ᷛ乬੠ᨬ㽕ЁᶹᡒHIV 1ⱘߎˈ˅⦃䗝ᢽList TermsЎᶹ䆶῵ᓣǄ˄ᔧ ✊гৃҹ⫼Organism԰ЎẔ㋶ඳ˗Փ⫼ϸ⾡ϡৠⱘᮍ⊩䖯㸠Ẕ㋶ᑊ㾖ᆳ䕧ߎⱘϡৠᇍ⫼᠋ᴹ 䇈ᰃϔϾᕜདⱘ㒗дǄ˅Ẕ㋶ੑЁৢӮᠧᓔϔϾᮄⱘ㔥义˄೒5.4˅Ǆ䖭ϔ义ࣙ৿ϔϾ䆡ᴵ䗝 ᢽにষˈ⫼᠋ৃҹ⌣㾜Ϣॳᴹⱘ䆡ᴵ˄HIV 1˅᳔᥹䖥ⱘ䆡ᴵǄ⊼ᛣ䗝ᢽにষ೼HIV 1ৢ䴶䖬 ᰒ⼎њᕜ໮⬹᳝ऎ߿ⱘ݊ᅗᴵⳂǄབᵰ⫼᠋䗝ᢽⱘᰃAutomatic῵ᓣˈህӮᗑ⬹䖭ѯ乱໪ⱘᴵ Ⳃˈ䖭ḋৃ㛑ᗑ⬹њ䞡㽕ⱘֵᙃǄ䞛⫼List Terms῵ᓣˈህৃҹՓ⫼᠋ⳟࠄॳᴹⱘẔ㋶䆡ⱘ ৘⾡ব⾡Ǆ ʿʿ೒5.4 ೼MEDLINE᭄᥂ᑧϞ䖯㸠EntrezẔ㋶ᶹⱘ᠔᳝ᴵⳂǄ䆺㒚䇈ᯢখ㾕ℷ᭛Ǆ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶义ⷕˈ4/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索页码,5/8 到这一步还没有实际检索到记录。要检索记录用户要先在词条选择框中点击需要的词条(此处为hiv1)然后点击 Select按钮。随后打开的网页的上部显示了现在检索的状态和查到的记录数(图5.5)。执行上面所述的查询返回了17,943条记录,数量太大了,任何人都无法完全过滤一遍。因此有必要进行修正以减少返回的摘要的数量。如果用户对HV1的杂二聚体?? 的折叠感兴趣,可以用 heterodi mers和 fol di ng作为附加的检索词,重复上面的步骤。虽然每个单独的词都能检索到成千上万条记录,它们的组合只查到6条记录(图5.6)。在 Entrez系统中,缺省的逻辑算符是AND,在检索词下方的修正窗口中可以看到。为了看到实际的检索结果,用户应点击标记为 Retri eve6 Documents的那个按钮;随后会打开新的窗口(图5.7)。窗口中每一条记录有下面几个部分:检查框,第一作者的名字,出版年份,标题,引用信息。选中窗口底部的 Jacopo- Mol i na1993年的记录;点击作者名字打开另一个窗口,这个窗口包括引用信息,论文名称,所有作者列表,来源及摘要,以标准的引用格式书写。图5.7所示的页面上,在 Di spl ay按钮后面的下拉菜单中可以选择一些别的格式。切换到 Abstract格式将得到起来非常相似的记录。差别在于在摘要后面显示了一些分类信息如MeSH 条目以及与这条记录有关的编有索引的材料。使用MEDL|NE格式将打开MEDL|NE/ MEDLL ARS页面,记录的左边有每个域都对应的两个字母的代码(如作者域的代码为AU)。这种格式的记录可以存储而且能容易的输入到第三方的目录管理程序,例如 EndNote和 Reference Manager。在图5.8的上端是一排连接按钮。这是用户可以进一步查看刚才讲过的相近性和硬连接关系的入口点。如果用户点击 Rel ated articles按钮, Entrez会显示出有133条与 Jacobo- Mol i na这条记录相关的记录一即有133条具有相似的主题的记录。一这些论文的前20篇显示在图5.9的个新的列表中。第一篇是原来的那篇关于H∨1反转录酶的晶体结构的论文。这一篇称为原记录,它显示在列表的上端,相近的记录列在后。这些相近记录的排列是按照相似程度降序排列的。因此最靠近原记录的被认为是与原记录最接近的。浏览一下标题用户就可以很容易的找到与HV1的蛋白质有关的结构和功能研究的有关信息,可以很快的得到相关索引的目录。当用户在写论文的时候这种功能尤为有用而且节省时间。因为用户在到图书馆的书架中去寻找之前就可以浏览摘要并选定真正感兴趣的论文从这个新的论文列表中,用户可以通过使用列表中每一项旁边的检査框来找到硬连接的记录。仍然用这个例子,将 Di spl ay按钮后面的下拉菜单选为 Proteins inks然后点击 Di spl ay 按钮,将会从蛋白质数据库中找到与本页这条 MEDLI NE记录有关的19条记录并列表;图5.10显示了其中的6条。这一页的格式与已经在 MEDLINE中见过的那些格式相同,区别在于每条记录后面有一些超链接对应可用的其它格式或对应相近和有硬连接的记录。有用的格式之一是 FASTA,它提供了一种格式可以输入到大多数序列分析程序中去。点击相近蛋白质的超链接所得到的输出大体上是对这个蛋白质序列用 BLAST搜索的结果。用户可以以相似的步骤访问核酸数据库。这次查询得到的蛋白质记录的列表中有HV-A和HVB的记录,是一种HV-1反转录酶在一个点发生突变的突变体(Cys280→Ser)。点击 Graphic View连接将打开一个图形方式的视图看到这条记录的特征表中的所有信息。这个蛋白质有大量的二级结构单元,用这种类型的视图可以很容易的准确的整理出沿着蛋白质链有那些二级结构单元。如果点击标有1 Structure Link的超链接,将打开一个结构一览页面(5.12)。这一页显示的细节是从源PDB文档的标题开始,还有三字母格式的原始结构,到其它信息的链接,如ⅥAST相近记录的列表。如果点击"view/Save:IHV"下面的Ⅵiew按钮,则将调用Cn3D软件,打开新的窗口显示结构透视图。有些用户对于蛋白质的外形的直观形象感兴趣,Cn3D为此提供了强大的界面。它所给出的信息比任何人从观察字符串(蛋白质的序列)中所能得到的信息更多。可以通过窗口底部和右边的滚动条沿着轴旋转蛋白质分子,或者当光标在窗口中时用点击然后拖拉的方式随意的旋转它。用户也可以放大观察结构的某部分,必要时用数字给残基编号;如本例中的一处变异的位点可以标出。用户也可以改变图的着色方案以确定该蛋白质的特殊的结构特征。在图 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

ࠄ䖭ϔℹ䖬≵᳝ᅲ䰙Ẕ㋶ࠄ䆄ᔩǄ㽕Ẕ㋶䆄ᔩ⫼᠋㽕ܜ೼䆡ᴵ䗝ᢽḚЁ⚍ߏ䳔㽕ⱘ䆡ᴵ˄ℸ ໘Ўhiv 1˅✊ৢ⚍ߏSelectᣝ䪂Ǆ䱣ৢᠧᓔⱘ㔥义ⱘϞ䚼ᰒ⼎њ⦄೼Ẕ㋶ⱘ⢊ᗕ੠ᶹࠄⱘ䆄 ᔩ᭄˄೒5.5˅Ǆᠻ㸠Ϟ䴶᠔䗄ⱘᶹ䆶䖨ಲњ17ˈ943ᴵ䆄ᔩˈ᭄䞣໾໻њˈӏԩҎ䛑᮴⊩ᅠ ܼ䖛Ⓒϔ䘡Ǆ಴ℸ᳝ᖙ㽕䖯㸠ׂℷҹޣᇥ䖨ಲⱘᨬ㽕ⱘ᭄䞣Ǆབᵰ⫼᠋ᇍHIV 1ⱘᴖѠ㘮ԧ?? ⱘᡬ঴ᛳ݈䍷ˈৃҹ⫼heterodimers੠folding԰Ў䰘ࡴⱘẔ㋶䆡ˈ䞡໡Ϟ䴶ⱘℹ偸Ǆ㱑✊↣ Ͼऩ⣀ⱘ䆡䛑㛑Ẕ㋶ࠄ៤गϞϛᴵ䆄ᔩˈᅗӀⱘ㒘ড়াᶹࠄᴵ䆄ᔩ˄೒5.6˅Ǆ೼Entrez㋏㒳Ёˈ㔎ⳕⱘ䘏䕥ㅫヺᰃANDˈ೼Ẕ㋶䆡ϟᮍⱘׂℷにষЁৃҹⳟࠄǄ Ўњⳟࠄᅲ䰙ⱘẔ㋶㒧ᵰˈ⫼᠋ᑨ⚍ߏᷛ䆄ЎRetrieve 6 Documentsⱘ䙷Ͼᣝ䪂˗䱣ৢӮᠧ ᓔᮄⱘにষ˄೒5.7˅ǄにষЁ↣ϔᴵ䆄ᔩ᳝ϟ䴶޴Ͼ䚼ߚ˖ẔᶹḚˈ㄀ϔ԰㗙ⱘৡᄫˈߎ⠜ ᑈӑˈᷛ乬ˈᓩ⫼ֵᙃǄ䗝Ёにষᑩ䚼ⱘJacoco-Molina 1993ᑈⱘ䆄ᔩ˗⚍ߏ԰㗙ৡᄫᠧᓔ ঺ϔϾにষˈ䖭Ͼにষࣙᣀᓩ⫼ֵᙃˈ䆎᭛ৡ⿄ˈ᠔᳝԰㗙߫㸼ˈᴹ⑤ঞᨬ㽕ˈҹᷛޚⱘᓩ ⫼ḐᓣкݭǄ ೒5.7᠔⼎ⱘ义䴶Ϟˈ೼Displayᣝ䪂ৢ䴶ⱘϟᢝ㦰ऩЁৃҹ䗝ᢽϔѯ߿ⱘḐᓣǄߛᤶࠄ AbsttractḐᓣᇚᕫࠄ䍋ᴹ䴲ᐌⳌԐⱘ䆄ᔩǄᏂ߿೼Ѣ೼ᨬ㽕ৢ䴶ᰒ⼎њϔѯߚ㉏ֵᙃབMeSH ᴵⳂҹঞϢ䖭ᴵ䆄ᔩ᳝݇ⱘ㓪᳝㋶ᓩⱘᴤ᭭ǄՓ⫼MEDLINEḐᓣᇚᠧᓔMEDLINE/MEDLIARS义䴶ˈ䆄ᔩⱘᎺ䖍᳝↣Ͼඳ䛑ᇍᑨⱘϸϾᄫ↡ⱘҷⷕ˄བ԰㗙ඳⱘҷⷕЎAU˅Ǆ䖭⾡Ḑᓣⱘ䆄 ᔩৃҹᄬټ㗠Ϩ㛑ᆍᯧⱘ䕧ܹࠄ㄀ϝᮍⱘⳂᔩㅵ⧚⿟ᑣˈ՟བEndNote੠Reference ManagerǄ ೼೒5.8ⱘϞッᰃϔᥦ䖲᥹ᣝ䪂Ǆ䖭ᰃ⫼᠋ৃҹ䖯ϔℹᶹⳟ߮ᠡ䆆䖛ⱘⳌ䖥ᗻ੠⹀䖲᥹݇㋏ⱘ ܹষ⚍Ǆབᵰ⫼᠋⚍ߏRelated Articlesᣝ䪂ˈEntrezӮᰒ⼎ߎ᳝133ᴵϢJacobo-Molina䖭 ᴵ䆄ᔩⳌ݇ⱘ䆄ᔩˉे᳝133ᴵ݋᳝ⳌԐⱘЏ乬ⱘ䆄ᔩǄˉ䖭ѯ䆎᭛ⱘࠡ20㆛ᰒ⼎೼೒5.9ⱘ ϔϾᮄⱘ߫㸼ЁǄ㄀ϔ㆛ᰃॳᴹⱘ䙷㆛݇ѢHIV 1ড䕀ᔩ䝊ⱘ᱊ԧ㒧ᵘⱘ䆎᭛Ǆ䖭ϔ㆛⿄Ўॳ 䆄ᔩˈᅗᰒ⼎೼߫㸼ⱘϞッˈⳌ䖥ⱘ䆄ᔩ߫೼ৢǄ䖭ѯⳌ䖥䆄ᔩⱘᥦ߫ᰃᣝ✻ⳌԐ⿟ᑺ䰡ᑣ ᥦ߫ⱘǄ಴ℸ᳔䴴䖥ॳ䆄ᔩⱘ㹿䅸ЎᰃϢॳ䆄ᔩ᳔᥹䖥ⱘǄ⌣㾜ϔϟᷛ乬⫼᠋ህৃҹᕜᆍᯧ ⱘᡒࠄϢHIV 1ⱘ㲟ⱑ䋼᳝݇ⱘ㒧ᵘ੠ࡳ㛑ⷨおⱘֵ᳝݇ᙃˈৃҹᕜᖿⱘᕫࠄⳌ݇㋶ᓩⱘⳂ ᔩǄᔧ⫼᠋೼ݭ䆎᭛ⱘᯊ׭䖭⾡ࡳ㛑ᇸЎ᳝⫼㗠Ϩ㡖ⳕᯊ䯈Ǆ಴Ў⫼᠋೼ࠄ೒к佚ⱘкᶊЁ এᇏᡒПࠡህৃҹ⌣㾜ᨬ㽕ᑊ䗝ᅮⳳℷᛳ݈䍷ⱘ䆎᭛Ǆ Ң䖭Ͼᮄⱘ䆎᭛߫㸼Ёˈ⫼᠋ৃҹ䗮䖛Փ⫼߫㸼Ё↣ϔ乍ᮕ䖍ⱘẔᶹḚᴹᡒࠄ⹀䖲᥹ⱘ䆄 ᔩǄҡ✊⫼䖭Ͼ՟ᄤˈᇚDisplayᣝ䪂ৢ䴶ⱘϟᢝ㦰ऩ䗝ЎProteins links✊ৢ⚍ߏDisplay ᣝ䪂ˈᇚӮҢ㲟ⱑ䋼᭄᥂ᑧЁᡒࠄϢᴀ义䖭ᴵMEDLINE䆄ᔩ᳝݇ⱘ19ᴵ䆄ᔩᑊ߫㸼˗೒5.10ᰒ ⼎њ݊ЁⱘᴵǄ䖭ϔ义ⱘḐᓣϢᏆ㒣೼MEDLINEЁ㾕䖛ⱘ䙷ѯḐᓣⳌৠˈऎ߿೼Ѣ↣ᴵ䆄ᔩ ৢ䴶᳝ϔѯ䍙䫒᥹ᇍᑨৃ⫼ⱘ݊ᅗḐᓣ៪ᇍᑨⳌ䖥੠᳝⹀䖲᥹ⱘ䆄ᔩǄ᳝⫼ⱘḐᓣПϔᰃ FASTAˈᅗᦤկњϔ⾡Ḑᓣৃҹ䕧ܹࠄ໮໻᭄ᑣ߫ߚᵤ⿟ᑣЁএǄ⚍ߏⳌ䖥㲟ⱑ䋼ⱘ䍙䫒᥹᠔ ᕫࠄⱘ䕧ߎԧ໻Ϟᰃᇍ䖭Ͼ㲟ⱑ䋼ᑣ߫⫼BLAST᧰㋶ⱘ㒧ᵰǄ⫼᠋ৃҹҹⳌԐⱘℹ偸䆓䯂Ḍ䝌 ᭄᥂ᑧǄ 䖭⃵ᶹ䆶ᕫࠄⱘ㲟ⱑ䋼䆄ᔩⱘ߫㸼Ё᳝IHIV-A੠IHIV_Bⱘ䆄ᔩˈᰃϔ⾡HIV-1ড䕀ᔩ䝊೼ϔϾ ⚍থ⫳さবⱘさবԧ˄Cys280ėSer˅Ǆ⚍ߏGraphic View䖲᥹ᇚᠧᓔϔϾ೒ᔶᮍᓣⱘ㾚೒ˈ ⳟࠄ䖭ᴵ䆄ᔩⱘ⡍ᕕ㸼Ёⱘ᠔ֵ᳝ᙃǄ䖭Ͼ㲟ⱑ䋼᳝໻䞣ⱘѠ㑻㒧ᵘऩܗ⫼ˈ䖭⾡㉏ൟⱘ㾚 ೒ৃҹᕜᆍᯧⱘޚ⹂ⱘᭈ⧚ߎ⊓ⴔ㲟ⱑ䋼䫒᳝䙷ѯѠ㑻㒧ᵘऩܗǄབᵰ⚍ߏ᳝ᷛ1 Structure Linkⱘ䍙䫒᥹ˈᇚᠧᓔϔϾ㒧ᵘϔ㾜义䴶˄5.12˅Ǆ䖭ϔ义ᰒ⼎ⱘ㒚㡖ᰃҢ⑤PDB᭛ḷⱘᷛ乬 ᓔྟˈ䖬᳝ϝᄫ↡Ḑᓣⱘॳྟ㒧ᵘˈࠄ݊ᅗֵᙃⱘ䫒᥹ˈབVASTⳌ䖥䆄ᔩⱘ߫㸼Ǆབᵰ⚍ ߏ"View/Save:IHIV"ϟ䴶ⱘViewᣝ䪂ˈ߭ᇚ䇗⫼Cn3D䕃ӊˈᠧᓔᮄⱘにষᰒ⼎㒧ᵘ䗣㾚೒Ǆ ᳝ѯ⫼᠋ᇍѢ㲟ⱑ䋼ⱘ໪ᔶⱘⳈ㾖ᔶ䈵ᛳ݈䍷ˈCn3DЎℸᦤկњᔎ໻ⱘ⬠䴶Ǆᅗ᠔㒭ߎⱘֵ ᙃ↨ӏԩҎҢ㾖ᆳᄫヺІ˄㲟ⱑ䋼ⱘᑣ߫˅Ё᠔㛑ᕫࠄⱘֵᙃ᳈໮Ǆৃҹ䗮䖛にষᑩ䚼੠ে 䖍ⱘ⒮ࡼᴵ⊓ⴔ䕈ᮟ䕀㲟ⱑ䋼ߚᄤˈ៪㗙ᔧܝ೼ᷛにষЁᯊ⫼⚍ߏৢ✊ᢪᢝⱘᮍᓣ䱣ᛣⱘᮟ 䕀ᅗǄ⫼᠋гৃҹᬒ໻㾖ᆳ㒧ᵘⱘᶤ䚼ߚˈᖙ㽕ᯊ⫼᭄ᄫ㒭⅟෎㓪ো˗བᴀ՟Ёⱘϔ໘বᓖ ⱘԡ⚍ৃҹᷛߎǄ⫼᠋гৃҹᬍব೒ⱘⴔ㡆ᮍḜҹ⹂ᅮ䆹㲟ⱑ䋼ⱘ⡍⅞ⱘ㒧ᵘ⡍ᕕǄ೼೒ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶义ⷕˈ5/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索页码,6/8 5.13的例子中,涂刷和着色的方案分别空白填充和疏水性。这个组合的方案可以用于观察表面的电荷分布,指示出蛋白质的那些是蛋白质之间相互作用的部位,那些是蛋白质和DNA作用的部位。关于Cn3D的进一步的资料在地3章中。Cn3D的文档中也有。另外,用户也可以把坐标信息存入到一个文件中,用第三方的程序来观看,如 Kinemage( Ri chardon与 Ri chardon 1992)和 Rasmol( Sayl e与 Mi I ner-Whi te,1995) 集成的信息访问:查询服务器有时候用户没有 Entrez平台可用,他将只好通过电子邮件来进行检索。也有可能用户在实验室通过π1连接在环球网上访问 Entrez但速度又不够快。ery是一种使用电子邮件的 Entrez, 它能满足需要。uery的思想与 Retrieve非常类似,但是一次能查询不止一个数据库。Oueu 可以在一个指定的数据库范围中査询(蛋白质,核酸,结构或 MEDLI NE),而且能返回相近的和有硬连接的记录。同使用 Retrieve一样, Query的用户向服务器发岀査询请求时必须遵循规定的格式。图5.14概括了0uery的申请的一般的格式,显示出在搜索之中可以使用的标志和选项。(uery也支持 Retrieve的语法,所以向 Query服务器发送 Retrieve格式的査询请求也能正确执行。)最简单的査询是使用检索词。执行这种查询要先给定目标数据库和一个或几个检索词。用0uery和用 Retri eve一样,基于词的检索可以限定在数据库记录的特定域中,这样得到的结果更好。为了显示uery和 Retrieve的区别,我们将用图5.3至图5.14中用过的例子,而按uery的格式表达查询以一行"DBp.“开始,指出要检索的是蛋白质数据库。对比 Retrieve一次只允许检索一个数据库; Query允许一次检索所有同类的数据库(此处由蛋白质数据库构成无冗余的查询集)。数据库由一个单字符代码指定:p表示蛋白质,n表示核酸,m表示 MEDLINE,t表示结构,s表示对蛋白质和核酸同时检索。检索空间与Enηtrez检索时用过的相同。与原来 Retrieve检索不同的是,对检索词分别限定了几个域:只在蛋白质名称域中查找" hi stone h1",只在生物名称域中査找生物名。注意符号&用于表示逻辑与AND,竖线符 (|)用于表示逻辑或0R,逻辑非用连字符表示(-);因为检索词中也有可能出现连字符所以表示逻辑算符的连字符必须在左边或右边至少有一个空格,以与实际的检索词区分到此为止,uery看来与 Retri eve的区别还不大。实际上执行前面的查询得到的结果与 Retrieve相同。然而使用D0PT标志(显示选项)能够彻底改变査询结果,对于用户更为有用。继续看这个例子,可能用户需要有 FASTA格式的结果而不是标准的 Entrez文档的摘要格式。另外,用户不想看蛋白质记录本身,而是想要与它们有关的核酸链。为了达到这种效果,可以如下的修改检索语句: p TERM hi stone H1 PROT] &( Saccharomyces [ORGN] Schi zosaccharomyces [ORGN]) doPT fn D0PT语句中的f表示与检索条件确定的蛋白质记录有关的核酸记录(n)要用 FASTA格式(f) 显示。这次检索的结果如图5.15所示。D0PT语句的多种功能使得uery可以输出由别的程序 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

5.13ⱘ՟ᄤЁˈ⍖ࠋ੠ⴔ㡆ⱘᮍḜ߿ߚぎⱑ฿ܙ∋⭣੠ᗻǄ䖭Ͼ㒘ড়ⱘᮍḜৃҹ⫼Ѣ㾖ᆳ㸼䴶ⱘ⬉㥋ߚᏗˈᣛ⼎ߎ㲟ⱑ䋼ⱘ䙷ѯᰃ㲟ⱑ䋼П䯈ⳌѦ԰⫼ⱘ䚼ԡˈ䙷ѯᰃ㲟ⱑ䋼੠DNA԰⫼ ⱘ䚼ԡǄ݇ѢCn3Dⱘ䖯ϔℹⱘ䌘᭭೼ഄゴЁǄCn3Dⱘ᭛ḷЁг᳝Ǆ঺໪ˈ⫼᠋гৃҹᡞതᷛ ֵᙃᄬܹࠄϔϾ᭛ӊЁˈ⫼㄀ϝᮍⱘ⿟ᑣᴹ㾖ⳟˈབKinemage˄RichardsonϢRichardsonˈ 1992˅੠Rasmol˄SayleϢMilner-Whiteˈ1995˅Ǆ 䲚៤ⱘֵᙃ䆓䯂˖ᶹ䆶᳡ࡵ఼ ᳝ᯊ׭᳝≲/᠋⫼Entrezᑇৄৃ⫼ˈҪᇚাད䗮䖛⬉ᄤ䚂ӊᴹ䖯㸠Ẕ㋶Ǆг᳝ৃ㛑⫼᠋೼ᅲ偠 ᅸ䗮䖛T1䖲᥹೼⦃⧗㔥Ϟ䆓䯂EntrezԚ䗳ᑺজϡ໳ᖿǄQueryᰃϔ⾡Փ⫼⬉ᄤ䚂ӊⱘEntrezˈ ᅗ㛑⒵䎇䳔㽕ǄQueryⱘᗱᛇϢRetrieve䴲ᐌ㉏ԐˈԚᰃϔ⃵㛑ᶹ䆶ϡℶϔϾ᭄᥂ᑧǄQuery ৃҹ೼ϔϾᣛᅮⱘ᭄᥂ᑧ㣗ೈЁᶹ䆶˄㲟ⱑ䋼ˈḌ䝌ˈ㒧ᵘ៪MEDLINE˅ˈ㗠Ϩ㛑䖨ಲⳌ䖥 ⱘ੠᳝⹀䖲᥹ⱘ䆄ᔩǄ ৠՓ⫼RetrieveϔḋˈQueryⱘ⫼᠋৥᳡ࡵ఼থߎᶹ䆶䇋∖ᯊᖙ乏䙉ᕾ㾘ᅮⱘḐᓣǄ೒5.14ὖ ᣀњQueryⱘ⬇䇋ⱘϔ㠀ⱘḐᓣˈᰒ⼎ߎ᧰೼㋶ПЁৃҹՓ⫼ⱘᷛᖫ੠䗝乍Ǆ˄Queryгᬃᣕ Retrieveⱘ䇁⊩ˈ᠔ҹ৥Query᳡ࡵ఼থ䗕RetrieveḐᓣⱘᶹ䆶䇋∖г㛑ℷ⹂ᠻ㸠Ǆ˅᳔ㅔऩ ⱘᶹ䆶ᰃՓ⫼Ẕ㋶䆡Ǆᠻ㸠䖭⾡ᶹ䆶㽕ܜ㒭ᅮⳂ᭄ᷛ᥂ᑧ੠ϔϾ៪޴ϾẔ㋶䆡Ǆ⫼Query੠⫼ Retrieveϔḋˈ෎Ѣ䆡ⱘẔ㋶ৃҹ䰤ᅮ೼᭄᥂ᑧ䆄ᔩⱘ⡍ᅮඳЁˈ䖭ḋᕫࠄⱘ㒧ᵰ᳈དǄЎ њᰒ⼎Query੠Retrieveⱘऎ߿ˈ៥Ӏᇚ䞛⫼೒5.3㟇೒5.14Ё⫼䖛ⱘ՟ᄤˈ㗠ᣝQueryⱘḐᓣ 㸼䖒Ǆ ᶹ䆶ҹϔ㸠"DB p."ᓔྟˈᣛߎ㽕Ẕ㋶ⱘᰃ㲟ⱑ䋼᭄᥂ᑧǄᇍ↨Retrieveϔ⃵াܕ䆌Ẕ㋶ϔϾ ᭄᥂ᑧ˗Queryܕ䆌ϔ⃵Ẕ㋶᠔᳝ৠ㉏ⱘ᭄᥂ᑧ˄ℸ໘⬅㲟ⱑ䋼᭄᥂ᑧᵘ៤᮴ݫԭⱘᶹ䆶䲚˅Ǆ᭄᥂ᑧ⬅ϔϾऩᄫヺҷⷕᣛᅮ˖S㸼⼎㲟ⱑ䋼ˈQ㸼⼎Ḍ䝌ˈP㸼⼎MEDLINEˈW㸼⼎㒧 ᵘˈV㸼⼎ᇍ㲟ⱑ䋼੠Ḍ䝌ৠᯊẔ㋶ǄẔ㋶ぎ䯈ϢEntrezẔ㋶ᯊ⫼䖛ⱘⳌৠǄ ϢॳᴹRetrieveẔ㋶ϡৠⱘᰃˈᇍẔ㋶䆡߿ߚ䰤ᅮњ޴Ͼඳ˖া೼㲟ⱑ䋼ৡ⿄ඳЁᶹ ᡒ"histone H1"ˈা೼⫳⠽ৡ⿄ඳЁᶹᡒ⫳⠽ৡǄ⊼ᛣヺো ⫼Ѣ㸼⼎䘏䕥ϢANDˈオ㒓ヺ ˄_˅⫼Ѣ㸼⼎䘏䕥៪ORˈ䘏䕥䴲⫼䖲ᄫヺ㸼⼎˄ˉ˅˗಴ЎẔ㋶䆡Ёг᳝ৃ㛑ߎ⦃䖲ᄫヺˈ ᠔ҹ㸼⼎䘏䕥ㅫヺⱘ䖲ᄫヺᖙ乏೼Ꮊ䖍៪ে䖍㟇ᇥ᳝ϔϾぎḐˈҹϢᅲ䰙ⱘẔ㋶䆡ऎߚǄ ࠄℸЎℶˈQueryⳟᴹϢRetrieveⱘऎ߿䖬ϡ໻Ǆᅲ䰙Ϟᠻ㸠ࠡ䴶ⱘᶹ䆶ᕫࠄⱘ㒧ᵰϢ RetrieveⳌৠǄ✊㗠Փ⫼DOPTᷛᖫ˄ᰒ⼎䗝乍˅㛑໳ᕏᑩᬍবᶹ䆶㒧ᵰˈᇍѢ⫼᠋᳈Ў᳝ ⫼Ǆ㒻㓁ⳟ䖭Ͼ՟ᄤˈৃ㛑⫼᠋䳔㽕᳝FASTAḐᓣⱘ㒧ᵰ㗠ϡᰃᷛޚⱘEntrez᭛ḷⱘᨬ㽕Ḑ ᓣǄ঺໪ˈ⫼᠋ϡᛇⳟ㲟ⱑ䋼䆄ᔩᴀ䑿ˈ㗠ᰃᛇ㽕ϢᅗӀ᳝݇ⱘḌ䝌䫒ǄЎњ䖒ࠄ䖭⾡ᬜ ᵰˈৃҹབϟⱘׂᬍẔ㋶䇁হ˖ DB p TERM histone H1 [PROT] &(Saccharomyces [ORGN] | Schizosaccharomyces [ORGN]) DOPT fn DOPT䇁হЁⱘfn㸼⼎ϢẔ㋶ᴵӊ⹂ᅮⱘ㲟ⱑ䋼䆄ᔩ᳝݇ⱘḌ䝌䆄ᔩ˄Q˅㽕⫼FASTAḐᓣ˄I˅ ᰒ⼎Ǆ䖭⃵Ẕ㋶ⱘ㒧ᵰབ೒5.15᠔⼎ǄDOPT䇁হⱘ໮⾡ࡳ㛑ՓᕫQueryৃҹ䕧ߎ⬅߿ⱘ⿟ᑣ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶义ⷕˈ6/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第五章生物数据库的信息检索页码,7/8 (如序列对比编辑器或预测工具)处理的信息,尤其是 FASTA格式的结果,这使得 Query非常有用。最后,uery用户还可以用一下三个附加的标志选项。HML可以使得返回的结果为HM格式, 可以用网页浏览器来看, DI SPMAX可以控制返回的最大记录数:如果不使用 DI SPMAX,则该缺省值为200,另外还有电子邮件的行数限制为10万行。最后,PATH使返回的查询结果送到另外一个电子邮件地址而不是发出检索请求的地址。 NCB|上的序列数据库从上面的论述看起来,NCB|似乎是序列数据领域的中心,但世界上还有其它的一些专门的数据库也在科学交流中发挥特殊的作用。这些数据库通常提供一些辅助的信息,如性状,实验条件,杂交??,以及图谱特征。这些数据对于科学交流的某些领域来说很重要,因为它们有助于合理的实验设计。然而这些数据不完全符合NCBl的数据模式的限制,因此建立了这些专门的数据库,它们将被用来作为 GenBank的附件而不是作为它的一部分这些特殊的数据库之中的两个是酵母基因组数据库( Saccharomyces Genome Database,即 SGD)和 Arabi dopsi s thal i ana数据库(AtDB),两者都在斯坦福的人类基因组中心。关注 SGD是因为酵母的全基因组已经被测序,这个数据库提供了一个非常简单的查询界面,使用基因名,基因信息,无性系,蛋白质信息,序列名,作者名,或全文来作文本方式的查询。例如,用 GeneName作为检索主题,hho1为基因名查询,将会打开一个 SacchDB信息窗口,显示所有的关于H01座位的信息(图5.16)。座位窗口中还有连接到别的数据库的跳转点,如 MEDLI NE,酵母蛋白质数据库( Yeast protei n database,即YPD)。从这条记录到 Sacch3D的连接提供了 PDB中找到的HH01的蛋白质产物的同结构族的信息。还有到二级结构和三级结构预测的站点的连接。及??根据查询一些数据库预先计算出的 BLAST报告。返回到原座位窗口,点击 Seq& Di spl y连接,用户将能看到序列的座位周围区域的图形显示。可用的视图包括物理图谱,遗传图谱,染色体特征图谱以及其它。HH01的物理图谱显示在图5.17(注意着色)。注意图形上部的黄色的粗棒,它给出了目前视图的位点相对于着丝点的位置。在黄色棒上点击就可以在染色体上移动査看,点击单独的基因,无性系,或序列名就会给出与特定的区域有关的详细信息。还有一个这样的专门一种生物的数据库即 FI yBase,它的目标是维护果蝇( Drosophi l a)的基因和分子生物学方面的综合信息。可以用 Worl d wi de web, Gopher,FTP访问 Fl yBase。可查到的信息包括大范围的果蝇方面的书刊目录,涉及果蝇的项目的研究者的地址,11,0多个基因的38,000多个等位基因的信息汇编,13,000多种染色体畸变,图谱信息,基因产物功能的信息,存储中心和基因组无性系的列表,同类数据库的信息。所有这些方面的检索都可以通过一种简单的检索机制完成。例如,查找基因符号,capu为检索词,将找到一条名为 cappucci no的基因的记录,在果蝇卵母细胞周期的正确极化中需要用到它( Emmons等,1995)。调用图形视图可以显示 cappuccI no的基因及其细胞学定位及邻近区域的其它基因,用户可以在基因条上点击任何地方査看某个基因的具体细节信息(图5.18)。在这个视图上可以清楚的看到重叠的情况:这儿的 cappucci no看来与为转录因子编码的slp1和sp2重叠了。选择窗口底部的类别按钮之就能改为以査看无性系,缺失,重复,倒置,易位,转座,或其它变异的图形视图。医学数据库虽然本章的重点在于序列,但对于生物学家来说,除了分类和组织序列信息的数据库之外还有别的类型的数据库也很有用。例如不基于序列的信息源0 nl i ne mendel i an i nheri tance i n man(OMM),它是由约翰霍普金斯大学的 Vi ctor mckusi ck编辑的关于人类基因和基因异 file://E:wcb生物信息学(中译本)\第五章生物数据库的信息检索.htm 2005-1-18

˄བᑣ߫ᇍ↨㓪䕥఼៪乘⌟Ꮉ݋˅໘⧚ⱘֵᙃˈᇸ݊ᰃFASTAḐᓣⱘ㒧ᵰˈ䖭ՓᕫQuery䴲ᐌ ᳝⫼Ǆ ᳔ৢˈQuery⫼᠋䖬ৃҹ⫼ϔϟϝϾ䰘ࡴⱘᷛᖫ䗝乍ǄHTMLৃҹՓᕫ䖨ಲⱘ㒧ᵰЎHTMLḐᓣˈ ৃҹ⫼㔥义⌣㾜఼ᴹⳟˈDISPMAXৃҹ᥻ࠊ䖨ಲⱘ᳔໻䆄ᔩ᭄˖བᵰϡՓ⫼DISPMAXˈ߭䆹㔎 ⳕؐЎ200ˈ঺໪䖬᳝⬉ᄤ䚂ӊⱘ㸠᭄䰤ࠊЎ10ϛ㸠Ǆ᳔ৢˈPATHՓ䖨ಲⱘᶹ䆶㒧ᵰ䗕ࠄ໪঺ ϔϾ⬉ᄤ䚂ӊഄഔ㗠ϡᰃথߎẔ㋶䇋∖ⱘഄഔǄ NCBIϞⱘᑣ᭄߫᥂ᑧ ҢϞ䴶ⱘ䆎䗄ⳟ䍋ᴹˈNCBIԐТᰃᑣ᭄߫᥂乚ඳⱘЁᖗˈԚϪ⬠Ϟ䖬᳝݊ᅗⱘϔѯϧ䮼ⱘ᭄ ᥂ᑧг೼⾥ᄺѸ⌕Ёথ᣹⡍⅞ⱘ԰⫼Ǆ䖭ѯ᭄᥂ᑧ䗮ᐌᦤկϔѯ䕙ࡽⱘֵᙃˈབᗻ⢊ˈᅲ偠 ᴵӊˈᴖѸ˛˛ˈҹঞ೒䈅⡍ᕕǄ䖭ѯ᭄᥂ᇍѢ⾥ᄺѸ⌕ⱘᶤѯ乚ඳᴹ䇈ᕜ䞡㽕ˈ಴ЎᅗӀ ᳝ࡽѢড়⧚ⱘᅲ偠䆒䅵Ǆ✊㗠䖭ѯ᭄᥂ϡᅠܼヺড়NCBIⱘ᭄᥂῵ᓣⱘ䰤ࠊ಴ˈℸᓎゟњ䖭ѯ ϧ䮼ⱘ᭄᥂ᑧˈᅗӀᇚ㹿⫼ᴹ԰ЎGenBankⱘ䰘ӊ㗠ϡᰃ԰Ўᅗⱘϔ䚼ߚǄ 䖭ѯ⡍⅞ⱘ᭄᥂ᑧПЁⱘϸϾᰃ䝉↡෎಴㒘᭄᥂ᑧ˄Saccharomyces Genome Database,े SGD˅੠Arabidopsis thaliana᭄᥂ᑧ˄AtDB˅ˈϸ㗙䛑೼ᮃഺ⽣ⱘҎ㉏෎಴㒘ЁᖗǄ݇⊼ SGDᰃ಴Ў 䝉↡ⱘܼ෎಴㒘Ꮖ㒣㹿⌟ᑣˈ䖭Ͼ᭄᥂ᑧᦤկњϔϾ䴲ᐌㅔऩⱘᶹ䆶⬠䴶ˈՓ⫼෎಴ৡˈ෎ ಴ֵᙃˈ᮴ᗻ㋏ˈ㲟ⱑ䋼ֵᙃˈᑣ߫ৡˈ԰㗙ৡˈ៪ܼ᭛ᴹ԰᭛ᴀᮍᓣⱘᶹ䆶Ǆ՟བˈ⫼ GeneName԰ЎẔ㋶Џ乬ˈhho1Ў෎಴ৡᶹ䆶ˈᇚӮᠧᓔϔϾSacchDBֵᙃにষˈᰒ⼎᠔᳝ⱘ݇ ѢHHO1ᑻԡⱘֵᙃ˄೒5.16˅ǄᑻԡにষЁ䖬᳝䖲᥹߿ࠄⱘ᭄᥂ᑧⱘ䏇䕀⚍ˈབMEDLINEˈ䝉 ↡㲟ⱑ䋼᭄᥂ᑧ˄Yeast Protein DatabaseˈेYPD˅ǄҢ䖭ᴵ䆄ᔩࠄSacch3Dⱘ䖲᥹ᦤկњ PDBЁᡒࠄⱘHHO1ⱘ㲟ⱑ䋼ѻ⠽ⱘৠ㒧ᵘᮣⱘֵᙃǄ䖬᳝ࠄѠ㑻㒧ᵘ੠ϝ㑻㒧ᵘ乘⌟ⱘキ⚍ⱘ 䖲᥹Ǆঞ˛˛ḍ᥂ᶹ䆶ϔѯ᭄᥂ᑧ乘ܜ䅵ㅫߎⱘBLAST᡹ਞǄ䖨ಲࠄॳᑻԡにষˈ⚍ߏ Seq&Disply䖲᥹ˈ⫼᠋ᇚ㛑ⳟࠄᑣ߫ⱘᑻԡ਼ೈऎඳⱘ೒ᔶᰒ⼎Ǆৃ⫼ⱘ㾚೒ࣙᣀ⠽⧚೒ 䈅ˈ䘫Ӵ೒䈅ˈᶧ㡆ԧ⡍ᕕ೒䈅ҹঞ݊ᅗǄHHO1ⱘ⠽⧚೒䈅ᰒ⼎೼೒5.17˄⊼ᛣⴔ㡆˅Ǆ⊼ ᛣ೒ᔶϞ䚼ⱘ咘㡆ⱘ㉫Ầˈᅗ㒭ߎњⳂࠡ㾚೒ⱘԡ⚍ⳌᇍѢⴔϱ⚍ⱘԡ㕂Ǆ೼咘㡆ẦϞ⚍ߏ ህৃҹ೼ᶧ㡆ԧϞ⿏ࡼᶹⳟˈ⚍ߏऩ⣀ⱘ෎಴ˈ᮴ᗻ㋏ˈ៪ᑣ߫ৡህӮ㒭ߎϢ⡍ᅮⱘऎඳ᳝ ݇ⱘ䆺㒚ֵᙃǄ 䖬᳝ϔϾ䖭ḋⱘϧ䮼ϔ⾡⫳⠽ⱘ᭄᥂ᑧेFlyBaseˈᅗⱘⳂᷛᰃ㓈ᡸᵰ㴛˄Drosophila˅ⱘ෎ ಴੠ߚᄤ⫳⠽ᄺᮍ䴶ⱘ㓐ড়ֵᙃǄৃҹ⫼World Wide WebˈGopherˈFTP䆓䯂FlyBaseǄৃᶹ ࠄⱘֵᙃࣙᣀ໻㣗ೈⱘᵰ㴛ᮍ䴶ⱘкߞⳂᔩˈ⍝ঞᵰ㴛ⱘ乍Ⳃⱘⷨお㗙ⱘഄഔˈ11ˈ000໮Ͼ ෎಴ⱘ38ˈ000໮Ͼㄝԡ෎಴ⱘֵᙃ∛㓪ˈ13ˈ000໮⾡ᶧ㡆ԧ⭌বˈ೒䈅ֵᙃˈ෎಴ѻ⠽ࡳ 㛑ⱘֵᙃˈᄬټЁᖗ੠෎಴㒘᮴ᗻ㋏ⱘ߫㸼ˈৠ㉏᭄᥂ᑧⱘֵᙃǄ᠔᳝䖭ѯᮍ䴶ⱘẔ㋶䛑ৃ ҹ䗮䖛ϔ⾡ㅔऩⱘẔ㋶ᴎࠊᅠ៤Ǆ ՟བˈᶹᡒ෎಴ヺোˈcapuЎẔ㋶䆡ˈᇚᡒࠄϔᴵৡЎcappuccinoⱘ෎಴ⱘ䆄ᔩˈ೼ᵰ㴛ॉ ↡㒚㚲਼ᳳⱘℷ⹂ᵕ࣪Ё䳔㽕⫼ࠄᅗ˄Emmonsㄝˈ1995˅Ǆ䇗⫼೒ᔶ㾚೒ৃҹᰒ⼎ cappuccinoⱘ෎಴ঞ݊㒚㚲ᄺᅮԡঞ䚏䖥ऎඳⱘ݊ᅗ෎಴ˈ⫼᠋ৃҹ೼෎಴ᴵϞ⚍ߏӏԩഄ ᮍᶹⳟᶤϾ෎಴ⱘ݋ԧ㒚㡖ֵᙃ˄೒5.18˅Ǆ೼䖭Ͼ㾚೒Ϟৃҹ⏙Ἦⱘⳟࠄ䞡঴ⱘᚙމ˖䖭 ܓⱘcappuccinoⳟᴹϢЎ䕀ᔩ಴ᄤ㓪ⷕⱘslp1੠slp2䞡঴њǄ䗝ᢽにষᑩ䚼ⱘ㉏߿ᣝ䪂Пϔ ህ㛑ᬍЎҹᶹⳟ᮴ᗻ㋏ˈ㔎༅ˈ䞡໡ˈצ㕂ˈᯧԡˈ䕀ᑻˈ៪݊ᅗবᓖⱘ೒ᔶ㾚೒Ǆ एᄺ᭄᥂ᑧ 㱑✊ᴀゴⱘ䞡⚍೼Ѣᑣ߫ˈԚᇍѢ⫳⠽ᄺᆊᴹ䇈ˈ䰸њߚ㉏੠㒘㒛ᑣֵ߫ᙃⱘ᭄᥂ᑧП໪ˈ 䖬᳝߿ⱘ㉏ൟⱘ᭄᥂ᑧгᕜ᳝⫼Ǆ՟བϡ෎Ѣᑣ߫ⱘֵᙃ⑤Online Mendelian Inheritance in Man˄OMIM˅ˈᅗᰃ⬅㑺㗄䳡᱂䞥ᮃ໻ᄺⱘVictor McKusick㓪䕥ⱘ݇ѢҎ㉏෎಴੠෎಴ᓖ ㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶义ⷕˈ7/8 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀Ѩゴ⫳⠽᭄᥂ᑧⱘֵᙃẔ㋶.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录