当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

《生物信息学》课程教学资源(中译本)第三章 结构数据库

资源类别:文库,文档格式:PDF,文档页数:10,文件大小:189.39KB,团购合买
本章将集中介绍生物信息学中生物分子结构的有关内容,并将研究重点放在三维结构实际存 在的氨基酸序列上,力图使读者了解结构数据库记录的内容及如何合理应用各类通用软件程 序处理这类记录。本章不涉及结构生物学家们建立三维分子结构的计算程序,也不讨论相似 蛋白质构象的精细结构。在本章参考书目后列出了一些优秀的讨论蛋白质构象的有关专著和 蛋白质结构决定方法。
点击下载完整版文档(PDF)

章结构数据库 页码,1/10 第三章结构数据库 【前介】 本章将集中介绍生物信息学中生物分子结构的有关内容,并将研究重点放在三维结构实际存 在的氨基酸序列上,力图使读者了解结构数据库记录的内容及如何合理应用各类通用软件程 序处理这类记录。本章不涉及结构生物学家们建立三维分子结构的计算程序,也不讨论相似 蛋白质构象的精细结构。在本章参考书目后列出了一些优秀的讨论蛋白质构象的有关专著和 蛋白质结构决定方法。 用图象直观表示蛋白质和核酸结构在生物化学教科书和硏究论文中屡屡出现。这些图象是美 丽迷人的反而使我们忽视了图象背后所反映的实验细节��&#0实验中应用的生物物理 方法,X射线晶体衍射学家和核磁共振波谱分析学家们努力工作的成效.在结构数据库中记录 的数据是实用化的实验数据。它既不同于直接由仪器获得的原始数据,也并非原始数据的简 单数学转换。每一个结构数据库记录都内含着随结构预测技术的进步而不断变化的假设和偏 好。尽管如此,每个生物分子结构蕴涵着有关序列所缺失数据的至关重要的信息。 ·三维分子结构数据的一些概念 首先做一个关于如何记录生物高聚物的三维数据的思想实验。考虑一下如何在纸上记录如肌 球素这类蛋白质的三维球棒模型的所有细节和尺度关系。一条开始的途径是从由三维模型主 干描绘出的氨基酸序列入手。从N端开始,我们通过将每个残基的化学结构与20种普通氨基 酸化学结构(其结构的图解可以从教科书中找到)比较,以识别每个氨基酸侧链。 旦序列被写出来,我们将绘制生物高聚物的二维草图,草图中包括所有的原子、基本符 号、化学键,可能会占用几页纸。亚化血红素配合基的绘制即为一例。将它的化学结构画在 纸上后,我们可以通过量测模型中每个原子在设定的直角坐标系中的距离记录三维数据。同 时也提供了球�棒结构中每个原子“球”的x,y,z坐标距离数据。 下一步是提出一个系统的分门别类的记录方案以保存与识别有关的每个原子的(x,y,z)坐 标信息。最简单的方法是在生物高聚物的二维草图上,每个原子的右侧,标出(x,y,z)三 元坐标值。 以上思想实验有助于我们对三维结构数据库应包含哪些内容形成初步的概念。从人类可读性 的角度而言,这样的结构记录形式是足够的,但计算机却不一定能够理解它。计算机需要原 子、化学键、坐标、残基、分子间结合关系的清晰明显的编码。 坐标、序列、化学图像 典型的三维结构记录中与使用的文件格式无关的最明显的数据是坐标数据,它表征了分子中 原子的空间位置,用沿着每个坐标轴到某特定原点的距离(x,y,z)表示。每个原子的坐标 数据归属于结构记录中的标注信息列表:空间中的每一点代表了记录中的元素、残基和分 子。对于生物多聚体,这标注信息来源于序列。每个序列固含的是重要的化学数据。我们能 够直接从序列中推断出完整的包含所有原子和化学键的生物高聚物分子化学联接,能够恰如 早先所描述的仅从序列信息出发描绘出草图。我们把这分子“草图”称作三维结构的化学图 像。序列是生物高聚物分子完整化学图谱的固有表示。 当描绘从属原子与化学键的略图以表示序列时,我们可以借鉴教科书中描绘的每个残基的化 学结构,以免露掉一两个甲基。同样地,计算机可利用“残基词典”在内存中建立结构的类 似于略图的化学图像表示,“残基词典”中则包括一组对应于每个普通氨基酸或核酸模块的 原子类型与化学键信息表。 file://E:wcb生物信息学(中译本)\第三章结构数据库.htm 2005-1-18

㄀ϝゴ㒧ᵘ᭄᥂ᑧ Ǐࠡҟǐ ᴀゴᇚ䲚Ёҟ㒡⫳⠽ֵᙃᄺЁ⫳⠽ߚᄤ㒧ᵘⱘ᳝݇ݙᆍˈᑊᇚⷨお䞡⚍ᬒ೼ϝ㓈㒧ᵘᅲ䰙ᄬ ೼ⱘ⇼෎䝌ᑣ߫Ϟˈ࡯೒Փ䇏㗙њ㾷㒧ᵘ᭄᥂ᑧ䆄ᔩⱘݙᆍঞབԩড়⧚ᑨ⫼৘㉏䗮⫼䕃ӊ⿟ ᑣ໘⧚䖭㉏䆄ᔩDŽᴀゴϡ⍝ঞ㒧ᵘ⫳⠽ᄺᆊӀᓎゟϝ㓈ߚᄤ㒧ᵘⱘ䅵ㅫ⿟ᑣˈгϡ䅼䆎ⳌԐ 㲟ⱑ䋼ᵘ䈵ⱘ㊒㒚㒧ᵘDŽ೼ᴀゴখ㗗кⳂৢ߫ߎњϔѯӬ⾔ⱘ䅼䆎㲟ⱑ䋼ᵘ䈵ⱘ᳝݇ϧ㨫੠ 㲟ⱑ䋼㒧ᵘއᅮᮍ⊩DŽ ⫼೒䈵Ⳉ㾖㸼⼎㲟ⱑ䋼੠Ḍ䝌㒧ᵘ೼⫳⠽࣪ᄺᬭ⾥к੠ⷨお䆎᭛Ёስስߎ⦃DŽ䖭ѯ೒䈵ᰃ㕢 Б䗋Ҏⱘড㗠Փ៥Ӏᗑ㾚њ೒䈵㚠ৢ᠔ড᯴ⱘᅲ偠㒚㡖���ᅲ偠Ёᑨ⫼ⱘ⫳⠽⠽⧚ ᮍ⊩ˈ;ᇘ㒓᱊ԧ㸡ᇘᄺᆊ੠Ḍ⺕݅ᤃ⊶䈅ߚᵤᄺᆊӀ࡯ࡾᎹ԰ⱘ៤ᬜ೼㒧ᵘ᭄᥂ᑧЁ䆄ᔩ ⱘ᭄᥂ᰃᅲ⫼࣪ⱘᅲ偠᭄᥂DŽᅗ᮶ϡৠѢⳈ᥹⬅Ҿ఼㦋ᕫⱘॳྟ᭄᥂ˈгᑊ䴲ॳྟ᭄᥂ⱘㅔ ऩ᭄ᄺ䕀ᤶDŽ↣ϔϾ㒧ᵘ᭄᥂ᑧ䆄ᔩ䛑ݙ৿ⴔ䱣㒧ᵘ乘⌟ᡔᴃⱘ䖯ℹ㗠ϡᮁব࣪ⱘ؛䆒੠أ དDŽሑㅵབℸˈ↣Ͼ⫳⠽ߚᄤ㒧ᵘ㭈⎉ⴔ᳝݇ᑣ߫᠔㔎༅᭄᥂ⱘ㟇݇䞡㽕ⱘֵᙃDŽ z ϝ㓈ߚᄤ㒧ᵘ᭄᥂ⱘϔѯὖᗉ 佪خܜϔϾ݇Ѣབԩ䆄ᔩ⫳⠽催㘮⠽ⱘϝ㓈᭄᥂ⱘᗱᛇᅲ偠DŽ㗗㰥ϔϟབԩ೼㒌Ϟ䆄ᔩབ㙠 ⧗㋴䖭㉏㲟ⱑ䋼ⱘϝ㓈⧗Ầ῵ൟⱘ᠔᳝㒚㡖੠ሎᑺ݇㋏DŽϔᴵᓔྟⱘ䗨ᕘᰃҢ⬅ϝ㓈῵ൟЏ ᑆᦣ㒬ߎⱘ⇼෎䝌ᑣܹ߫᠟DŽҢN’ッᓔྟˈ៥Ӏ䗮䖛ᇚ↣Ͼ⅟෎ⱘ࣪ᄺ㒧ᵘϢ20⾡᱂䗮⇼෎ 䝌࣪ᄺ㒧ᵘ˄݊㒧ᵘⱘ೒㾷ৃҹҢᬭ⾥кЁᡒࠄ↨˅䕗ˈҹ䆚߿↣Ͼ⇼෎䝌ջ䫒DŽ ϔᮺᑣ߫㹿ߎݭᴹˈ៥Ӏᇚ㒬ࠊ⫳⠽催㘮⠽ⱘѠ㓈㤝೒ˈ㤝೒Ёࣙᣀ᠔᳝ⱘॳᄤǃ෎ᴀヺ োǃ࣪ᄺ䬂ˈৃ㛑Ӯऴ⫼޴义㒌DŽѮ࣪㸔㑶㋴䜡ড়෎ⱘ㒬ࠊेЎϔ՟DŽᇚᅗⱘ࣪ᄺ㒧ᵘ⬏೼ 㒌Ϟৢˈ៥Ӏৃҹ䗮䖛䞣⌟῵ൟЁ↣Ͼॳᄤ೼䆒ᅮⱘⳈ㾦തᷛ㋏Ёⱘ䎱⾏䆄ᔩϝ㓈᭄᥂DŽৠ ᯊгᦤկњ⧗�Ầ㒧ᵘЁ↣ϾॳᄤĀ⧗āⱘ[ˈ\ˈ]തᷛ䎱⾏᭄᥂DŽ ϟϔℹᰃᦤߎϔϾ㋏㒳ⱘߚ䮼߿㉏ⱘ䆄ᔩᮍḜҹֱᄬϢ䆚߿᳝݇ⱘ↣Ͼॳᄤⱘ˄[ˈ\ˈ]˅ത ֵᷛᙃDŽ᳔ㅔऩⱘᮍ⊩ᰃ೼⫳⠽催㘮⠽ⱘѠ㓈㤝೒Ϟˈ↣Ͼॳᄤⱘেջˈᷛߎ˅[ˈ\ˈ]˄ϝ ܗതᷛؐDŽ ҹϞᗱᛇᅲ偠᳝ࡽѢ៥Ӏᇍϝ㓈㒧ᵘ᭄᥂ᑧᑨࣙ৿ાѯݙᆍᔶ៤߱ℹⱘὖᗉDŽҢҎ㉏ৃ䇏ᗻ ⱘ㾦ᑺ㗠㿔ˈ䖭ḋⱘ㒧ᵘ䆄ᔩᔶᓣᰃ䎇໳ⱘˈԚ䅵ㅫᴎैϡϔᅮ㛑໳⧚㾷ᅗDŽ䅵ㅫᴎ䳔㽕ॳ ᄤǃ࣪ᄺ䬂ǃതᷛǃ⅟෎ǃߚᄤ䯈㒧ড়݇㋏ⱘ⏙᱄ᯢᰒⱘ㓪ⷕDŽ z തᷛǃᑣ߫ǃ࣪ᄺ೒ڣ ݌ൟⱘϝ㓈㒧ᵘ䆄ᔩЁϢՓ⫼ⱘ᭛ӊḐᓣ᮴݇ⱘ᳔ᯢᰒⱘ᭄᥂ᰃത᭄ᷛ᥂ˈᅗ㸼ᕕњߚᄤЁ ॳᄤⱘぎ䯈ԡ㕂ˈ⫼⊓ⴔ↣Ͼതᷛ䕈ࠄᶤ⡍ᅮॳ⚍ⱘ䎱⾏˄[ˈ\ˈ]˅㸼⼎DŽ↣Ͼॳᄤⱘതᷛ ᭄᥂ᔦሲѢ㒧ᵘ䆄ᔩЁⱘᷛ⊼ֵᙃ߫㸼˖ぎ䯈Ёⱘ↣ϔ⚍ҷ㸼њ䆄ᔩЁⱘܗ㋴ǃ⅟෎੠ߚ ᄤDŽᇍѢ⫳⠽໮㘮ԧˈ䖭ᷛ⊼ֵᙃᴹ⑤Ѣᑣ߫DŽ↣Ͼᑣ߫೎৿ⱘᰃ䞡㽕ⱘ࣪ᄺ᭄᥂DŽ៥Ӏ㛑 ໳Ⳉ᥹Ңᑣ߫Ё᥼ᮁߎᅠᭈⱘࣙ৿᠔᳝ॳᄤ੠࣪ᄺ䬂ⱘ⫳⠽催㘮⠽ߚᄤ࣪ᄺ㘨᥹ˈ㛑໳ᙄབ ᮽܜ᠔ᦣ䗄ⱘҙҢᑣֵ߫ᙃߎথᦣ㒬ߎ㤝೒DŽ៥Ӏᡞ䖭ߚᄤĀ㤝೒ā⿄԰ϝ㓈㒧ᵘⱘ࣪ᄺ೒ ڣDŽᑣ߫ᰃ⫳⠽催㘮⠽ߚᄤᅠᭈ࣪ᄺ೒䈅ⱘ೎᳝㸼⼎DŽ ᔧᦣ㒬ҢሲॳᄤϢ࣪ᄺ䬂ⱘ⬹೒ҹ㸼⼎ᑣ߫ᯊˈ៥Ӏৃҹ׳䡈ᬭ⾥кЁᦣ㒬ⱘ↣Ͼ⅟෎ⱘ࣪ ᄺ㒧ᵘˈҹܡ䴆ᥝϔϸϾ⬆෎DŽৠḋഄˈ䅵ㅫᴎৃ߽⫼Ā⅟෎䆡݌ā೼ݙᄬЁᓎゟ㒧ᵘⱘ㉏ ԐѢ⬹೒ⱘ࣪ᄺ೒ڣ㸼⼎ˈĀ⅟෎䆡݌āЁ߭ࣙᣀϔ㒘ᇍᑨѢ↣Ͼ᱂䗮⇼෎䝌៪Ḍ䝌῵ഫⱘ ॳᄤ㉏ൟϢ࣪ᄺ䬂ֵᙃ㸼DŽ ㄀ϝゴ㒧ᵘ᭄᥂ᑧ 义ⷕˈ1/10 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϝゴ㒧ᵘ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第三章结构数据库 页码,2/10 原子、化学键和完整性 分子图像可视化软件完成了精细的“点联接”过程,而绘制出如我们在生物分子结构教科书 中所见到的完美的蛋白质结构图像,例如图3.1所示的胰岛素3NS结构( I saacs, Agarwal, 1978)。显然,原子间联接依靠化学键。在目前的应用中,三维分子结构数据库记录使用了两 种不同的键数据信息优化存储方法。 记录原子与化学键信息的经典途径是依靠“化学准则”。这些准则是显而易见的物理化学准 则,比如稳定的碳、碳键的平均长度大约1.5埃。应用这些来源于化学键的规则,意味着空间 中两个1.5埃距离的碳原子总形成单键。有了这些化学准则,我们可完全简化化学键信息存 储。倘若结构本身未违背任何化学规则,则能够被完整记录而不带任何附加键信息 最初的三维生物分子结构文件记录格式, Brookhaven蛋白质数据库( Bernstei n等,1977)的 PDB格式皆以化学准则方法为基础。一般而言,这些记录没有生物高聚物的完整键信息。无需 “残基词典”,而仅用可能成键原子对的键长与键类型匹配表即可解译用“化学准则方法 编码的数据。 PDB数据文件读入软件包必须能基于这类规则重构化学键。对于程序员,如何解释PDB文件中 的键信息尚未形成明确统一的规则,而导致了各类软件绘制化学键连接时的不一致,尤其应 用了不同的算法和距离容差,这类情况更为严重。虽然PDB文件组织方案在记录数据存储方面 的要求最低,但比较连键信息和化学图像描述已在记录中详细说明的情况,则对存储信息进 行恰当解释所需算法也相应更复杂。这将迫使程序开发者做更多的工作。基于事件的编程 中,考虑连键规则中的种种例外情况,更需要复杂的逻辑说明 第二种方法在由PDB衍生而来的分子建模数据库(MADB)的数据库记录中得到应用。MMDB运用 标准的“残基词典”,其中记录了氨基酸、核酸残基这样以聚合体形式存在,具有末端多样 性的分子中所有原子、化学键信息。在结构科学家解决分子结构而使用的专用软件中,这类 数据词典是很普遍的。读入MDB数据的软件能利用词典所提供的键信息将原子连为一体,而 无须力图满足化学准则的要求。最终,用软件获得准确的三维坐标数据。这种方法使软件开 发简单化,因为连键规则中的例外情况在数据库文件中已被记录,而无须附加逻辑控制代码 即可将之读入 些不熟悉结构数据的科学家常常希望在公共数据库中的结构信息表达类同于教科书。他们 会对结构中某部分的数据丢失感到惊讶。相应于某一特定分子的三维数据库记录的适用性并 不意味着完整性。结构的完整性定义如下:化学图像中任一原子至少有一维坐标值确定, 在结构数据库中,完整的记录是不多见的。大多数由X射线衍射获得的结构缺少氢原子坐标, 因为氢原子的空间位置不能用实验手段决定。但一些建模软件可用于估计氢原子位置,并用 其重建结构记录。在结构数据库中识别由模型构造的分子是容易的。它们常常有过于复杂的 坐标数据和所有用实验手段无法确认的氢原子可能表达形式。 【PDB: Brookhaven国家实验室蛋白质数据库】 概述 计算机在生物学中的运用起源于生物物理方法的应用,如X射线结晶衍射。于是最初的“生物 信息学”数据库被用于存储复杂的三维数据不足为怪。现代的蛋白质数据库以收集的蛋白质 三维结构公共数据为核心,附带核酸、糖类三维结构和各类由X射线衍射结晶学家、核磁共振 谱分析学家通过实验测定的合成物。本部分集中详细介绍由蛋白质数据库PDB提供的生物信息 学数据库服务 PDB数据库服务 file://E:wcb生物信息学(中译本)\第三章结构数据库.htm 2005-1-18

z ॳᄤǃ࣪ᄺ䬂੠ᅠᭈᗻ ߚᄤ೒ڣৃ㾚࣪䕃ӊᅠ៤њ㊒㒚ⱘĀ⚍㘨᥹ā䖛⿟ˈ㗠㒬ߎࠊབ៥Ӏ೼⫳⠽ߚᄤ㒧ᵘᬭ⾥к Ё᠔㾕ࠄⱘᅠ㕢ⱘ㲟ⱑ䋼㒧ᵘ೒ڣˈ՟བ೒3.1᠔⼎ⱘ㛄ቯ㋴3INS㒧ᵘ˄IsaacsˈAgarwalˈ 1978˅DŽᰒ✊ॳᄤ䯈㘨᥹ձ䴴࣪ᄺ䬂DŽ೼Ⳃࠡⱘᑨ⫼Ёˈϝ㓈ߚᄤ㒧ᵘ᭄᥂ᑧ䆄ᔩՓ⫼њϸ ⾡ϡৠⱘ䬂᭄᥂ֵᙃӬ࣪ᄬټᮍ⊩DŽ 䆄ᔩॳᄤϢ࣪ᄺ䬂ֵᙃⱘ㒣݌䗨ᕘᰃձ䴴Ā࣪ᄺޚ߭āDŽ䖭ѯޚ߭ᰃᰒ㗠ᯧ㾕ⱘ⠽⧚࣪ᄺޚ ߭ˈ↨བ〇ᅮⱘ⺇ǃ⺇䬂ⱘᑇഛ䭓ᑺ໻㑺1.5඗DŽᑨ⫼䖭ѯᴹ⑤Ѣ࣪ᄺ䬂ⱘ㾘߭ˈᛣੇⴔぎ䯈 ЁϸϾ1.5඗䎱⾏ⱘ⺇ॳᄤᘏᔶ៤ऩ䬂DŽ᳝њ䖭ѯ࣪ᄺޚˈ߭៥Ӏৃᅠܼㅔ࣪࣪ᄺ䬂ֵᙃᄬ ټDŽ׬㢹㒧ᵘᴀ䑿᳾䖱㚠ӏԩ࣪ᄺ㾘߭ˈ߭㛑໳㹿ᅠᭈ䆄ᔩ㗠ϡᏺӏԩ䰘ࡴ䬂ֵᙃDŽ ᳔߱ⱘϝ㓈⫳⠽ߚᄤ㒧ᵘ᭛ӊ䆄ᔩḐᓣˈBrookhaven㲟ⱑ䋼᭄᥂ᑧ˄Bernsteinㄝˈ1977˅ⱘ PDBḐᓣⱚҹ࣪ᄺޚ߭ᮍ⊩Ў෎⸔DŽϔ㠀㗠㿔ˈ䖭ѯ䆄ᔩ≵᳝⫳⠽催㘮⠽ⱘᅠᭈ䬂ֵᙃDŽ᮴䳔 Ā⅟෎䆡݌āˈ㗠ҙ⫼ৃ㛑៤䬂ॳᄤᇍⱘ䬂䭓Ϣ䬂㉏ൟऍ䜡㸼ेৃ㾷䆥⫼Ā࣪ᄺޚ߭ᮍ⊩” 㓪ⷕⱘ᭄᥂DŽ PDB᭄᥂᭛ӊ䇏ܹ䕃ӊࣙᖙ乏㛑෎Ѣ䖭㉏㾘߭䞡ᵘ࣪ᄺ䬂DŽᇍѢ⿟ᑣਬˈབԩ㾷䞞PDB᭛ӊЁ ⱘ䬂ֵᙃᇮ᳾ᔶ៤ᯢ⹂㒳ϔⱘ㾘߭ˈ㗠ᇐ㟈њ৘㉏䕃ӊ㒬࣪ࠊᄺ䬂䖲᥹ᯊⱘϡϔ㟈ˈᇸ݊ᑨ ⫼њϡৠⱘㅫ⊩੠䎱⾏ᆍᏂˈ䖭㉏ᚙމ᳈ЎϹ䞡DŽ㱑✊PDB᭛ӊ㒘㒛ᮍḜ೼䆄ᔩ᭄᥂ᄬټᮍ䴶 ⱘ㽕∖᳔ԢˈԚ↨䕗䖲䬂ֵᙃ੠࣪ᄺ೒ڣᦣ䗄Ꮖ೼䆄ᔩЁ䆺㒚䇈ᯢⱘᚙމ߭ˈᇍᄬټֵᙃ䖯 㸠ᙄᔧ㾷䞞᠔䳔ㅫ⊩гⳌᑨ᳈໡ᴖDŽ䖭ᇚ䖿Փ⿟ᑣᓔথ㗙خ໮᳈ⱘᎹ԰DŽ෎Ѣџӊⱘ㓪⿟ Ёˈ㗗㰥䖲䬂㾘߭Ёⱘ⾡⾡՟໪ᚙމ᳈ˈ䳔㽕໡ᴖⱘ䘏䕥䇈ᯢDŽ ㄀Ѡ⾡ᮍ⊩೼⬅PDB㸡⫳㗠ᴹⱘߚᄤᓎ῵᭄᥂ᑧ˄MMDB˅ⱘ᭄᥂ᑧ䆄ᔩЁᕫࠄᑨ⫼DŽMMDB䖤⫼ ᷛޚⱘĀ⅟෎䆡݌āˈ݊Ё䆄ᔩњ⇼෎䝌ǃḌ䝌⅟෎䖭ḋҹ㘮ড়ԧᔶᓣᄬ೼ˈ݋᳿᳝ッ໮ḋ ᗻⱘߚᄤЁ᠔᳝ॳᄤǃ࣪ᄺ䬂ֵᙃDŽ೼㒧ᵘ⾥ᄺᆊ㾷ߚއᄤ㒧ᵘ㗠Փ⫼ⱘϧ⫼䕃ӊЁˈ䖭㉏ ᭄᥂䆡݌ᰃᕜ᱂䘡ⱘDŽ䇏ܹMMDB᭄᥂ⱘ䕃ӊ㛑߽⫼䆡݌᠔ᦤկⱘ䬂ֵᙃᇚॳᄤ䖲Ўϔԧˈ㗠 ᮴乏࡯೒⒵䎇࣪ᄺޚ߭ⱘ㽕∖DŽ᳔㒜ˈ⫼䕃ӊ㦋ᕫޚ⹂ⱘϝ㓈ത᭄ᷛ᥂DŽ䖭⾡ᮍ⊩Փ䕃ӊᓔ থㅔऩ࣪಴ˈЎ䖲䬂㾘߭Ёⱘ՟໪ᚙމ೼᭄᥂ᑧ᭛ӊЁᏆ㹿䆄ᔩˈ㗠᮴乏䰘ࡴ䘏䕥᥻ࠊҷⷕ ेৃᇚП䇏ܹDŽ ϔѯϡ❳ᙝ㒧ᵘ᭄᥂ⱘ⾥ᄺᆊᐌᐌᏠᳯ೼᭄݀݅᥂ᑧЁⱘ㒧ᵘֵᙃ㸼䖒㉏ৠѢᬭ⾥кDŽҪӀ Ӯᇍ㒧ᵘЁᶤ䚼ߚⱘ᭄᥂϶༅ᛳࠄ᚞䆊DŽⳌᑨѢᶤϔ⡍ᅮߚᄤⱘϝ㓈᭄᥂ᑧ䆄ᔩⱘ䗖⫼ᗻᑊ ϡᛣੇⴔᅠᭈᗻDŽ㒧ᵘⱘᅠᭈᗻᅮНབϟ˖࣪ᄺ೒ڣЁӏϔॳᄤ㟇ᇥ᳝ϔ㓈തᷛؐ⹂ᅮDŽ ೼㒧ᵘ᭄᥂ᑧЁˈᅠᭈⱘ䆄ᔩᰃϡ໮㾕ⱘDŽ໻໮᭄⬅;ᇘ㒓㸡ᇘ㦋ᕫⱘ㒧ᵘ㔎ᇥ⇶ॳᄤതᷛˈ ಴Ў⇶ॳᄤⱘぎ䯈ԡ㕂ϡ㛑⫼ᅲ偠᠟↉އᅮDŽԚϔѯᓎ῵䕃ӊৃ⫼ѢԄ䅵⇶ॳᄤԡ㕂ˈᑊ⫼ ݊䞡ᓎ㒧ᵘ䆄ᔩDŽ೼㒧ᵘ᭄᥂ᑧЁ䆚߿ൟ῵⬅ᵘ䗴ⱘߚᄤᰃᆍᯧⱘDŽᅗӀᐌᐌ᳝䖛Ѣ໡ᴖⱘ ത᭄ᷛ᥂੠᠔᳝⫼ᅲ偠᠟↉᮴⊩⹂䅸ⱘ⇶ॳᄤৃ㛑㸼䖒ᔶᓣDŽ ǏPDB˖Brookhaven೑ᆊᅲ偠ᅸ㲟ⱑ䋼᭄᥂ᑧǐ z ὖ䗄 䅵ㅫᴎ೼⫳⠽ᄺЁⱘ䖤⫼䍋⑤Ѣ⫳⠽⠽⧚ᮍ⊩ⱘᑨ⫼ˈབ;ᇘ㒓㒧᱊㸡ᇘDŽѢᰃ᳔߱ⱘĀ⫳⠽ ֵᙃᄺā᭄᥂ᑧ㹿⫼Ѣᄬټ໡ᴖⱘϝ㓈᭄᥂ϡ䎇ЎᗾDŽ⦄ҷⱘ㲟ⱑ䋼᭄᥂ᑧҹᬊ䲚ⱘ㲟ⱑ䋼 ϝ㓈㒧ᵘ᭄݀݅᥂ЎḌᖗˈ䰘ᏺḌ䝌ǃ㊪㉏ϝ㓈㒧ᵘ੠৘㉏⬅;ᇘ㒓㸡ᇘ㒧᱊ᄺᆊǃḌ⺕݅ᤃ 䈅ߚᵤᄺᆊ䗮䖛ᅲ偠⌟ᅮⱘড়៤⠽DŽᴀ䚼ߚ䲚Ё䆺㒚ҟ㒡⬅㲟ⱑ䋼᭄᥂ᑧPDBᦤկⱘ⫳⠽ֵᙃ ᄺ᭄᥂ᑧ᳡ࡵDŽ z PDB᭄᥂ᑧ᳡ࡵ ㄀ϝゴ㒧ᵘ᭄᥂ᑧ 义ⷕˈ2/10 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϝゴ㒧ᵘ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第三章结构数据库 页码,3/10 brookhaven国家实验室(详见本章末列表)蛋白质数据库的WW站点为三维结构数据的提交、 检索提供了大量的服务。 提交结构数据 对于那些希望向PDB提交三维结构信息的人们而言,可以经由 AutoDep服务机构按照一定 的基于网页的程序步骤实现其愿望。因为提交程序是随编写时间而不断变化的,所以在 PDB的网络站点上应该能找到最新信息。核酸结构数据保存在核酸数据库NDB中。 Biotech vali dati on sui te站点是镜像站点,提供在提交结构数据前屏蔽立体化学构象 与几何学构象不一致的PDB文件的服务。 PDB明文规定拒收依靠计算机三维建模而非实验手段获得的结构数据。而关于已被宣布 为例外结构的最新细节数据的提交需与PDB商议。容纳结构模型的单独的数据库是现成 的,可以在本书的网络站点上查询有关信息。 PDB的D编码 PDB中登记入册的结构记录拥有一个唯一的包含字母与数字的被称为PDB-1D或PDB编码的四位 字符串,可由数字0~9和大写字母A~Z组合而成。因此可能的组合方案超过了130万种,没有 按某特定顺序分配PDB-D。但蛋白质数据库PDB的索引编撰者尽量设计好的记忆方法,使结构 名称易于记忆,如早先如图3.1所示的胰岛素记录3|NS。 数据库查询、PDB文件检索与链接 PDB和它的一些镜像站点提供由每个PDB记录的所有文本信息索引的文本搜索引擎,可按一些 专门的査询项目(如提交数据、作者姓名、结构表达)检索。PDB最新的搜索引擎,3DB 本数据库,支持大量的到基于因特网三维结构服务的其它网点的链接。其中包括了一些的套 Atl as,可用于PDB记录检索,如图3.2示。3 DB Atl as也是链接有PDB结构数据第三方注解的基 维、三维浏览器,如 Kinemage( Ri chardon, Ri chardon,1992)、 Resol( Sayl e, li ner&#0: Whi te,1995)。图3.2b显示了蛋白质1BNR的到3DB记录 Barnase的一些链接。创建 的图像有助于调整三维结构方向,以获得观察结合位点这类确定特征的最好视角。3 DB Atlas 也与专门设计的数据库相连,这些数据库由对诸如结构进化(FSSP:Holm, Sandar, 1993)、结构相似性(DALl:Holm, Sander,19%6)和蛋白质运动( Gerstein等,1994)等 相关课题有兴趣的研究者维护。3DB可相应链接№CBl的MDB服务( Hogue等,1996),提供了 条到 Entrez( Schuler等,1996)系统(包括序列、分类、 PubMed/ MEDI CINE服务和VAST结 构相似性比较)的通路。 源自PDB结构记录的序列 PDB文件编码格式的序列是众人皆知的。因为不能确保结构的完整,PDB记录包括两个序列信 息备份:隐性序列和显性序列。两者都被用于重构生物高聚体的化学图像。 显性序列在PDB文件中以关键词 SEORES打头逐行存储。不同于其它序列数据库,PDB记录用三 字母氨基酸编码,任意选择三个字母作为名称的非标准氨基酸在许多PDB记录序列条目中可被 找到。在PDB中,一些双螺旋核酸序列条目被指定依照在条目中按从3′到5′端的顺序排列的 条链在上,从5′到3′端排列的互补链在下的方式排列。虽然这些以双螺旋形式表达的序 列对人类而言是容易理解的,但直接由计算机阅读此类从3′到5′端排列的显性序列是荒堂 的 因为三维结构可能对应有多个生物高聚物链,所以使用者必须借助PDB链识别标记方可确定需 要的序列。PDB文件 SEORES入口用一个大写字母或空格作为链识别标记,以识别条目中的每个 单独的生物高聚体链。如图3.1所示的3NS结构,在记录中便存在两种胰岛素分子。3|NS序 file://E:wcb生物信息学(中译本)\第三章结构数据库.htm 2005-1-18

Brookhaven೑ᆊᅲ偠ᅸ˄䆺㾕ᴀゴ᳿߫㸼˅㲟ⱑ䋼᭄᥂ᑧⱘWWWキ⚍Ўϝ㓈㒧ᵘ᭄᥂ⱘᦤѸǃ Ẕ㋶ᦤկњ໻䞣ⱘ᳡ࡵDŽ z ᦤѸ㒧ᵘ᭄᥂ ᇍѢ䙷ѯᏠᳯ৥PDBᦤѸϝ㓈㒧ᵘֵᙃⱘҎӀ㗠㿔ˈৃҹ㒣⬅AutoDep᳡ࡵᴎᵘᣝ✻ϔᅮ ⱘ෎Ѣ㔥义ⱘ⿟ᑣℹ偸ᅲ⦄݊ᜓᳯDŽ಴ЎᦤѸ⿟ᑣᰃ䱣㓪ݭᯊ䯈㗠ϡᮁব࣪ⱘˈ᠔ҹ೼ PDBⱘ㔥㒰キ⚍Ϟᑨ䆹㛑ᡒࠄ᳔ᮄֵᙃDŽḌ䝌㒧ᵘ᭄᥂ֱᄬ೼Ḍ䝌᭄᥂ᑧNDBЁDŽ Biotech Validation Suiteキ⚍ᰃ䬰ڣキ⚍ˈᦤկ೼ᦤѸ㒧ᵘ᭄᥂ࠡሣ㬑ゟԧ࣪ᄺᵘ䈵 Ϣ޴ԩᄺᵘ䈵ϡϔ㟈ⱘPDB᭛ӊⱘ᳡ࡵDŽ PDBᯢ᭛㾘ᅮᢦᬊձ䴴䅵ㅫᴎϝ㓈ᓎ῵㗠䴲ᅲ偠᠟↉㦋ᕫⱘ㒧ᵘ᭄᥂DŽ㗠݇ѢᏆ㹿ᅷᏗ Ў՟໪㒧ᵘⱘ᳔ᮄ㒚㡖᭄᥂ⱘᦤѸ䳔ϢPDBଚ䆂DŽᆍ㒇㒧ᵘ῵ൟⱘऩ⣀ⱘ᭄᥂ᑧᰃ⦄៤ ⱘˈৃҹ೼ᴀкⱘ㔥㒰キ⚍Ϟᶹ䆶ֵ᳝݇ᙃDŽ z PDBⱘID㓪ⷕ PDBЁⱏ䆄ܹݠⱘ㒧ᵘ䆄ᔩᢹ᳝ϔϾଃϔⱘࣙ৿ᄫ↡Ϣ᭄ᄫⱘ㹿⿄ЎPDB-ID៪PDB㓪ⷕⱘಯԡ ᄫヺІˈৃ⬅᭄ᄫ̚੠໻ݭᄫ↡$̚=㒘ড়㗠៤DŽ಴ℸৃ㛑ⱘ㒘ড়ᮍḜ䍙䖛њ130ϛ⾡ˈ≵᳝ ᣝᶤ⡍ᅮ乎ᑣߚ䜡PDB-IDDŽԚ㲟ⱑ䋼᭄᥂ᑧPDBⱘ㋶ᓩ㓪᪄㗙ሑ䞣䆒䅵དⱘ䆄ᖚᮍ⊩ˈՓ㒧ᵘ ৡ⿄ᯧѢ䆄ᖚˈབᮽܜབ೒3.1᠔⼎ⱘ㛄ቯ㋴䆄ᔩ3INSDŽ z ᭄᥂ᑧᶹ䆶ǃPDB᭛ӊẔ㋶Ϣ䫒᥹ PDB੠ᅗⱘϔѯ䬰ڣキ⚍ᦤկ⬅↣ϾPDB䆄ᔩⱘ᠔᳝᭛ᴀֵᙃ㋶ᓩⱘ᭛ᴀ᧰㋶ᓩ᪢ˈৃᣝϔѯ ϧ䮼ⱘᶹ䆶乍Ⳃ˄བᦤѸ᭄᥂ǃ԰㗙ྦྷৡǃ㒧ᵘ㸼䖒˅Ẕ㋶DŽPDB᳔ᮄⱘ᧰㋶ᓩ᪢ˈ3DB Atlasˈৃ⫼ѢPDB䆄ᔩẔ㋶ˈབ೒3.2⼎DŽ3DB Atlasгᰃ䫒᥹᳝PDB㒧ᵘ᭄᥂㄀ϝᮍ⊼㾷ⱘ෎ ᴀ᭄᥂ᑧˈᬃᣕ໻䞣ⱘࠄ෎Ѣ಴⡍㔥ϝ㓈㒧ᵘ᳡ࡵⱘ݊ᅗ㔥⚍ⱘ䫒᥹DŽ݊ЁࣙᣀњϔѯѠ 㓈ǃϝ㓈⌣㾜఼ˈབKinemage˄RichardsonˈRichardsonˈ1992˅ǃResmol˄Sayleˈ Milner�Whiteˈ1995˅DŽ೒3.2bᰒ⼎њ㲟ⱑ䋼1BNRⱘࠄ3DB䆄ᔩBarnaseⱘϔѯ䫒᥹DŽ߯ᓎ ⱘ೒ڣ᳝ࡽѢ䇗ᭈϝ㓈㒧ᵘᮍ৥ˈҹ㦋ᕫ㾖ᆳ㒧ড়ԡ⚍䖭㉏⹂ᅮ⡍ᕕⱘ᳔ད㾚㾦DŽ3DB Atlas гϢϧ䮼䆒䅵ⱘ᭄᥂ᑧⳌ䖲ˈ䖭ѯ᭄᥂ᑧ⬅ᇍ䇌བ㒧ᵘ䖯࣪˄FSSP˖HolmˈSandarˈ 1993˅ǃ㒧ᵘⳌԐᗻ˄DALI˖HolmˈSanderˈ1996˅੠㲟ⱑ䋼䖤ࡼ˄Gersteinㄝˈ1994˅ㄝ Ⳍ݇䇒乬᳝݈䍷ⱘⷨお㗙㓈ᡸDŽ3DBৃⳌᑨ䫒᥹NCBIⱘMMDB᳡ࡵ˄Hogueㄝˈ1996˅ˈᦤկњ ϔᴵࠄEntrez˄Schulerㄝˈ1996˅㋏㒳˄ࣙᣀᑣ߫ǃߚ㉏ǃPubMed/MEDICINE᳡ࡵ੠VAST㒧 ᵘⳌԐᗻ↨䕗˅ⱘ䗮䏃DŽ z ⑤㞾PDB㒧ᵘ䆄ᔩⱘᑣ߫ PDB᭛ӊ㓪ⷕḐᓣⱘᑣ߫ᰃӫҎⱚⶹⱘDŽ಴Ўϡ㛑⹂ֱ㒧ᵘⱘᅠᭈˈPDB䆄ᔩࣙᣀϸϾᑣֵ߫ ᙃ໛ӑ˖䱤ᗻᑣ߫੠ᰒᗻᑣ߫DŽϸ㗙䛑㹿⫼Ѣ䞡ᵘ⫳⠽催㘮ԧⱘ࣪ᄺ೒ڣDŽ ᰒᗻᑣ߫೼PDB᭛ӊЁҹ݇䬂䆡SEQRESᠧ༈䗤㸠ᄬټDŽϡৠѢ݊ᅗᑣ᭄߫᥂ᑧˈPDB䆄ᔩ⫼ϝ ᄫ↡⇼෎䝌㓪ⷕˈӏᛣ䗝ᢽϝϾᄫ↡԰Ўৡ⿄ⱘ䴲ᷛޚ෎⇼䝌೼䆌໮PDB䆄ᔩᑣ߫ᴵⳂЁৃ㹿 ᡒࠄDŽ೼PDBЁˈϔѯঠ㶎ᮟḌ䝌ᑣ߫ᴵⳂ㹿ᣛᅮձ✻೼ᴵⳂЁᣝҢ3’ࠄ5’ッⱘ乎ᑣᥦ߫ⱘ ϔᴵ䫒೼ϞˈҢ5’ࠄ3’ッᥦ߫ⱘѦ㸹䫒೼ϟⱘᮍᓣᥦ߫DŽ㱑✊䖭ѯҹঠ㶎ᮟᔶᓣ㸼䖒ⱘᑣ ߫ᇍҎ㉏㗠㿔ᰃᆍᯧ⧚㾷ⱘˈԚⳈ᥹⬅䅵ㅫᴎ䯙䇏ℸ㉏Ң3’ࠄ5’ッᥦ߫ⱘᰒᗻᑣ߫ᰃ㤦ූ ⱘDŽ ಴Ўϝ㓈㒧ᵘৃ㛑ᇍᑨ᳝໮Ͼ⫳⠽催㘮⠽䫒ˈ᠔ҹՓ⫼㗙ᖙ乏ࡽ׳PDB䫒䆚߿ᷛ䆄ᮍৃ⹂ᅮ䳔 㽕ⱘᑣ߫DŽPDB᭛ӊSEQRESܹষ⫼ϔϾ໻ݭᄫ↡៪ぎḐ԰Ў䫒䆚߿ᷛ䆄ˈҹ䆚߿ᴵⳂЁⱘ↣Ͼ ऩ⣀ⱘ⫳⠽催㘮ԧ䫒DŽབ೒ˊ᠔⼎ⱘ3INS㒧ᵘˈ೼䆄ᔩЁ֓ᄬ೼ϸ⾡㛄ቯ㋴ߚᄤDŽ3INSᑣ ㄀ϝゴ㒧ᵘ᭄᥂ᑧ 义ⷕˈ3/10 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϝゴ㒧ᵘ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第三章结构数据库 页码,4/10 列包括A、B、C、D四个氨基酸序列。由胰岛素的生物化学背景知识知道A、B蛋白质链源自同 基因,在翻译修饰的过程中,胰岛素序列被切为如PDB记录所示的两段。这个信息没有在三 维结构数据库中被记录。单字母链命名方案与所枚举的大齐分子量聚合物,如衣壳病毒,的 三维结构是有困难的,因为单字母链识别器的可识别总数是有限的 PDB记录中的隐性序列蕴涵在由PDB文件中的ATOM记录及相应(X,Y,Z)位置坐标构成的化学 立体结构中。在解决诸如核酸序列后向编码或非标准氨基酸识别等利用显性序列无法明确解 决的问题时,隐性序列是十分有用的。实践中,许多PDB文件浏览器,如 Rasmol,仅用隐性序 列重构PDB记录蛋白质的化学图象,而忽略由 SEORES引导的显性序列信息。若要求这类软件打 印某不完整的分子序列,其打印结果序列在现实中将并不存在。所以说隐性序列尚不足于重 构完整的化学图像 举例说明,假设在PDB文件 SEORES条目中存在一个序列 ELVI SISALI NES,但缺少子序列ISA的 (X,Y,Z)位置坐标信息,阅读隐性序列的软件会错误地构建ELⅥSLNS的化学图象。用于 测试软件是否仅依赖隐性序列去分析结构信息的样本测试结构3TS1( Brick等,1989)在Java 维结构浏览器 Webmol中的图像如图3.3所示 PDB序列验证 为合理地检验来自PDB记录的序列,必须先获得ATOM记录中的隐性序列。这一步并不繁琐。若 结构因间断而不完整,则给定链会拥有一套隐性序列框架。每个框架与 SEORES条目中相应链 的显性序列相对应。用这种方式可产生包括可能丢失坐标信息的那部分生物序列在内的完整 化学图象。而这种验证需以MMDB、 mmcIF数据库的建立为物质基础。 由PDB结构记录衍生出来的单字母编码类型蛋白质、核酸序列检验样本最好来自 NCBI Entrez 体系的MMDB。如对胰岛素这样的序列记录系统地建立了数据库附录,利用附录: db|3NS|A,pdb|3NS|B,pdb3|Ns|C,pdb|3NS|D,可以由 Entrez中被分割的蛋白质序 列恢复完整的序列。PDB文件中包含 Swi ss-Port蛋白质数据库 DBXREF序列记录的参考说明。以 下两点需要注意:其一,因为检验程序在链接过程中未被实现,所以 Swiss-Port中的序列不 需与结构 对应;其二,许多PDB文件分类简单而含糊不清,这一点在一些源自不同种类 的分子复合物的三维结构中有所表现 【MDB:NCB的分子建模数据库】 概述 NCBI的分子模型数据库MMDD( Hogue等,1996)是 NCBI Entrez体系( Schuler等,1996)的 部分。其中囊括了由晶体衍射和核磁共振实验研究得到的所有PDB( Bernstein等,1977)生 物分子三维结构。MMDB是ASN.1记录格式,而非PDB记录格式的数据库。MDB结构与原始的PDB 结构相比,增加了一些附加信息,包括经程序验证的显性化学图像信息,一致的二级结构衍 生定义,与 MEDLINE相匹配的引用,基于源自生物实体的蛋白质或核酸链进行分类的分子匹 配 MDB数据库服务 NCB的MMDB提供了诸如被检验序列的 BLAST检索,结构-序列匹配,文件格式转换,编程界面 显示等服务。 结构记录文本查询 正如其它三维结构服务那样,MMDB数据库可利用 WW Entrez及 Network entrez( Schuler 等,1996)进行文本查询。MMDB亦称为 Entrez structure组分。MMDB检索域包含PDB、MMDB的 file://E:wcb生物信息学(中译本)\第三章结构数据库.htm 2005-1-18

߫ࣙᣀ$ǃ%ǃ&ǃ'ಯϾ⇼෎䝌ᑣ߫DŽ⬅㛄ቯ㋴ⱘ⫳⠽࣪ᄺ㚠᱃ⶹ䆚ⶹ䘧$ǃ%㲟ⱑ䋼䫒⑤㞾ৠ ϔ෎಴ˈ೼㗏䆥ׂ佄ⱘ䖛⿟Ёˈ㛄ቯ㋴ᑣ߫㹿ߛЎབPDB䆄ᔩ᠔⼎ⱘϸ↉DŽ䖭Ͼֵᙃ≵᳝೼ϝ 㓈㒧ᵘ᭄᥂ᑧЁ㹿䆄ᔩDŽऩᄫ↡䫒ੑৡᮍḜϢ᠔ᵮВⱘ໻唤ߚᄤ䞣㘮ড়⠽ˈབ㸷໇⮙↦ˈⱘ ϝ㓈㒧ᵘᰃ᳝ೄ䲒ⱘˈ಴Ўऩᄫ↡䫒䆚߿఼ⱘৃ䆚߿ᘏ᭄ᰃ᳝䰤ⱘDŽ PDB䆄ᔩЁⱘ䱤ᗻᑣ߫㭈⎉೼⬅PDB᭛ӊЁⱘATOM䆄ᔩঞⳌᑨ˄;ˈ<ˈ=˅ԡ㕂തᷛᵘ៤ⱘ࣪ᄺ ゟԧ㒧ᵘЁDŽ೼㾷އ䇌བḌ䝌ᑣ߫ৢ৥㓪ⷕ៪䴲ᷛޚ෎⇼䝌䆚߿ㄝ߽⫼ᰒᗻᑣ߫᮴⊩ᯢ⹂㾷 އⱘ䯂乬ᯊˈ䱤ᗻᑣ߫ᰃकߚ⫼᳝ⱘDŽᅲ䏉Ёˈ䆌໮PDB᭛ӊ⌣㾜఼ˈབRasmolˈҙ⫼䱤ᗻᑣ ߫䞡ᵘPDB䆄ᔩ㲟ⱑ䋼ⱘ࣪ᄺ೒䈵ˈ㗠ᗑ⬹⬅SEQRESᓩᇐⱘᰒᗻᑣֵ߫ᙃDŽ㢹㽕∖䖭㉏䕃ӊᠧ ॄᶤϡᅠᭈⱘߚᄤᑣ߫ˈ݊ᠧॄ㒧ᵰᑣ߫೼⦄ᅲЁᇚᑊϡᄬ೼DŽ᠔ҹ䇈䱤ᗻᑣ߫ᇮϡ䎇Ѣ䞡 ᵘᅠᭈⱘ࣪ᄺ೒ڣDŽ В՟䇈ᯢˈ؛䆒೼PDB᭛ӊSEQRESᴵⳂЁᄬ೼ϔϾᑣ߫ELVISISALINESˈԚ㔎ᇥᄤᑣ߫ISAⱘ ˄;ˈ<ˈ=˅ԡ㕂തֵᷛᙃˈ䯙䇏䱤ᗻᑣ߫ⱘ䕃ӊӮ䫭䇃ഄᵘᓎELVISLINESⱘ࣪ᄺ೒䈵DŽ⫼Ѣ ⌟䆩䕃ӊᰃ৺ҙձ䌪䱤ᗻᑣ߫এߚᵤ㒧ᵘֵᙃⱘḋᴀ⌟䆩㒧ᵘ3TS1˄Brickㄝˈ1989˅೼Java ϝ㓈㒧ᵘ⌣㾜఼WebmolЁⱘ೒ڣབ೒3.3᠔⼎DŽ z PDBᑣ߫偠䆕 Ўড়⧚ഄẔ偠ᴹ㞾PDB䆄ᔩⱘᑣ߫ˈᖙ乏ܜ㦋ᕫATOM䆄ᔩЁⱘ䱤ᗻᑣ߫DŽ䖭ϔℹᑊϡ㐕⧤DŽ㢹 㒧ᵘ಴䯈ᮁ㗠ϡᅠᭈˈ߭㒭ᅮ䫒Ӯᢹ᳝ϔ༫䱤ᗻᑣ߫ḚᶊDŽ↣ϾḚᶊϢSEQRESᴵⳂЁⳌᑨ䫒 ⱘᰒᗻᑣ߫ⳌᇍᑨDŽ⫼䖭⾡ᮍᓣৃѻ⫳ࣙᣀৃ㛑϶༅തֵᷛᙃⱘ䙷䚼ߚ⫳⠽ᑣ߫೼ݙⱘᅠᭈ ࣪ᄺ೒䈵DŽ㗠䖭⾡偠䆕䳔ҹMMDBǃmmCIF᭄᥂ᑧⱘᓎゟЎ⠽䋼෎⸔DŽ ⬅PDB㒧ᵘ䆄ᔩ㸡⫳ߎᴹⱘऩᄫ↡㓪ⷕ㉏ൟ㲟ⱑ䋼ǃḌ䝌ᑣ߫Ẕ偠ḋᴀ᳔དᴹ㞾NCBI Entrez ԧ㋏ⱘMMDBDŽབᇍ㛄ቯ㋴䖭ḋⱘᑣ߫䆄ᔩ㋏㒳ഄᓎゟњ᭄᥂ᑧ䰘ᔩˈ߽⫼䰘ᔩ˖ pdb|3INS|Aˈ pdb|3INS| Bˈpdb|3INS|Cˈ pdb|3INS|Dˈৃҹ⬅EntrezЁ㹿ࡆߚⱘ㲟ⱑ䋼ᑣ ߫ᘶ໡ᅠᭈⱘᑣ߫DŽPDB᭛ӊЁࣙ৿Swiss-Port㲟ⱑ䋼᭄᥂ᑧDBXREFᑣ߫䆄ᔩⱘখ㗗䇈ᯢDŽҹ ϟϸ⚍䳔㽕⊼ᛣ˖݊ϔˈ಴ЎẔ偠⿟ᑣ೼䫒᥹䖛⿟Ё᳾㹿ᅲ⦄ˈ᠔ҹSwiss-PortЁⱘᑣ߫ϡ 䳔Ϣ㒧ᵘϔǃϔᇍᑨ˗݊Ѡˈ䆌໮PDB᭛ӊߚ㉏ㅔऩ㗠৿㊞ϡ⏙ˈ䖭ϔ⚍೼ϔѯ⑤㞾ϡৠ⾡㉏ ⱘߚᄤ໡ড়⠽ⱘϝ㓈㒧ᵘЁ᳝᠔㸼⦄DŽ ǏMMDB˖NCBIⱘߚᄤᓎ῵᭄᥂ᑧǐ z ὖ䗄 NCBIⱘߚᄤ῵ൟ᭄᥂ᑧMMDD˄Hogueㄝˈ1996˅ᰃNCBI Entrezԧ㋏˄Schulerㄝˈ1996˅ⱘϔ 䚼ߚDŽ݊Ёಞᣀњ⬅᱊ԧ㸡ᇘ੠Ḍ⺕݅ᤃᅲ偠ⷨおᕫࠄⱘ᠔᳝PDB˄Bernsteinㄝˈ1977˅⫳ ⠽ߚᄤϝ㓈㒧ᵘDŽMMDBᰃASN.1䆄ᔩḐᓣˈ㗠䴲PDB䆄ᔩḐᓣⱘ᭄᥂ᑧDŽMMDB㒧ᵘϢॳྟⱘPDB 㒧ᵘⳌ↨ˈ๲ࡴњϔѯ䰘ࡴֵᙃˈࣙᣀ㒣⿟ᑣ偠䆕ⱘᰒᗻ࣪ᄺ೒ڣֵᙃˈϔ㟈ⱘѠ㑻㒧ᵘ㸡 ⫳ᅮНˈϢMEDLINEⳌऍ䜡ⱘᓩ⫼ˈ෎Ѣ⑤㞾⫳⠽ᅲԧⱘ㲟ⱑ䋼៪Ḍ䝌䫒䖯㸠ߚ㉏ⱘߚᄤऍ 䜡DŽ z MMDB᭄᥂ᑧ᳡ࡵ NCBIⱘMMDBᦤկњ䇌བ㹿Ẕ偠ᑣ߫ⱘBLASTẔ㋶ˈ㒧ᵘᑣ߫ऍ䜡ˈ᭛ӊḐᓣ䕀ᤶˈ㓪⿟⬠䴶 ᰒ⼎ㄝ᳡ࡵDŽ z 㒧ᵘ䆄ᔩ᭛ᴀᶹ䆶 ℷབ݊ᅗϝ㓈㒧ᵘ᳡ࡵ䙷ḋˈMMDB᭄᥂ᑧৃ߽⫼WWW EntrezঞNetwork Entrez˄Schuler ㄝˈ1996˅䖯㸠᭛ᴀᶹ䆶DŽMMDBѺ⿄ЎEntrez Structure㒘ߚDŽMMDBẔ㋶ඳࣙ৿PDBǃMMDBⱘ ㄀ϝゴ㒧ᵘ᭄᥂ᑧ 义ⷕˈ4/10 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϝゴ㒧ᵘ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第三章结构数据库 页码,5/10 编码,源自PDB注释记录的自由文本,作者名及其它著书目录检索域 ·MDB结构摘要 MADB的网络界面提供了每个MMDB结构记录的结构摘要网页,如图3.2b示。MMDB结构摘要 网页为结构中的每条链提供了 FASTA格式的序列,并提供了到MEDL|NE、3DB Brookhaven PDB网页及站点的链接,结构中每条氨基酸链和核酸链邻近序列的链接和到每条 链中各域间WAST结构比较服务的链接。 BLAST:新序列相似性 当研究者希望找到新序列的相似结构,NCB的 BLaST( Al tsch等,1990)在 BLAST检索 数据库pdb”中提供了MDB所有验证序列的拷贝。 BLAST网页界面,可以 FASTA格式将序列粘 贴到序列条目“箱”中,并选择相应“pdb"序列数据库,在目前公共结构数据库的所有验证 序列中进行检索。 Entrez Nel ghori ng:已知序列相似性 Entrez中的序列已经完成了 BLAST操作。依靠 Entrez的" nei ghboring”操作,可找到与给定 蛋白质序列相似的序列结构。 下面说明如何利用 Entrez” Nei ghori ng”操作以决定与已知序列相似的序列三维结构是否 存在。首先找到 W Entrez的" Search the NCBI protei n database”选项,再执行对感兴 趣序列进行检索的查询请求。如査询 oncomodul in,若在查询中检索记录摘要,可在下拉式菜 单上选择“ Structure inks"项,按 Di spl ay键可显示出两个MDB记录:IRO( Ahmed等, 1990)和|OMD。 通过执行蛋白质" nei ghori ng”邻接操作,然后从三维结构邻近的蛋白质族列表中找出链接 对象并链接,可完成细微相似性的扩展查询。仍以查询 oncomodul in为例,每个蛋白质记录将 显示有几百个“邻近”蛋白质。首先选择“邻近”蛋白质列表,再执行在包含所有“邻近 蛋白质的网页顶部的[ Di spl ay][ Structure i st]命令,结果将给出很长的包括三维结构数据 库中所有其它同源钙指蛋白质(如 parval bumi n)在内的查询清单 VAST:基于三维形状的结构相似性 ⅥAST(矢量分析检索工具, Gi bral等,1996)用于检索三维结构的相似性。它舍弃了序 列信息,而单纯依靠由二级结构衍生的三维矢量指标进行检索。ⅥAST具有检索结构相似而序 列不相似的生物高聚体的能力。如同 BLAST一样,ⅥAST可以N*N方式操作数据库中的所有条 目,并存储结果,以利于 Entrez界面快速检索。利用VAST算法,对10,000多个局部结构 匹配比较,并记录了结构之间的匹配与重叠关系如图3.2C示。ⅥAST算法是基于统计意义下的 相似性比较算法,故而检验蛋白质结构比较中偶然发生的局部结构的诸多相似性是没有必要 的。例如, sheets中有许多小片段具有显而易见的相似性,用ⅥAST检验其相似性,结论是 具有细微同源性,而这是用普通序列对比算法无法检验的。正基于此,这类相似性将提供 个关于研究蛋白质家族结构、功能、进化的更宽广的视角。 序列相似性检验程序提供了两序列的匹配信息,结构相似性检验程序提供了三维结构的 重叠信息。利用一套三维旋转、变换矩阵操作可将结构的相似部分集中在一起。一种方便的 序列匹配方法是通过蛋白质骨架中α碳的空间堆叠寻找三维重叠。除了相似结构的列表,由 ⅥAST获得的邻近结构检索结果还包括详细的残基间匹配和关于结构重叠的三维转换阵。在实 践中,选择具高度相似性的局部结构,并与DALI(Holm和 Sander,1996)比较,可知通过 ⅥAST获得的匹配是保守的。利用VAST重叠区可以容易地识别由于蛋白质进化而结构改变的区 域,因而DALl在为构建结构模型而进行的序列、结构比较中更有用。在研究蛋白质结构关系 file://E:wcb生物信息学(中译本)\第三章结构数据库.htm 2005-1-18

ID㓪ⷕˈ⑤㞾PDB⊼䞞䆄ᔩⱘ㞾⬅᭛ᴀˈ԰㗙ৡঞ݊ᅗ㨫кⳂᔩẔ㋶ඳDŽ z MMDB㒧ᵘᨬ㽕 MMDBⱘ㔥㒰⬠䴶ᦤկњ↣ϾMMDB㒧ᵘ䆄ᔩⱘ㒧ᵘᨬ㽕㔥义ˈབ೒3.2b⼎DŽMMDB㒧ᵘᨬ㽕 㔥义Ў㒧ᵘЁⱘ↣ᴵ䫒ᦤկњFASTAḐᓣⱘᑣ߫ˈᑊᦤկњࠄMEDLINEǃ3DB Atlasǃ Brookhaven PDB㔥义ঞキ⚍ⱘ䫒᥹ˈ㒧ᵘЁ↣ᴵ⇼෎䝌䫒੠Ḍ䝌䫒䚏䖥ᑣ߫ⱘ䫒᥹੠ࠄ↣ᴵ 䫒Ё৘ඳ䯈VAST㒧ᵘ↨䕗᳡ࡵⱘ䫒᥹DŽ z BLAST˖ᮄᑣ߫ⳌԐᗻ ᔧⷨお㗙Ꮰᳯᡒࠄᮄᑣ߫ⱘⳌԐ㒧ᵘˈNCBIⱘBLAST˄Altschulㄝˈ1990˅೼BLASTẔ㋶ ᭄᥂ᑧ“pdb”ЁᦤկњMMDB᠔᳝偠䆕ᑣ߫ⱘᣋ䋱DŽBLAST㔥义⬠䴶ˈৃҹFASTAḐᓣᇚᑣ߫㉬ 䌈ࠄᑣ߫ᴵⳂĀㆅāЁˈᑊ䗝ᢽⳌᑨ“pdb”ᑣ᭄߫᥂ᑧˈ೼Ⳃࠡ݀݅㒧ᵘ᭄᥂ᑧⱘ᠔᳝偠䆕 ᑣ߫Ё䖯㸠Ẕ㋶DŽ z Entrez Neighboring˖Ꮖⶹᑣ߫ⳌԐᗻ EntrezЁⱘᑣ߫Ꮖ㒣ᅠ៤њBLAST᪡԰DŽձ䴴Entrezⱘ“neighboring”᪡԰ˈৃᡒࠄϢ㒭ᅮ 㲟ⱑ䋼ᑣ߫ⳌԐⱘᑣ߫㒧ᵘDŽ ϟ䴶䇈ᯢབԩ߽⫼Entrez“ Neighboring” ᪡԰ҹއᅮϢᏆⶹᑣ߫ⳌԐⱘᑣ߫ϝ㓈㒧ᵘᰃ৺ ᄬ೼DŽ佪ܜᡒࠄWWW Entrezⱘ“Search the NCBI protein database”䗝乍ˈݡᠻ㸠ᇍᛳ݈ 䍷ᑣ߫䖯㸠Ẕ㋶ⱘᶹ䆶䇋∖DŽབᶹ䆶oncomodulinˈ㢹೼ᶹ䆶ЁẔ㋶䆄ᔩᨬ㽕ˈৃ೼ϟᢝᓣ㦰 ऩϞ䗝ᢽ“Structure links”乍ˈᣝDisplay䬂ৃᰒ⼎ߎϸϾMMDB䆄ᔩ˖IRRO˄Ahmedㄝˈ 1990˅੠IOMDDŽ 䗮䖛ᠻ㸠㲟ⱑ䋼“neighboring”䚏᥹᪡԰ˈ✊ৢҢϝ㓈㒧ᵘ䚏䖥ⱘ㲟ⱑ䋼ᮣ߫㸼Ёᡒߎ䫒᥹ ᇍ䈵ᑊ䫒᥹ˈৃᅠ៤㒚ᖂⳌԐᗻⱘᠽሩᶹ䆶DŽҡҹᶹ䆶oncomodulinЎ՟ˈ↣Ͼ㲟ⱑ䋼䆄ᔩᇚ ᰒ⼎᳝޴ⱒϾĀ䚏䖥ā㲟ⱑ䋼DŽ佪ܜ䗝ᢽĀ䚏䖥ā㲟ⱑ䋼߫㸼ˈݡᠻ㸠೼ࣙ৿᠔᳝Ā䚏䖥” 㲟ⱑ䋼ⱘ㔥义乊䚼ⱘ[Display][Structure list]ੑҸˈ㒧ᵰᇚ㒭ߎᕜ䭓ⱘࣙᣀϝ㓈㒧ᵘ᭄᥂ ᑧЁ᠔᳝݊ᅗৠ⑤䩭ᣛ㲟ⱑ䋼˄བparvalbumin˅೼ݙⱘᶹ䆶⏙ऩDŽ z VAST˖෎Ѣϝ㓈ᔶ⢊ⱘ㒧ᵘⳌԐᗻ VAST˄ⶶ䞣ߚᵤẔ㋶Ꮉ݋ˈGibralㄝˈ1996˅⫼ѢẔ㋶ϝ㓈㒧ᵘⱘⳌԐᗻDŽᅗ㟡ᓗњᑣ ֵ߫ᙃˈ㗠ऩ㒃ձ䴴⬅Ѡ㑻㒧ᵘ㸡⫳ⱘϝ㓈ⶶ䞣ᣛᷛ䖯㸠Ẕ㋶DŽVAST݋᳝Ẕ㋶㒧ᵘⳌԐ㗠ᑣ ߫ϡⳌԐⱘ⫳⠽催㘮ԧⱘ㛑࡯DŽབৠBLASTϔḋˈVASTৃҹN*Nᮍᓣ᪡԰᭄᥂ᑧЁⱘ᠔᳝ᴵ Ⳃˈᑊᄬټ㒧ᵰˈҹ߽ѢEntrez⬠䴶ᖿ䗳Ẕ㋶DŽ߽⫼VASTㅫ⊩ˈᇍ10ˈ000໮Ͼሔ䚼㒧ᵘϔϔ ऍ䜡↨䕗ˈᑊ䆄ᔩњ㒧ᵘП䯈ⱘऍ䜡Ϣ䞡঴݇㋏བ೒3.2c⼎DŽVASTㅫ⊩ᰃ෎Ѣ㒳䅵ᛣНϟⱘ ⳌԐᗻ↨䕗ㅫ⊩ˈᬙ㗠Ẕ偠㲟ⱑ䋼㒧ᵘ↨䕗Ёي✊থ⫳ⱘሔ䚼㒧ᵘⱘ䇌໮ⳌԐᗻᰃ≵᳝ᖙ㽕 ⱘDŽ՟བˈ sheetsЁ᳝䆌໮ᇣ⠛↉݋᳝ᰒ㗠ᯧ㾕ⱘⳌԐᗻˈ⫼VASTẔ偠݊ⳌԐᗻˈ㒧䆎ᰃ ݋᳝㒚ᖂৠ⑤ᗻˈ㗠䖭ᰃ⫼᱂䗮ᑣ߫ᇍ↨ㅫ⊩᮴⊩Ẕ偠ⱘDŽℷ෎Ѣℸˈ䖭㉏ⳌԐᗻᇚᦤկϔ Ͼ݇Ѣⷨお㲟ⱑ䋼ᆊᮣ㒧ᵘǃࡳ㛑ǃ䖯࣪ⱘ᳈ᆑᑓⱘ㾚㾦DŽ ᑣ߫ⳌԐᗻẔ偠⿟ᑣᦤկњϸᑣ߫ⱘऍ䜡ֵᙃˈ㒧ᵘⳌԐᗻẔ偠⿟ᑣᦤկњϝ㓈㒧ᵘⱘ 䞡঴ֵᙃDŽ߽⫼ϔ༫ϝ㓈ᮟ䕀ǃবᤶⶽ䰉᪡԰ৃᇚ㒧ᵘⱘⳌԐ䚼ߚ䲚Ё೼ϔ䍋DŽϔ⾡ᮍ֓ⱘ ᑣ߫ऍ䜡ᮍ⊩ᰃ䗮䖛㲟ⱑ䋼偼ᶊЁ ⺇ⱘぎ䯈ේ঴ᇏᡒϝ㓈䞡঴DŽ䰸њⳌԐ㒧ᵘⱘ߫㸼ˈ⬅ VAST㦋ᕫⱘ䚏䖥㒧ᵘẔ㋶㒧ᵰ䖬ࣙᣀ䆺㒚ⱘ⅟෎䯈ऍ䜡੠݇Ѣ㒧ᵘ䞡঴ⱘϝ㓈䕀ᤶ䰉DŽ೼ᅲ 䏉Ёˈ䗝ᢽ݋催ᑺⳌԐᗻⱘሔ䚼㒧ᵘˈᑊϢDALI˄Holm੠Sanderˈ1996˅↨䕗ˈৃⶹ䗮䖛 VAST㦋ᕫⱘऍ䜡ᰃֱᅜⱘDŽ߽⫼VAST䞡঴ऎৃҹᆍᯧഄ䆚߿⬅Ѣ㲟ⱑ䋼䖯࣪㗠㒧ᵘᬍবⱘऎ ඳˈ಴㗠DALI೼Ўᵘᓎ㒧ᵘ῵ൟ㗠䖯㸠ⱘᑣ߫ǃ㒧ᵘ↨䕗Ё᳈᳝⫼DŽ೼ⷨお㲟ⱑ䋼㒧ᵘ݇㋏ ㄀ϝゴ㒧ᵘ᭄᥂ᑧ 义ⷕˈ5/10 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϝゴ㒧ᵘ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第三章结构数据库 页码,6/10 时,尤其与记录蛋白质家族信息的sCP( Murai n等,1995)数据库联合使用,VAST和DAL|这 两个工具都是十分优秀的,正如图3.2d所示 【结构文件格式】 PDB PDB文件格式是纵向排列的,类同早先F0 rtraN程序员所用的打洞卡,PDB网站上保持了这种 文件格式风格。由结构科学家开发的结构软件大多由 FORTRAN语言编写。而生物信息学的其它 方面则采用了另外的语言,如C语言;PDB文件往往前后矛盾,如本章所述的那样,表面上看 起来语法容易分析,但实际上存在着不少漏洞。对初学者而言,最显著的问题是关于生物高 聚物的键信息是不存在的,而迫使利用化学规则编程,以识别由PDB命名方式命名的各原子及 提高对例外情况进行操作的鲁棒性。PDB句法分析软件常常需要同义代名词列表和例外情况列 表以正确解释信息。但本章内容不着重于阐述如何构建PDB语法, 两种新的以化学背景为基础的文件格式:mmCF(大分子化学交换格式)和MDB(分子建 模数据库)产生了。两种文件格式都力图使PDB信息现代化,两者皆以机器文法一致的数据描 述语言开头。数据描述语言采用了在编程语言中可以任何名称、任何值出现的“标记值 对。两者的格式说明皆支持机器阅读,相应软件利用这个格式说明文件检验数据流。两种软 件文件格式可通过基于匹配的利用带有显性 SEORES化学图像和文件中记载的验证信息重构固 有AT~M及HEIAⅧM化学图像的策略由PDB文件衍生出来。最终使得这两种格式在综合生物分子序 列数据库方面优于PDB格式数据库文件,它们在未来软件中的应用前景是令人鼓舞的 mmCIF 产生mCF( Bourne等,1995)文件格式的原本目的是作为小分子晶体学家熟悉的CF(化学交换 格式:HalI等,1991,基于STAR语法子集合)的扩展。用于分析验证格式说明的CF软件并非 与 mmCIF前向兼容,因为它们对STAR语法均有不同的补充。MmC|F记录的基本数据组织形式是 组关系表。MmCF把格式说明称做“mCF词典”,保存在 Rutgers大学的核酸数据库WwW站 点上。“mmCF词典”是包含保持PDB文件中存储信息及衍生自基本坐标数据的其它数据信息 (如键角信息)所需要的一系列说明。 MmCIF数据说明界面对所有的数据都是一致的,可支持 基于WW的相关数据库网络查询格式 NDB Protei n Fi nder。 靠″ mmCIF词典”检验数据流需要相当大的mC丨F数据Ⅰ/0开支。所以mCIF可能被指定为高级 存档类查询格式。用 FORTRAN和C编写的将mnCF表转换成关系表并读入内存的软件函数库是适 合于一般晶体学家所用的一些UNX工作平台的。 MMDB MADB文件格式依靠ASN.1(Rose,1990)数据描述语言定义,这类数据描述语言也可用于包 括远程通讯和自动化制造在内的其它类型领域。由于美国国家药物图书馆也用ASN.1对序列和 目录信息进行数据说明,所以MDB格式还借用了其它数据说明的特定方式,如用于描述数据 记录所引用参考著作书目的部分。ASN.1文件可以人类可读的文本文件或各种二进制文件或可 被任何硬件平台解压的二进制文件类型出现。MDB标准残基词典是一个有关标准生物高聚体 残基类型化学图像的信息查询表。MDB格式说明被保存在NCB|的 IMMDB FTP站点上。比较 mmcIF词典”, MMDB ASN.1说明更紧凑,数据条目更少,避免了衍生数据的堆积 与 mmCIF关系表设计对比,MMDB数据记录分层记录结构组织。在性能方面,ASN.1格式的MMDB 文件比mmCF或PDB记录具有更快的输入、输出流速度。所构建的层次与mCIF或PDB文件关系 设计方案比较,在加载时需要更少的检验步骤。因此ASN.1文件对于三维数据库浏览是较理想 的 file://E:wcb生物信息学(中译本)\第三章结构数据库.htm 2005-1-18

ᯊˈᇸ݊Ϣ䆄ᔩ㲟ⱑ䋼ᆊᮣֵᙃⱘSCOP˄Murzinㄝˈ1995˅᭄᥂ᑧ㘨ড়Փ⫼ˈVAST੠DALI䖭 ϸϾᎹ݋䛑ᰃकߚӬ⾔ⱘˈℷབ೒3.2d᠔⼎DŽ Ǐ㒧ᵘ᭛ӊḐᓣǐ z PDB PDB᭛ӊḐᓣᰃ㒉৥ᥦ߫ⱘˈ㉏ৠᮽܜFORTRAN⿟ᑣਬ᠔⫼ⱘᠧ⋲वˈPDB㔥キϞֱᣕњ䖭⾡ ᭛ӊḐᓣ亢ḐDŽ⬅㒧ᵘ⾥ᄺᆊᓔথⱘ㒧ᵘ䕃ӊ໻໮⬅FORTRAN䇁㿔㓪ݭDŽ㗠⫳⠽ֵᙃᄺⱘ݊ᅗ ᮍ䴶߭䞛⫼њ঺໪ⱘ䇁㿔ˈབ&䇁㿔˗PDB᭛ӊᕔᕔࠡৢ⶯Ⳓˈབᴀゴ᠔䗄ⱘ䙷ḋˈ㸼䴶Ϟⳟ 䍋ᴹ䇁⊩ᆍᯧߚᵤˈԚᅲ䰙Ϟᄬ೼ⴔϡᇥⓣ⋲DŽᇍ߱ᄺ㗙㗠㿔ˈ᳔ᰒ㨫ⱘ䯂乬ᰃ݇Ѣ⫳⠽催 㘮⠽ⱘ䬂ֵᙃᰃϡᄬ೼ⱘˈ㗠䖿Փ߽⫼࣪ᄺ㾘߭㓪⿟ˈҹ䆚߿⬅PDBੑৡᮍᓣੑৡⱘ৘ॳᄤঞ ᦤ催ᇍ՟໪ᚙމ䖯㸠᪡԰ⱘ剕ẦᗻDŽPDBহ⊩ߚᵤ䕃ӊᐌᐌ䳔㽕ৠНҷৡ䆡߫㸼੠՟໪ᚙމ߫ 㸼ҹℷ⹂㾷䞞ֵᙃDŽԚᴀゴݙᆍϡⴔ䞡Ѣ䯤䗄བԩᵘᓎPDB䇁⊩DŽ ϸ⾡ᮄⱘҹ࣪ᄺ㚠᱃Ў෎⸔ⱘ᭛ӊḐᓣ˖mmCIF˄໻ߚᄤ࣪ᄺѸᤶḐᓣ˅੠MMDB˄ߚᄤᓎ ῵᭄᥂ᑧ˅ѻ⫳њDŽϸ⾡᭛ӊḐᓣ䛑࡯೒ՓPDBֵᙃ⦄ҷ࣪ˈϸ㗙ⱚҹᴎ఼᭛⊩ϔ㟈ⱘ᭄᥂ᦣ 䗄䇁㿔ᓔ༈DŽ᭄᥂ᦣ䗄䇁㿔䞛⫼њ೼㓪⿟䇁㿔Ёৃҹӏԩৡ⿄ǃӏԩؐߎ⦃ⱘĀᷛ䆄ؐ” ᇍDŽϸ㗙ⱘḐᓣ䇈ᯢⱚᬃᣕᴎ఼䯙䇏ˈⳌᑨ䕃ӊ߽⫼䖭ϾḐᓣ䇈ᯢ᭛ӊẔ偠᭄᥂⌕DŽϸ⾡䕃 ӊ᭛ӊḐᓣৃ䗮䖛෎Ѣऍ䜡ⱘ߽᳝ᏺ⫼ᰒᗻSEQRES࣪ᄺ೒ڣ੠᭛ӊЁ䆄䕑ⱘ偠䆕ֵᙃ䞡ᵘ೎ ᳝ATOMঞHETATM࣪ᄺ೒ڣⱘㄪ⬹⬅PDB᭛ӊ㸡⫳ߎᴹDŽ᳔㒜Փᕫ䖭ϸ⾡Ḑᓣ೼㓐ড়⫳⠽ߚᄤᑣ ᭄߫᥂ᑧᮍ䴶ӬѢPDBḐᓣ᭄᥂ᑧ᭛ӊˈᅗӀ೼᳾ᴹ䕃ӊЁⱘᑨ⫼ࠡ᱃ᰃҸҎ哧㟲ⱘDŽ z mmCIF ѻ⫳mmCIF(Bourneㄝ,1995)᭛ӊḐᓣⱘॳᴀⳂⱘᰃ԰Ўᇣߚᄤ᱊ԧᄺᆊ❳ᙝⱘCIF˄࣪ᄺѸᤶ Ḑᓣ˖Hallㄝˈ1991ˈ෎ѢSTAR䇁⊩ᄤ䲚ড়˅ⱘᠽሩDŽ⫼Ѣߚᵤ偠䆕Ḑᓣ䇈ᯢⱘCIF䕃ӊᑊ䴲 ϢmmCIFࠡ৥ݐᆍˈ಴ЎᅗӀᇍSTAR䇁⊩ഛ᳝ϡৠⱘ㸹ܙDŽMmCIF䆄ᔩⱘ෎ᴀ᭄᥂㒘㒛ᔶᓣᰃ ϔ㒘݇㋏㸼DŽ MmCIFᡞḐᓣ䇈ᯢ⿄خ”mmCIF䆡݌āˈֱᄬ೼Rutgers໻ᄺⱘḌ䝌᭄᥂ᑧWWWキ ⚍ϞDŽ“mmCIF䆡݌āᰃֱࣙ৿ᣕPDB᭛ӊЁᄬټֵᙃঞ㸡⫳㞾෎ᴀത᭄ᷛ᥂ⱘ݊ᅗ᭄᥂ֵᙃ ˄བ䬂㾦ֵᙃ˅᠔䳔㽕ⱘϔ㋏߫䇈ᯢDŽMmCIF᭄᥂䇈ᯢ⬠䴶ᇍ᠔᳝ⱘ᭄᥂䛑ᰃϔ㟈ⱘˈৃᬃᣕ ෎ѢWWW ⱘⳌ᭄݇᥂ᑧ㔥㒰ᶹ䆶ḐᓣNDB Protein FinderDŽ 䴴“mmCIF䆡݌āẔ偠᭄᥂⌕䳔㽕Ⳍᔧ໻ⱘmmCIF᭄᥂I/OᓔᬃDŽ᠔ҹmmCIFৃ㛑㹿ᣛᅮЎ催㑻 ᄬḷ㉏ᶹ䆶ḐᓣDŽ⫼FORTRAN੠&㓪ݭⱘᇚmmCIF㸼䕀ᤶ៤݇㋏㸼ᑊ䇏ܹݙᄬⱘ䕃ӊߑ᭄ᑧᰃ䗖 ড়Ѣϔ㠀᱊ԧᄺᆊ᠔⫼ⱘϔѯUNIXᎹ԰ᑇৄⱘDŽ z MMDB MMDB᭛ӊḐᓣձ䴴ASN.1˄Roseˈ 1990˅᭄᥂ᦣ䗄䇁㿔ᅮНˈ䖭㉏᭄᥂ᦣ䗄䇁㿔гৃ⫼Ѣࣙ ᣀ䖰⿟䗮䆃੠㞾ࠊ࣪ࡼ䗴೼ݙⱘ݊ᅗ㉏ൟ乚ඳDŽ⬅Ѣ㕢೑೑ᆊ㥃⠽೒к佚г⫼ASN.1ᇍᑣ߫੠ Ⳃᔩֵᙃ䖯㸠᭄᥂䇈ᯢˈ᠔ҹMMDBḐᓣ䖬׳⫼њ݊ᅗ᭄᥂䇈ᯢⱘ⡍ᅮᮍᓣˈབ⫼Ѣᦣ䗄᭄᥂ 䆄ᔩ᠔ᓩ⫼খ㗗㨫԰кⳂⱘ䚼ߚDŽASN.1᭛ӊৃҹҎ㉏ৃ䇏ⱘ᭛ᴀ᭛ӊ៪৘⾡Ѡ䖯ࠊ᭛ӊ៪ৃ 㹿ӏԩ⹀ӊᑇৄ㾷य़ⱘѠ䖯ࠊ᭛ӊ㉏ൟߎ⦃DŽMMDBᷛޚ෎1/䆡݌ᰃϔϾ᳝݇ᷛޚ⫳⠽催㘮ԧ ⅟෎㉏ൟ࣪ᄺ೒ڣⱘֵᙃᶹ䆶㸼DŽMMDBḐᓣ䇈ᯢ㹿ֱᄬ೼NCBI ⱘMMDB FTPキ⚍ϞDŽ↨䕗 “mmCIF䆡݌āˈ MMDB ASN.1䇈ᯢ᳈㋻ޥˈ᭄᥂ᴵⳂ᳈ᇥˈ䙓ܡњ㸡⫳᭄᥂ⱘේ⿃DŽ ϢmmCIF݇㋏㸼䆒䅵ᇍ↨ˈMMDB᭄᥂䆄ᔩߚሖ䆄ᔩ㒧ᵘ㒘㒛DŽ೼ᗻ㛑ᮍ䴶ˈASN.1ḐᓣⱘMMDB ᭛ӊ↨mmCIF៪PDB䆄ᔩ݋᳈᳝ᖿⱘ䕧ܹǃ䕧ߎ⌕䗳ᑺDŽ᠔ᵘᓎⱘሖ⃵ϢmmCIF៪PDB᭛ӊ݇㋏ 䆒䅵ᮍḜ↨䕗ˈ೼ࡴ䕑ᯊ䳔㽕᳈ᇥⱘẔ偠ℹ偸DŽ಴ℸASN.1᭛ӊᇍѢϝ㓈᭄᥂ᑧ⌣㾜ᰃ䕗⧚ᛇ ⱘDŽ ㄀ϝゴ㒧ᵘ᭄᥂ᑧ 义ⷕˈ6/10 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϝゴ㒧ᵘ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第三章结构数据库 页码,7/10 对MDB而言,一个完整的应用编程界面是有用的,可做为包含各类C代码库与应用程序的NCB 工具箱的一部分。NCBI工具箱支持x86和基于Apha的 JWi ndows平台, Maci toch68K和 Power 处理器,以及各种类型的JNIX平台。三维结构数据库浏览器,Cn3D,便是NCBl工具箱中的 个基于MMDB-AP的附原代码的应用程序。 【结构信息显示】 多种表示类型 我们常用多种图像表示类型观察分子结构的不同面貌,蛋白质结构的典型图像如图3.4示(可 见彩色图版)。图为用 Rasmol( Sayl e和 Mi I ner- Whi te,1995)产生的金属框架类型和空间 填充模型格式的酶 barnase1BN1( Buckle等,1993)图像, 因为蛋白质结构记录1BN1在结晶体中有三种 barnase分子,所以借用文本编辑器手写PDB文件 以删除多余的链。为了使三维结构浏览器依照用户的意图进行显示,在三维分子结构软件中 编辑数据文件是习以为常的。既然如此,在三维结构中记录的衍射结晶实验数据并不是来自 “生物单元”。“生物单元”定义为三维结构的生理学形式,是目前PDB数据库实施面临的生 物信息学挑战 在我们的例子中,分子 barnase应是唯一的,但相反,对应一个晶体单 元,我们却发现了三个分子。又在如图3.3所示的其它例子3TS1( Bri ck等,1989)中,分子 是一个二聚体,但PDB文件中仅记录了相称子单元中的一个,文件的注释记录中以非解析的形 式写入了一个旋转变换阵。从对称的操作中重建生物单元是具有挑战意义的,需要专用软件 实现 图3.4a所示的金属框架类型图像清楚地显示了 barnase的化学结构特性,我们可以从交互计算 机显示的图像中看到 barnase序列轨迹。图3.4b所示的空间填充模型图像清楚地显示了生物高 聚物的表面形状和尺寸,但用这种表达,理解化学细节和键链接是很困难的。图3.4c所示的 α碳骨架图解是一种典型的结构表达方式。它显示的并非是化学键链接,但这些链接向我们 显示了蛋白质骨架中α碳的构成走向,故称之为“虚拟键”。图中选择了紫色的色氨酸侧 链,并用画圆点的方式标注出来。图解中, barnase的三个氢核区域中的三个色氨酸侧链所占 据的空间体积被加亮,以示突出 图34c所示带状模型显示了蛋白质链a- helix、shet区域中二级结构元素的组织形式 这种表示形式是很常用的,箭头指出了二级结构元素从N到C的方向,识别复合物拓扑中的 级结构最有效 图3.4中从不同视角传达的各种信息阐明了用独特的不同于其它三维图像应用程序的方法显示 三维生物高聚物结构数据的必要性。这一需求排除了来自宏观世界的诸如计算机辅助设计 (CAD)和虚拟现实建模语言包(VRML)这类软件的有效利用 描绘数据:群体、退化与动力学 利用X衍射NR技术从分子的“同步”群体(包括规则晶格的空间“同步”及由外部磁场产生 的核旋转状态行为的“同步”)推断出三维结构。群体的信息被收集为一整体。用数值方法 获得结构中原子的(X,Y,Z)坐标位置。由这些数据获得的样本的化学图像与源自实验的三 维结构数据构成的期望图像相一致。这个期望的化学图像包含源自序列的生物高聚体信息的 混合,这与例子中所提出的诸如酶作用物、添加基团、离子等已知小分子的化学图像性质相 同 分子群体应用略微不够理想的结果是出现数据库记录中退化坐标匹配,如化学图像中一个原 子对应多个坐标。当分子群体具有明显的异质构造时,将被记录在数据库中。 NR原型和集合总体 file://E:wcb生物信息学(中译本)\第三章结构数据库.htm 2005-1-18

ᇍMMDB㗠㿔ˈϔϾᅠᭈⱘᑨ⫼㓪⿟⬠䴶ᰃ᳝⫼ⱘˈৃخЎࣙ৘৿㉏&ҷⷕᑧϢᑨ⫼⿟ᑣⱘNCBI Ꮉ݋ㆅⱘϔ䚼ߚDŽNCBIᎹ݋ㆅᬃᣕx86੠෎ѢAlphaⱘWindowsᑇৄˈMacintoch 68K੠PowerPC ໘⧚఼ˈҹঞ৘⾡㉏ൟⱘUNIXᑇৄDŽϝ㓈㒧ᵘ᭄᥂ᑧ⌣㾜఼ˈCn3Dˈ֓ᰃNCBIᎹ݋ㆅЁⱘϔ Ͼ෎ѢMMDB-APIⱘ䰘ॳҷⷕⱘᑨ⫼⿟ᑣDŽ Ǐ㒧ᵘֵᙃᰒ⼎ǐ z ໮⾡㸼⼎㉏ൟ ៥Ӏᐌ⫼໮⾡೒ڣ㸼⼎㉏ൟ㾖ᆳߚᄤ㒧ᵘⱘϡৠ䴶䉠ˈ㲟ⱑ䋼㒧ᵘⱘ݌೒ൟڣབ೒3.4⼎˄ৃ 㾕ᔽ㡆೒⠜˅DŽ೒Ў⫼RasMol ˄Sayle੠ Milner-Whiteˈ1995˅ѻ⫳ⱘ䞥ሲḚᶊ㉏ൟ੠ぎ䯈 ฿ܙൟ῵Ḑᓣⱘ䝊barnase 1BN1˄Buckleㄝˈ1993˅೒ڣDŽ ಴Ў㲟ⱑ䋼㒧ᵘ䆄ᔩ1BN1೼㒧᱊ԧЁ᳝ϝ⾡barnaseߚᄤˈ᠔ҹ׳⫼᭛ᴀ㓪䕥఼᠟ݭPDB᭛ӊ ҹߴ䰸໮ԭⱘ䫒DŽЎњՓϝ㓈㒧ᵘ⌣㾜఼ձ✻⫼᠋ⱘᛣ೒䖯㸠ᰒ⼎ˈ೼ϝ㓈ߚᄤ㒧ᵘ䕃ӊЁ 㓪䕥᭄᥂᭛ӊᰃдҹЎᐌⱘDŽ᮶✊བℸˈ೼ϝ㓈㒧ᵘЁ䆄ᔩⱘ㸡ᇘ㒧᱊ᅲ偠᭄᥂ᑊϡᰃᴹ㞾 Ā⫳⠽ऩܗāDŽĀ⫳⠽ऩܗāᅮНЎϝ㓈㒧ᵘⱘ⫳⧚ᄺᔶᓣˈᰃⳂࠡPDB᭄᥂ᑧᅲᮑ䴶Јⱘ⫳ ⠽ֵᙃᄺᣥ៬ПϔDŽ೼៥Ӏⱘ՟ᄤЁˈߚᄤbarnaseᑨᰃଃϔⱘˈԚⳌডˈᇍᑨϔϾ᱊ԧऩ ܗˈ៥Ӏैথ⦄њϝϾߚᄤDŽজ೼བ೒3.3᠔⼎ⱘ݊ᅗ՟ᄤ3TS1˄Brickㄝˈ1989˅Ёˈߚᄤ ᰃϔϾѠ㘮ԧˈԚPDB᭛ӊЁҙ䆄ᔩњⳌ⿄ᄤऩܗЁⱘϔϾˈ᭛ӊⱘ⊼䞞䆄ᔩЁҹ䴲㾷ᵤⱘᔶ ᓣݭܹњϔϾᮟ䕀বᤶ䰉DŽҢᇍ⿄ⱘ᪡԰Ё䞡ᓎ⫳⠽ऩܗᰃ݋᳝ᣥ៬ᛣНⱘˈ䳔㽕ϧ⫼䕃ӊ ᅲ⦄DŽ ೒3.4a᠔⼎ⱘ䞥ሲḚᶊ㉏ൟ೒ڣ⏙Ἦഄᰒ⼎њbarnaseⱘ࣪ᄺ㒧ᵘ⡍ᗻˈ៥ӀৃҹҢѸѦ䅵ㅫ ᴎᰒ⼎ⱘ೒ڣЁⳟࠄbarnaseᑣ߫䔼䗍DŽ೒3.4b᠔⼎ⱘぎ䯈฿ܙ೒ൟ῵ڣ⏙Ἦഄᰒ⼎њ⫳⠽催 㘮⠽ⱘ㸼䴶ᔶ⢊੠ሎᇌˈԚ⫼䖭⾡㸼䖒ˈ⧚㾷࣪ᄺ㒚㡖੠䬂䫒᥹ᰃᕜೄ䲒ⱘDŽ೒3.4c᠔⼎ⱘ ⺇偼ᶊ೒㾷ᰃϔ⾡݌ൟⱘ㒧ᵘ㸼䖒ᮍᓣDŽᅗᰒ⼎ⱘᑊ䴲ᰃ࣪ᄺ䬂䫒᥹ˈԚ䖭ѯ䫒᥹৥៥Ӏ ᰒ⼎њ㲟ⱑ䋼偼ᶊЁ ⺇ⱘᵘ៤䍄৥ˈᬙ⿄ПЎĀ㰮ᢳ䬂āDŽ೒Ё䗝ᢽњ㋿㡆ⱘ㡆⇼䝌ջ 䫒ˈᑊ⫼⬏೚⚍ⱘᮍᓣᷛ⊼ߎᴹDŽ೒㾷ЁˈbarnaseⱘϝϾ⇶ḌऎඳЁⱘϝϾ㡆⇼䝌ջ䫒᠔ऴ ᥂ⱘぎ䯈ԧ⿃㹿ࡴ҂ˈҹ⼎さߎDŽ ೒3.4c᠔⼎ᏺ⢊῵ൟᰒ⼎њ㲟ⱑ䋼䫒 -helixǃ sheetऎඳЁѠ㑻㒧ᵘܗ㋴ⱘ㒘㒛ᔶᓣDŽ 䖭⾡㸼⼎ᔶᓣᰃᕜᐌ⫼ⱘˈㆁ༈ᣛߎњѠ㑻㒧ᵘܗ㋴Ң1ࠄ&ⱘᮍ৥ˈ䆚߿໡ড়⠽ᢧᠥЁⱘѠ 㑻㒧ᵘ᳔᳝ᬜDŽ ೒3.4ЁҢϡৠ㾚㾦Ӵ䖒ⱘ৘⾡ֵᙃ䯤ᯢњ⫼⣀⡍ⱘϡৠѢ݊ᅗϝ㓈೒ڣᑨ⫼⿟ᑣⱘᮍ⊩ᰒ⼎ ϝ㓈⫳⠽催㘮⠽㒧ᵘ᭄᥂ⱘᖙ㽕ᗻDŽ䖭ϔ䳔∖ᥦ䰸њᴹ㞾ᅣ㾖Ϫ⬠ⱘ䇌བ䅵ㅫᴎ䕙ࡽ䆒䅵 ˄CAD˅੠㰮ᢳ⦄ᅲᓎ῵䇁㿔ࣙ˄VRML˅䖭㉏䕃ӊⱘ᳝ᬜ߽⫼DŽ z ᦣ㒬᭄᥂˖㕸ԧǃ䗔࣪Ϣ࡯ࡼᄺ ߽;⫼㸡ᇘNMRᡔᴃҢߚᄤⱘĀৠℹā㕸ԧ˄ࣙᣀ㾘߭᱊Ḑⱘぎ䯈Āৠℹāঞ⬅໪䚼⺕എѻ⫳ ⱘḌᮟ䕀⢊ᗕ㸠ЎⱘĀৠℹā˅᥼ᮁߎϝ㓈㒧ᵘDŽ㕸ԧⱘֵᙃ㹿ᬊ䲚ЎϔᭈԧDŽ⫼᭄ؐᮍ⊩ 㦋ᕫ㒧ᵘЁॳᄤⱘ˄;ˈ<ˈ=˅തᷛԡ㕂DŽ⬅䖭ѯ᭄᥂㦋ᕫⱘḋᴀⱘ࣪ᄺ೒ڣϢ⑤㞾ᅲ偠ⱘϝ 㓈㒧ᵘ᭄᥂ᵘ៤ⱘᳳᳯ೒ڣⳌϔ㟈DŽ䖭Ͼᳳᳯⱘ࣪ᄺ೒ࣙڣ5৿㞾ᑣ߫ⱘ⫳⠽催㘮ԧֵᙃⱘ ⏋ড়ˈ䖭Ϣ՟ᄤЁ᠔ᦤߎⱘ䇌བ䝊԰⫼⠽ǃ⏏ࡴ෎ಶǃ⾏ᄤㄝᏆⶹᇣߚᄤⱘ࣪ᄺ೒ڣᗻ䋼Ⳍ ৠDŽ ߚᄤ㕸ԧᑨ⫼⬹ᖂϡ໳⧚ᛇⱘ㒧ᵰᰃߎ⦃᭄᥂ᑧ䆄ᔩЁ䗔࣪തᷛऍ䜡ˈབ࣪ᄺ೒ڣЁϔϾॳ ᄤᇍᑨ໮ϾതᷛDŽᔧߚᄤ㕸ԧ݋ᯢ᳝ᰒⱘᓖ䋼ᵘ䗴ᯊˈᇚ㹿䆄ᔩ೼᭄᥂ᑧЁDŽ z NMRॳൟ੠䲚ড়ᘏԧ ㄀ϝゴ㒧ᵘ᭄᥂ᑧ 义ⷕˈ7/10 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϝゴ㒧ᵘ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第三章结构数据库 页码,8/10 图35(见彩色图版)表示了四个三维结构,左边的由X晶体衍射得到,右边的由NR实验获 得。右边的NMR结构显得“模糊”。实际上,在这些图像中有许多不同的复杂结构首尾相连堆 积在一起 结构被称为一个“原型”,所有“原型”的集合称作“集合总体”。在“集 合总体”中的每个“原型”是一个非手性镜象的,似是而非的结构,同“集合总体”中的其 它“原型”一样,与基本的MR数据相符合。 NR结构(图3.5b、d所示)“集合总体”的图像显示了分子在溶解状态下的动态多样性。反 应于实验中,即是溶解状态下的自由分子能够进行动态结构变化。形成对比的是,X射线衍射 结构(图3.5a、c所示)提供了一幅静态分子图像。它反映了在限制动态结构变化的规则晶格 状态下实验条件。这些图像形象地说明了结构特征。若利用X射线衍射结构测量两原子间的距 离,我们将得到一个数值;而用NR结构“集合总体”,将得到一取值区间。很明显,对距离 的说明将依赖于三维结构的来源!当心忽略或未能显示结构数据库中表示的群体退化的软 件,因为这种信息的缺失会进一步导致对说明的曲解。用隐藏了“集合总体”中其它成员的 软件量测№R结构中两原子的距离将只给出单值,并不是实验学家所发现的正确的距离区间。 相对无序性 典型的X晶体衍射结构只有一个“原型”。但一些原子子集合可能还有退化的坐标,我们称这 种情况为“相对无序性”(如图3.6a示,见彩色图版)。许多X射线衍射结构数据库记录具有 “相对无序性”。三维分子图像软件常忽略“相对无序性”和“集合总体”的存在。一些应 用程序仅显示“集合总体”中的第一个“原型”,“相对无序性”集合中原子的第一个位 置,忽略其它退化的坐标值。最糟的是有时会在两个退化位置间错误地连上化学键,使得结 构图像一团糟,恰如图3.6b所示 局部动态性 一种单一技术可用于限制相同结构中不同于其它原子的构型。举例说明如下:一个多种作用 力作用的内部原子或骨架原子在NR或X衍射实验数据上是大部分一致的,因而分子表面上的 原子拥有更大的结构自由度(见图3.5b中不同残基的涂片尺寸)。内部蛋白质侧链典型地显 集合总体”上较少的柔韧性,所以可以得出结论:蛋白质内链完全缺少构型源动力。 但最敏感的生物物理方法,单色氨酸残基的荧光染色分光,具有特殊的检测色氨酸侧链构型 的多样性的能力。对这种方法进行多年的反复研究,显示在多相结构中,纯化蛋白质内部的 色氨酸布局更易出现( Beechen和 Brand,1985)。最近对这一方法的研究表明此方法能够在单 晶 erabutoxi n中检测色氨酸的折叠,而用X射线晶体学方法( Dahms和Szab0,1995)是做不到 的。在说明三维结构数据时,注意在数据中多相性是不被体现的,除了实例中提供的大部分 布局形态外,NMR和X衍射方法的结果是一致的 【数据库结构浏览器】 RasO|和基于 RasO的浏览器 些检查PDB文件的浏览器是有效的( Sanchez- Ferrer等,1995)。最流行的浏览器是 Roger Sayl e的 Rasmol( Sayl e和 Mi Iner- Whi te,1995)。 Rasmol代表了软件驱动三维图像显示的重 大进展,它的源代码对于有兴趣于高性能三维图像的任何人都是受欢迎的学习材料。 RasMol 格外小心地处理PDB数据,经常重新计算信息,以弥补在基本的数据中出现的不一致性。它并 非致力于证实PDB文件中编码的序列或结构的化学图像。 RasO|本质上即未完成基于“词典 的标准残基检验,也未完成隐性与显性序列的匹配。 RasO丨忽略了相关的混乱“集合总 次仅显示一个NMR"原型”。在PDB文件中编码的其它数据,如二硫键,不是利用直 接检验,而是通过基于化学规则的重新计算得到的。 RasMol包括许多出色的输出格式,能够被 Mol script( Grandis,1991)程序用来制作奇妙的 用于出版的 PostScript”带状图表。为了能最有效地利用 RasMol,必须掌握它的在许多传 file://E:wcb生物信息学(中译本)\第三章结构数据库.htm 2005-1-18

೒3.5˄㾕ᔽ㡆೒⠜˅㸼⼎њಯϾϝ㓈㒧ᵘˈᎺ䖍ⱘ⬅;᱊ԧ㸡ᇘᕫࠄˈে䖍ⱘ⬅NMRᅲ偠㦋 ᕫDŽে䖍ⱘNMR㒧ᵘᰒᕫĀ῵㊞āDŽᅲ䰙Ϟˈ೼䖭ѯ೒ڣЁ᳝䆌໮ϡৠⱘ໡ᴖ㒧ᵘ佪ሒⳌ䖲ේ ⿃೼ϔ䍋DŽ↣Ͼ㒧ᵘ㹿⿄ЎϔϾĀॳൟāˈ᠔᳝Āॳൟāⱘ䲚ড়⿄԰Ā䲚ড়ᘏԧāDŽ೼Ā䲚 ড়ᘏԧāЁⱘ↣ϾĀॳൟāᰃϔϾ䴲᠟ᗻ䬰䈵ⱘˈԐᰃ㗠䴲ⱘ㒧ᵘˈৠĀ䲚ড়ᘏԧāЁⱘ݊ ᅗĀॳൟāϔḋˈϢ෎ᴀⱘNMR᭄᥂Ⳍヺড়DŽ NMR㒧ᵘ˄೒3.5bǃG᠔⼎˅Ā䲚ড়ᘏԧāⱘ೒ڣᰒ⼎њߚᄤ೼⒊㾷⢊ᗕϟⱘࡼᗕ໮ḋᗻDŽড ᑨѢᅲ偠Ёˈेᰃ⒊㾷⢊ᗕϟⱘ㞾⬅ߚᄤ㛑໳䖯㸠ࡼᗕ㒧ᵘব࣪DŽᔶ៤ᇍ↨ⱘᰃˈ;ᇘ㒓㸡ᇘ 㒧ᵘ˄೒3.5aǃF᠔⼎˅ᦤկњϔᐙ䴭ᗕߚᄤ೒ڣDŽᅗড᯴њ೼䰤ࡼࠊᗕ㒧ᵘব࣪ⱘ㾘߭᱊Ḑ ⢊ᗕϟᅲ偠ᴵӊDŽ䖭ѯ೒ڣᔶ䈵ഄ䇈ᯢњ㒧ᵘ⡍ᕕDŽ㢹߽;⫼ᇘ㒓㸡ᇘ㒧ᵘ⌟䞣ϸॳᄤ䯈ⱘ䎱 ⾏ˈ៥ӀᇚᕫࠄϔϾ᭄ؐ˗㗠⫼NMR㒧ᵘĀ䲚ড়ᘏԧāˈᇚᕫࠄϔপؐऎ䯈DŽᕜᯢᰒˈᇍ䎱⾏ ⱘ䇈ᯢᇚձ䌪Ѣϝ㓈㒧ᵘⱘᴹ⑤ʽᔧᖗᗑ⬹៪᳾㛑ᰒ⼎㒧ᵘ᭄᥂ᑧЁ㸼⼎ⱘ㕸ԧ䗔࣪ⱘ䕃 ӊˈ಴Ў䖭⾡ֵᙃⱘ㔎༅Ӯ䖯ϔℹᇐ㟈ᇍ䇈ᯢⱘ᳆㾷DŽ⫼䱤㮣њĀ䲚ড়ᘏԧāЁ݊ᅗ៤ਬⱘ 䕃ӊ䞣⌟NMR㒧ᵘЁϸॳᄤⱘ䎱⾏ᇚা㒭ߎऩؐˈᑊϡᰃᅲ偠ᄺᆊ᠔থ⦄ⱘℷ⹂ⱘ䎱⾏ऎ䯈DŽ z Ⳍᇍ᮴ᑣᗻ ݌ൟⱘ;᱊ԧ㸡ᇘ㒧ᵘা᳝ϔϾĀॳൟāDŽԚϔѯॳᄤᄤ䲚ড়ৃ㛑䖬᳝䗔࣪ⱘതᷛˈ៥Ӏ⿄䖭 ⾡ᚙމЎĀⳌᇍ᮴ᑣᗻā˄བ೒3.6a⼎ˈ㾕ᔽ㡆೒⠜˅DŽ䆌໮;ᇘ㒓㸡ᇘ㒧ᵘ᭄᥂ᑧ䆄ᔩ݋᳝ ĀⳌᇍ᮴ᑣᗻāDŽϝ㓈ߚᄤ೒ڣ䕃ӊᐌᗑ⬹ĀⳌᇍ᮴ᑣᗻā੠Ā䲚ড়ᘏԧāⱘᄬ೼DŽϔѯᑨ ⫼⿟ᑣҙᰒ⼎Ā䲚ড়ᘏԧāЁⱘ㄀ϔϾĀॳൟāˈ “Ⳍᇍ᮴ᑣᗻā䲚ড়Ёॳᄤⱘ㄀ϔϾԡ 㕂ˈᗑ⬹݊ᅗ䗔࣪ⱘതᷛؐDŽ᳔㊳ⱘᰃ᳝ᯊӮ೼ϸϾ䗔࣪ԡ㕂䯈䫭䇃ഄ䖲Ϟ࣪ᄺ䬂ˈՓᕫ㒧 ᵘ೒ڣϔಶ㊳ˈᙄབ೒3.6b᠔⼎DŽ z ሔ䚼ࡼᗕᗻ ϔ⾡ऩϔᡔᴃৃ⫼Ѣ䰤ࠊⳌৠ㒧ᵘЁϡৠѢ݊ᅗॳᄤⱘᵘൟDŽВ՟䇈ᯢབϟ˖ϔϾ໮⾡԰⫼ ࡯⫼԰ⱘݙ䚼ॳᄤ៪偼ᶊॳᄤ೼NMR៪;㸡ᇘᅲ偠᭄᥂Ϟᰃ໻䚼ߚϔ㟈ⱘˈ಴㗠ߚᄤ㸼䴶Ϟⱘ ॳᄤᢹ᳝᳈໻ⱘ㒧ᵘ㞾⬅ᑺ˄㾕೒3.5bЁϡৠ⅟෎ⱘ⍖⠛ሎᇌ˅DŽݙ䚼㲟ⱑ䋼ջ䫒݌ഄൟᰒ ⼎њĀ䲚ড়ᘏԧāϞ䕗ᇥⱘᶨ䶻ᗻˈ᠔ҹৃҹᕫߎ㒧䆎˖㲟ⱑ䋼ݙ䫒ᅠܼ㔎ᇥᵘൟ⑤࡯ࡼDŽ Ԛ᳔ᬣᛳⱘ⫳⠽⠽⧚ᮍ⊩ˈऩ㡆⇼䝌⅟෎ⱘ㤻ܝᶧ㡆ܝߚˈ݋᳝⡍⅞ⱘẔ⌟㡆⇼䝌ջ䫒ᵘൟ ⱘ໮ḋᗻⱘ㛑࡯DŽᇍ䖭⾡ᮍ⊩䖯㸠໮ᑈⱘড໡ⷨおˈᰒ⼎೼໮Ⳍ㒧ᵘЁˈ㒃࣪㲟ⱑ䋼ݙ䚼ⱘ 㡆⇼䝌Ꮧሔ᳈ᯧߎ˄⦃Beechen੠Brandˈ1985)DŽ᳔䖥ᇍ䖭ϔᮍ⊩ⱘⷨお㸼ᯢℸᮍ⊩㛑໳೼ऩ ᱊erabutoxinЁẔ⌟㡆⇼䝌ⱘᡬ঴ˈ㗠⫼;ᇘ㒓᱊ԧᄺᮍ⊩˄Dahms੠Szaboˈ1995˅ᰃخϡࠄ ⱘDŽ೼䇈ᯢϝ㓈㒧ᵘ᭄᥂ᯊˈ⊼ᛣ೼᭄᥂Ё໮Ⳍᗻᰃϡ㹿ԧ⦄ⱘˈ䰸њᅲ՟Ёᦤկⱘ໻䚼ߚ Ꮧሔᔶᗕ໪ˈNMR੠;㸡ᇘᮍ⊩ⱘ㒧ᵰᰃϔ㟈ⱘ Ǐ᭄᥂ᑧ㒧ᵘ⌣㾜఼ǐ z RasMol੠෎ѢRasMolⱘ⌣㾜఼ ϔѯẔᶹPDB᭛ӊⱘ⌣㾜఼ᰃ᳝ᬜⱘ˄Sanchez-Ferrerㄝˈ1995˅DŽ᳔⌕㸠ⱘ⌣㾜఼ᰃRoger SayleⱘRasMol˄Sayle੠Milner-Whiteˈ1995˅DŽRasMolҷ㸼њ䕃ӊ偅ࡼϝ㓈೒ڣᰒ⼎ⱘ䞡 ໻䖯ሩˈᅗⱘ⑤ҷⷕᇍѢ᳝݈䍷Ѣ催ᗻ㛑ϝ㓈೒ڣⱘӏԩҎ䛑ᰃফ⃶䖢ⱘᄺдᴤ᭭DŽRasMol Ḑ໪ᇣᖗഄ໘⧚PDB᭄᥂ˈ㒣ᐌ䞡ᮄ䅵ㅫֵᙃˈҹᓹ㸹೼෎ᴀⱘ᭄᥂Ёߎ⦃ⱘϡϔ㟈ᗻDŽᅗᑊ 䴲㟈࡯Ѣ䆕ᅲPDB᭛ӊЁ㓪ⷕⱘᑣ߫៪㒧ᵘⱘ࣪ᄺ೒ڣDŽRasMolᴀ䋼Ϟे᳾ᅠ៤෎ѢĀ䆡݌“ ⱘᷛޚ෎1/Ẕ偠ˈг᳾ᅠ៤䱤ᗻϢᰒᗻᑣ߫ⱘऍ䜡DŽRasMolᗑ⬹њⳌ݇ⱘ⏋хĀ䲚ড়ᘏ ԧāˈϔ⃵ҙᰒ⼎ϔϾNMR“ॳൟāDŽ೼PDB᭛ӊЁ㓪ⷕⱘ݊ᅗ᭄᥂ˈབѠ⸿䬂ˈϡᰃ߽⫼Ⳉ ᥹Ẕ偠ˈ㗠ᰃ䗮䖛෎Ѣ࣪ᄺ㾘߭ⱘ䞡ᮄ䅵ㅫᕫࠄⱘDŽ RasMolࣙᣀ䆌໮ߎ㡆ⱘ䕧ߎḐᓣˈ㛑໳㹿Molscript˄Kranlisˈ1991˅⿟ᑣ⫼ᴹࠊ԰༛཭ⱘ ⫼Ѣߎ⠜ⱘ“PostScript”ᏺ⢊೒㸼DŽЎњ㛑᳔᳝ᬜഄ߽⫼RasMolˈᖙ乏ᥠᦵᅗⱘ೼䆌໮Ӵ ㄀ϝゴ㒧ᵘ᭄᥂ᑧ 义ⷕˈ8/10 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϝゴ㒧ᵘ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第三章结构数据库 页码,9/10 维结构程序软件中被普遍使用的命令行语言。在 Massachusetts大学由 Eric martz维护的 RasMol主页中可获得 RasMol图像显示, RasMol指南,源代码和基于用户的邮件支持列表等 RasMol操作服务 些对学术界用户免费的新软件程序日益通用,这些软件程序是基于 RasMol软件驱动三维透 视图算法和零星的PDB语法分析的,其中包括MDL公司提供的嵌入到 Netscape中的 Chi me软 件。由 Di rk Wal ther开发的 Java Appl et程序 WebMol是表面上借助 RasMol类型透视图,基于 Java的三维结构浏览器,如图3.3示。 WebMol软件已证明目前在大多数PC机和工作站上使用的 Java字节编码的编译器不足以快速地完成超过200个残基的 RasMol类型软件驱动三维透视图的 显示。这限制了 Webmol的适用对象只是小型结构和分子的实际化学键模型 MDB浏览器:Cn3D Cn3D是一种新的三维结构浏览器,用于浏览MMDB数据记录。由于MMDB数据记录克服了一些PDB 条目数据化学图像模棱两可的缺点,并且所有的键信息是“显性的”,所以Cn3D具有可靠地 显示三维数据库结构的能力,而不需要语法分析,校验和PDB文件读入程序的例外情况处理等 环节。Cn3默认的结构图像更具有资料存储与显示处理的能力,因为它不会受数据错误表达 的影响。但因为Cn3D依靠MDB中ASN.1记录的完整化学图像信息,所以它目前尚不能读入PDB 文件。 Cn3提供了一套“控制面板”,可以在三维图像的一侧隐藏或显现。例如,在三维图像顶端 显现的 Vi ewer Control面板,具有一套看起来象磁带录制机控制键的图像动画控制键,用于 逐个显示NR获得的多个结构“集合总体“或ⅥAST相似性关系图像中的重叠结构。“G0″键使 图像形成动画,当图像以动画形式显示时。用户可以旋转或放缩结构。发行前景被看好的 Cn3D2.0将具有完整的状态存储能力,使结构彩色化描述,以ASN.1结构记录形式存储信息和 手工编制PDB文件或手写文本更新成为可能。这些信息可以被不同工作平台的用户共享 其它三维浏览器:Mage、CAD和VRML 各类文件格式已被用于表示缺少化学细节的数据表达的三维生物高聚物结构数据。普通的浏 览器,例如那些用于处理“宏观”数据的工程软件或虚拟现实浏览器,可用于浏览这些文件 格式。“ Protei n Sci ence”杂志出版了这样一个通用文件格式: Ki demage( Ri chardon和 Ri chardon,1992,1994)。这是第一个被广泛运用的分子结构软件,在因特网和WwW网出现 之前,是个人计算机用户的通用软件。象 Ki demage和VRM这样的文件格式包括三维图像显示 信息,而几乎没有关于基本分子化学图像的信息。并且,在这样的文件中编码各类描述文件 是困难的。分子填充模型、金属框架模型和球棒模型等各自需要单独的RM文件,因为在文 件中必须包括每一个图像物体(圆柱体、线、球体)的明确列表 生物分子三维结构数据库记录目前与例如基于CAD软件的那些“宏观”软件工具是不兼容的, 计算机辅助设计软件技术是成熟并且具有鲁棒性的,一般优于可利用的分子结构软件。但CAD 软件和文件格式由于缺少某种用于蛋白质结构细节观察的“专门“视角和分析功能,而不能 在分子研究领域中完全适用。 查找出版的结构 作为几乎所有结构&#0;功能信息的基础,结构是真正有价值的数据,以至于一些结构科学家 不情愿将他们的数据移交给公共数据库。过去,一些杂志没有要求立刻将结构提交给 Brookhaven Protei n data bank。由于作者从未扰乱或从未选择不将他们的数据提交给公共 数据库,而导致了“不合法”的结构的增加,这种情况往往是由于用于确定结构的准则的某 部分具有多种可能性造成的。随着新的成功的折叠识别技术(如 thread ng)的出现,结构 的‘ho/ dlng back"导致发现机会的丧失。新的计算方法依靠完整的三维结构数据库。 file://E:wcb生物信息学(中译本)\第三章结构数据库.htm 2005-1-18

㒳ϝ㓈㒧ᵘ⿟ᑣ䕃ӊЁ㹿᱂䘡Փ⫼ⱘੑҸ㸠䇁㿔DŽ೼Massachusetts໻ᄺ⬅Eric Martz㓈ᡸⱘ RasMolЏ义Ёৃ㦋ᕫRasMol೒ڣᰒ⼎ˈRasMolᣛफˈ⑤ҷⷕ੠෎Ѣ⫼᠋ⱘ䚂ӊᬃᣕ߫㸼ㄝ RasMol᪡԰᳡ࡵDŽ ϔѯᇍᄺᴃ⬠⫼᠋ܡ䌍ⱘᮄ䕃ӊ⿟ᑣ᮹Ⲟ䗮⫼ˈ䖭ѯ䕃ӊ⿟ᑣᰃ෎ѢRasMol䕃ӊ偅ࡼϝ㓈䗣 㾚೒ㅫ⊩੠䳊᯳ⱘPDB䇁⊩ߚᵤⱘˈ݊ЁࣙᣀMDLL݀ৌᦤկⱘጠܹࠄNetscapeЁⱘChime䕃 ӊDŽ⬅Dirk WaltherᓔথⱘJava Applet⿟ᑣWebMolᰃ㸼䴶Ϟࡽ׳RasMol㉏ൟ䗣㾚೒ˈ෎Ѣ Javaⱘϝ㓈㒧ᵘ⌣㾜఼ˈབ೒3.3⼎DŽWebMol䕃ӊᏆ䆕ᯢⳂࠡ೼໻໮᭄PCᴎ੠Ꮉ԰キϞՓ⫼ⱘ Javaᄫ㡖㓪ⷕⱘ㓪䆥఼ϡ䎇ҹᖿ䗳ഄᅠ៤䍙䖛200Ͼ⅟෎ⱘRasMol㉏ൟ䕃ӊ偅ࡼϝ㓈䗣㾚೒ⱘ ᰒ⼎DŽ䖭䰤ࠊњWebMolⱘ䗖⫼ᇍ䈵াᰃᇣൟ㒧ᵘ੠ߚᄤⱘᅲ䰙࣪ᄺ䬂῵ൟDŽ z MMDB⌣㾜఼˖Cn3D Cn3Dᰃϔ⾡ᮄⱘϝ㓈㒧ᵘ⌣㾜఼ˈ⫼Ѣ⌣㾜MMDB᭄᥂䆄ᔩDŽ⬅ѢMMDB᭄᥂䆄ᔩܟ᳡њϔѯPDB ᴵⳂ᭄᥂࣪ᄺ೒ڣ῵ễϸৃⱘ㔎⚍ˈᑊϨ᠔᳝ⱘ䬂ֵᙃᰃĀᰒᗻⱘāˈ᠔ҹCn3D݋ৃ᳝䴴ഄ ᰒ⼎ϝ㓈᭄᥂ᑧ㒧ᵘⱘ㛑࡯ˈ㗠ϡ䳔㽕䇁⊩ߚᵤˈ᷵偠੠PDB᭛ӊ䇏ܹ⿟ᑣⱘ՟໪ᚙމ໘⧚ㄝ ⦃㡖DŽCn3D咬䅸ⱘ㒧ᵘ೒ڣ᳈݋᳝䌘᭭ᄬټϢᰒ⼎໘⧚ⱘ㛑࡯಴ˈЎᅗϡӮফ᭄᥂䫭䇃㸼䖒 ⱘᕅડDŽԚ಴ЎCn3Dձ䴴MMDBЁASN.1䆄ᔩⱘᅠᭈ࣪ᄺ೒ڣֵᙃˈ᠔ҹᅗⳂࠡᇮϡ㛑䇏ܹPDB ᭛ӊDŽ Cn3Dᦤկњϔ༫Ā᥻ࠊ䴶ᵓāˈৃҹ೼ϝ㓈೒ڣⱘϔջ䱤㮣៪ᰒ⦄DŽ՟བˈ೼ϝ㓈೒ڣ乊ッ ᰒ⦄ⱘViewer Control䴶ᵓˈ݋᳝ϔ༫ⳟ䍋ᴹ䈵⺕ᏺᔩࠊᴎ᥻ࠊ䬂ⱘ೒ࡼڣ᥻⬏ࠊ䬂ˈ⫼Ѣ 䗤Ͼᰒ⼎NMR㦋ᕫⱘ໮Ͼ㒧ᵘĀ䲚ড়ᘏԧĀ៪VASTⳌԐᗻ݇㋏೒ڣЁⱘ䞡঴㒧ᵘDŽ“GO”䬂Փ ೒ڣᔶ៤ࡼˈ⬏ᔧ೒ڣҹࡼ⬏ᔶᓣᰒ⼎ᯊDŽ⫼᠋ৃҹᮟ䕀៪ᬒ㓽㒧ᵘDŽথ㸠ࠡ᱃㹿ⳟདⱘ Cn3D 2.0ᇚ݋᳝ᅠᭈⱘ⢊ᗕᄬټ㛑࡯ˈՓ㒧ᵘᔽ㡆࣪ᦣ䗄ˈҹASN.1㒧ᵘ䆄ᔩᔶᓣᄬټֵᙃ੠ ᠟Ꮉ㓪ࠊPDB᭛ӊ៪᠟ݭ᭛ᴀ᳈ᮄ៤Ўৃ㛑DŽ䖭ѯֵᙃৃҹ㹿ϡৠᎹ԰ᑇৄⱘ⫼᠋݅ѿDŽ z ݊ᅗϝ㓈⌣㾜఼˖MageǃCAD੠VRML ৘㉏᭛ӊḐᓣᏆ㹿⫼Ѣ㸼⼎㔎ᇥ࣪ᄺ㒚㡖ⱘ᭄᥂㸼䖒ⱘϝ㓈⫳⠽催㘮⠽㒧ᵘ᭄᥂DŽ᱂䗮ⱘ⌣ 㾜఼ˈ՟བ䙷ѯ⫼Ѣ໘⧚Āᅣ㾖ā᭄᥂ⱘᎹ⿟䕃ӊ៪㰮ᢳ⦄ᅲ⌣㾜఼ˈৃ⫼Ѣ⌣㾜䖭ѯ᭛ӊ ḐᓣDŽ“Protein Science”ᴖᖫߎ⠜њ䖭ḋϔϾ䗮⫼᭛ӊḐᓣ˖Kinemage˄Richardson੠ Richardsonˈ1992ˈ1994˅DŽ䖭ᰃ㄀ϔϾ㹿ᑓ⊯䖤⫼ⱘߚᄤ㒧ᵘ䕃ӊˈ೼಴⡍㔥੠WWW㔥ߎ⦃ ПࠡˈᰃϾҎ䅵ㅫᴎ⫼᠋ⱘ䗮⫼䕃ӊDŽ䈵Kinemage੠VRML䖭ḋⱘ᭛ӊḐᓣࣙᣀϝ㓈೒ڣᰒ⼎ ֵᙃˈ㗠޴Т≵᳝݇Ѣ෎ᴀߚᄤ࣪ᄺ೒ڣⱘֵᙃDŽᑊϨˈ೼䖭ḋⱘ᭛ӊЁ㓪ⷕ৘㉏ᦣ䗄᭛ӊ ᰃೄ䲒ⱘDŽߚᄤ฿ܙൟ῵ǃ䞥ሲḚᶊ῵ൟ੠⧗Ầ῵ൟㄝ৘㞾䳔㽕ऩ⣀ⱘVRML᭛ӊˈ಴Ў೼᭛ ӊЁᖙ乏ࣙᣀ↣ϔϾ೒ڣ⠽ԧ˄೚᷅ԧǃ㒓ǃ⧗ԧ˅ⱘᯢ⹂߫㸼DŽ ⫳⠽ߚᄤϝ㓈㒧ᵘ᭄᥂ᑧ䆄ᔩⳂࠡϢ՟བ෎ѢCAD䕃ӊⱘ䙷ѯĀᅣ㾖ā䕃ӊᎹ݋ᰃϡݐᆍⱘˈ 䅵ㅫᴎ䕙ࡽ䆒䅵䕃ӊᡔᴃᰃ៤❳ᑊϨ݋᳝剕Ầᗻⱘˈϔ㠀ӬѢৃ߽⫼ⱘߚᄤ㒧ᵘ䕃ӊDŽԚCAD 䕃ӊ੠᭛ӊḐᓣ⬅Ѣ㔎ᇥᶤ⾡⫼Ѣ㲟ⱑ䋼㒧ᵘ㒚㡖㾖ᆳⱘĀϧ䮼Ā㾚㾦੠ߚᵤࡳ㛑ˈ㗠ϡ㛑 ೼ߚᄤⷨお乚ඳЁᅠܼ䗖⫼DŽ z ᶹᡒߎ⠜ⱘ㒧ᵘ ԰Ў޴Т᠔᳝㒧ᵘ&#0;ࡳ㛑ֵᙃⱘ෎⸔ˈ㒧ᵘᰃⳳℷ᳝Ӌؐⱘ᭄᥂ˈҹ㟇Ѣϔѯ㒧ᵘ⾥ᄺᆊ ϡᚙᜓᇚҪӀⱘ᭄᥂⿏Ѹ㒭᭄݀݅᥂ᑧDŽ䖛এˈϔѯᴖᖫ≵᳝㽕∖ゟࠏᇚ㒧ᵘᦤѸ㒭 Brookhaven Protein Data BankDŽ⬅Ѣ԰㗙Ң᳾ᡄх៪Ң᳾䗝ᢽϡᇚҪӀⱘ᭄᥂ᦤѸ㒭݀݅ ᭄᥂ᑧˈ㗠ᇐ㟈њĀϡড়⊩āⱘ㒧ᵘⱘ๲ࡴˈ䖭⾡ᚙމᕔᕔᰃ⬅Ѣ⫼Ѣ⹂ᅮ㒧ᵘⱘޚ߭ⱘᶤ ϔ䚼݋ߚৃ辵໮᳝㛑ᗻ䗴៤ⱘDŽ䱣ⴔᮄⱘ៤ࡳⱘᡬ঴䆚߿ᡔᴃ˄བthreading˅ⱘߎ⦃㒧ᵘ ⱘ“holding back”ᇐ㟈থ⦄ᴎӮⱘϻ༅DŽᮄⱘ䅵ㅫᮍ⊩ձ䴴ᅠᭈⱘϝ㓈㒧ᵘ᭄᥂ᑧDŽ ㄀ϝゴ㒧ᵘ᭄᥂ᑧ 义ⷕˈ9/10 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϝゴ㒧ᵘ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

第三章结构数据库 页码,10/10 告诉一个结构的著者应从出版的著作而不是从这里列出的数据库中获得三维结构是必要的。 在获得结构之前,结构科学家应首先找到描述感兴趣坐标的原始文献。下一步,利用 Bro0 haven protein data bank中的“ Pendi ng/ Wai ting Li st”进行完全的检索,看看是否 结构数据正在被处理或仍在“架上“。如果这些可能性已被排除,给文献的主要著者发封 信,直接从中获取坐标信息。通常,著者将提供原始的PDB文件,这种文件能够在其他硏究者 的PDB软件中浏览之前,尚需要一些编辑(通常是重编号)。如果必须编辑PDB文件,应首先 学习其它PDB文件的结构及查阅在线的PDB格式文本。 返回目录 返回茶庄 file://E:wcb生物信息学(中译本)\第三章结构数据库.htm 2005-1-18

ਞ䆝ϔϾ㒧ᵘⱘ㨫㗙ᑨҢߎ⠜ⱘ㨫԰㗠ϡᰃҢ䖭䞠߫ߎⱘ᭄᥂ᑧЁ㦋ᕫϝ㓈㒧ᵘᰃᖙ㽕ⱘDŽ ೼㦋ᕫ㒧ᵘПࠡˈ㒧ᵘ⾥ᄺᆊᑨ佪ܜᡒࠄᦣ䗄ᛳ݈䍷തᷛⱘॳྟ᭛⤂DŽϟϔℹˈ߽⫼ Brookhaven Protein Data BankЁⱘ“Pending/Waiting List”䖯㸠ᅠܼⱘẔ㋶ˈⳟⳟᰃ৺ 㒧ᵘ᭄᥂ℷ೼㹿໘⧚៪ҡ೼ĀᶊϞĀDŽབᵰ䖭ѯৃ㛑ᗻᏆ㹿ᥦ䰸ˈ㒭᭛⤂ⱘЏ㽕㨫㗙থᇕ ֵˈⳈ᥹ҢЁ㦋পതֵᷛᙃDŽ䗮ᐌˈ㨫㗙ᇚᦤկॳྟⱘPDB᭛ӊˈ䖭⾡᭛ӊ㛑໳೼݊Ҫⷨお㗙 ⱘPDB䕃ӊЁ⌣㾜Пࠡˈᇮ䳔㽕ϔѯ㓪䕥˄䗮ᐌᰃ䞡㓪ো˅DŽབᵰᖙ乏㓪䕥PDB᭛ӊˈᑨ佪ܜ ᄺд݊ᅗPDB᭛ӊⱘ㒧ᵘঞᶹ䯙೼㒓ⱘPDBḐᓣ᭛ᴀDŽ Ϟϔ义 ϟϔ义 䖨ಲⳂᔩ 䖨ಲ㤊ᑘ ㄀ϝゴ㒧ᵘ᭄᥂ᑧ 义ⷕˈ10/10 file://E:\wcb\⫳⠽ֵᙃᄺ˄Ё䆥ᴀ˅?㄀ϝゴ㒧ᵘ᭄᥂ᑧ.htm 2005-1-18 Click to buy NOW! PDF-XCHANGE www.docu-track.com Click to buy NOW! PDF-XCHANGE www.docu-track.com

点击下载完整版文档(PDF)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
已到末页,全文结束
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有