第六章核酸序列分析 DNA序列自身编码特征的分析是基因组信息学研究的基础,特别是随着大规模测序的日 益増加,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、 载体标识与去除、拼接、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都 是紧密依赖基因组信息学的软件和数据库。特别是拼接和填补序列间隙更需要把实验设计和 信息分析时刻联系在一起。 基因组不仅是基因的简单排列,更重要的是它有其特有的组织结构和信息结构,这种结 构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。利用国际EST数据库 ( dbest)和各实验室测定的相应数据,经过大规模并行计算识别并预测新基因,新SNPs以 及各种功能位点,如剪接与可变剪接位点等 到1998年底在人类的约10万个基因中有3万多个已被发现,尚有约7万个未被发 现。由于新基因带来的显著经济效益和社会效益,它们成为了各国科学家当前争夺的热点。 EST序列( Expressed Sequence Tags)到1999年12月已搜集了约200万条,它大约覆 盖了人类基因的90%,因此如何利用这些信息发现新基因成了近几年的重要研究课题。同 时1998年国际上又开展了以EST为主发现新SNPs的研究。因此利用EST数据库发现新 基因、新SNPs以及各种功能位点是近几年的重要研究方向 虽然对约占人类基因组95%的非编码区的作用人们还不清楚,但从生物进化的观点看 来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调 控有关。寻找这些区域的编码特征,信息调节与表达规律是未来相当长时间内的热点,是取 得重要成果的源泉。 在不同物种、不同进化水平的生物的相关基因之间进行比较分析,是基因研究的重要手 段。目前,模式生物全基因组序列数据越来越多,因此,基因的比较研究,也必须从基因的 比较,上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研究将更有效地 揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。 6.1基因组序列分析工具 1. Wisconsin软件包(cCG) Genetics Computer group公司开发的 Wisconsin软件包,是一组综合性的序列分析 程序,使用公用的核酸和蛋白质数据库。 Sealab是其图形用户界面(GUI),通过它可 以使用所有 Wisconsin软件包中的程序及其支持的数据库。此外,它还提供了一个环境用 于创建、显示、编辑和注释序列。 Sealab也可以被扩展使其可以包括其它公用或非公用的 程序和数据库。 Wisconsin软件包由120多个独立的程序组成,每个程序进行一项单一的分析任务。包 括所有程序的完整目录以及详细的描述可以在 Wisconsin软件包的程序使用文档中找到。 GCG支持两种核酸数据库( GenBank数据库,简化版的EMBL核酸序列数据库)和三种蛋白质数 据库(PIR, SWISS-PROT,SP- TrEMBL)。这些数据库既有GCG格式的(供大多数 Wisconsin软
第六章 核酸序列分析 DNA 序列自身编码特征的分析是基因组信息学研究的基础,特别是随着大规模测序的日 益增加,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、 载体标识与去除、拼接、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都 是紧密依赖基因组信息学的软件和数据库。特别是拼接和填补序列间隙更需要把实验设计和 信息分析时刻联系在一起。 基因组不仅是基因的简单排列,更重要的是它有其特有的组织结构和信息结构,这种结 构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。利用国际 EST 数据库 (dbEST) 和各实验室测定的相应数据,经过大规模并行计算识别并预测新基因,新 SNPs 以 及各种功能位点,如剪接与可变剪接位点等。 到 1998 年底在人类的约 10 万个基因中有 3 万多个已被发现,尚有约 7 万个未被发 现。由于新基因带来的显著经济效益和社会效益,它们成为了各国科学家当前争夺的热点。 EST 序列 (Expressed Sequence Tags) 到 1999 年 12 月已搜集了约 200 万条,它大约覆 盖了人类基因的 90 %,因此如何利用这些信息发现新基因成了近几年的重要研究课题。同 时 1998 年国际上又开展了以 EST 为主发现新 SNPs 的研究。因此利用 EST 数据库发现新 基因、新 SNPs 以及各种功能位点是近几年的重要研究方向。 虽然对约占人类基因组 95 %的非编码区的作用人们还不清楚,但从生物进化的观点看 来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调 控有关。寻找这些区域的编码特征,信息调节与表达规律是未来相当长时间内的热点,是取 得重要成果的源泉。 在不同物种、不同进化水平的生物的相关基因之间进行比较分析,是基因研究的重要手 段。目前,模式生物全基因组序列数据越来越多,因此,基因的比较研究,也必须从基因的 比较,上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研究将更有效地 揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。 6.1 基因组序列分析工具 1. Wisconsin 软件包( GCG ) Genetics Computer Group 公司开发的 Wisconsin 软件包,是一组综合性的序列分析 程序,使用公用的核酸和蛋白质数据库。 SeqLab 是其图形用户界面( GUI ),通过它可 以使用所有 Wisconsin 软件包中的程序及其支持的数据库。此外,它还提供了一个环境用 于创建、显示、编辑和注释序列。 SeqLab 也可以被扩展使其可以包括其它公用或非公用的 程序和数据库。 Wisconsin 软件包由 120 多个独立的程序组成,每个程序进行一项单一的分析任务。包 括所有程序的完整目录以及详细的描述可以在 Wisconsin 软件包的程序使用文档中找到。 GCG支持两种核酸数据库(GenBank数据库, 简化版的 EMBL核酸序列数据库)和三种蛋白质数 据库(PIR,SWISS-PROT, SP-TrEMBL)。这些数据库既有 GCG 格式的(供大多数 Wisconsin 软
件包程序使用),也有 BLAST格式的(供 BLAST数据库搜索程序使用)。同时还提供了用于 LookUp程序以及数据库参考搜索的索引。 关于GCG, Wisconsin软件包,支持的平台以及硬件需求的一般性信息可以在GCG的主 页以及 Wisconsin软件包的用户手册中找到。GCG主页提供了更新信息以及 Wisconsin软件 包程序的完整列表 Sealab中可以使用多个序列分析程序的特性使用户可以应用这些程序顺序地回答相关 问题或在对输入序列进行编辑后重复某项分析。而可以同时访问公用数据库和本机序列的优 点使用户可以在一个分析中使用其中任意一种而不用先进行转换或格式化的工作。 Sealab 可以解决的序列分析问题 (1)在两条mNMA中寻找开放阅读框架,翻译并对比RM与蛋白质序列 对两条相关的mRNA进行测序的用户可能希望寻找开放阅读框架(ORF)、翻译以及进行 核酸与氨基酸序列间的两两对比 把序列加入 Sealab editor中,从 Functions菜单中选中Map选项运行Map程序。Map 输出文件包含了限制性酶切图和6种可能的翻译框架的ORF的显示。这些ORF的起始和终止 位置可进行标记并选为 Sealab editor中序列显示的范围,然后可用Edit菜单的 Translate 操作进行翻译。翻译结果自动出现在 Sealab editor中, 两条相关的核酸或蛋白质序列可用Gap程序或 Bestfit程序进行对比。Gap程序寻找两 条序列间的全局最优对比结果。适用于两条待比对的序列是进化相关的情况。 Bestfit程序 寻找两条序列的局部最优对比结果,它适用于两条序列不是进化相关而是功能相关的情况。 (2)通过参考搜索寻找数据库中的相关条目并进行对比 研究一个特征序列家族成员的用户可能希望寻找这个家族中的其它成员并建立它们的 多序列对比。 从 Functions菜单中选取 LookUp程序。 LookUp在数据库条目的参考信息部分搜索描述 词并建立匹配条目的列表。在参考部分的 Definiton, Author, Keyword和 Organism域中搜 索描述词并在词之间使用“and”(&)、“or”(|)以及“ but not”(!)布尔表达式。 例如,在 SWISS-PRQT条目的 Description域搜索“ lactate& dehydrogenase&h& chain 将产生一个输出文件,其中列出了乳酸脱氢酶H链( lactate dehydrogenase H chain)条 目。这个输出文件可以从 Output Manager窗口中加以显示,然后与用户的序列一起添加到 Sealab editor中 要创建所有这些序列的多序列对比,只要根据序列名称选中这些序列并从 Functions 菜单中运行 PileUp程序。由 PileUp产生的多序列文件也列在 Output Manager窗口中并可 以直接添加到 Sealab editor中。推荐采用这一步的原因在于数据库条目的特征表格 ( Features table)信息可与对比结果一起被包括进来。必要时对比结果是可以被编辑的, 并且如果数据库条目有相似的特征,这些特征可被附加给用户序列
件包程序使用),也有 BLAST 格式的(供 BLAST 数据库搜索程序使用)。同时还提供了用于 LookUp 程序以及数据库参考搜索的索引。 关于 GCG,Wisconsin 软件包,支持的平台以及硬件需求的一般性信息可以在 GCG 的主 页以及 Wisconsin 软件包的用户手册中找到。GCG 主页提供了更新信息以及 Wisconsin 软件 包程序的完整列表。 SeqLab 中可以使用多个序列分析程序的特性使用户可以应用这些程序顺序地回答相关 问题或在对输入序列进行编辑后重复某项分析。而可以同时访问公用数据库和本机序列的优 点使用户可以在一个分析中使用其中任意一种而不用先进行转换或格式化的工作。SeqLab 可以解决的序列分析问题: (1)在两条 mRNA 中寻找开放阅读框架,翻译并对比 RNA 与蛋白质序列 对两条相关的 mRNA 进行测序的用户可能希望寻找开放阅读框架(ORF)、翻译以及进行 核酸与氨基酸序列间的两两对比。 把序列加入 SeqLab Editor 中,从 Functions 菜单中选中 Map 选项运行 Map 程序。Map 输出文件包含了限制性酶切图和 6 种可能的翻译框架的 ORF 的显示。这些 ORF 的起始和终止 位置可进行标记并选为 SeqLab Editor 中序列显示的范围,然后可用 Edit 菜单的 Translate 操作进行翻译。翻译结果自动出现在 SeqLab Editor 中。 两条相关的核酸或蛋白质序列可用 Gap 程序或 BestFit 程序进行对比。Gap 程序寻找两 条序列间的全局最优对比结果。适用于两条待比对的序列是进化相关的情况。BestFit 程序 寻找两条序列的局部最优对比结果,它适用于两条序列不是进化相关而是功能相关的情况。 (2)通过参考搜索寻找数据库中的相关条目并进行对比 研究一个特征序列家族成员的用户可能希望寻找这个家族中的其它成员并建立它们的 多序列对比。 从 Functions 菜单中选取 LookUp 程序。LookUp 在数据库条目的参考信息部分搜索描述 词并建立匹配条目的列表。在参考部分的 Definiton, Author, Keyword 和 Organism 域中搜 索描述词并在词之间使用“and”(&)、“or”(|)以及“but not”(!)布尔表达式。 例如,在 SWISS-PROT 条目的 Description 域搜索“lactate & dehydrogenase & h & chain” 将产生一个输出文件,其中列出了乳酸脱氢酶 H 链(lactate dehydrogenase H chain)条 目。这个输出文件可以从 Output Manager 窗口中加以显示,然后与用户的序列一起添加到 SeqLab Editor 中。 要创建所有这些序列的多序列对比,只要根据序列名称选中这些序列并从 Functions 菜单中运行 PileUp 程序。由 PileUp 产生的多序列文件也列在 Output Manager 窗口中并可 以直接添加到 SeqLab Editor 中。推荐采用这一步的原因在于数据库条目的特征表格 (Features table)信息可与对比结果一起被包括进来。必要时对比结果是可以被编辑的, 并且如果数据库条目有相似的特征,这些特征可被附加给用户序列
(3)用查询序列搜索数据库,将找到的条目与查询序列进行对比并产生进化系统树 克隆并测序一个未知功能基因的用户可能希望在一个数据库中搜索相似的序列。如果搜 索到了,用户可能进一步希望创建与查询序列最相似的序列的多序列对比并产生数据的种系 图 往 Sealab editor中添加一个查询序列并从 Functions菜单中选取 FASTA程序。 FASTA 程序在数据库中搜索与查询序列相似的序列。输出文件可从 Output Manager窗口中加以显 示并直接添加到 Sealab editor中。在这个输出文件中数据库条目与查询序列局部相似性最 好的区域被加以标记。如果要显示的话,每个数据库条目只有这种区域可以显示在 Sealab Editor中。不要的条目可以从 Sealab editor中一起被删除 从 Functions菜单中选中 PileUp程序创建这些序列的多序列对比。输出可从 Output Manager窗口中加以显示并添加到 Sealab editor中更新己经存在的未对比序列。必要时可 对这一对比结果进行编辑,并且数据库条目的有用的特征表格信息也可以添加给查询序列。 从 Functions菜单中选取 Paup Search程序,程序提供了一个PAUP(进化系统简约性分 析( Phy logenetic Analysis Using Parsimony))中树搜索方式的GOG接口。 PaupDisplay 程序为PAUP中的树操作,鉴定以及显示方式提供了一个GCG接口 (4)拼接交叠序列片段产生一连续序列,寻找并翻译这一序列的编码区域并在数据库中搜索 相似序列 克隆了一个基因,把它分解克隆为一组有交叠的序列片段并进行了测序的用户可能希望 把这些序列片段重新组装为一条连续的序列。一旦 contig拼接完成,用户可能希望在序列 中寻找阅读框架,翻译并在数据库中搜索相似序列 Fragment Assmbly System的程序可用于拼接交叠序列片段。 GelStart程序创建一个项 目。 Gelenter程序把序列片段复制到项目中。 EmeRge程序寻找片段之间的交叠并把它们 拼接成 contigo GelAssemble程序是一个编辑器,可用于编辑这些连续的部分并解决片段之 间的冲突问题。所有这些程序都可以从 Functions菜单中选取。一旦拼接完成,最终构成此 contig的连续序列可以被保存为一个序列文件并添加到 Sealab editor中 使用Map、 Frames、 TestCode或 Codon Preference程序可预测序列中的编码区(所有 这些程序可以从 Functions菜单中选中)。使用Edit菜单的 Select range功能选择这些程 序预测的区域并使用Edit菜单中的翻译操作把它们翻译为蛋白质。这些提出的翻译区域也 可以作为核酸共有序列的特征被加入。 选取蛋白质序列然后选择 Functions菜单中 BLAST。 BLAST程序在数据库中搜索与查询 序列相似的条目,此程序既可以进行远程搜索也可以进行本机搜索。搜索结果可以从 Output Manager窗口中加以显示。如果被搜索的是一个本机的数据库,结果文件可以加入 Sealab Editor或 Main list窗口中,并允许对找到的序列进行进一步分析 (5)对比相关的蛋白质序列,计算对比结果的共有序列,辨识序列中新的特征序列模式,在 数据库中搜索包含此模式的序列或在对比结果的共有序列中搜索已知的蛋白质模式
(3)用查询序列搜索数据库,将找到的条目与查询序列进行对比并产生进化系统树 克隆并测序一个未知功能基因的用户可能希望在一个数据库中搜索相似的序列。如果搜 索到了,用户可能进一步希望创建与查询序列最相似的序列的多序列对比并产生数据的种系 图。 往 SeqLab Editor 中添加一个查询序列并从 Functions 菜单中选取 FASTA 程序。FASTA 程序在数据库中搜索与查询序列相似的序列。输出文件可从 Output Manager 窗口中加以显 示并直接添加到 SeqLab Editor 中。在这个输出文件中数据库条目与查询序列局部相似性最 好的区域被加以标记。如果要显示的话,每个数据库条目只有这种区域可以显示在 SeqLab Editor 中。不要的条目可以从 SeqLab Editor 中一起被删除。 从 Functions 菜单中选中 PileUp 程序创建这些序列的多序列对比。输出可从 Output Manager 窗口中加以显示并添加到 SeqLab Editor 中更新已经存在的未对比序列。必要时可 对这一对比结果进行编辑,并且数据库条目的有用的特征表格信息也可以添加给查询序列。 从 Functions 菜单中选取 PaupSearch 程序,程序提供了一个 PAUP(进化系统简约性分 析(Phylogenetic Analysis Using Parsimony))中树搜索方式的 GCG 接口。PaupDisplay 程序为 PAUP 中的树操作,鉴定以及显示方式提供了一个 GCG 接口。 (4)拼接交叠序列片段产生一连续序列,寻找并翻译这一序列的编码区域并在数据库中搜索 相似序列 克隆了一个基因,把它分解克隆为一组有交叠的序列片段并进行了测序的用户可能希望 把这些序列片段重新组装为一条连续的序列。一旦 contig 拼接完成,用户可能希望在序列 中寻找阅读框架,翻译并在数据库中搜索相似序列。 Fragment Assmbly System 的程序可用于拼接交叠序列片段。GelStart 程序创建一个项 目。GelEnter 程序把序列片段复制到项目中。GelMerge 程序寻找片段之间的交叠并把它们 拼接成 contig。GelAssemble 程序是一个编辑器,可用于编辑这些连续的部分并解决片段之 间的冲突问题。所有这些程序都可以从 Functions 菜单中选取。一旦拼接完成,最终构成此 contig 的连续序列可以被保存为一个序列文件并添加到 SeqLab Editor 中。 使用 Map、Frames、TestCode 或 Codon Preference 程序可预测序列中的编码区(所有 这些程序可以从 Functions 菜单中选中)。使用 Edit 菜单的 Select Range 功能选择这些程 序预测的区域并使用 Edit 菜单中的翻译操作把它们翻译为蛋白质。这些提出的翻译区域也 可以作为核酸共有序列的特征被加入。 选取蛋白质序列然后选择 Functions 菜单中 BLAST。BLAST 程序在数据库中搜索与查询 序列相似的条目,此程序既可以进行远程搜索也可以进行本机搜索。搜索结果可以从 Output Manager 窗口中加以显示。如果被搜索的是一个本机的数据库,结果文件可以加入 SeqLab Editor 或 Main List 窗口中,并允许对找到的序列进行进一步分析。 (5)对比相关的蛋白质序列,计算对比结果的共有序列,辨识序列中新的特征序列模式,在 数据库中搜索包含此模式的序列或在对比结果的共有序列中搜索已知的蛋白质模式
辨识了一组相关序列的用户可能希望对其进行对比并计算对比结果的共有序列。如果可 以在对比结果中找到保守模式,用户可能希望在数据库中搜索包含这种模式的其它序列。用 户可能还希望在计算出的共有序列搜索已知的蛋白质模式 选取待对比的序列,从 Functions菜单中选取 PileUp程序创建多序列对比, PileUp程 序的输出文件可从 Output Manager窗口中加以显示并添加到 SeaLab editor中。用户可以 对对比结果的某个区域重新加以对比并以此替换原有的对比结果。只要选取一个区域并重新 运行 PileUp即可。从 PileUp Options窗口中选取" realign a portion of an existing alignment(重新对比一个已存在的对比结果的一部分)",这可能有利于选择一个替代评分 矩阵或不同的创建和扩展处罚。新的输出文件将包含最初的对比结果以及替换原始对比结果 的重新对比的区域 用Edit菜单中〔 consensus操作计算对比结果的共有序列。如果保守模式可被辨识,从 Functions菜单中选取 FindPatterns选项。从共有序列中剪切下此特征序列模式并把它粘 贴到 FindPatterns模式选择器中,并在数据库中搜索包含这一模式的序列。 此外,运行 Motif程序可在共有序列中搜索已知的蛋白质模式。 Motif在蛋白质序列中 搜索在 PROSITE,蛋白质位点和模式的 PROSITE字典中已知的蛋白质模式。如果辨识出一个 Motif,则给所有序列增加一个特征,并标出它的位置。图4.9显示了一个蛋白质序列的匹 配、一个共有序列以及 Motif搜索的结果。 (6)使用 Profile进行相似性搜索并对比相关序列 序列分析的一个新的扩展领域是 Profile技术。一个 profile是一个位置特定的评分矩 阵,它包含了一个序列对比结果中每个位置的所有残基信息。这一点与共有序列不同,共有 序列中只包含每个位置的保守残基的信息。 Profile做好后可用于搜索数据库、数据库划分 或在一个集合中搜索与原始对比结果中的序列相似的序列。它也可以用于把一条单独的序列 与一个对比结果进行对比。 使用 Profilemake程序可创建一个序列对比结果的 profile。使用 Profilesearch程序 可用 profile对数据库进行搜索, ProfileSegment程序可以显示搜索结果。使用 Profilegap 程序可将一个序列与 profile进行对比。 ProfileMake, Profilesearch, Profilesegments 以及 Profilegap程序都可以从 Functions菜单中启动 GCG的主页http://www.gcg.com 2. ACEDB ACEDB是一种被广泛应用的管理和提供基因组数据的工具组,适用于许多动物和植物的 基因组计划。该软件是免费的,并且可运行在Unix和 Macintosh0S系统下, Windows版本 马上就会推出。数据库以丰富的图形界面提供信息,包括有具体显示的基因图谱,物理图谱, 新陈代谢的途径和序列等。数据用流行的对象的形式进行组织,使用大家熟悉的类别如,相 关的文献,基因,描述,和克隆的DNA等。可用于专用的数据分析以及许多永久性数据的采 集,而且使用者不需要经过专门的计算机和数据库的训练就可以使用 ACEDB。对于资源有限 的计划,这往往是决定使用 ACEDB的关键因素
辨识了一组相关序列的用户可能希望对其进行对比并计算对比结果的共有序列。如果可 以在对比结果中找到保守模式,用户可能希望在数据库中搜索包含这种模式的其它序列。用 户可能还希望在计算出的共有序列搜索已知的蛋白质模式。 选取待对比的序列,从 Functions 菜单中选取 PileUp 程序创建多序列对比,PileUp 程 序的输出文件可从 Output Manager 窗口中加以显示并添加到 SeqLab Editor 中。用户可以 对对比结果的某个区域重新加以对比并以此替换原有的对比结果。只要选取一个区域并重新 运行 PileUp 即可。从 PileUp Options 窗口中选取"realign a portion of an existing alignment(重新对比一个已存在的对比结果的一部分)",这可能有利于选择一个替代评分 矩阵或不同的创建和扩展处罚。新的输出文件将包含最初的对比结果以及替换原始对比结果 的重新对比的区域。 用 Edit 菜单中 Consensus 操作计算对比结果的共有序列。如果保守模式可被辨识,从 Functions 菜单中选取 FindPatterns 选项。从共有序列中剪切下此特征序列模式并把它粘 贴到 FindPatterns 模式选择器中,并在数据库中搜索包含这一模式的序列。 此外,运行 Motif 程序可在共有序列中搜索已知的蛋白质模式。Motif 在蛋白质序列中 搜索在 PROSITE,蛋白质位点和模式的 PROSITE 字典中已知的蛋白质模式。如果辨识出一个 Motif,则给所有序列增加一个特征,并标出它的位置。图 4.9 显示了一个蛋白质序列的匹 配、一个共有序列以及 Motif 搜索的结果。 (6)使用 Profile 进行相似性搜索并对比相关序列 序列分析的一个新的扩展领域是 Profile 技术。一个 profile 是一个位置特定的评分矩 阵,它包含了一个序列对比结果中每个位置的所有残基信息。这一点与共有序列不同,共有 序列中只包含每个位置的保守残基的信息。Profile 做好后可用于搜索数据库、数据库划分 或在一个集合中搜索与原始对比结果中的序列相似的序列。它也可以用于把一条单独的序列 与一个对比结果进行对比。 使用 ProfileMake 程序可创建一个序列对比结果的 profile。使用 ProfileSearch 程序 可用 profile 对数据库进行搜索,ProfileSegment 程序可以显示搜索结果。使用 ProfileGap 程序可将一个序列与 profile 进行对比。ProfileMake, ProfileSearch, ProfileSegments 以及 ProfileGap 程序都可以从 Functions 菜单中启动。 GCG 的主页 http://www.gcg.com 2. ACEDB ACEDB 是一种被广泛应用的管理和提供基因组数据的工具组,适用于许多动物和植物的 基因组计划。该软件是免费的,并且可运行在 Unix 和 Macintosh OS 系统下,Windows 版本 马上就会推出。数据库以丰富的图形界面提供信息,包括有具体显示的基因图谱,物理图谱, 新陈代谢的途径和序列等。数据用流行的对象的形式进行组织,使用大家熟悉的类别如,相 关的文献,基因,描述,和克隆的 DNA 等。可用于专用的数据分析以及许多永久性数据的采 集,而且使用者不需要经过专门的计算机和数据库的训练就可以使用 ACEDB。对于资源有限 的计划,这往往是决定使用 ACEDB 的关键因素
3.其它工具 不同的基因组测序中心都有其特有的一套序列管理分析方案及工具,并且在不断发展完 善之中,具体细节可访问这些测序中心的网站了解 6.2人类和鼠类公共物理图谱数据库的使用 1.物理图谱的类型 物理图谱有许多结构和形式。限制性图谱( restriction map),用于对小区域、如kb 量级做精细结构制图,细胞遗传学图( cytogenetic map),用于对以104kb为长度量级 的区域制图。最常用的两种类型是STS含量图( STS content map)和放射性杂交图( radiation hybrid map),它们的分辨区域都大于1Mb,并且有能使用简易PCR中的定位标记物的优点 在STS含量图中,STS标记物通过多聚酶链反应所监测,在反应中它与一个大的插入克 隆基因库反应,如酵母人工染色体(TACs),细菌人工染色体(BACs)和粘粒等。如果两个 或多个STS被发现是存在于同一个克隆之中,那么这些标记位点紧密相邻的机会就很高(不 是100%,因为在制图过程中存在一些假象,如出现嵌合克隆体)。一段时期以来,根据STS 含量图已经建立起一系列重叠群,如含有STS的重叠簇克隆。这样一张图的分辨率和覆盖度 由一些因子决定,如STS的密度、克隆群体的大小、以及克隆文库的深度。通常STS含量图 以长1Mb的插入YAC库为基础,分辨率为几百个bp。如果使用插入部分较小的克隆载体, 图谱就会有一个更高的理论分辨率,但是覆盖基因组同样大小面积就需要更多的STS。虽然 ˉ般有可能从STS含量图上得到标记物的相对顺序,但是相邻标记物之间的距离还是无法精 确测得。尽管如此,STS含量图还是有与克隆原相关的优点,并且可将其用于更进一步的 研究,如次级克隆或DNA测序。到目前为止,STS含量图制图简单而使用最多的来源是巴黎 的CEPH( centre d Etudes du polymorphisme Humain)中的YAC库。它是一个10×覆盖率 的文库,平均插入长度为Mb 放射性杂交图(对片段DNA的断点作图。在此技术中,一个人体细胞系被致死性的 gamma 射线照射,染色体DMA分成片段。然后该细胞系与一个仓鼠细胞系融合而被救,并能繁殖几 代。在这期间,人类细胞和仓鼠细胞的杂合体随机丢失其人类染色体片段。这样一百个或更 多的杂合细胞系克隆体中,每一个都有不同数量的染色体片段,筛选生长后,就可以形成 套杂合组,供接下来的制图实验用了。 如果要在一个放射性杂交组中对一个STS作图,那就要将每种杂交组细胞系中的DNA 进行STS的PCR操作。细胞系中如果含有该STS的染色体片段,那么就能得到一个正的PCR 信号。在基因组中相邻很近的STS有相似的固位模式( retention pattern),因为放射性 引起的断点落在它们中间的几率很小。相邻较远的STS固位模式相似性降低,相邻很远的 STS的固位模式将会截然不同。与基因图谱所用方法类似,算法类的软件也能推出STS在放 射性杂交图上的相对顺序,并通过断点落在其中间的可能性,用某一距离系统计算相邻标记 物之间的距离。放射性杂交图还能提供一个标记物位于某一个特殊位点的可能值(优势对数 值)。一个放射性杂交图的分辨率依赖于杂交体片断的大小,而这又依赖于人体细胞系所受 的辐射量。一般对基因组大小作图的细胞系分辨率为~1
3.其它工具 不同的基因组测序中心都有其特有的一套序列管理分析方案及工具,并且在不断发展完 善之中,具体细节可访问这些测序中心的网站了解。 6.2 人类和鼠类公共物理图谱数据库的使用 1 .物理图谱的类型 物理图谱有许多结构和形式。限制性图谱(restriction map),用于对小区域、如 kb 量级做精细结构制图,细胞遗传学图(cytogenetic map),用于对以 10 4 kb 为长度量级 的区域制图。最常用的两种类型是 STS 含量图(STS content map)和放射性杂交图(radiation hybrid map),它们的分辨区域都大于 1Mb,并且有能使用简易 PCR 中的定位标记物的优点。 在 STS 含量图中,STS 标记物通过多聚酶链反应所监测,在反应中它与一个大的插入克 隆基因库反应,如酵母人工染色体(TACs),细菌人工染色体(BACs)和粘粒等。如果两个 或多个 STS 被发现是存在于同一个克隆之中,那么这些标记位点紧密相邻的机会就很高(不 是 100%,因为在制图过程中存在一些假象,如出现嵌合克隆体)。一段时期以来,根据 STS 含量图已经建立起一系列重叠群,如含有 STS 的重叠簇克隆。这样一张图的分辨率和覆盖度 由一些因子决定,如 STS 的密度、克隆群体的大小、以及克隆文库的深度。通常 STS 含量图 以长 1Mb 的插入 YAC 库为基础,分辨率为几百个 bp。如果使用插入部分较小的克隆载体, 图谱就会有一个更高的理论分辨率,但是覆盖基因组同样大小面积就需要更多的 STS。虽然 一般有可能从 STS 含量图上得到标记物的相对顺序,但是相邻标记物之间的距离还是无法精 确测得。尽管如此,STS 含量图还是有与 克隆原相关 的优点,并且可将其用于更进一步的 研究,如次级克隆或 DNA 测序。到目前为止,STS 含量图制图简单而使用最多的来源是巴黎 的 CEPH(centre d Etudes du Polymorphisme Humain)中的 YAC 库。它是一个 10×覆盖率 的文库,平均插入长度为~1Mb。 放射性杂交图(对片段 DNA 的断点作图。在此技术中,一个人体细胞系被致死性的 gamma 射线照射,染色体 DNA 分成片段。然后该细胞系与一个仓鼠细胞系融合而被救,并能繁殖几 代。在这期间,人类细胞和仓鼠细胞的杂合体随机丢失其人类染色体片段。这样一百个或更 多的杂合细胞系克隆体中,每一个都有不同数量的染色体片段,筛选生长后,就可以形成一 套杂合组,供接下来的制图实验用了。 如果要在一个放射性杂交组中对一个 STS 作图,那就要将每种杂交组细胞系中的 DNA 进行 STS 的 PCR 操作。细胞系中如果含有该 STS 的染色体片段,那么就能得到一个正的 PCR 信号。在基因组中相邻很近的 STS 有相似的固位模式(retention pattern),因为放射性 引起的断点落在它们中间的几率很小。相邻较远的 STS 固位模式相似性降低,相邻很远的 STS 的固位模式将会截然不同。与基因图谱所用方法类似,算法类的软件也能推出 STS 在放 射性杂交图上的相对顺序,并通过断点落在其中间的可能性,用某一距离系统计算相邻标记 物之间的距离。放射性杂交图还能提供一个标记物位于某一个特殊位点的可能值(优势对数 值)。一个放射性杂交图的分辨率依赖于杂交体片断的大小,而这又依赖于人体细胞系所受 的辐射量。一般对基因组大小作图的细胞系分辨率为~1M
除STS含量图和放射性杂交图外还有几个方法可用于制作人类物理图谱。克隆图谱使用与 STS含量图不同的技术来决定克隆体的接近程度。例如, CEPH YAC图谱法综合利用指纹法 ( fingerprinting)、间一Alu产物杂交法( inter-Alu product hybridization)和STS 含量图法来制作一张重叠的YAC克隆体图谱。缺失和体细胞杂交图依赖于大型基因组重组 (可以人工引进或由实验本身引起),从而将标记物放在由染色体断点所限定的bin?中。 FISH图谱使用一个荧光信号来探测克隆体的间期DNA扩散时的杂交情况,从而以细胞遗传 学图中一条带的位置定出克隆体的位置 研究者捕捉致病基因时对转录序列图谱有特别的兴趣。这些序列是由已表达序列,和那 些从已转化成STS并置于传统物理图谱的已知基因衍生而来的。近来一些制作大量EST的工 程已经使制图实验室能够得到数以万计的单一表达序列。一旦一个致病位点被鉴定出来后 这些转录序列图谱就能明显加快对目标基因的研究速度 YAC库可用于STS的排序,但其克隆体中的高嵌合率和高删除率使它们不能用于DNA测 序。去年高分辨率、可用于测序的质粒和BAC图谱则发展很快。因为它们所需的克隆工艺水 平很低。除了几个特例,如染色体19的 Lawrence livemore实验室质粒图外,其它图谱都 还只处在初级阶段 2.大型公用数据库中的基因组图谱 人类基因组物理图谱信息的主要来源是由NCBI和GDB提供的大型公用数据库。这些 数据库提供各种图谱的来源,使研究者能够用一个多用户界面交互系统在图谱中进行比较 在一定程度下,这些数据库还能进行图谱的综合及分析 (1) NCBi Entrez的染色体图谱 Entrez的基因组部分是最容易获得物理图谱信息的来源之一。此服务由NCBI所提供 Entrez试图以一种可理解的方式将几种遗传学图谱和物理图谱、DNA和蛋白序列信息、以 及一个目录型引用数据库和三维晶体结构信息融合起来。因为它的内部连接多,而且界面简 单, Entrez可作为搜索图谱的一个起始点 除人类基因组, Entrez还提供关于鼠类、果蝇、C. elegans、酵母以及一些原生动物的 图谱。尽管可比较的(同线性)图仍不可获得,但它代表了现在最大和最完整的一套多生物 体的图谱信息。 (2)GDB的浏览染色体图谱 另一种常见的人类物理图谱数据的来源是GDB。尽管GDB是基于当时基因图谱的重要性 才构建起来的,但是最近几年来,GDB也已经进行了扩建重组,现在同样可以算是物理图谱 数据的仓库。不象NCBI,GDB只限于人类图谱数据。它不含序列数据,也没有其它种类生物 的信息。同NCBI一样,GDB可以由WwW上得到。GDB提供了一种全功能的对其数据库的查询 式界面。 (3)来自个体来源的基因组图谱
除 STS 含量图和放射性杂交图外还有几个方法可用于制作人类物理图谱。克隆图谱使用与 STS 含量图不同的技术来决定克隆体的接近程度。例如,CEPH YAC 图谱法综合利用指纹法 (fingerprinting)、间-Alu 产物杂交法(inter-Alu product hybridization)和 STS 含量图法来制作一张重叠的 YAC 克隆体图谱。缺失和体细胞杂交图依赖于大型基因组重组 (可以人工引进或由实验本身引起),从而将标记物放在由染色体断点所限定的 bin?中。 FISH 图谱使用一个荧光信号来探测克隆体的间期 DNA 扩散时的杂交情况,从而以细胞遗传 学图中一条带的位置定出克隆体的位置。 研究者捕捉致病基因时对转录序列图谱有特别的兴趣。这些序列是由已表达序列,和那 些从已转化成 STS 并置于传统物理图谱的已知基因衍生而来的。近来一些制作大量 EST 的工 程已经使制图实验室能够得到数以万计的单一表达序列。一旦一个致病位点被鉴定出来后, 这些转录序列图谱就能明显加快对目标基因的研究速度。 YAC 库可用于 STS 的排序,但其克隆体中的高嵌合率和高删除率使它们不能用于 DNA 测 序。去年高分辨率、可用于测序的质粒和 BAC 图谱则发展很快。因为它们所需的克隆工艺水 平很低。除了几个特例,如染色体 19 的 Lawrence Livemore 实验室质粒图外,其它图谱都 还只处在初级阶段。 2. 大型公用数据库中的基因组图谱 人类基因组物理图谱信息的主要来源是由 NCBI 和 GDB 提供的大型公用数据库。这些 数据库提供各种图谱的来源,使研究者能够用一个多用户界面交互系统在图谱中进行比较。 在一定程度下,这些数据库还能进行图谱的综合及分析。 ( 1 ) NCBI Entrez 的染色体图谱 Entrez 的基因组部分是最容易获得物理图谱信息的来源之一。此服务由 NCBI 所提供。 Entrez 试图以一种可理解的方式将几种遗传学图谱和物理图谱、 DNA 和蛋白序列信息、以 及一个目录型引用数据库和三维晶体结构信息融合起来。因为它的内部连接多,而且界面简 单, Entrez 可作为搜索图谱的一个起始点。 除人类基因组, Entrez 还提供关于鼠类、果蝇、 C. elegans 、酵母以及一些原生动物的 图谱。尽管可比较的(同线性)图仍不可获得,但它代表了现在最大和最完整的一套多生物 体的图谱信息。 ( 2 ) GDB 的浏览染色体图谱 另一种常见的人类物理图谱数据的来源是 GDB。尽管 GDB 是基于当时基因图谱的重要性 才构建起来的,但是最近几年来,GDB 也已经进行了扩建重组,现在同样可以算是物理图谱 数据的仓库。不象 NCBI,GDB 只限于人类图谱数据。它不含序列数据,也没有其它种类生物 的信息。同 NCBI 一样,GDB 可以由 WWW 上得到。GDB 提供了一种全功能的对其数据库的查询 式界面。 ( 3 )来自个体来源的基因组图谱
尽管一级数据库,如 Entrez和GDB是已发表的图谱的重要来源,但是它们还没有能替代 原始数据的东西。有能力制作自己的物理图谱的实验室一般都有自己的网址,连向它们的图 谱数据库。通过从这一渠道直接获取资料,我们可以看到制图实验室所使用的图的形式、下 载原始数据、并且了解实验室制图时的协议。另外,一些图在出现于 Entrez和GDB前经 常被丢掉。 Entrez和GDB数据库选择的表达方式,对那些希望将新的标记物定位于已知 物理图谱上的研究者来说,只提供了最小的帮 基因组的基因图谱 基因图谱是制作许多物理图谱时工作的基本骨架,也是许多制图项目的起点。有两种基 因组范围的基因图谱可供选择。 Genethon图含5264个多样性微卫星重复片断,间隔 1.6cM。完整的数据库文件,以及图谱的 PostScript方式图形表示,在 Genethon的FTP 站点上均可获得,这些图通过GDB也可以获得。 第二大基因图谱由人类连锁合作中心( Cooperative Human Linkage Center)制造,CHLC 图由10775个标记物组成,大多数为微卫星重复片断,间隔3.7cM。 人类基因组的转录物图 在1996年10月, Horno sapiens的一个全基因组转录物图由一个国际合作的研究实 验室发表于 Science上。这个图由~15000个不同的表达序列组成,由放射性杂交法定位 与 Genet hon基因图谱衍生的框架相近。通过对酵母人工染色体作STS含量法又增添了1000 个表达序列。在这张图中,大约1/5的标记物有已知的或是假定的功能,而余下的代表了未 知功能的表达序列。制成图的序列一般由 UniGeneset衍生而来,它是一个由NCBI管理的公 用重复ESTs数据库。 转录物图是通过将八家不同实验室的图谱数据综合而得到的。为协调制图方法的些微不 同,表达序列被放在由 Genethon基因图谱衍生的框架上。结果,该图的最大分辨率为~ 2cM。很多情况下,可以从各个实验室的数据库里得到针对某一部分数据更好的制图信息, 特别是 the Whitehead Institute和 Stanford University的。 浏览NCBI转录物图 转录物图可在两个网址上得到。数据的“亲本”站点为NCBI。在那儿可以找到含有全 基因组转录物图的 Science文章的全文,以及彩色的图象,但一般都只有装饰性的墙面图 案。另外,也有搜索页可以让浏览者对特别感兴趣的基因进行査询,或是通过对功能未知, 但其读码框与某已知功能的蛋白质相近的表达序列图谱进行搜索 NCBI网址的一个限制就是它不能在低分辨率标记物分布柱形图上提供转录物图的图形。但 是通过 Mapview微程序就可以得到其图形显示。从GDB的首页,沿着 What s new的链接, 可找到全基因组转录物图(到本书出版时链接形式可能已有所不同)。同样,可以认为转录 物图也是 Entrez网将要制作的一部分 White head Institute提供的人类物理图谱
尽管一级数据库,如 Entrez 和 GDB 是已发表的图谱的重要来源,但是它们还没有能替代 原始数据的东西。有能力制作自己的物理图谱的实验室一般都有自己的网址,连向它们的图 谱数据库。通过从这一渠道直接获取资料,我们可以看到制图实验室所使用的图的形式、下 载原始数据、并且了解实验室制图时的协议。另外,一些图在出现于 Entrez 和 GDB 前经 常被丢掉。 Entrez 和 GDB 数据库选择的表达方式,对那些希望将新的标记物定位于已知 物理图谱上的研究者来说,只提供了最小的帮助。 基因组的基因图谱 基因图谱是制作许多物理图谱时工作的基本骨架,也是许多制图项目的起点。有两种基 因组范围的基因图谱可供选择。 Genethon 图含 5264 个多样性微卫星重复片断,间隔 1.6cM 。完整的数据库文件,以及图谱的 PostScript 方式图形表示,在 Genethon 的 FTP 站点上均可获得,这些图通过 GDB 也可以获得。 第二大基因图谱由人类连锁合作中心( Cooperative Human Linkage Center )制造, CHLC 图由 10775 个标记物组成,大多数为微卫星重复片断,间隔 3.7cM 。 人类基因组的转录物图 在 1996 年 10 月, Horno sapiens 的一个全基因组转录物图由一个国际合作的研究实 验室发表于 Science 上。这个图由~15000 个不同的表达序列组成,由放射性杂交法定位, 与 Genethon 基因图谱衍生的框架相近。通过对酵母人工染色体作 STS 含量法又增添了 1000 个表达序列。在这张图中,大约 1/5 的标记物有已知的或是假定的功能,而余下的代表了未 知功能的表达序列。制成图的序列一般由 UniGeneset 衍生而来,它是一个由 NCBI 管理的公 用重复 ESTs 数据库。 转录物图是通过将八家不同实验室的图谱数据综合而得到的。为协调制图方法的些微不 同,表达序列被放在由 Genethon 基因图谱衍生的框架上。结果,该图的最大分辨率为~ 2cM 。很多情况下,可以从各个实验室的数据库里得到针对某一部分数据更好的制图信息, 特别是 the Whitehead Institute 和 Stanford University 的。 浏览 NCBI 转录物图 转录物图可在两个网址上得到。数据的“亲本”站点为 NCBI。在那儿可以找到含有全 基因组转录物图的 Science 文章的全文, 以及彩色的图象,但一般都只有装饰性的墙面图 案。另外,也有搜索页可以让浏览者对特别感兴趣的基因进行查询,或是通过对功能未知, 但其读码框与某已知功能的蛋白质相近的表达序列图谱进行搜索。 NCBI 网址的一个限制就是它不能在低分辨率标记物分布柱形图上提供转录物图的图形。但 是通过 Mapview 微程序就可以得到其图形显示。从 GDB 的首页,沿着 What s New 的链接, 可找到全基因组转录物图(到本书出版时链接形式可能已有所不同)。同样,可以认为转录 物图也是 Entrez 网将要制作的一部分。 White head Institute 提供的人类物理图谱
The Whitehead intitute/ MIT Center for Genome research是两张基因组范围物理图 谱的最初来源。其中一张是STS含量图,内含指定为YAC的10000多个标记物,以及一张含 12000个左右标记物的放射性杂交图。 Whitehead所用的G4杂交板( Genebridge4 radiation hybrid panel)分辨率为~1Mbp,而以YAC为基础作的图分辨率大约为200kbp。这些图己 经和 Genethon基因图相结合,产生了一张合图,在平均150kb范围内有2000个STSs Whitehead图上大约有一半的标记物是表达序列,它们在人类转录物图上也会出现 WI( Whitehead institute)图可通过网络从 Whitehead center for Genome research 的主页上得到。沿着“人类物理图项目”( Human Physical Mapping Project)的链接就可 以得到感兴趣的图,这些图可通过几种方法浏览。选择一系列pop-up菜单可以产生所选染 色体的图,选择选项按钮可以综合放射性杂交图、STS含量图和基因图。与 Entrez一样, 这些图不是固定不变的。点击一个STS或是重叠群,会弹出关于该图素详细信息的页面。图 形式图谱在网址上可按GIF或 Macintosh最初模式(PICT)下载。 Whitehead网址上还提供 了对图谱数据库进行査询的搜索页。这些搜索数据的链接可按名称、 GenBank通道号、STS 型号、染色体分配进行搜索。另外, Whitehead网页也可根据功能关键字搜索制图转录序列, 并提供与NCBI中的主转录物图的链接 Whitehead也为那些希望建立他们自己的STS的研究者提供服务,并将之放在一个或多 个图上,这些服务包括: 个在线的引物选择程序,引物3 将一个STS放在STS/YAC含量图上的服务 将一个STS放在放射性杂交图上的服务 Whitehead图远未完善,对合图进行监督性测试就能显示出在基因图、放射性杂交图和 STS/YAC图上的STSs位置间存在矛盾。这些矛盾表现在合图上仍存在交叉线。解释这些图 的一个关键点在于理解这些图在可靠性与分辨率水平不一。基因图骨架在数十兆时能可靠地 连接标记物,但在低于约2兆时就无法准确解决两个STS的顺序问题了。放射性杂交图能够 测知约10Mb的连接,有效分辨率达~1Mb(更小的间隔也能排序,但是不可靠性逐步增加) STS/YAC图可以测知两个相互间隔1Mb的STS的连接,估计分辨力达100~300kb。理解图谱 时头脑中应有这些尺度上的差异。一般在IMb的范围以下,STS/YAC图是说明顺序的图谱中 最可靠的一种。 在STS含量图中,由于STS和YAC的不等分布,可靠性也会有地域差异。在YAC密集的 区域(每一个STS有5个或更多的YAC),在排序信息的重要性上,图谱结果是相对更可靠 的。在低密度区,图谱结果中就会有几种同时可能替代的STS顺序,并会附上数据。假定的 错误的反面情况,如图12.8中,表示为图中的空白框。这一点也会严重降低图谱的准确性 最后,因为在所有YAC库中都存在嵌合现象的问题,双键(例如,一对STS同时与2个或更 多YAC连接)比单键(STS只由1个YAC连接)更能可靠说明相邻关系。尽管只有在基因图 或放射性杂交图中存在支持性数据时,图上才能构建单键信息,但单由两个STS相连形成的 连接仍保留怀疑。这些元素在任何制图区域被详细检查的时候都应考虑在内
The Whitehead Intitute/MIT Center for Genome Research 是两张基因组范围物理图 谱的最初来源。其中一张是 STS 含量图,内含指定为 YAC 的 10000 多个标记物,以及一张含 12000 个左右标记物的放射性杂交图。Whitehead 所用的 G4 杂交板(Genebridge 4 radiation hybrid panel)分辨率为~1Mbp,而以 YAC 为基础作的图分辨率大约为 200kbp。这些图已 经和 Genethon 基因图相结合,产生了一张合图,在平均 150kb 范围内有 20000 个 STSs。 Whitehead 图上大约有一半的标记物是表达序列,它们在人类转录物图上也会出现。 WI(Whitehead Institute)图可通过网络从 Whitehead Center for Genome Research 的主页上得到。沿着“人类物理图项目”(Human Physical Mapping Project)的链接就可 以得到感兴趣的图,这些图可通过几种方法浏览。选择一系列 pop-up 菜单可以产生所选染 色体的图,选择选项按钮可以综合放射性杂交图、STS 含量图和基因图。与 Entrez 一样, 这些图不是固定不变的。点击一个 STS 或是重叠群,会弹出关于该图素详细信息的页面。图 形式图谱在网址上可按 GIF 或 Macintosh 最初模式(PICT)下载。Whitehead 网址上还提供 了对图谱数据库进行查询的搜索页。这些搜索数据的链接可按名称、GenBank 通道号、STS 型号、染色体分配进行搜索。另外,Whitehead 网页也可根据功能关键字搜索制图转录序列, 并提供与 NCBI 中的主转录物图的链接。 Whitehead 也为那些希望建立他们自己的 STS 的研究者提供服务,并将之放在一个或多 个图上,这些服务包括: 一个在线的引物选择程序,引物 3 将一个 STS 放在 STS/YAC 含量图上的服务 将一个 STS 放在放射性杂交图上的服务 Whitehead 图远未完善,对合图进行监督性测试就能显示出在基因图、放射性杂交图和 STS/YAC 图上的 STSs 位置间存在矛盾。这些矛盾表现在合图上仍存在交叉线。解释这些图 的一个关键点在于理解这些图在可靠性与分辨率水平不一。基因图骨架在数十兆时能可靠地 连接标记物,但在低于约 2 兆时就无法准确解决两个 STS 的顺序问题了。放射性杂交图能够 测知约 10Mb 的连接,有效分辨率达~1Mb(更小的间隔也能排序,但是不可靠性逐步增加)。 STS/YAC 图可以测知两个相互间隔 1Mb 的 STS 的连接,估计分辨力达 100~300kb。理解图谱 时头脑中应有这些尺度上的差异。一般在 1Mb 的范围以下,STS/YAC 图是说明顺序的图谱中 最可靠的一种。 在 STS 含量图中,由于 STS 和 YAC 的不等分布,可靠性也会有地域差异。在 YAC 密集的 区域(每一个 STS 有 5 个或更多的 YAC),在排序信息的重要性上,图谱结果是相对更可靠 的。在低密度区,图谱结果中就会有几种同时可能替代的 STS 顺序,并会附上数据。假定的 错误的反面情况,如图 12.8 中,表示为图中的空白框。这一点也会严重降低图谱的准确性。 最后,因为在所有 YAC 库中都存在嵌合现象的问题,双键(例如,一对 STS 同时与 2 个或更 多 YAC 连接)比单键(STS 只由 1 个 YAC 连接)更能可靠说明相邻关系。尽管只有在基因图 或放射性杂交图中存在支持性数据时,图上才能构建单键信息,但单由两个 STS 相连形成的 连接仍保留怀疑。这些元素在任何制图区域被详细检查的时候都应考虑在内
下面的部分介绍如何在 Whitehead图上,通过 Whitehead网址安置新的STS。从STS设 计和针对 Whitehead和放射性杂交图进行制图开始。 设计一个STS,置于 Whitehead上 设计一个STS需要一个高质量的DNA序列,至少长达所需的PCR产物。为得到最好的结果 这些序列应不含重复元素和载体序列,并且质量相对高些。任何支持一个WwW浏览器的计算 机系统都可以使用该程序,支持TCP/IP的网络连接也是必须的。 首先,将浏览器连到 Whitehead genome center的主页。寻找并点击指向 WWW Primer Picking的链接。接着出现一页,在其上方有一个很大的输入框。剪切原始序列并粘贴到该 处,只用粘贴原始序列,不需用名称或其它标记词。这些碱基可以小写或大写,而白色空格 可以忽略。 现在,向下滚动窗口,将PCR的条件调至需要值。那些关于盐浓度、温度和产物大小范 围等的默认值均是W所设定的。如果有必要的改变需输入时,按标有 Pick primers键返回 套引物处进行特定设定。这些引物现在在对感兴趣的序列的审查实验中用得上。通过放大 基因组DNA中的一条特定带,可以对这些引物的能力进行经验性鉴定。引物的失败主要与引 物扫描区域中的重复元素有关。相反,通过进行 BLAST或 FASTA搜索,再选择引物对,来对 输入序列中的重复序列进行筛选则是比较明智的,如果STS成功地放大了一条特定带,它就 可以与 Whitehead sts/TAC含量图或放射性杂交图相联系,被制成图。 与 Whitehead sts/YAC含量图联系对STS制图一旦被制出后,一个STS就可以通过对CEPT mega-YAC库的扫描确定在STS/YAC含量图上的位置。而对含有超过30000个克隆,其中又 有1200个排列、板块和柱池(row、 plate和 column pool)的YAC库进行搜索,实在是 件头疼的任务。可喜的是,几个生物技术公司已经提供了 CEPH YAC的复本和(或)筛选系 统,包括 Research Genetics Corporation Whitehead图就是仅从YAC库的后一部分构建 起来的。这意味着库模块中位于709-972的范围仍需筛选。STS接着就可以用以下步骤放 在图上了。 使浏览器连向 Whitehead的主页,并点击标有 Human Physical Mapping Project的链 接以跳到该组织的物理制图页。从这儿,再找到并选择“ Search for a yac to its address”,接着出现一页,内有一系列pop-up菜单,能用于输入单个YAC的地址、或一个 输入单个YAC名称的主题栏、或一个能粘贴一列YAC地址的大型区域。后者适用于将多个 YAC用于研究的时候。在这个地方输入YAC列表,再使用“ plate row column”形式,这里 是用“”号分离板块、排和列这三维(如709A1),也可输入多个YAC地址,用空格或 carriage回车隔开。搜索过程输入格式并不固定,它也可识别多个YAC模式(包括709a_1 和709a1)。 当YAC表完成后,按 Search键,得到一个表,列有各个YAC,其重叠群位置和染色体 分配,以及附近STS的位置。这些STS位于放射性杂交图和(或)基因图上 要理解该搜索结果,应该知道CEH库中相当数量(40-50%)的克隆都是嵌合体,这 意味着单个YAC可能存在于位于基因组不同部分的重叠群中。由于这个原因,需要找到多个
下面的部分介绍如何在 Whitehead 图上,通过 Whitehead 网址安置新的 STS。从 STS 设 计和针对 Whitehead 和放射性杂交图进行制图开始。 设计一个 STS,置于 Whitehead 上 设计一个 STS 需要一个高质量的 DNA 序列,至少长达所需的 PCR 产物。为得到最好的结果, 这些序列应不含重复元素和载体序列,并且质量相对高些。任何支持一个 WWW 浏览器的计算 机系统都可以使用该程序,支持 TCP/IP 的网络连接也是必须的。 首先,将浏览器连到 Whitehead Genome Center 的主页。寻找并点击指向 WWW Primer Picking 的链接。接着出现一页,在其上方有一个很大的输入框。剪切原始序列并粘贴到该 处,只用粘贴原始序列,不需用名称或其它标记词。这些碱基可以小写或大写,而白色空格 可以忽略。 现在,向下滚动窗口,将 PCR 的条件调至需要值。那些关于盐浓度、温度和产物大小范 围等的默认值均是 WI 所设定的。如果有必要的改变需输入时,按标有 Pick Primers 键返回 一套引物处进行特定设定。这些引物现在在对感兴趣的序列的审查实验中用得上。通过放大 基因组 DNA 中的一条特定带,可以对这些引物的能力进行经验性鉴定。引物的失败主要与引 物扫描区域中的重复元素有关。相反,通过进行 BLAST 或 FASTA 搜索,再选择引物对,来对 输入序列中的重复序列进行筛选则是比较明智的,如果 STS 成功地放大了一条特定带,它就 可以与 Whitehead STS/TAC 含量图或放射性杂交图相联系,被制成图。 与 Whitehead STS/YAC 含量图联系对 STS 制图一旦被制出后,一个 STS 就可以通过对 CEPT mega-YAC 库的扫描确定在 STS/YAC 含量图上的位置。而对含有超过 30000 个克隆,其中又 有 1200 个排列、板块和柱池(row、plate 和 column pool)的 YAC 库进行搜索,实在是一 件头疼的任务。可喜的是,几个生物技术公司已经提供了 CEPH YAC 的复本和(或)筛选系 统,包括 Research Genetics Corporation。Whitehead 图就是仅从 YAC 库的后一部分构建 起来的。这意味着库模块中位于 709-972 的范围仍需筛选。STS 接着就可以用以下步骤放 在图上了。 使浏览器连向 Whitehead 的主页,并点击标有 Human Physical Mapping Project 的链 接以跳到该组织的物理制图页。从这儿,再找到 并选择“Search for a YAC to its address”,接着出现一页,内有一系列 pop-up 菜单,能用于输入单个 YAC 的地址、或一个 输入单个 YAC 名称的主题栏、或一个能粘贴一列 YAC 地址的大型区域。后者适用于将多个 YAC 用于研究的时候。在这个地方输入 YAC 列表,再使用“plate_row_column”形式,这里 是用“_”号分离板块、排和列这三维(如 709_A_1),也可输入多个 YAC 地址,用空格或 carriage 回车隔开。搜索过程输入格式并不固定,它也可识别多个 YAC 模式(包括 709_a_1 和 709a1)。 当 YAC 表完成后,按 Search 键,得到一个表,列有各个 YAC,其重叠群位置和染色体 分配,以及附近 STS 的位置。这些 STS 位于放射性杂交图和(或)基因图上。 要理解该搜索结果,应该知道 CEPH 库中相当数量(40-50%)的克隆都是嵌合体,这 意味着单个 YAC 可能存在于位于基因组不同部分的重叠群中。由于这个原因,需要找到多个
YAC来证明单个STS分配到了某一特定重叠群中,或是从其它方法来证明(比如FISH,体细 胞杂交制图,放射性杂交图制图数据) 每张图对应输入的一个YAC地址,每个表包括已知YAC中的STS表,以及STS制图信息 对于每个STS,染色体分配、基因图位置和放射性杂交图位置只要已知就会给出。另外,STS 所属的已命名的重叠群也列成表,这些表中大多数元素是超文字链接,选择合适的链接可以 获得关于一个STS或一个重叠群更多的信息。由于历史原因,许多STS有两个重叠群。双链 接重叠群(例如由成对YAC共有的重叠群)短一些,在构图的起始阶段中是可创造的更可靠 的重叠群,它们可以被放心地忽略。单个重叠群长一些,在不同方式下也应承认其合理性。 Whitehead放射性杂交图 STS也能被置于 Whitehead放射性杂交图中,这比STS/YAC含量图的问题简单很多,因 为在放射性杂交图上搜索一个STS只用93次PCR,而不是1000次。 Whitehead放射性杂交 图使用 Genebridge4 radiation hybrid panel。与 CEPH YAC库一样,这些细胞谱系的DNA 也可以从一些生物技术公司那儿得到。而有些公司还提供搜索服务。为得到最好的结果,PCR 必须在与制作 Whitehead图的相同条件下进行,并应在复制时进行。复制PCR间出现的不同 结果说明应继续重复或以未知物对待。 首先,将杂交模板筛选结果重定为“rhv”格式,看上去如下: 001001011000001000000011010001101110011100101001211001110101010100101000 sts name 2 000001111000001000000011010000001110011100101001211001110101010100100000 每个数字代表每个放射性杂交细胞系的PCR结果:0说明PCR结果为负(无反应产物) 1说明为正,2说明为“未知”或“未完成”。载体上数字的顺序是很重要的,必须与G4rhp 中的正式顺序相对应。为找到该顺序,可沿( Whitehead物理图页上)标有“ How the radiation hybrid maps were constructed”(如何构建放射性杂交图)的链接,再按下标 有“G40”的链接。该顺序与它们由 Research genetics运输时包装的DNA顺序相同,所以 它一般还不是结果。要增加可读性,可在载体内加入空格,用一个或多个空格、或Tab键就 可以将STS名称与扫描数据分离开了。 从 Whitehead物理图页上,按下标有“Pla ace your own StSs on ti ome iramewo map”(将你自己的STS放入基因组框架图中)的链接,再输入提示的合适的 Email地址 并将PCR值粘贴至位于该页上的大型主题框。输入正确的 Email地址很重要,否则制图结果 将有可能被误解 默认时,制图数据会以正文形式返回。为产生放在 Whitehead图上的STS的图形,选择 个标有 Mac pict(针对 Macintosh系统)或GIF(针对 Windows和Uinx系统)的选项按 钮
YAC 来证明单个 STS 分配到了某一特定重叠群中,或是从其它方法来证明(比如 FISH,体细 胞杂交制图,放射性杂交图制图数据)。 每张图对应输入的一个 YAC 地址,每个表包括已知 YAC 中的 STS 表,以及 STS 制图信息。 对于每个 STS,染色体分配、基因图位置和放射性杂交图位置只要已知就会给出。另外,STS 所属的已命名的重叠群也列成表,这些表中大多数元素是超文字链接,选择合适的链接可以 获得关于一个 STS 或一个重叠群更多的信息。由于历史原因,许多 STS 有两个重叠群。双链 接重叠群(例如由成对 YAC 共有的重叠群)短一些,在构图的起始阶段中是可创造的更可靠 的重叠群,它们可以被放心地忽略。单个重叠群长一些,在不同方式下也应承认其合理性。 Whitehead 放射性杂交图 STS 也能被置于 Whitehead 放射性杂交图中,这比 STS/YAC 含量图的问题简单很多,因 为在放射性杂交图上搜索一个 STS 只用 93 次 PCR,而不是 1000 次。Whitehead 放射性杂交 图使用 Genebridge 4 radiation hybrid panel。与 CEPH YAC 库一样,这些细胞谱系的 DNA 也可以从一些生物技术公司那儿得到。而有些公司还提供搜索服务。为得到最好的结果,PCR 必须在与制作 Whitehead 图的相同条件下进行,并应在复制时进行。复制 PCR 间出现的不同 结果说明应继续重复或以未知物对待。 首先,将杂交模板筛选结果重定为“rhv”格式,看上去如下: sts_name1 001001011000001000000011010001101110011100101001211001110101010100101000 sts_name2 000001111000001000000011010000001110011100101001211001110101010100100000 每个数字代表每个放射性杂交细胞系的 PCR 结果:0 说明 PCR 结果为负(无反应产物), 1 说明为正,2 说明为“未知”或“未完成”。载体上数字的顺序是很重要的,必须与 G4rhp 中的正式顺序相对应。为找到该顺序,可沿(Whitehead 物理图页上)标有“How the radiation hybrid maps were constructed”(如何构建放射性杂交图)的链接,再按下标 有“G40”的链接。该顺序与它们由 Research Genetics 运输时包装的 DNA 顺序相同,所以 它一般还不是结果。要增加可读性,可在载体内加入空格,用一个或多个空格、或 Tab 键就 可以将 STS 名称与扫描数据分离开了。 从 Whitehead 物理图页上,按下标有“Place your own STSs on the genome framework map”(将你自己的 STS 放入基因组框架图中)的链接,再输入提示的合适的 Email 地址, 并将 PCR 值粘贴至位于该页上的大型主题框。输入正确的 Email 地址很重要,否则制图结果 将有可能被误解。 默认时,制图数据会以正文形式返回。为产生放在 Whitehead 图上的 STS 的图形,选择 一个标有 Mac PICT(针对 Macintosh 系统)或 GIF(针对 Windows 和 Uinx 系统)的选项按 钮