正在加载图片...
第六章核酸序列分析 DNA序列自身编码特征的分析是基因组信息学研究的基础,特别是随着大规模测序的日 益増加,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、 载体标识与去除、拼接、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都 是紧密依赖基因组信息学的软件和数据库。特别是拼接和填补序列间隙更需要把实验设计和 信息分析时刻联系在一起。 基因组不仅是基因的简单排列,更重要的是它有其特有的组织结构和信息结构,这种结 构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。利用国际EST数据库 ( dbest)和各实验室测定的相应数据,经过大规模并行计算识别并预测新基因,新SNPs以 及各种功能位点,如剪接与可变剪接位点等 到1998年底在人类的约10万个基因中有3万多个已被发现,尚有约7万个未被发 现。由于新基因带来的显著经济效益和社会效益,它们成为了各国科学家当前争夺的热点。 EST序列( Expressed Sequence Tags)到1999年12月已搜集了约200万条,它大约覆 盖了人类基因的90%,因此如何利用这些信息发现新基因成了近几年的重要研究课题。同 时1998年国际上又开展了以EST为主发现新SNPs的研究。因此利用EST数据库发现新 基因、新SNPs以及各种功能位点是近几年的重要研究方向 虽然对约占人类基因组95%的非编码区的作用人们还不清楚,但从生物进化的观点看 来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调 控有关。寻找这些区域的编码特征,信息调节与表达规律是未来相当长时间内的热点,是取 得重要成果的源泉。 在不同物种、不同进化水平的生物的相关基因之间进行比较分析,是基因研究的重要手 段。目前,模式生物全基因组序列数据越来越多,因此,基因的比较研究,也必须从基因的 比较,上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研究将更有效地 揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。 6.1基因组序列分析工具 1. Wisconsin软件包(cCG) Genetics Computer group公司开发的 Wisconsin软件包,是一组综合性的序列分析 程序,使用公用的核酸和蛋白质数据库。 Sealab是其图形用户界面(GUI),通过它可 以使用所有 Wisconsin软件包中的程序及其支持的数据库。此外,它还提供了一个环境用 于创建、显示、编辑和注释序列。 Sealab也可以被扩展使其可以包括其它公用或非公用的 程序和数据库。 Wisconsin软件包由120多个独立的程序组成,每个程序进行一项单一的分析任务。包 括所有程序的完整目录以及详细的描述可以在 Wisconsin软件包的程序使用文档中找到。 GCG支持两种核酸数据库( GenBank数据库,简化版的EMBL核酸序列数据库)和三种蛋白质数 据库(PIR, SWISS-PROT,SP- TrEMBL)。这些数据库既有GCG格式的(供大多数 Wisconsin软第六章 核酸序列分析 DNA 序列自身编码特征的分析是基因组信息学研究的基础,特别是随着大规模测序的日 益增加,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、 载体标识与去除、拼接、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都 是紧密依赖基因组信息学的软件和数据库。特别是拼接和填补序列间隙更需要把实验设计和 信息分析时刻联系在一起。 基因组不仅是基因的简单排列,更重要的是它有其特有的组织结构和信息结构,这种结 构是在长期的演化过程中产生的,也是基因发挥其功能所必须的。利用国际 EST 数据库 (dbEST) 和各实验室测定的相应数据,经过大规模并行计算识别并预测新基因,新 SNPs 以 及各种功能位点,如剪接与可变剪接位点等。 到 1998 年底在人类的约 10 万个基因中有 3 万多个已被发现,尚有约 7 万个未被发 现。由于新基因带来的显著经济效益和社会效益,它们成为了各国科学家当前争夺的热点。 EST 序列 (Expressed Sequence Tags) 到 1999 年 12 月已搜集了约 200 万条,它大约覆 盖了人类基因的 90 %,因此如何利用这些信息发现新基因成了近几年的重要研究课题。同 时 1998 年国际上又开展了以 EST 为主发现新 SNPs 的研究。因此利用 EST 数据库发现新 基因、新 SNPs 以及各种功能位点是近几年的重要研究方向。 虽然对约占人类基因组 95 %的非编码区的作用人们还不清楚,但从生物进化的观点看 来,这部分序列必定具有重要的生物功能。普遍的认识是,它们与基因在四维时空的表达调 控有关。寻找这些区域的编码特征,信息调节与表达规律是未来相当长时间内的热点,是取 得重要成果的源泉。 在不同物种、不同进化水平的生物的相关基因之间进行比较分析,是基因研究的重要手 段。目前,模式生物全基因组序列数据越来越多,因此,基因的比较研究,也必须从基因的 比较,上升到对不同进化水平的生物在全基因组水平上的比较研究。这样的研究将更有效地 揭示基因在生命系统中的地位和作用,解释整个生命系统的组成和作用方式。 6.1 基因组序列分析工具 1. Wisconsin 软件包( GCG ) Genetics Computer Group 公司开发的 Wisconsin 软件包,是一组综合性的序列分析 程序,使用公用的核酸和蛋白质数据库。 SeqLab 是其图形用户界面( GUI ),通过它可 以使用所有 Wisconsin 软件包中的程序及其支持的数据库。此外,它还提供了一个环境用 于创建、显示、编辑和注释序列。 SeqLab 也可以被扩展使其可以包括其它公用或非公用的 程序和数据库。 Wisconsin 软件包由 120 多个独立的程序组成,每个程序进行一项单一的分析任务。包 括所有程序的完整目录以及详细的描述可以在 Wisconsin 软件包的程序使用文档中找到。 GCG支持两种核酸数据库(GenBank数据库, 简化版的 EMBL核酸序列数据库)和三种蛋白质数 据库(PIR,SWISS-PROT, SP-TrEMBL)。这些数据库既有 GCG 格式的(供大多数 Wisconsin 软
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有