正在加载图片...
第四章双序列比对 41引言 本章介绍序列比对时常用的几个概念,包括同一性( identity)、相似性( similarity)同 源性( homology)等。这些概念,在蛋白质和核酸序列比对时经常使用。双序列比对( pairwise alignement)是指通过一定的算法对两个DNA或蛋白质序列进行比对分析,从而找出两者 之间最大相似性匹配。双序列比对是序列分析常用方法之一,是多序列比对和数据库搜索的 基础。双序列比对基于一定的算法,而这些算法是基于序列本身的属性而不是关于该序列的 注释信息。双序列比对基本上可以分为两类,一类是基于序列的局部相似性,而另一类则基 于序列的全局相似性。两者之间无论是生物学基础,还是所用的算法,都有很大区别。 42数据库检索和数据库搜索 数据库检索( database query)和数据库搜索( database search)是分子生物信息学中两 个不同的概念,有时常被混淆,有必要把这两个术语作简单说明。所谓数据库检索,是指对 序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。例如,对核酸或蛋白质 数据库输入关键词“ human adrenergic recptors”(人的肾上腺素受体),即可找出数据库中所 有和人的肾上腺素受体有关的序列条目。数据库查询有时也称数据库检索,它和因特网上通 过搜索引擎查找需要的信息是一个概念。而数据库搜索是指通过特定的序列相似性比对算 法,找出核酸或蛋白质序列数据库中与代查序列( query sequence)具有一定程度相似性的 序列。例如,给定人的肾上腺素受体序列,通过数据库搜索,在核酸或蛋白质序列数据库中 找出与该代查査序列具有一定相似性的序列。显然,数据库检索和数据库搜索是在生物信息学 中是两个完全不同的概念,它们所要解决的问题、所采用的方法和得到的结果均不相同 基于文字注释信息的数据库检索是核酸和蛋白质序列分析的一个重要组成部分,这 点不应予以忽略。然而,在生物信息学应用研究中,我们经常面临的问题是已经测得一个核 酸序列片段,或一个由核酸序列翻译得到的蛋白质序列片段,而尚无注释信息。此时,数据 库搜索就成了确定对该序列进一步分析研究的有效方法。本章将重点介绍序列比对的基本概 念和常用算法,特别是对代查序列和目标( subject)序列之间的相似性关系,做一些定量的 分析。 为了识别一个新测定的序列和一个已知基因家族之间的进化关系,确定它们是否具有 同源性,通常需要通过序列比对,找出它们之间核苷酸碱基或氨基残基的最大匹配,从而定 量给出其相似性程度。如果两者的相似性程度很低,则很难确定它们是否具有同源性,除非 使用亲源性分析( Phylogeny Analysis)等其它分析方法,或有实验结果加以证实。通过对基 因或蛋白质之间家族关系的分析,可以从浩繁的基因组信息中找出一些线索,从而对该基因第四章 双序列比对 4.1 引言 本章介绍序列比对时常用的几个概念,包括同一性(identity)、相似性(similarity)同 源性(homology)等。这些概念,在蛋白质和核酸序列比对时经常使用。双序列比对(pairwise alignement)是指通过一定的算法对两个 DNA 或蛋白质序列进行比对分析,从而找出两者 之间最大相似性匹配。双序列比对是序列分析常用方法之一,是多序列比对和数据库搜索的 基础。双序列比对基于一定的算法,而这些算法是基于序列本身的属性而不是关于该序列的 注释信息。双序列比对基本上可以分为两类,一类是基于序列的局部相似性,而另一类则基 于序列的全局相似性。两者之间无论是生物学基础,还是所用的算法,都有很大区别。 4.2 数据库检索和数据库搜索 数据库检索(database query)和数据库搜索(database search)是分子生物信息学中两 个不同的概念,有时常被混淆,有必要把这两个术语作简单说明。所谓数据库检索,是指对 序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。例如,对核酸或蛋白质 数据库输入关键词“human adrenergic recptors”(人的肾上腺素受体),即可找出数据库中所 有和人的肾上腺素受体有关的序列条目。数据库查询有时也称数据库检索,它和因特网上通 过搜索引擎查找需要的信息是一个概念。而数据库搜索是指通过特定的序列相似性比对算 法,找出核酸或蛋白质序列数据库中与代查序列(query sequence)具有一定程度相似性的 序列。例如,给定人的肾上腺素受体序列,通过数据库搜索,在核酸或蛋白质序列数据库中 找出与该代查序列具有一定相似性的序列。显然,数据库检索和数据库搜索是在生物信息学 中是两个完全不同的概念,它们所要解决的问题、所采用的方法和得到的结果均不相同。 基于文字注释信息的数据库检索是核酸和蛋白质序列分析的一个重要组成部分,这一 点不应予以忽略。然而,在生物信息学应用研究中,我们经常面临的问题是已经测得一个核 酸序列片段,或一个由核酸序列翻译得到的蛋白质序列片段,而尚无注释信息。此时,数据 库搜索就成了确定对该序列进一步分析研究的有效方法。本章将重点介绍序列比对的基本概 念和常用算法,特别是对代查序列和目标(subject)序列之间的相似性关系,做一些定量的 分析。 为了识别一个新测定的序列和一个已知基因家族之间的进化关系,确定它们是否具有 同源性,通常需要通过序列比对,找出它们之间核苷酸碱基或氨基残基的最大匹配,从而定 量给出其相似性程度。如果两者的相似性程度很低,则很难确定它们是否具有同源性,除非 使用亲源性分析(Phylogeny Analysis)等其它分析方法,或有实验结果加以证实。通过对基 因或蛋白质之间家族关系的分析,可以从浩繁的基因组信息中找出一些线索,从而对该基因
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有