生物信息学 普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics e00 第三章:序列比对原理
第三章:序列比对原理 普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics
第一节序列比对相关概念 一、序列比对目的及定义 (一)序列比对目的 通过比较两条或多条序列之间是否具有足够的相似 性,从而判定它们之间是否具有同源性。 (二)序列比对定义 序列比对(sequence alignment).是运用某种特定的 数学模型或算法,找出两个或多个序列之间的最大匹 配碱基或残基数,比对的结果反映了算法在多大程度 上提供序列之间的相似性关系及它们的生物学特征
第一节 序列比对相关概念 一、序列比对目的及定义 (一)序列比对目的 通过比较两条或多条序列之间是否具有足够的相似 性,从而判定它们之间是否具有同源性。 (二)序列比对定义 序列比对(sequence alignment)是运用某种特定的 数学模型或算法,找出两个或多个序列之间的最大匹 配碱基或残基数,比对的结果反映了算法在多大程度 上提供序列之间的相似性关系及它们的生物学特征
二、序列比对类型 global alignment (一)序列比对分类 local alignment 双序列比对 多序列比对
二、序列比对类型 (一)序列比对分类 双序列比对 多序列比对 global alignment local alignment
(二)编辑距离 AGCACAC-A LUIII A-CACACTA Match(a,a)一一字符匹配。 Delete(a,)一从第一条序列删除一个字符,或者在第二条序列相应的位置插入空位。 Replace(a,b)一以第二条序列中的字符b替换第一条序列中的字符a,a≠b。 Insert((-,b)一一在第一条序列插入空位字符,或删除第二条序列中对应字符b。 通过编辑操作计算的两条序列的距离称为编辑距离
(二)编辑距离 通过编辑操作计算的两条序列的距离称为编辑距离
(三)双序列比对 s:ATCTAC-TC ATC-TACTC A-CTACATC A-CTACATC Match (A,A) Match (A,A) Delete (T,- Delete(T,- Match (C,C) Match (C,C) Match (T,T) Insert(←,T) Match (A,A) Replace(T,A) Match (C,C) Replace(A,C) Insert (-A) Replace(C,A Match (T,T) Match (T,T) Match (C,C) Match(C,c)】 序列ATCTACTC和ACTACATC的两种比对结果及对应的字符编辑操作
(三)双序列比对
就不同类型的编辑操作定义函数w,表示代价(cost)。 (a,a)=0 w(a,b)=1(a≠b) (a,-)=w(-,b)=1 另外,还以使用函数p来表示得分(score),如下所示: (a,a)=1 (a,b)=0(a≠b) (a,-)=(-,b)=-1
(四)全局序列比对 给定两个序列A=a1a2…am和B=b1b2…bm,S(i,j)表示两个序列任何比对的最好分数 在设定初值后可以用以下递归关系计算: S(t1,i1)+(ai,b) S(i,j)=max S(i1,j)+p(ai,-) S(i,广1)+(-,b) 式中,p代表比对的评分
(四)全局序列比对
(五)局部序列比对 局部比对的具体算法与全局比对几乎一样,给定两个序列A=a1a2…am和B=b1b2…bm,S (,)表示两个序例任何比对的最好分数。在设定初值后可以用以下递归关系计算: 0 S(t1,广1)+(ai,b) S(i,j)=max S(t1,j)+(ai,-) S(i,i1)+(-,b) 式中,p代表比对的评分
(五)局部序列比对
三、序列比对的相关概念 (一)同源性、同一性、相似性 相似性(similarity).是指两序列间直接的数量关系 如部分相同、相似的百分比或其他一些合适的度量。 同一性(identity)是指两序列在同一位点核苷酸或氨 基酸残基完全相同的序列比例。 同源性(homology)是指从某个共同祖先经趋异进化 而形成的不同序列
三、序列比对的相关概念 (一)同源性、同一性、相似性 相似性(similarity)是指两序列间直接的数量关系, 如部分相同、相似的百分比或其他一些合适的度量。 同一性(identity)是指两序列在同一位点核苷酸或氨 基酸残基完全相同的序列比例。 同源性(homology)是指从某个共同祖先经趋异进化 而形成的不同序列
(二)直系同源、旁系同源 直系同源基因(orthologous gene)是指在不同物种 中有相同功能的同源基因,它是在物种形成过程中 形成的。 旁系同源基因(paralogous gene)是指一个物种内 的同源基因。 直系同源基因和旁系同源基因统称为同源基因 (homolog)
(二)直系同源、旁系同源 直系同源基因(orthologous gene)是指在不同物种 中有相同功能的同源基因,它是在物种形成过程中 形成的。 旁系同源基因(paralogous gene)是指一个物种内 的同源基因。 直系同源基因和旁系同源基因统称为同源基因 (homolog)