第一节:序列比对相关概念 000以 序列比对概念 序列比对(sequence alignment)就是运用某种特定的数 学模型或算法,找出两个或多个序列之间的最大匹配碱基 或残基数,比对的结果反映了算法在多大程度上提供序列 之间的相似性关系及它们的生物学特征。序列比对是序列 分析和数据库搜索的基础。 通过比较两条或多条序列之间是否具有足够的相似性,从 而判定它们之间是否具有同源性。进行多个蛋白质或核酸 序列的比对,可以找出序列中具有保守生物学功能的共同 基序(notif),还可以找出新测定序列中对了解其生物 学功能有帮助的基序。 2
第一节:序列比对相关概念 2 • 序列比对(sequence alignment)就是运用某种特定的数 学模型或算法,找出两个或多个序列之间的最大匹配碱基 或残基数,比对的结果反映了算法在多大程度上提供序列 之间的相似性关系及它们的生物学特征。序列比对是序列 分析和数据库搜索的基础。 • 通过比较两条或多条序列之间是否具有足够的相似性,从 而判定它们之间是否具有同源性。进行多个蛋白质或核酸 序列的比对,可以找出序列中具有保守生物学功能的共同 基序(motif),还可以找出新测定序列中对了解其生物 学功能有帮助的基序。 序列比对概念
第一节:序列比对相关概念 一、序列比对类型 (一)序列比对分类 global alignment 双序列比对 local alignment 多序列比对 3
第一节:序列比对相关概念 3 一、序列比对类型 (一)序列比对分类 双序列比对 多序列比对 global alignment local alignment
第一节:序列比对相关概念 一、序列比对类型 AGCACAC-A A-CACACTA Match (a,a) 字符匹配。 Delete (a,-) 一从第一条序列删除一个字符,或者在第二条序列相应的位置插 入空位。 Replace (a,b) 以第二条序列中的字符b替换第一条序列中的字符a,ab。 Insert(-,b)一在第一条序列插入空位字符,或删除第二条序列中对应字符b。 通过编辑操作计算的两条序列的距离称为编辑距离。 4
第一节:序列比对相关概念 4 一、序列比对类型 通过编辑操作计算的两条序列的距离称为编辑距离。 Match(a,a)——字符匹配。 Delete(a,-)——从第一条序列删除一个字符a,或者在第二条序列相应的位置插 入空位。 Replace(a,b)——以第二条序列中的字符b 替换第一条序列中的字符a,a≠b。 Insert(-,b)——在第一条序列插入空位字符,或删除第二条序列中对应字符b
第一节:序列比对相关概念 一、序列比对类型 1.1双序列比对 s:ATCTAC-TC ATC-TACTC t:A-CTACATC A-CTACATC Match (A,A) Match (A,A) Delete (T,- Delete(T,- Match (C,C) Match (C,C) Match (T,T) Insert(-,T) Match (A,A) Replace(T,A) Match (C,C) Replace(A,C) Insert (-,A) Replace(C,A) Match (T,T) Match (T,T) Match (C,C) Match (C,C) 序列ATCTACTC和ACTACATC的两种比对结果及对应的字符编辑操作 5
第一节:序列比对相关概念 5 一、序列比对类型 1.1 双序列比对 序列ATCTACTC 和ACTACATC 的两种比对结果及对应的字符编辑操作
第一节:序列比对相关概念 一、序列比对类型 1.1双序列比对 就不同类型的编辑操作定义函数w,表示代价 (cost)。 w(a,a)=0 w(a,b)=1(a≠b) w(a,-)=w(-,b)=1 另外,还可以使用函数p来表示得分(score),如下所示: p(a,a)=1 p(a,b)=0(a≠b) p(a,-)=p(-,b)=-1 6
第一节:序列比对相关概念 6 一、序列比对类型 1.1 双序列比对 就不同类型的编辑操作定义函数w,表示代价(cost)。 另外,还可以使用函数p 来表示得分(score),如下所示:
第一节:序列比对相关概念 一、序列比对类型 1.2全局序列比对 给定两个序列A=a1a2..an和B=b1b2.bm,S(i,j)表示两个序列所有比对的 最好分数。在设定初值后可以用以下递归关系计算: 「S(i-1,j-1)+p(a,b) S(i,j)=maxS(i-1,j)+p (a;,) S(i,i-1)+p(-,b〉 式中,p代表比对的评分
第一节:序列比对相关概念 7 一、序列比对类型 1.2 全局序列比对 给定两个序列A=a1a2…an 和B=b1b2…bm,S(i,j)表示两个序列所有比对的 最好分数。在设定初值后可以用以下递归关系计算: 式中,p 代表比对的评分
第一节:序列比对相关概念 一、序列比对类型 1.3局部序列比对 局部比对的具体算法与全局比对几乎一样,给定两个序列A=a1a2.…an和B= bb2bm,S(i,j)表示两个序列任何比对的最好分数。在设定初值后可以用 以下递归关系计算: 0 S(i-1,ji-1)+p(a,b) S(i,j)=max S(i-1,j)+p(a4,-) S(i,j-1)+p(-,b) 式中,p代表比对的评分。 8
第一节:序列比对相关概念 8 一、序列比对类型 1.3 局部序列比对 局部比对的具体算法与全局比对几乎一样,给定两个序列A=a1a2…an 和B= b1b2…bm,S(i,j)表示两个序列任何比对的最好分数。在设定初值后可以用 以下递归关系计算: 式中,p 代表比对的评分
第一节:序列比对相关概念 二、相似、同一与同源 2.1相似性、同一性、同源性 相似性(similarity)是指两序列间直接的数量关系,如部分相同、 相似的百分比或其他一些合适的度量。 同一性(identity)是指两序列在同一位点核苷酸或氨基酸残基完全 相同的序列比例。 同源性(homology)是指从某个共同祖先经趋异进化而形成的不同 序列。 9
第一节:序列比对相关概念 9 二、相似、同一与同源 2.1 相似性、同一性、同源性 • 相似性(similarity)是指两序列间直接的数量关系,如部分相同、 相似的百分比或其他一些合适的度量。 • 同一性(identity)是指两序列在同一位点核苷酸或氨基酸残基完全 相同的序列比例。 • 同源性(homology)是指从某个共同祖先经趋异进化而形成的不同 序列
第一节:序列比对相关概念 二、相似、同一与同源 2.2直系同源、旁系同源 直系同源基因 】(orthologous gene)是指在不同物种中有相同功能的 同源基因,它是在物种形成过程中形成的。 旁系同源基因(paralogous gene)是指一个物种内的同源基因。 直系同源基因和旁系同源基因统称为同源基因(homolog)。 0
第一节:序列比对相关概念 1 0 二、相似、同一与同源 2.2 直系同源、旁系同源 • 直系同源基因(orthologous gene)是指在不同物种中有相同功能的 同源基因,它是在物种形成过程中形成的。 • 旁系同源基因(paralogous gene)是指一个物种内的同源基因。 直系同源基因和旁系同源基因统称为同源基因(homolog)
第二节:序列比对打分方法 一、序列比对打分目的 序列分析的目的是揭示核苷酸或氨基酸序列编码的高级结构或功能信 息目的。 二、打分矩阵 稀疏矩阵、相似性打分矩阵 1 1
第二节:序列比对打分方法 1 1 一、序列比对打分目的 序列分析的目的是揭示核苷酸或氨基酸序列编码的高级结构或功能信 息目的。 二、打分矩阵 稀疏矩阵、相似性打分矩阵