第一节:蛋白质编码基因的注释 000 注释策略 (一)、基于证据的注释,即根据已有的实验证据(如cDNA)、表达序列 标签(E$T)和蛋白质序列进行蛋白质编码基因的注释。 (二)、从头开始(ab initio)的基因预测,即只根据基因组的DNA序列对 蛋白质编码基因进行预测。 (三)、重新(de novo)基因预测,即通过与其他物种的基因组进行比较, 从而预测一个新基因组中的蛋白质编码基因。 2
注释策略 第一节:蛋白质编码基因的注释 2 (一)、基于证据的注释,即根据已有的实验证据(如cDNA)、表达序列 标签(EST)和蛋白质序列进行蛋白质编码基因的注释。 (二)、从头开始(ab initio)的基因预测,即只根据基因组的DNA序列对 蛋白质编码基因进行预测。 (三)、重新(de novo)基因预测,即通过与其他物种的基因组进行比较, 从而预测一个新基因组中的蛋白质编码基因
第一节:蛋白质编码基因的注释 00; 注释策略 测练 数据集 来自于其他 全长CDNA 仅目标 基因组的经 EST蛋白 从头开始 基因组 重新 基于 序列 测 白 过比对的 正据 (相同或相关 DNA序列 基因组) 低 情度 高 组合 RT-PCR 和测序 假基因 基因结构 图51蛋白质编码基因预测流程图 3
注释策略 第一节:蛋白质编码基因的注释 3
第一节:蛋白质编码基因的注释 例一、基于证据的基因注释 (一)顺式比对 顺式比对是使用被注释基因组的cDNA或者蛋白质序列与基因组序列进行 比对后得到的最好的比对位点,而这个位点常常被认为就是转录或者翻译 形成cDNA或者蛋白质的基因。 常用的顺式比对程序如AAT、sIM4、Splign等。 4
一、基于证据的基因注释 第一节:蛋白质编码基因的注释 4 (一)顺式比对 顺式比对是使用被注释基因组的cDNA或者蛋白质序列与基因组序列进行 比对后得到的最好的比对位点,而这个位点常常被认为就是转录或者翻译 形成cDNA或者蛋白质的基因。 常用的顺式比对程序如AAT、SIM4、Splign等
第一节:蛋白质编码基因的注释 0例队一、基于证据的基因注释 (二)反式比对 反式比对是使用cDNA或者蛋白质序列与基因组进行比对得到同源位点 (比对所用的cDNA或者蛋白质并不来自于这个位点,往往属于同一个基 因家族)。 常用的反式比对工具有BLAT、Exonerate和GeneWise。 5
一、基于证据的基因注释 第一节:蛋白质编码基因的注释 5 (二)反式比对 反式比对是使用cDNA或者蛋白质序列与基因组进行比对得到同源位点 (比对所用的cDNA或者蛋白质并不来自于这个位点,往往属于同一个基 因家族)。 常用的反式比对工具有BLAT、Exonerate和GeneWise
第一节:蛋白质编码基因的注释 0例队二、从头开始的基因预测 从基因组测序一开始,一个明确的目标就是能够准确地进行从头开始(ab initio)的基因预测,即只依赖蕴含在DNA序列内部的信息来确定基因结 构。 从头开始的基因预测包括两个主要步骤,即蛋白质编码基因特征的识别和 基因结构的生成。 从头预测基因软件:GENSCAN 6
二、从头开始的基因预测 第一节:蛋白质编码基因的注释 6 从基因组测序一开始,一个明确的目标就是能够准确地进行从头开始(ab initio)的基因预测,即只依赖蕴含在DNA序列内部的信息来确定基因结 构。 从头开始的基因预测包括两个主要步骤,即蛋白质编码基因特征的识别和 基因结构的生成。 从头预测基因软件:GENSCAN
第一节:蛋白质编码基因的注释 0例队二、从头开始的基因预测 The GENSCAN Web Server at MIT Identification of complete gene structures in genomic DNA ⑦ request e lecal copy of reshlen:Vi Sboptinal eron cutoff (cptlonsl):100 eqimnce name (opticnal): eload your IKA segumnse file (ueper or loer cose.saces/maberw Igored): 透间又用来诗第文作 Run GENSCAN Cleat lpu 1
二、从头开始的基因预测 第一节:蛋白质编码基因的注释 7
第一节:蛋白质编码基因的注释 0例队三、重新基因预测 重新预测软件:Twinscan、SGP2、SLAM 8
三、重新基因预测 第一节:蛋白质编码基因的注释 8 重新预测软件:Twinscan、SGP2、SLAM
第一节:蛋白质编码基因的注释 000以 四、整合信息 (一)人工整合 (二)自动整合 9
四、整合信息 第一节:蛋白质编码基因的注释 9 (一)人工整合 (二)自动整合
第一节:蛋白质编码基因的注释 0例队五、蛋白质编码基因的功能注释 常用的数据库主要包括NCBI的NT、NR(非荣冗余蛋白质序列数据库)、 UniProt、.InterPro、KEGG、KOG等。 10
五、蛋白质编码基因的功能注释 第一节:蛋白质编码基因的注释 10 常用的数据库主要包括NCBI的NT、NR(非荣冗余蛋白质序列数据库)、 UniProt、InterPro、KEGG、KOG等
第二节RNA基因的注释 000 RNA基因是指不编码蛋白质的基因,又称为非编码基因(non-coding gene,ncRNA),其编码产物为一条功能RNA分子 RNA World mRNA rRNA snoRNA scaRNA IRNA Coding RNA Non- Coding rasiRNA anti- sense RNAI miRNA SIRNA 11
第二节 RNA基因的注释 11 RNA基因是指不编码蛋白质的基因,又称为非编码基因(non-coding gene,ncRNA),其编码产物为一条功能RNA分子