生物信息学 普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics 第五章:真核生物基因组的注释
第五章:真核生物基因组的注释 普通高等教育 “十二五”规划教材 生物信息学 Bioinformatics
第一节蛋白质编码基因的注释 注释策略: (一)、基于证据的注释,即根据已有的实验证据 (如cDNA)、表达序列标签(EST)和蛋白质序 列进行蛋白质编码基因的注释 。 (二)、从头开始(ab initio)的基因预测,即只根 据基因组的DNA序列对蛋白质编码基因进行预测。 (三)、重新(de novo)基因预测,即通过与其他 物种的基因组进行比较,从而预测一个新基因组 中的蛋白质编码基因
第一节 蛋白质编码基因的注释 注释策略: (一)、基于证据的注释,即根据已有的实验证据 (如cDNA)、表达序列标签(EST)和蛋白质序 列进行蛋白质编码基因的注释。 (二)、从头开始(ab initio)的基因预测,即只根 据基因组的DNA序列对蛋白质编码基因进行预测。 (三)、重新(de novo)基因预测,即通过与其他 物种的基因组进行比较,从而预测一个新基因组 中的蛋白质编码基因
训练 数据集 来自于其他 全长-cDNA 仅目标 重新 基因组的经 从头开始 基因组 基于 EST蛋白 预测 过比对的 序列 证据 (相同或相关 DNA序列 基因组) 低 精度 高 组合 RT-PCR 和测序 假基因 基因结构 图51蛋白质编码基因预测流程图
一、基于证据的基因注释 (一)顺式比对 顺式比对是使用被注释基因组的cDNA或者蛋白质序 列与基因组序列进行比对后得到的最好的比对位点, 而这个位点常常被认为就是转录或者翻译形成cDNA 或者蛋白质的基因。 常用的顺式比对程序如AAT、SIM4、Splign等
一、基于证据的基因注释 (一)顺式比对 顺式比对是使用被注释基因组的cDNA或者蛋白质序 列与基因组序列进行比对后得到的最好的比对位点, 而这个位点常常被认为就是转录或者翻译形成cDNA 或者蛋白质的基因。 常用的顺式比对程序如AAT、SIM4、Splign等
(二)反式比对 反式比对是使用cDNA或者蛋白质序列与基因组进行 比对得到同源位点(比对所用的cDNA或者蛋白质并 不来自于这个位点,往往属于同一个基因家族)。 常用的反式比对工具有BLAT、Exonerate和 GeneWise
(二)反式比对 反式比对是使用cDNA或者蛋白质序列与基因组进行 比对得到同源位点(比对所用的cDNA或者蛋白质并 不来自于这个位点,往往属于同一个基因家族)。 常用的反式比对工具有BLAT、Exonerate和 GeneWise
二、从头开始的基因预测 从基因组测序一开始,一个明确的目标就是能够准 确地进行从头开始(ab initio)的基因预测,即只依 赖蕴含在DNA序列内部的信息来确定基因结构。 从头开始的基因预测包括两个主要步骤,即蛋白质 编码基因特征的识别和基因结构的生成。 从头预测基因软件:GENSCAN
二、从头开始的基因预测 从基因组测序一开始,一个明确的目标就是能够准 确地进行从头开始(ab initio)的基因预测,即只依 赖蕴含在DNA序列内部的信息来确定基因结构。 从头开始的基因预测包括两个主要步骤,即蛋白质 编码基因特征的识别和基因结构的生成。 从头预测基因软件:GENSCAN
The GENSCAN Web Server at MIT Identification of complete gene structures in genomic DNA n上onn士1 on about Gonoon,olick here Server update,November,2009:We've been recently upgrading the GENSCAN webserver hardmare,which resulted in some problems in the output of GENSCAN.We apologize for the inconvenience.These output errors were resolved. This server provides access to the program Genscan for predicting the locations and exon-intron structures of genes in genomic sequences from a variety of organisms. This server can accept sequences up to 1 million base pairs (1 Mbp)in length.If you have trouble with the web server or if you have a large number of sequences to process,request a local copy of the program (see instructions at the bottom of this page). Organism: Vertebrate Suboptimal exon cutoff (optional): 1.00 Sequence name (optional): Print options: Predicted peptides only Upload your DNA sequence file (upper or lower case,spaces/numbers ignored): 选择文件未选择文件 Or paste your DNA sequence here (upper or lower case,spaces/numbers ignored): Run GENSCAN Clear Input
三、重新基因预测 重新预测软件:Twinscan、SGP2、SLAM 四、整合信息 (一)人工整合 (二)自动整合
三、重新基因预测 重新预测软件:Twinscan、SGP2、SLAM 四、整合信息 (一)人工整合 (二)自动整合
五、蛋白质编码基因的功能注释 常用的数据库主要包括NCBI的NT、NR(非荣冗余蛋 白质序列数据库)、UniProt、InterPro、KEGG、 KOG等
五、蛋白质编码基因的功能注释 常用的数据库主要包括NCBI的NT、NR(非荣冗余蛋 白质序列数据库)、UniProt、InterPro、KEGG、 KOG等
第二节RNA基因的注释 RNA基因是指不编码蛋白质的基因,又称为非编码 基因(non-coding gene,ncRNA),其编码产物为 一条功能RNA分子。 RNA World mRNA rRNA snoRNA scaRNA tRNA Coding snRNA RNA Non- lincRNA Coding rasiRNA anti- sense RNAi piRNA miRNA stRNA siRNA
第二节 RNA基因的注释 RNA基因是指不编码蛋白质的基因,又称为非编码 基因(non-coding gene,ncRNA),其编码产物为 一条功能RNA分子