第一章概论 11本章简介 本章旨在介绍生物信息学的基本概念,指出它在现代生物学中的重要地位。首先,我们 将简要回顾生物信息学发展的几个历史阶段,从早期的蛋白质手工测序,到今天的DNA自 动测序。读完本章,你将会发现,DNA测序自动化引起的生物信息爆炸,使生物大分子序 列数据库的数据量急剧增长,而蛋白质结构测定的速度远不能与之相比。因此,从序列信息 直接推断其可能的生物学功能就显得十分必要。本章还将简述蛋白质结构预测的现状,从蛋 白质一级结构中各种氨基酸所包含的折叠信息入手,重点说明蛋白质三级结构预测的意义 并指出分子伴侣的本质及其在蛋白质折叠过程中的作用。此外,我们将重温蛋白质一级结构 二级结构、三级结构和四级结构的定义。 书中首次出现的术语皆用粗体标出,并在括号中注明英文原文。所有术语均列入书末词 汇表。 12序列测定 121蛋白质序列测定 序列测定( sequencing)已有50多年的历史,但开始时进展十分缓慢。最初,人们致力 于建立蛋白质( proteins)和多肽( peptides)的分离技术,并确定其氨基酸( amino acids) 种类及含量。1945以前,没有任何蛋白质序列定量测定的方法。以后十年中,由于色谱技 术和标记方法的快速进展,第一个多肽激素(胰岛素)的全序列测定于1955年完成(Ryle 等,1955)。五年后,第一个酶(核糖核酸酶)序列测定完成(Hirs等,1960年)。1965年, 约有20个含100多个残基的蛋白质序列被确定。截止1980年,这一数字已达1500个。而 今天,已测定的蛋白质序列已达30万个,这在50年前是难以想象的。 最初,蛋白质序列测定主要采用手工的埃德曼降解和环甲基化( Edman deglation dansylation)方法( Edman,1950年)。蛋白质序列测定的快速进展,应该归功于自动测序 仪的研制成功。与埃德曼和贝格(Beg)于196年发明的测序法相比,1980年开始使用的 自动测序仪的灵敏度提高了近1万倍 质谱技术的发展为蛋白质序列测定开辟了新的途径。第一次用这种方法测定完整的蛋白 质分子是在1997年。质谱法测序的突出优点是可以识别翻译后修饰( post-translation modification)而得到的特殊氨基酸。用其它方法进行蛋白质序列测定时,这种修饰信息无 法获得。正是利用了质谱技术,人们得出了γ氨基丁酸处于凝血素N-末端的重要结论。 122核酸序列测定 本世纪60年代和70年代,科学家们一直致力于研究测定核酸序列的方法。最初使用的 方法只能测定核糖核酸( ribonucleic acid,简称RNA),主要是转移核糖核酸( transfer-RNA, 简称tRNA)。tRNA分子的序列比较容易测定,一则因为它的链较短,通常只有7495个核 苷酸( nucleotide),二则有可能分离单个tRNA分子,尽管有时也不很容易。 而脱氧核糖核酸( deoxynucleic acid,简称DNA)的情况却大相径庭。人的染色体有大 有小,没个染色体约含5千5百万到2亿5千万个碱基对( basepair,简称bp),远远大于 RNA分子。测定一个染色体DNA分子的全部核苷酸序列是一项艰巨的工作。即使可以将其 分割成较小的片段,如何纯化也是一个问题。一次实验中可以测定的最长片段约为500bp 由此推断,要测定人类染色体DNA分子的全序列,就得将其分割成50万个片段。显然, 如何把某个片段从这50万个片段中分离出来,成了DNA序列测定问题的关键 基因克隆( gene cloning)和多豪链式反应( polymerase chain reaction,简称PCR)技 术为DNA全序列测定带来了福音。利用以上方法,从染色体中分离特定DNA片段的难题 迎刃而解,快速高效的测序技术因此而产生。1977年,基于链终止和化学降解的DNA测序 法研究成功,略经改善后很快就被推广到世界各国的分子生物学实验室,成为80年代和90 年代序列测定革命的基础,生物信息学( bioinformatics)也应运而生
第一章 概 论 1.1 本章简介 本章旨在介绍生物信息学的基本概念,指出它在现代生物学中的重要地位。首先,我们 将简要回顾生物信息学发展的几个历史阶段,从早期的蛋白质手工测序,到今天的 DNA 自 动测序。读完本章,你将会发现,DNA 测序自动化引起的生物信息爆炸,使生物大分子序 列数据库的数据量急剧增长,而蛋白质结构测定的速度远不能与之相比。因此,从序列信息 直接推断其可能的生物学功能就显得十分必要。本章还将简述蛋白质结构预测的现状,从蛋 白质一级结构中各种氨基酸所包含的折叠信息入手,重点说明蛋白质三级结构预测的意义, 并指出分子伴侣的本质及其在蛋白质折叠过程中的作用。此外,我们将重温蛋白质一级结构、 二级结构、三级结构和四级结构的定义。 书中首次出现的术语皆用粗体标出,并在括号中注明英文原文。所有术语均列入书末词 汇表。 1.2 序列测定 1.2.1 蛋白质序列测定 序列测定(sequencing)已有 50 多年的历史,但开始时进展十分缓慢。最初,人们致力 于建立蛋白质(proteins)和多肽(peptides)的分离技术,并确定其氨基酸(amino acids) 种类及含量。1945 以前,没有任何蛋白质序列定量测定的方法。以后十年中,由于色谱技 术和标记方法的快速进展,第一个多肽激素(胰岛素)的全序列测定于 1955 年完成(Ryle 等,1955)。五年后,第一个酶(核糖核酸酶)序列测定完成(Hirs 等,1960 年)。1965 年, 约有 20 个含 100 多个残基的蛋白质序列被确定。截止 1980 年,这一数字已达 1500 个。而 今天,已测定的蛋白质序列已达 30 万个,这在 50 年前是难以想象的。 最初,蛋白质序列测定主要采用手工的埃德曼降解和环甲基化(Edman deglation - dansylation)方法(Edman,1950 年)。蛋白质序列测定的快速进展,应该归功于自动测序 仪的研制成功。与埃德曼和贝格(Begg)于 1967 年发明的测序法相比,1980 年开始使用的 自动测序仪的灵敏度提高了近 1 万倍。 质谱技术的发展为蛋白质序列测定开辟了新的途径。第一次用这种方法测定完整的蛋白 质分子是在 1997 年。质谱法测序的突出优点是可以识别翻译后修饰(post-translation modification) 而得到的特殊氨基酸。用其它方法进行蛋白质序列测定时,这种修饰信息无 法获得。正是利用了质谱技术,人们得出了γ-氨基丁酸处于凝血素 N-末端的重要结论。 1.2.2 核酸序列测定 本世纪 60 年代和 70 年代,科学家们一直致力于研究测定核酸序列的方法。最初使用的 方法只能测定核糖核酸(ribonucleic acid,简称 RNA),主要是转移核糖核酸(transfer-RNA, 简称 tRNA)。tRNA 分子的序列比较容易测定,一则因为它的链较短,通常只有 74-95 个核 苷酸(nucleotide),二则有可能分离单个 tRNA 分子,尽管有时也不很容易。 而脱氧核糖核酸(deoxynucleic acid,简称 DNA)的情况却大相径庭。人的染色体有大 有小,没个染色体约含 5 千 5 百万到 2 亿 5 千万个碱基对(basepair,简称 bp),远远大于 RNA 分子。测定一个染色体 DNA 分子的全部核苷酸序列是一项艰巨的工作。即使可以将其 分割成较小的片段,如何纯化也是一个问题。一次实验中可以测定的最长片段约为 500bp。 由此推断,要测定人类染色体 DNA 分子的全序列,就得将其分割成 50 万个片段。显然, 如何把某个片段从这 50 万个片段中分离出来,成了 DNA 序列测定问题的关键。 基因克隆(gene cloning)和多聚酶链式反应(polymerase chain reaction,简称 PCR)技 术为 DNA 全序列测定带来了福音。利用以上方法,从染色体中分离特定 DNA 片段的难题 迎刃而解,快速高效的测序技术因此而产生。1977 年,基于链终止和化学降解的 DNA 测序 法研究成功,略经改善后很快就被推广到世界各国的分子生物学实验室,成为 80 年代和 90 年代序列测定革命的基础,生物信息学(bioinformatics)也应运而生
13什么是生物信息学 过去十年,DNA测序技术( sequencing)的飞速发展使分子生物学经历了信息革命时代。 这一革命,得益于计算机技术在过去十多年来突飞猛进的高速发展。只有使用计算机技术, 我们才有可能应付日益快速增长的生物信息。80年代中期以来,计算机在生物学中的广泛 应用孕育了生物信息学这一新兴学科 生物信息学这一术语在不同的场合下被赋予不同的含义。从广义上说,生物信息学可指 利用信息技术管理和分析生物学数据。这就意味着生物信息学所涉及的范围相当广泛,从人 工智能、机器人一直到基因组( genome)分析。就基因组分析这一角度来看,生物信息学 主要是指核酸和蛋白质序列数据的计算机处理和分析。近年来,蛋白质结构数据的快速增长, 使蛋白质三维结构的处理分析也归入到生物信息学的范畴。 14序列和结构 序列和结构这两大类不同性质的数据在数据量方面有天壤之别。对这一点必须有个明确 的概念。截止1998年4月,公共蛋白质序列非冗余数据库中存放的序列数已达30多万个 已公布的序片段( Boguki,1994年)和表达序列标签( Expressed Sequence Tag,简称EST) 数据库的数目己达百万个(详见第四章)。而蛋白质三维结构数据库( Protein data bank,简 称PDB)中独立的原子坐标依然不足1500套,显然难以与序列数据库的数据量相比 ( Bernstein等,1977年),这是因为结构数据的采集、存储与处理远比序列数据复杂。从信 息理论角度看,结构数据与序列数据之间数据量的巨大差异,反映了这两类既不相同、却又 相关的数据之间信息量的差异。随着基因组计划( genome project)的实施,序列数据大量 积累,这种差距会越来越大。当然,结构数据也在快速增长。可以预计,大规模结构测定计 划的实施,每年测定2000个结构的目标将不会是一句空话。当然,这与序列数据每年翻番 的增长速度相比,依然不可同日而语。目前,平均每一分钟就有一个序列增加到核酸序列数 据库中 下列网址提供了世界各国人类基因组计划有关情况,以及美国能源部人类基 因组计划的历史、所起作用、已取得的成果等。该网页还提供了有关基因组注释 协会( Genome Annotation Consortium,简称GAC)的情况,并以序列测定为主线, 用图表方式详细介绍各基因组计划的有关情况和进展。此外,该网站还提供了分 子遗传学入门的基础知识。 值得一提的是该网站上登载的两篇文章,它们均出自美国科学院院报。其中 篇的题目是“ Beyond Discovery”,谈到了基因组计划将会给人类带来的福音。另 一篇阐述了一个新的研究领域,它把基因组研究成果用于医学。建议读者阅读 下两篇文章,其中许多观点和本书将要讨论的内容有关。 GAC tp: //compbio. ornl. gov/gac/index. shtml ttp://www.oml.gov/techresoUrces/humanGenome DoE in the hgp tp://www.orml.gov/techresouRce/humanGenome/publicat/tko/index.htm Primer http://www.ornl.gov/techresouRce/humanGenome/publicat/primer/inTro.htm Beyond Discovery http://www4.nas.edu/beyond/beyonddiscovery.nsf/framset?openforn Gene Testing http://www4.nas.edu/beyond/beyonddiscovery.nsf/ Document Frameset?Open Form&Human Gene Testing
1.3 什么是生物信息学 过去十年,DNA 测序技术(sequencing)的飞速发展使分子生物学经历了信息革命时代。 这一革命,得益于计算机技术在过去十多年来突飞猛进的高速发展。只有使用计算机技术, 我们才有可能应付日益快速增长的生物信息。80 年代中期以来,计算机在生物学中的广泛 应用孕育了生物信息学这一新兴学科。 生物信息学这一术语在不同的场合下被赋予不同的含义。从广义上说,生物信息学可指 利用信息技术管理和分析生物学数据。这就意味着生物信息学所涉及的范围相当广泛,从人 工智能、机器人一直到基因组(genome)分析。就基因组分析这一角度来看,生物信息学 主要是指核酸和蛋白质序列数据的计算机处理和分析。近年来,蛋白质结构数据的快速增长, 使蛋白质三维结构的处理分析也归入到生物信息学的范畴。 1.4 序列和结构 序列和结构这两大类不同性质的数据在数据量方面有天壤之别。对这一点必须有个明确 的概念。截止 1998 年 4 月,公共蛋白质序列非冗余数据库中存放的序列数已达 30 多万个。 已公布的序片段(Boguki,1994 年)和表达序列标签(Expressed Sequence Tag,简称 EST) 数据库的数目已达百万个(详见第四章)。而蛋白质三维结构数据库(Protein Data Bank,简 称 PDB)中独立的原子坐标依然不足 1500 套,显然难以与序列数据库的数据量相比 (Bernstein 等,1977 年),这是因为结构数据的采集、存储与处理远比序列数据复杂。从信 息理论角度看,结构数据与序列数据之间数据量的巨大差异,反映了这两类既不相同、却又 相关的数据之间信息量的差异。随着基因组计划(genome project)的实施,序列数据大量 积累,这种差距会越来越大。当然,结构数据也在快速增长。可以预计,大规模结构测定计 划的实施,每年测定 2000 个结构的目标将不会是一句空话。当然,这与序列数据每年翻番 的增长速度相比,依然不可同日而语。目前,平均每一分钟就有一个序列增加到核酸序列数 据库中。 下列网址提供了世界各国人类基因组计划有关情况,以及美国能源部人类基 因组计划的历史、所起作用、已取得的成果等。该网页还提供了有关基因组注释 协会(Genome Annotation Consortium, 简称 GAC)的情况,并以序列测定为主线, 用图表方式详细介绍各基因组计划的有关情况和进展。此外,该网站还提供了分 子遗传学入门的基础知识。 值得一提的是该网站上登载的两篇文章,它们均出自美国科学院院报。其中 一篇的题目是“Beyond Discovery”,谈到了基因组计划将会给人类带来的福音。另 一篇阐述了一个新的研究领域,它把基因组研究成果用于医学。建议读者阅读一 下两篇文章,其中许多观点和本书将要讨论的内容有关。 GAC http://compbio.ornl.gov/gac/index.shtml HGP http://www.ornl.gov/TechResources/Human_Genome/ DoE in the HGP http://www.ornl.gov/TechResource/Human_Genome/Publicat/tko/index.htm Primer http://www.ornl.gov/TechResource/Human_Genome/Publicat/primer/intro.htm Beyond Discovery http://www4.nas.edu/beyond/beyonddiscovery.nsf/Framset?openform Gene Testing http://www4.nas.edu/beyond/beyonddiscovery.nsf/ DocumentFrameset?OpenForm&HumanGeneTesting
15基因组计划 80年代中期,美国能源部开始启动一系列研究项目,旨在构建人类基因组详尽的遗传 图谱和物理图谱,测定人类基因组的全部核苷酸序列,并将约10万个人类基因定位于染色 体。如此大规模的研究项目,必须采用新方法分析基因图谱和DNA序列数据,必须用新技 术、新仪器检测和分析DNA分子。为使研究结果尽快为公众所用,计划还要求利用先进的 信息技术将研究结果以最快的速度传递给科学工作者和医务工作者。由这一大规模研究项目 引发的国际合作,就是众所周知的人类基因组计划( Human Genome Project)(图框1.1) 此外,其它一些模式生物( model system)的基因组计划先后在世界各地启动。它们包 括大肠杆菌( Escherichia coli)、啤酒酵母( Saccharomyces cerevisiae)、线虫( Caenorhabditis elegans)、果蝇( Drosophila melanogaster)、拟南芥( Arabidopsis thalania)、狗( Canis familiaris)、小鼠( Mus musculus)。截止1998年4月,尽管只完成了若干基因组容量较小 的模式生物全序列测定,而人类基因组测序也仅完成10%,但由此而产生的序列数据已经 大量涌入公共的核酸序列数据库。 16人类基因组计划现状 根据1998年年中的进展情况和世界各国所投入的人力物力估算,人类基因组计划预计 完成时间不会早于2003年,有可能要到2005年。通过分析在染色体上已定位克隆来测定基 因组全序列的基本过程通常分两步,第一步是随机测序及序列组装,俗称鸟枪法( shotgun) 测序。第二步则是找出这些随机片段之间的间断序列,确定那些歧义位点的碱基 1998年5月,位于美国马里兰州 Rockville的美国国家基因组研究所( The Institute of Genome Research,简称TlGR)主任 Venter宣布,他将和珀金埃尔默公司 Perkin- Elmer Corp.) 共同组建一个新企业,并在3年内完成人类基因组全序列测定。这一消息的宣布的确令人震 惊,因为它意味着人类基因组计划完成时间将至少提前2年。该计划所采用的策略是将整个 基因组随机分割成成千上万个片段并进行测序,而不考虑它们是否已在染色体上定位。众所 周知,人类基因组含70%以上的重复序列。用鸟枪法完成整个基因组所有片段的序列测定 后,如何把它们装配起来,显然具有相当大的难度 对以上研究策略,世界各国基因组研究人员众说纷纭。对于由一个私有企业垄断测序结 果所可能带来的后果,科学家们也深感不安。显然,加快基因组全序列测定速度,已经成了 各国基因组研究人员面前迫在眉睫的问题。一个3年内完成基因组95%序列测定的新计划 因此而产生。该计划基于鸟枪法测序过程的大幅度加快。采用鸟枪法的原因是因为它简单易 行,且成本较低,平均每个碱基约需10美分。此新计划若能付之实施,可望在2001年前初 步获得高质量的序列图谱,尽管它还不是人类基因组全序列的完整图谱 当然,达到上述指标并不意味着人类基因组计划最终目标的实现,但作为过渡性措施, 不失为切实可行的解决方案。虽然人们担心这在某种程度上会延迟全序列测定最终目标的完 成,但它可推动其它研究项目的实施。例如,某些疾病基因己经在染色体上定位,但尚未加 以得到进一步阐明。以上大规模测序计划所得序列数据,不仅有助于这些疾病相关基因的发 现,而且有助于确定它们的分子特征。总而言之,不论人类基因组计划全序列测定将在何时、 何地、由何人、用何种方法完成,序列数据的飞速增长已是毋庸置疑的事实。 17生物信息学的重要性 过去20多年来,计算机在分子生物学中的应用这一研究领域中,占主导地位的分支学 科,当数结构生物学。基因组计划的实施,使这一局面发生了根本性改变。序列数据的激增 使结构数据在数量上无法与其匹配。序列分析已经成了这一领域的首要任务。生物信息学的 中心任务,是从浩如烟海的序列数据中提取理性知识。生物信息学家所面临的任务,不仅是 解决高效的数据储存手段,而且要开发有效的数据分析工具。因为只有利用新的、有效的数 据分析工具,才能将序列信息转换成生物化学和生理学知识,才能弄清它们所蕴含的结构和 功能信息,才能彻底了解它们所代表的生物学意义
1.5 基因组计划 80 年代中期,美国能源部开始启动一系列研究项目,旨在构建人类基因组详尽的遗传 图谱和物理图谱,测定人类基因组的全部核苷酸序列,并将约 10 万个人类基因定位于染色 体。如此大规模的研究项目,必须采用新方法分析基因图谱和 DNA 序列数据,必须用新技 术、新仪器检测和分析 DNA 分子。为使研究结果尽快为公众所用,计划还要求利用先进的 信息技术将研究结果以最快的速度传递给科学工作者和医务工作者。由这一大规模研究项目 引发的国际合作,就是众所周知的人类基因组计划(Human Genome Project)(图框 1.1)。 此外,其它一些模式生物(model system)的基因组计划先后在世界各地启动。它们包 括大肠杆菌(Escherichia coli)、啤酒酵母(Saccharomyces cerevisiae)、线虫(Caenorhabditis elegans)、果蝇(Drosophila melanogaster)、拟南芥(Arabidopsis thalania)、狗(Canis familiaris)、小鼠(Mus musculus)。截止 1998 年 4 月,尽管只完成了若干基因组容量较小 的模式生物全序列测定,而人类基因组测序也仅完成 10%,但由此而产生的序列数据已经 大量涌入公共的核酸序列数据库。 1.6 人类基因组计划现状 根据 1998 年年中的进展情况和世界各国所投入的人力物力估算,人类基因组计划预计 完成时间不会早于 2003 年,有可能要到 2005 年。通过分析在染色体上已定位克隆来测定基 因组全序列的基本过程通常分两步,第一步是随机测序及序列组装,俗称鸟枪法(shotgun) 测序。第二步则是找出这些随机片段之间的间断序列,确定那些歧义位点的碱基。 1998 年 5 月,位于美国马里兰州 Rockville 的美国国家基因组研究所(The Institute of Genome Research,简称 TIGR)主任 Venter 宣布,他将和珀金-埃尔默公司(Perkin-Elmer Corp.) 共同组建一个新企业,并在 3 年内完成人类基因组全序列测定。这一消息的宣布的确令人震 惊,因为它意味着人类基因组计划完成时间将至少提前 2 年。该计划所采用的策略是将整个 基因组随机分割成成千上万个片段并进行测序,而不考虑它们是否已在染色体上定位。众所 周知,人类基因组含 70%以上的重复序列。用鸟枪法完成整个基因组所有片段的序列测定 后,如何把它们装配起来,显然具有相当大的难度。 对以上研究策略,世界各国基因组研究人员众说纷纭。对于由一个私有企业垄断测序结 果所可能带来的后果,科学家们也深感不安。显然,加快基因组全序列测定速度,已经成了 各国基因组研究人员面前迫在眉睫的问题。一个 3 年内完成基因组 95%序列测定的新计划 因此而产生。该计划基于鸟枪法测序过程的大幅度加快。采用鸟枪法的原因是因为它简单易 行,且成本较低,平均每个碱基约需 10 美分。此新计划若能付之实施,可望在 2001 年前初 步获得高质量的序列图谱,尽管它还不是人类基因组全序列的完整图谱。 当然,达到上述指标并不意味着人类基因组计划最终目标的实现,但作为过渡性措施, 不失为切实可行的解决方案。虽然人们担心这在某种程度上会延迟全序列测定最终目标的完 成,但它可推动其它研究项目的实施。例如,某些疾病基因已经在染色体上定位,但尚未加 以得到进一步阐明。以上大规模测序计划所得序列数据,不仅有助于这些疾病相关基因的发 现,而且有助于确定它们的分子特征。总而言之,不论人类基因组计划全序列测定将在何时、 何地、由何人、用何种方法完成,序列数据的飞速增长已是毋庸置疑的事实。 1.7 生物信息学的重要性 过去 20 多年来,计算机在分子生物学中的应用这一研究领域中,占主导地位的分支学 科,当数结构生物学。基因组计划的实施,使这一局面发生了根本性改变。序列数据的激增, 使结构数据在数量上无法与其匹配。序列分析已经成了这一领域的首要任务。生物信息学的 中心任务,是从浩如烟海的序列数据中提取理性知识。生物信息学家所面临的任务,不仅是 解决高效的数据储存手段,而且要开发有效的数据分析工具。因为只有利用新的、有效的数 据分析工具,才能将序列信息转换成生物化学和生理学知识,才能弄清它们所蕴含的结构和 功能信息,才能彻底了解它们所代表的生物学意义
显而易见,序列测定本身不是最终目的,弄清序列数据所包含的生物学意义,才是我们 的目标。揭示序列数据所代表的生物学意义,是一门深奥的科学。难度之大,不亚于破译 部“天书”。如同我们所熟悉的自然语言一样,这部“天书”是由一个个句子、一个个单词 直至一个个字母组成的。若把蛋白质比作句子,把序列模体(motf)比作单词,那么,组 成蛋白质的基本元素氨基酸就是字母。显然,孤立地分析单个字母,并不能获取多少信息。 而由单个字母排列组合所构成的单词,则具有显著的意义。有时,改变一个单词中的某个字 母,则可改变其含义,乃至使整个句子面目全非。举个最简单的例子,英语中hog(猪)和 巫婆(hag)只差一个字母,而它们的含义却大相径庭。因此,准确地破译这部“天书”,是 生物信息学所面临的艰巨任务。生物学中类似的例子就是镰刀状贫血症的分子机理。患者和 正常人的区别只是血红蛋白A链上一个氨基酸残基的突变(谷氨酸Gu突变成丙氨酸Val), 而编码谷氨酸的三联体密码GAA和编码丙氨酸的三联体密码GUA只差一个碱基 我们的目标,则是要掌握这部“天书”中组成各种句子的全部单词,也就是说,弄清组 成各种蛋白质的序列模体所代表的意义,并在将来的某一天,设计自然界不存在的全新蛋白 质,最终实现编写编码人类自身的新的“天书”。今天,现有的计算方法和应用程序已经可 以用来识别这部“天书”中的部分单词,即序列模体所表征的结构功能特征和信息。但是, 我们尚未搞清把单词组合成句子的句法规律,还不知道如何将序列模体片段恰当地组合起 来,构建成具有生物学意义的蛋白质结构 揭示序列数据所隐含的生物学意义的基本方法可分为两类。第一类方法的原理基于模式 识别技术,其基本出发点是找出不同序列间的相似性,并推断它们与结构和功能的内在联系 第二类方法就是所谓“从头计算”方法,即直接从蛋白质序列预测其三维结构,并最终推断 其功能。在可以预见的将来,用传统的实验方法能够测定的蛋白质结构的数量极为有限。因 此,研究开发有效的模式识别和结构预测方法,将是生物信息学所面临的主要任务 18模式识别和预测 首先,我们对模式识别和预测之间的区别作一些说明。如上所述,模式识别和预测是生 物信息学中两种基本分析工具,这两个术语又常常被混用。然而,从它们所要解决的问题和 可以取得的结果来看,这两种方法是完全不同的,不应该将它们混淆 顾名思义,模式识别的基本思想是利用存在于蛋白质序列或结构中的某些特征模式识别 相关蛋白质的性质。如果某一蛋白质序列或结构中的一部分具有保守性,这种保守性或者与 蛋白质的生物活性有关,或者与蛋白质的折叠方式有关;那么,这种特征模式就可以用来识 别该蛋白质家族中的新成员。换句话说,如果将已知蛋白质的特征序列模式和特征结构模式 搜集起来,构建成数据库,则可以用来确定新测定的蛋白质序列中是否具有某种特征模式 从而确定该未知蛋白属于哪个蛋白质家族。目前,利用序列模式和结构模板数据库査询确定 蛋白质家族关系,从而推断该新序列的功能和结构,已经成了常用的方法。 显然,无论是序列模式识别,还是结构模式识别,都建立在已知序列和结构的基础上, 这些已知序列和结构存放在各种数据库中。应该说,序列模式识别比较容易,其结果也比较 可靠。相比之下,结构识别亦即折叠模式识别要困难得多,往往需要有专门研究人员参与。 即使如此,其准确性也只能达到40%左右。序列模式识别和折叠模式识别是目前硏宄的重 点,其方法也在不断改进 相反,预测是生物信息学中的棘手问题,目前尚无行之有效的方法,预计在未来十年内 也很难取得关键性突破。所谓预测,是指直接从氨基酸序列推断某一蛋白质的功能位点或预 测其三维结构,它并不依赖于已知蛋白(图1.2)。因此,预测方法不需要建立序列模式或结 构模式数据库,而需要研究开发解决蛋白质折叠问题的方法和软件。 19蛋白质折叠 蛋白质折叠问题是分子生物学研究的中心课题。它所要解决的是蛋白质一级结构中的氨 基酸序列最终怎样折叠成三维空间结构(图框12)。1973年, Anfinsen通过实验发现,变 性的核糖核酸酶( ribonuclease)可以重新折叠并恢复生物活性。这说明蛋白质一级结构中
显而易见,序列测定本身不是最终目的,弄清序列数据所包含的生物学意义,才是我们 的目标。揭示序列数据所代表的生物学意义,是一门深奥的科学。难度之大,不亚于破译一 部“天书”。如同我们所熟悉的自然语言一样,这部“天书”是由一个个句子、一个个单词 直至一个个字母组成的。若把蛋白质比作句子,把序列模体(motif)比作单词,那么,组 成蛋白质的基本元素氨基酸就是字母。显然,孤立地分析单个字母,并不能获取多少信息。 而由单个字母排列组合所构成的单词,则具有显著的意义。有时,改变一个单词中的某个字 母,则可改变其含义,乃至使整个句子面目全非。举个最简单的例子,英语中 hog(猪)和 巫婆(hag)只差一个字母,而它们的含义却大相径庭。因此,准确地破译这部“天书”,是 生物信息学所面临的艰巨任务。生物学中类似的例子就是镰刀状贫血症的分子机理。患者和 正常人的区别只是血红蛋白 A 链上一个氨基酸残基的突变(谷氨酸 Glu 突变成丙氨酸 Val), 而编码谷氨酸的三联体密码 GAA 和编码丙氨酸的三联体密码 GUA 只差一个碱基。 我们的目标,则是要掌握这部“天书”中组成各种句子的全部单词,也就是说,弄清组 成各种蛋白质的序列模体所代表的意义,并在将来的某一天,设计自然界不存在的全新蛋白 质,最终实现编写编码人类自身的新的“天书”。今天,现有的计算方法和应用程序已经可 以用来识别这部“天书”中的部分单词,即序列模体所表征的结构功能特征和信息。但是, 我们尚未搞清把单词组合成句子的句法规律,还不知道如何将序列模体片段恰当地组合起 来,构建成具有生物学意义的蛋白质结构。 揭示序列数据所隐含的生物学意义的基本方法可分为两类。第一类方法的原理基于模式 识别技术,其基本出发点是找出不同序列间的相似性,并推断它们与结构和功能的内在联系。 第二类方法就是所谓“从头计算”方法,即直接从蛋白质序列预测其三维结构,并最终推断 其功能。在可以预见的将来,用传统的实验方法能够测定的蛋白质结构的数量极为有限。因 此,研究开发有效的模式识别和结构预测方法,将是生物信息学所面临的主要任务。 1.8 模式识别和预测 首先,我们对模式识别和预测之间的区别作一些说明。如上所述,模式识别和预测是生 物信息学中两种基本分析工具,这两个术语又常常被混用。然而,从它们所要解决的问题和 可以取得的结果来看,这两种方法是完全不同的,不应该将它们混淆。 顾名思义,模式识别的基本思想是利用存在于蛋白质序列或结构中的某些特征模式识别 相关蛋白质的性质。如果某一蛋白质序列或结构中的一部分具有保守性,这种保守性或者与 蛋白质的生物活性有关,或者与蛋白质的折叠方式有关;那么,这种特征模式就可以用来识 别该蛋白质家族中的新成员。换句话说,如果将已知蛋白质的特征序列模式和特征结构模式 搜集起来,构建成数据库,则可以用来确定新测定的蛋白质序列中是否具有某种特征模式, 从而确定该未知蛋白属于哪个蛋白质家族。目前,利用序列模式和结构模板数据库查询确定 蛋白质家族关系,从而推断该新序列的功能和结构,已经成了常用的方法。 显然,无论是序列模式识别,还是结构模式识别,都建立在已知序列和结构的基础上, 这些已知序列和结构存放在各种数据库中。应该说,序列模式识别比较容易,其结果也比较 可靠。相比之下,结构识别亦即折叠模式识别要困难得多,往往需要有专门研究人员参与。 即使如此,其准确性也只能达到 40%左右。序列模式识别和折叠模式识别是目前研究的重 点,其方法也在不断改进。 相反,预测是生物信息学中的棘手问题,目前尚无行之有效的方法,预计在未来十年内 也很难取得关键性突破。所谓预测,是指直接从氨基酸序列推断某一蛋白质的功能位点或预 测其三维结构,它并不依赖于已知蛋白(图 1.2)。因此,预测方法不需要建立序列模式或结 构模式数据库,而需要研究开发解决蛋白质折叠问题的方法和软件。 1.9 蛋白质折叠 蛋白质折叠问题是分子生物学研究的中心课题。它所要解决的是蛋白质一级结构中的氨 基酸序列最终怎样折叠成三维空间结构(图框 1.2)。1973 年,Anfinsen 通过实验发现,变 性的核糖核酸酶(ribonuclease)可以重新折叠并恢复生物活性。这说明蛋白质一级结构中
隐含了编码蛋白质三级结构的所有信息。这一发现,为蛋白质结构预测提供了理论依据。这 就是说,在完全掌握了蛋白质序列和结构之间的关系后,就可以通过分析一级结构序列特性 预测其三维空间结构 图框12蛋白质结构级别分类 结构层次特点 级结构即蛋白质中的氨基酸一维序列 二级结构指蛋白质多肽链中有规则重复的区域,如α螺旋,β转角,β折叠等 超二级结构由相邻二级结构单元组合而成的结构单位,可作为蛋白质三维结构的构件 如βuβ单元、β折叠桶等 三级结构由二级结构和超二级结构组成,是蛋白质的基本功能单位 四级结构 些独立的蛋白质经非共价键缔结而成的聚合体 五级结构 由独立的生物大分子组成的聚合体,如蛋白质-蛋白质聚合体,蛋白质-核酸 聚合体 初看起来,由于数据库容量的不断增长,蛋白质结构预测并非不切实际的空想。然而 尽管经过三十多年研究,蛋白质折叠规律仍未认识清楚,结构预测问题依然没有解决。截止 1998年,蛋白质二级结构预测仅有50-60%的准确性 蛋白质二级结构预测的方法有三种。一是由已知结构统计各种氨基酸残基形成二级结构 的构象趋势,其中最常用的是Chou和 Fasman法;二是基于氨基酸的物理化学性质,包括 堆积性( compactness、疏水性( hydrophobicity)、电荷性、氢键形成能力等;三是通过序 列比对,由已知三维结构的同源蛋白推断未知蛋白的二级结构。尽管Chou和 Fasman法被 公认为是经典的二级结构预测方法,但其准确性只能达到65%,与其它方法不相上下。究 其原因,是因为用作统计二级结构构象趋势的蛋白质空间结构数据库中非同源蛋白的数量还 不够多。由于结构测定速度的制约,这一数据库容量不足的问题将始终存在。相比之下,基 于多序列比对的二级结构预测方法其精度可提高几个百分点。尽管如此,即使其准确性能达 到70%,在实际应用中并无太大的实用价值,因为很难由70%的预测结果得到确切的结果 蛋白质三级结构预测,特别是基于二级结构预测的三级结构预测,尽管已经由个别成功 的例子,总的说来,还远远没有成熟。随着对蛋白质折叠过程复杂性的认识逐步深入,我们 不得不承认,实现从蛋白质一级结构序列直接预测其三维空间结构这一目标,还需要几十年 的艰苦努力 110分子伴侣 分子伴侣( molecular chaperon)的发现,使人们对氨基酸序列中包含了蛋白质折叠所需 要的全部信息这一传统观念产生了怀疑。分子伴侣的作用,有时被不恰当地加以强调。研究 表明,分子伴侣是一类蛋白质,其作用是保证合成过程中新生蛋白质链的正确折叠( Hartel 等,1994年)。目前普遍认为,分子伴侣可以阻断蛋白质错误折叠的途径,以防产生不具生 物活性的折叠产物;它们可与装配初期暴露在外的活性表面暂时结合,防止未装配单元的错 误聚合,加速装配的过程。可以肯定,没有分子伴侣的参与,蛋白质依然可以折叠:而有了 分子伴侣,许多徒劳无益的折叠途径可以避免,从而大大提高得到正确折叠产物的效率 111序列分析 综上所述,蛋白质一级结构中包含了用来编码三级结构的信息。然而,这种信息的本质 及其如何编码三级结构,目前尚不清楚。我们还无法读懂用来描述蛋白质折叠方式和生物活 性的“分子语言”。对蛋白质折叠机理的深入研究,使我们越来越清楚地认识到,蛋白质折 叠是一个复杂的过程,蛋白质序列和结构之间有着极为复杂的关系(Gros,1998年)。尽 管如此,我们依然可以利用序列分析的方法,找出新测定的序列和数据库中己知结构或功能 的序列之间的相似性。对于相似程度较高的序列,如两者之间具有50%以上的相同残基, 容易得到明确的答案;而对于相似程度较低的序列,则问题要复杂得多
隐含了编码蛋白质三级结构的所有信息。这一发现,为蛋白质结构预测提供了理论依据。这 就是说,在完全掌握了蛋白质序列和结构之间的关系后,就可以通过分析一级结构序列特性, 预测其三维空间结构。 图框 1.2 蛋白质结构级别分类 结构层次 特 点 一级结构 即蛋白质中的氨基酸一维序列 二级结构 指蛋白质多肽链中有规则重复的区域,如 α 螺旋,β 转角,β 折叠等 超二级结构 由相邻二级结构单元组合而成的结构单位,可作为蛋白质三维结构的构件, 如 βαβ 单元、β 折叠桶等 三级结构 由二级结构和超二级结构组成,是蛋白质的基本功能单位 四级结构 一些独立的蛋白质经非共价键缔结而成的聚合体 五级结构 由独立的生物大分子组成的聚合体,如蛋白质-蛋白质聚合体,蛋白质-核酸 聚合体 初看起来,由于数据库容量的不断增长,蛋白质结构预测并非不切实际的空想。然而, 尽管经过三十多年研究,蛋白质折叠规律仍未认识清楚,结构预测问题依然没有解决。截止 1998 年,蛋白质二级结构预测仅有 50-60%的准确性。 蛋白质二级结构预测的方法有三种。一是由已知结构统计各种氨基酸残基形成二级结构 的构象趋势,其中最常用的是 Chou 和 Fasman 法;二是基于氨基酸的物理化学性质,包括 堆积性(compactness)、疏水性(hydrophobicity)、电荷性、氢键形成能力等;三是通过序 列比对,由已知三维结构的同源蛋白推断未知蛋白的二级结构。尽管 Chou 和 Fasman 法被 公认为是经典的二级结构预测方法,但其准确性只能达到 65%,与其它方法不相上下。究 其原因,是因为用作统计二级结构构象趋势的蛋白质空间结构数据库中非同源蛋白的数量还 不够多。由于结构测定速度的制约,这一数据库容量不足的问题将始终存在。相比之下,基 于多序列比对的二级结构预测方法其精度可提高几个百分点。尽管如此,即使其准确性能达 到 70%,在实际应用中并无太大的实用价值,因为很难由 70%的预测结果得到确切的结果。 蛋白质三级结构预测,特别是基于二级结构预测的三级结构预测,尽管已经由个别成功 的例子,总的说来,还远远没有成熟。随着对蛋白质折叠过程复杂性的认识逐步深入,我们 不得不承认,实现从蛋白质一级结构序列直接预测其三维空间结构这一目标,还需要几十年 的艰苦努力。 1.10 分子伴侣 分子伴侣(molecular chaperon)的发现,使人们对氨基酸序列中包含了蛋白质折叠所需 要的全部信息这一传统观念产生了怀疑。分子伴侣的作用,有时被不恰当地加以强调。研究 表明,分子伴侣是一类蛋白质,其作用是保证合成过程中新生蛋白质链的正确折叠(Hartel 等,1994 年)。目前普遍认为,分子伴侣可以阻断蛋白质错误折叠的途径,以防产生不具生 物活性的折叠产物;它们可与装配初期暴露在外的活性表面暂时结合,防止未装配单元的错 误聚合,加速装配的过程。可以肯定,没有分子伴侣的参与,蛋白质依然可以折叠;而有了 分子伴侣,许多徒劳无益的折叠途径可以避免,从而大大提高得到正确折叠产物的效率。 1.11 序列分析 综上所述,蛋白质一级结构中包含了用来编码三级结构的信息。然而,这种信息的本质 及其如何编码三级结构,目前尚不清楚。我们还无法读懂用来描述蛋白质折叠方式和生物活 性的“分子语言”。对蛋白质折叠机理的深入研究,使我们越来越清楚地认识到,蛋白质折 叠是一个复杂的过程,蛋白质序列和结构之间有着极为复杂的关系(Gross,1998 年)。尽 管如此,我们依然可以利用序列分析的方法,找出新测定的序列和数据库中已知结构或功能 的序列之间的相似性。对于相似程度较高的序列,如两者之间具有 50%以上的相同残基, 容易得到明确的答案;而对于相似程度较低的序列,则问题要复杂得多
1111序列相似性界限 般说来,序列间的相似程度越低,序列分析结果所得的可靠性就越差( Doolittle, 1986年)。当相似性低于某一界限时,就很难得出明确的结论。这一界限通常称作序 列相似性界限( Twillight Zone)。通常,这一界限为20%左右。也就是说,当两个蛋 白质序列间仅有0~20%的相同残基时,其比对结果很可能是由于随机因素造成的,并 不具有统计意义。识别相似程度较低的序列,降低序列相似性界限,是各种分析方法 所追求的目标之一。常用的有,利用序列比对所得的特征片段信息进行数据库搜索, 利用氨基酸残基保守性、疏水性等。这些方法各有优劣,其适用范围各不相同 在尚无可靠的分析方法可用的情况下,最好对各种不同方法都进行以下尝试,并综合分 析所得结果。应该说,在尚未找到折叠识别和结构预测的有效方法以前,序列分析不失为一 种常用工具。不过,对各种序列分析方法的局限性,应该有一个清楚的了解。本书第8章将 对这些方法作较为深入的探讨 112同源性和相似性 在作进一步深入讨论以前,有必要对序列分析中同源性( homology)这一基本概念作 一个明确的定义。尽管同源性这一术语从字面上不难理解,却在不少文献中被误用,甚至被 滥用。所谓同源序列,简单地说,是指从某一共同祖先经趋异进化而形成的不同序列 弄清同源性概念有利于更好地理解相似性概念。相似性概念来自于蛋白质结构分析。它 具有两层含义。其一是指那些折叠方式相似却没有明显的序列相似性的蛋白质。泛素 ( ubiquitous)的B-折叠是一个典型例子。这一折叠方式在许多不同种类的蛋白质中存在 如可溶性丝氨酸蛋白酶、膜孔蛋白等。相似性的另一种含义是指蛋白质中一组具有相同催化 活性的氨基酸残基,它们具有几乎完全相同的空间构型,但在序列和结构上却不具有相似性。 中都存在,前者属于三层βaB三明治结构,后者是双层β桶。可以认为,这种相似关系是趋 同进化的结果,也就是说,从不同的进化起点出发,达到相似的生物功能。对此,可以有两 种解释:(i)β-折叠桶作为一种特别稳定的构象,容易存在于不同蛋白质中;(i)由于这类 极性基团具有特别有效的催化功能,因此它们被用在不同的结构类别中。对于后一种情况 有把握作如下结论,这种相似关系是趋同进化的结果,活性位点就是相似物。而对于前一种 情况,即折叠类型相同而序列却不同时(折叠可以看作是相似物),由于结构比序列保守, 我们很难找出它们的共同祖先,无法用同源性加以解释。 利用数据库搜索找出未知蛋白的同源序列,是序列分析的基础。上面已经说过,当相似 程度高于50%时,比较容易确定未知序列和已知序列是否具有同源性;而当相似性低于20% 时,即两个序列之间只有20%以下的相同残基时,就难以确定或者根本无法确定这种相似 性究竟是趋同还是趋异进化的结果 总之,不能把同源性和相似性混为一谈。同源性是用来说明趋异进化而不是趋同进化的 个术语。因此,所谓具有50%同源性,或这些序列高度同源等说法,是不确切的,应该 避免使用。 1121直系进化和旁系进化 在同源序列中,有必要将不同种属中具有相同功能的蛋白质和某一个体中既有一定关系 却又不相同的蛋白质加以区别,前者称直系同源物( orthologues),后者称旁系同源物 直系同源蛋白的序列比较,为分子考古学提供了方向。在某些情况下,利用构建进化树 的方法,可以揭示细菌、酵母和哺乳动物之间,或是动物、昆虫和植物之间的关系。这些关 系只能从分子水平才能得以阐明。另一方面,旁系同源蛋白的研究,已经对进化的内在机制 提供了较为深入的线索。旁系同源蛋白是由同一个基因经连续复制而形成。复制所得基因经 历了各自的进化途径,新物种通过变异和适应而产生 基因组内旁系同源蛋白分布的机制可能有多种,尚未得到很好的解释。类视紫红质 ( Rhodopsin)超家族受体多重分布模式是旁系同源蛋白的一个例子( Heniko等,1997) 这类蛋白质具有相当广泛的功能,包括视觉、听觉、嗅觉、激素和神经传导的受体。通过序
1.11.1 序列相似性界限 一般说来,序列间的相似程度越低,序列分析结果所得的可靠性就越差(Doolittle, 1986 年)。当相似性低于某一界限时,就很难得出明确的结论。这一界限通常称作序 列相似性界限(Twillight Zone)。通常,这一界限为 20%左右。也就是说,当两个蛋 白质序列间仅有 0~20%的相同残基时,其比对结果很可能是由于随机因素造成的,并 不具有统计意义。识别相似程度较低的序列,降低序列相似性界限,是各种分析方法 所追求的目标之一。常用的有,利用序列比对所得的特征片段信息进行数据库搜索, 利用氨基酸残基保守性、疏水性等。这些方法各有优劣,其适用范围各不相同。 在尚无可靠的分析方法可用的情况下,最好对各种不同方法都进行以下尝试,并综合分 析所得结果。应该说,在尚未找到折叠识别和结构预测的有效方法以前,序列分析不失为一 种常用工具。不过,对各种序列分析方法的局限性,应该有一个清楚的了解。本书第 8 章将 对这些方法作较为深入的探讨。 1.12 同源性和相似性 在作进一步深入讨论以前,有必要对序列分析中同源性(homology)这一基本概念作 一个明确的定义。尽管同源性这一术语从字面上不难理解,却在不少文献中被误用,甚至被 滥用。所谓同源序列,简单地说,是指从某一共同祖先经趋异进化而形成的不同序列。 弄清同源性概念有利于更好地理解相似性概念。相似性概念来自于蛋白质结构分析。它 具有两层含义。其一是指那些折叠方式相似却没有明显的序列相似性的蛋白质。泛素 (ubiquitous)的β-折叠是一个典型例子。这一折叠方式在许多不同种类的蛋白质中存在, 如可溶性丝氨酸蛋白酶、膜孔蛋白等。相似性的另一种含义是指蛋白质中一组具有相同催化 活性的氨基酸残基,它们具有几乎完全相同的空间构型,但在序列和结构上却不具有相似性。 例如,丝氨酸蛋白酶的活性中心残基 His-Asp-Ser 催化基团,在枯草杆菌蛋白酶和糜蛋白酶 中都存在,前者属于三层βαβ三明治结构,后者是双层β-桶。可以认为,这种相似关系是趋 同进化的结果,也就是说,从不同的进化起点出发,达到相似的生物功能。对此,可以有两 种解释:(i)β-折叠桶作为一种特别稳定的构象,容易存在于不同蛋白质中;(ii)由于这类 极性基团具有特别有效的催化功能,因此它们被用在不同的结构类别中。对于后一种情况, 有把握作如下结论,这种相似关系是趋同进化的结果,活性位点就是相似物。而对于前一种 情况,即折叠类型相同而序列却不同时(折叠可以看作是相似物),由于结构比序列保守, 我们很难找出它们的共同祖先,无法用同源性加以解释。 利用数据库搜索找出未知蛋白的同源序列,是序列分析的基础。上面已经说过,当相似 程度高于 50%时,比较容易确定未知序列和已知序列是否具有同源性;而当相似性低于 20% 时,即两个序列之间只有 20%以下的相同残基时,就难以确定或者根本无法确定这种相似 性究竟是趋同还是趋异进化的结果。 总之,不能把同源性和相似性混为一谈。同源性是用来说明趋异进化而不是趋同进化的 一个术语。因此,所谓具有 50%同源性,或这些序列高度同源等说法,是不确切的,应该 避免使用。 1.12.1 直系进化和旁系进化 在同源序列中,有必要将不同种属中具有相同功能的蛋白质和某一个体中既有一定关系 却又不相同的蛋白质加以区别,前者称直系同源物(orthologues),后者称旁系同源物 (paralogues)。 直系同源蛋白的序列比较,为分子考古学提供了方向。在某些情况下,利用构建进化树 的方法,可以揭示细菌、酵母和哺乳动物之间,或是动物、昆虫和植物之间的关系。这些关 系只能从分子水平才能得以阐明。另一方面,旁系同源蛋白的研究,已经对进化的内在机制 提供了较为深入的线索。旁系同源蛋白是由同一个基因经连续复制而形成。复制所得基因经 历了各自的进化途径,新物种通过变异和适应而产生。 基因组内旁系同源蛋白分布的机制可能有多种,尚未得到很好的解释。类视紫红质 (Rhodopsin)超家族受体多重分布模式是旁系同源蛋白的一个例子(Henikoff 等,1997)。 这类蛋白质具有相当广泛的功能,包括视觉、听觉、嗅觉、激素和神经传导的受体。通过序
列比对,可以确定由基因复制而产生的不同功能和专一性。例如,脊椎动物进化过程早期分 化而得到的不同视觉受体( Opsins)对不同的波长敏感。人眼对红光和绿光敏感的各种长波 受体之间区别不大,其序列相同程度为95%左右;而与短波长的蓝光受体或视紫红质非色 彩受体相差很远,平均为43%。由种类繁多的旁系同源蛋白和直系同源蛋白所产生的序列 复杂性,是对蛋白质家族分类研究的一个巨大挑战 113具体工作中的难点 序列分析的主要难点是如何从序列数据中找出生物学意义。旁系同源和直系同源两种不 同的进化机制,使问题变得更加复杂。如何从序列数据库搜索所得结果中提取功能信息,并 非一件易事。由计算机程序自动生成的功能注释,其中不少是错误的:而这些错误结果己经 整合到序列数据库中,并随之而扩散。目前,尚未找到对功能注释进行质量控制的有效方法。 在信息爆炸的今天,计算机的使用无疑十分必要;然而,完全依赖计算机对数据进行自动处 理,具有潜在的危险 当序列相似性只局限于部分区域时,对分析结果的解释就更加复杂。这在蛋白质模块分 析时尤其需要注意。所谓蛋白质模块,是指蛋白质序列中可形成独立折叠单元的连续片段 蛋白质模块可以看作是组成蛋白质结构域的基本单位,也是蛋白质的基本构造单位。如同 Lego积木块一样,通过形状相同或不同的基本模块的各种组合,构成种类繁多的“拼图”, 以形成蛋白质的各种不同功能。从遗传学的观点看,这些模块在核酸序列中的分布,不是简 单的基因复制和融合,而是由某种基因混排( gene shuffling)机制产生的。如同 Jacob在1977 年描述的那样,不管具体过程如何,“自然”象一个巧裁缝,他把各式各样的补丁搜集起来, 缝制成一件百衲衣。看来,进化过程并不都是从头开始,而是利用现有材料,通过改造,使 其产生新的功能,或者是把几种不同的系统整合到一起,形成更好的新系统。 简单构件的再利用和整合,是更大、更复杂系统中产生新的、未曾预料的新功能的关键。 既然如此,是否可以由已知的简单构件预测整体功能?遗憾的是,这种预测的正确率极为有 限。这是因为,可以由组成某个系统的部件的特征来解释一个复杂系统,却不能由这些部件 的特征推断这个系统的整体特征。对于生物学家来说,不可能由对某些分子间相互作用的了 解,推断整个生化系统的复杂机制 我们用一个经典 Rube goldberg联动机说明预测复杂的生物系统的难度(图框1-3)。这 种联动机设计得非常巧妙,即使其中95%部件的作用是已知,也很难推断另外5%未知部件 的功能,生物系统就像一个极为复杂的联动机。 Jacob指出,由于某些偶然的机会,某些蛋 白质模块被误用,或者它们原有的功能已经改变。这些模块在进化过程中被搁置起来,保留 于存活下来的有机体中。随着时间的推移,我们依然可以辨别那些早期功能的痕迹,却很难 据此而推断新的功能。这些观点在今天的功能预测、相似性搜索和确定进化关系时必须引起 注意。显而易见,利用数学方法揭示复杂系统中各部分之间的关系,想要对进化的全貌有 个确切的了解,就必须阐明生命过程的细节 我们将介绍常用的鉴定直系和旁系同源关系的几种序列比对方法,指出它们存在的问 题。尽管具有相当的难度,找出序列之间的进化关系,依然十分有用,因为可以用此来确定 它们是否具有相同的功能。在全基因组水平上研究蛋白质功能,可以用来比较不同个体中的 代谢系统,这可以比通过结构预测更直接地获得需要的信息。不过,应该牢记,在亲源关系 较远的蛋白质之间,三维结构的保守性要比氨基酸序列的保守性强。的确,许多进化关系只 表现在具有相同的结构特征。即使用最灵敏的序列比较方法,也难以探测这种相似性。正如 Rost在1998年指出的(Rost,1998年),这些序列比对方法无法施展本领的结构相似性区 域,是序列分析中的“暗区”( Midnight Zone)。因此,序列比对方法的适用范围,在理论上 受到一定限制。尽管如此,本书将在后面的章节中说明如何从蛋白质序列中获取最多的信息 114本章小结 ◇◆生物信息学尚无统一的定义,广义地说,它是指计算机在生物学中的应用,狭义 地说,是指生物大分子序列数据的计算机分析。 ◇今已经测定的完整蛋白质序列已达三十多万,蛋白质序列片段有几百万,序列数据
列比对,可以确定由基因复制而产生的不同功能和专一性。例如,脊椎动物进化过程早期分 化而得到的不同视觉受体(Opsins)对不同的波长敏感。人眼对红光和绿光敏感的各种长波 受体之间区别不大,其序列相同程度为 95%左右;而与短波长的蓝光受体或视紫红质非色 彩受体相差很远,平均为 43%。由种类繁多的旁系同源蛋白和直系同源蛋白所产生的序列 复杂性,是对蛋白质家族分类研究的一个巨大挑战。 1.13 具体工作中的难点 序列分析的主要难点是如何从序列数据中找出生物学意义。旁系同源和直系同源两种不 同的进化机制,使问题变得更加复杂。如何从序列数据库搜索所得结果中提取功能信息,并 非一件易事。由计算机程序自动生成的功能注释,其中不少是错误的;而这些错误结果已经 整合到序列数据库中,并随之而扩散。目前,尚未找到对功能注释进行质量控制的有效方法。 在信息爆炸的今天,计算机的使用无疑十分必要;然而,完全依赖计算机对数据进行自动处 理,具有潜在的危险。 当序列相似性只局限于部分区域时,对分析结果的解释就更加复杂。这在蛋白质模块分 析时尤其需要注意。所谓蛋白质模块,是指蛋白质序列中可形成独立折叠单元的连续片段。 蛋白质模块可以看作是组成蛋白质结构域的基本单位,也是蛋白质的基本构造单位。如同 Lego 积木块一样,通过形状相同或不同的基本模块的各种组合,构成种类繁多的“拼图”, 以形成蛋白质的各种不同功能。从遗传学的观点看,这些模块在核酸序列中的分布,不是简 单的基因复制和融合,而是由某种基因混排(gene shuffling)机制产生的。如同 Jacob 在 1977 年描述的那样,不管具体过程如何,“自然”象一个巧裁缝,他把各式各样的补丁搜集起来, 缝制成一件百衲衣。看来,进化过程并不都是从头开始,而是利用现有材料,通过改造,使 其产生新的功能,或者是把几种不同的系统整合到一起,形成更好的新系统。 简单构件的再利用和整合,是更大、更复杂系统中产生新的、未曾预料的新功能的关键。 既然如此,是否可以由已知的简单构件预测整体功能?遗憾的是,这种预测的正确率极为有 限。这是因为,可以由组成某个系统的部件的特征来解释一个复杂系统,却不能由这些部件 的特征推断这个系统的整体特征。对于生物学家来说,不可能由对某些分子间相互作用的了 解,推断整个生化系统的复杂机制。 我们用一个经典 Rube Goldberg 联动机说明预测复杂的生物系统的难度(图框 1-3)。这 种联动机设计得非常巧妙,即使其中 95%部件的作用是已知,也很难推断另外 5%未知部件 的功能,生物系统就像一个极为复杂的联动机。Jacob 指出,由于某些偶然的机会,某些蛋 白质模块被误用,或者它们原有的功能已经改变。这些模块在进化过程中被搁置起来,保留 于存活下来的有机体中。随着时间的推移,我们依然可以辨别那些早期功能的痕迹,却很难 据此而推断新的功能。这些观点在今天的功能预测、相似性搜索和确定进化关系时必须引起 注意。显而易见,利用数学方法揭示复杂系统中各部分之间的关系,想要对进化的全貌有一 个确切的了解,就必须阐明生命过程的细节。 我们将介绍常用的鉴定直系和旁系同源关系的几种序列比对方法,指出它们存在的问 题。尽管具有相当的难度,找出序列之间的进化关系,依然十分有用,因为可以用此来确定 它们是否具有相同的功能。在全基因组水平上研究蛋白质功能,可以用来比较不同个体中的 代谢系统,这可以比通过结构预测更直接地获得需要的信息。不过,应该牢记,在亲源关系 较远的蛋白质之间,三维结构的保守性要比氨基酸序列的保守性强。的确,许多进化关系只 表现在具有相同的结构特征。即使用最灵敏的序列比较方法,也难以探测这种相似性。正如 Rost 在 1998 年指出的(Rost,1998 年),这些序列比对方法无法施展本领的结构相似性区 域,是序列分析中的“暗区”(Midnight Zone)。因此,序列比对方法的适用范围,在理论上 受到一定限制。尽管如此,本书将在后面的章节中说明如何从蛋白质序列中获取最多的信息。 1.14 本章小结 生物信息学尚无统一的定义,广义地说,它是指计算机在生物学中的应用,狭义 地说,是指生物大分子序列数据的计算机分析。 已经测定的完整蛋白质序列已达三十多万,蛋白质序列片段有几百万,序列数据
库以每年翻番的速度增长,而三维结构数据仅有1500套左右。 ◆◆生物信息学的目的是从大量的序列信息中获取基因结构、功能和进化知识 ◆生物信息学研究中最主要的方法可归结为模式识别和结构预测两大类 ◆今蛋白质折叠问题是生物学中的核心问题。由蛋白质序列直接预测结构尚有漫长的 道路 ◇◇同源性是一个关键的概念,由一个共同的祖先经趋异进化所得到的序列称同源序 列。数据库搜索是寻找同源序列的基本方法 ◇◆序列分析的目的是对序列数据进行注释 115进一步阅读指南 蛋白质序列测定 Edman, P (1950)Acta Chem. Scand., 4, 283-293 Edman, P. And Begg, G.(1967) A Protein Sequenator. European Journal of Biochemistry, 1 80-91 Hirs, C. H.W., Moore, S. and Stein, W.H. (1960) Journal of Biological Chemistry, 235, 633-647 Ryle, A P, Sanger, F, Smith, L.F., and Kitai,R. (1955) Biochemical Journal, 60, 541-556 序列分析 Doolittle, R.F. (1986) URFs And ORFs: A Primer on How to Analyse Derived Amino Acid Sequences. University Science Books, Mill Valley, Ca Henikoff, S, Greene, E.A., Pietrokovski, S, Bork, P, Attwood, T.K. and Hood, L. (1997) Gene Families: The Taxonomy of Protein Paralogs and Chimeras. Science, 278, 609-614 进化 Gold, L, Singer, B, He, Y-Y and Brody, E. (1997) SELEX and the Evolution of Genomes Current Opinion in Genetics and Development, 7, 848-851 Jacob. F.(1977) Evolution and Tinkering. Science, 196. 1161-L166 蛋白质折叠和结构预测 Anfinsen, C.B. (1973) Principles That Govern the Folding of Protein Chains. Science, 181 223-230 Gross, M.(1998) Protein Folding: Think Globally, (Inter Act Locally. Current Biology, 8, R308-R309 Hartl, F-U, Hlodan, R. And Langer, T. (1994) Molecular Chaperones in Protein Folding: The Art of Avoiding Sticky Situations. TIBs, 19, 20-25 Kyngas, J. And Valjakka, J. (1998) Unreliability of the Chou-Fasman Parameters in Predicting Protein Secondary Structure. Protein Engineering, 11, 345-348 Rost, B. (1998) Marrying Structure and Genomics. Structure, 6, 259-263 Rost, B. and O'donoghue, S. (1997) Sisyphus and Prediction of Protein Structure. Computer Applications in the Biosciences, 13(4), 345-356 Russell, R B aAnd Ponting, C.(1998) Protein Fold Irregularities that Hinder Sequence Analysis Current Opinion in Structural Biology, 8, 364-371 数据库 Bernstein, F.C., Koetzle, T F, Williams, G.J. B, Meyer, E F, Brice, M. D, Rodgers, J.R., Kennard, O, Shimonouchi, T and Tasumi, M. (1977) The Protein Data Bank: A Computer Based Archival File for Macromolecular Structures. J. Molecular Biology, 112, 535-542 Boguski, M.S., Tolstoshev, C M. And Bassett, D E. (1994) Gene Discovery in DBEST. Science 265,1993-L994
库以每年翻番的速度增长,而三维结构数据仅有 1500 套左右。 生物信息学的目的是从大量的序列信息中获取基因结构、功能和进化知识。 生物信息学研究中最主要的方法可归结为模式识别和结构预测两大类。 蛋白质折叠问题是生物学中的核心问题。由蛋白质序列直接预测结构尚有漫长的 道路。 同源性是一个关键的概念,由一个共同的祖先经趋异进化所得到的序列称同源序 列。数据库搜索是寻找同源序列的基本方法。 序列分析的目的是对序列数据进行注释。 1.15 进一步阅读指南 蛋白质序列测定 Edman, P. (1950) Acta Chem. Scand., 4, 283-293. Edman, P. And Begg, G. (1967) A Protein Sequenator. European Journal of Biochemistry, 1, 80-91. Hirs, C.H.W., Moore, S. and Stein, W.H. (1960)Journal of Biological Chemistry, 235, 633-647. Ryle, A.P., Sanger, F., Smith, L.F., and Kitai, R. (1955) Biochemical Journal, 60, 541-556. 序列分析 Doolittle, R.F. (1986) URFs And ORFs: A Primer on How to Analyse Derived Amino Acid Sequences. University Science Books, Mill Valley, Ca. Henikoff, S., Greene, E.A., Pietrokovski, S., Bork, P, Attwood, T.K. and Hood, L. (1997) Gene Families: The Taxonomy of Protein Paralogs and Chimeras. Science, 278, 609-614. 进化 Gold, L., Singer, B., He, Y.-Y. and Brody, E. (1997) SELEX and the Evolution of Genomes. Current Opinion in Genetics and Development, 7, 848-851. Jacob, F. (1977) Evolution and Tinkering. Science, 196, 1161-L166. 蛋白质折叠和结构预测 Anfinsen, C.B. (1973) Principles That Govern the Folding of Protein Chains. Science, 181, 223-230. Gross, M. (1998) Protein Folding: Think Globally, (Inter)Act Locally. Current Biology, 8, R308-R309. Hartl, F.-U., Hlodan, R. And Langer, T. (1994) Molecular Chaperones in Protein Folding: The Art of Avoiding Sticky Situations. TIBs, 19, 20-25. Kyngas, J. And Valjakka, J. (1998) Unreliability of the Chou-Fasman Parameters in Predicting Protein Secondary Structure. Protein Engineering, 11, 345-348. Rost, B. (1998) Marrying Structure and Genomics. Structure, 6, 259-263. Rost, B. and O'donoghue, S. (1997) Sisyphus and Prediction of Protein Structure. Computer Applications in the Biosciences, 13(4), 345-356. Russell, R.B.aAnd Ponting, C. (1998) Protein Fold Irregularities that Hinder Sequence Analysis. Current Opinion in Structural Biology, 8, 364-371. 数据库 Bernstein, F.C., Koetzle, T.F., Williams, G.J.B., Meyer, E.F., Brice, M.D., Rodgers, J.R., Kennard, O., Shimonouchi, T. and Tasumi, M. (1977) The Protein Data Bank: A Computer Based Archival File for Macromolecular Structures. J. Molecular Biology, 112, 535-542. Boguski, M.S., Tolstoshev, C.M. And Bassett, D.E. (1994) Gene Discovery in DBEST. Science, 265, 1993-L994.
基因组 Bult, C.J., White, O, Olsen, GJ L.X., Fleischmann, R D, Sutton, GG, Blake, J.A Fitzgerald, L M, Clayton, RA ne, J'd, Kerlavage, A.R., Dougherty, B A, Tomb, J F Adams, M.D., Reich, C.I., Overbeek, R, Kirkness, E F, Weinstock, K.G., Merrick, J M Glodek, A, Scott, J L, Geoghagen, N.S. M, Weidman, J F, Fuhrmann, J L, Nguyen, D Utterback, T.R., Kelley, J.M., Peterson, J D, Sadow, P W, Hanna, M.C., Cotton, M. D Roberts, K.M., Hurst, M.A., Kaine, B P, Borodovsky, M, Klenk, H.P., Fraser, C.M., Smith MethanogenIc Archaeon, Methanococcus Jannaschi. Science, 273, 1058-L073hce H.O., Woese, C.R. and Venter, J.C. (1996) Complete Genome Sequence of The Fleischmann, R D, Adams, M.D., White, O, Clayton, R.A., Kirkness, E.F., Kerlavage, A.R., Bult, C.J., Tomb, J F, Dougherty, B A, Merrick, J M, Mckenney, K, Sutton, G, Fitzhugh, w Fields, C, Gocayne, J D, Scott, J, Shirley,R, Liu, Li, Glodek, A, Kelley, J M., Weidman J.F., Phillips, C.A., Spriggs, T, Hedblom, E, Cotton, M. D, Utterback, T., Hanna, MC Nguyen, D.T., Saudek, D.M., Brandon, R.C., Fine, L.D., Fritchman, J L, Fuhrmann, J. L Geoghagen, N.S. M, Gnehm, C L, Mcdonald, L.A., Small, K V, Fraser, C M, Smith, H O and Venter. J C.( 1995) Whole-Ge enome kan dom Sequencing and Assembly of Haemophilus Influenzae Rd Science, 269, 496-512 Fraser, C M, Gocayne, J'd, White, O, Adams, M D, Clayton, R.A., Fleischmann, Rd, Bult, CJ Kerlavage, A.R., Sutton, G, Kelley, J.M., Fritchman, J. L. Weidman, J.F., Small, K V Sandusky, M, Fuhrmann, J, Nguyen, D, Utterback, T.R., Saudek, D.M., Phillips, C A Merrick, J M, Tomb, J.F., Dougherty, B.A., Bott, K.F., Hu, P.C., Lucier, T.S., Peterson, SN Smith, H.O., Hutchison, C A and Venter, J.C. (1995). The Minimal Gene Complement of Mycoplasma Genitalium. Science, 270, 397-403 Goffeau, A, Barrell, B G, Bussey, H, Davis, R.W., Dujon, B, Feldmann, H, Galibert Hoheisel, J D, Jacq, C, Johnston, M., Louis, E.J., Mewes, H.W., Murakami, Y, Philippsen, Tettelin. H. and Oliver.S g(1996) Life with 6000 Genes. Science. 274. 546-567 Koonin, E.V., Tatusov, R L and Galperin, MY (1998) Beyond Complete Genomes: From Sequence to Structure and Function. Current Opinion in Structural Biology, 8, 355-363
基因组 Bult, C.J., White, O., Olsen, G.J., Zhou, L.X., Fleischmann, R.D., Sutton, G.G., Blake, J.A., Fitzgerald, L.M., Clayton, R.A., Gocayne, J'd.,Kerlavage, A.R., Dougherty, B.A., Tomb, J.F., Adams, M.D., Reich, C.I., Overbeek, R., Kirkness, E.F., Weinstock, K.G., Merrick, J.M., Glodek, A., Scott, J.L., Geoghagen, N.S.M., Weidman, J.F., Fuhrmann, J.L., Nguyen, D., Utterback, T.R., Kelley, J.M., Peterson, J.D., Sadow, P.W., Hanna, M.C., Cotton, M.D., Roberts, K.M., Hurst, M.A., Kaine, B.P., Borodovsky, M., Klenk, H.P., Fraser, C.M., Smith, H.O., Woese, C.R. and Venter, J.C. (1996) Complete Genome Sequence of The Methanogenic Archaeon, Methanococcus Jannaschii. Science, 273, 1058-L073. Fleischmann, R.D., Adams, M.D., White, O., Clayton, R.A., Kirkness, E.F., Kerlavage, A.R., Bult, C.J., Tomb, J.F., Dougherty, B.A., Merrick, J.M., Mckenney, K., Sutton, G., Fitzhugh, W., Fields, C., Gocayne, J.D., Scott, J., Shirley, R., Liu, Li, Glodek, A., Kelley, J.M., Weidman, J.F.., Phillips, C.A., Spriggs, T, Hedblom, E., Cotton, M.D., Utterback, T R., Hanna, M.C., Nguyen, D.T., Saudek, D.M., Brandon, R.C., Fine, L.D., Fritchman, J.L., Fuhrmann, J.L., Geoghagen, N.S.M., Gnehm, C.L., Mcdonald, L.A., Small, K.V, Fraser, C.M., Smith, H.O. and Venter, J.C. ( 1995 ) Whole-Genome Random Sequencing and Assembly of Haemophilus Influenzae Rd. Science, 269, 496-512. Fraser, C.M., Gocayne, J'd., White, O., Adams, M.D., Clayton, R.A., Fleischmann, Rd., Bult, C.J., Kerlavage, A.R., Sutton, G., Kelley, J.M., Fritchman, J.L. Weidman, J.F., Small, K.V, Sandusky, M., Fuhrmann, J., Nguyen, D., Utterback, T.R., Saudek, D.M., Phillips, C.A., Merrick, J.M., Tomb, J.F., Dougherty, B.A., Bott, K.F., Hu, P.C., Lucier, T.S., Peterson, S.N., Smith, H.O., Hutchison, C.A. and Venter, J.C. (1995). The Minimal Gene Complement of Mycoplasma Genitalium. Science, 270, 397-403. Goffeau, A., Barrell, B.G., Bussey, H., Davis, R.W., Dujon, B., Feldmann, H., Galibert, F., Hoheisel, J.D., Jacq, C., Johnston, M., Louis, E.J., Mewes, H.W., Murakami, Y., Philippsen, P., Tettelin, H. and Oliver, S.G. (1996) Life With 6000 Genes. Science, 274, 546-567. Koonin, E.V., Tatusov, R.L. and Galperin, M.Y (1998) Beyond Complete Genomes: From Sequence to Structure and Function. Current Opinion in Structural Biology, 8, 355-363