正在加载图片...
·382. 智能系统学报 第11卷 解所需的水解酶不一样,导致酶解效果以及酶解程 结果表明,虽然对于参数的变化模型效果表现比较 度不同,对于蛋白质包含的肽段可能没有酶解出来, 稳定,但是仍可以看出当参数α=0.2时,其推断结 也可能酶解成更小的氨基酸片段。从而导致推断结 果会相对更好一些,也就是说候选蛋白质产生其对 果有误差,甚至出现无意义的数。综合各种情况,本 应的肽段的概率小于0.2,从这也侧面说明了生物酶 文选取了一个比较合理的参数取值[0.2,0.8],实验 解过程的随机性、不彻底性。 ×109 ×10 0.2 75m 03 0 50 0.2 02 --0.8 2 —03 -03 25 -0.5 0.5 0.7 0.7 -…08 --08 0.040.080.120.16 0.0080.0160.0240.032 0.030.060.090.12 paramater paramater paramater (a)DME (b)HumanEKC (c)HumanMD ×10 12 45 20 9 36 15 02 27 0.2 02 —0.3 -0.3 三10 —03 —0.5 05 —0.5 0.7 9 0.7 5 0.7 -0.8 0.8 -0.8 0.0250.0500.07506 0.150.300.450.60 0.150.300.450.60 paramater paramater paramater (d)Yeast (e)Sigma49 (f)18 Mixtures 图5参数对于模型结果的影响 Fig.5 The effect of the parameter on the identification performance 3结束语 参考文献: 蛋白质组学的一个重要目标是能够快速准确地 [1]ALTELAAR A F M,MUNOZ J,HECK A J R.Next-gener- 进行蛋白质鉴定,即确定一个样本中真实存在的蛋 ation proteomics:towards an integrative view of proteome 白质,故蛋白质鉴定问题得到了许多研究人员的关 dynamics[J].Nature reviews genetics,2013,14(1):35- 注。本文将蛋白质推断问题抽象为概率图求解问 48 题,并提出了一种基于概率图模型的方法(PGMP) [2]NOBLE W S,MACCOSS M J.Computational and statistical analysis of protein mass spectrometry data[J].PLoS comput 来解决蛋白质推断问题。该模型首先给出了质谱、 biol.2012,8(1):e1002296-e1002296. 肽段以及候选蛋白质的联合概率分布,根据给定的 [3]AEBERSOLD R,GOODLETT D R.Mass spectrometry in 一些假设条件以及联合概率确定每个蛋白质的后验 proteomics[]].Chemical reviews,2001,101(2):269- 概率分布,从而将求解具有最大联合概率分布的候 296 选蛋白质子集转化为寻找一个具有最大后验的蛋白 [4]PENG J,ELIAS J E,THOREEN CC,et al.Evaluation of 质配置问题,最后采用吉布斯抽样来对模型进行求 multidimensional chromatography coupled with tandem mass 解,从而获得具有最大后验的最优蛋白质配置。实 spectrometry (LC/LC-MS/MS)for large-scale protein anal- 验结果表明,本文提出的PGMPi的推断表现不弱于 ysis:the yeast proteome[.Journal of proteome research, 其他蛋白质推断算法,并且同Fido和MSBayesPro 2003,2(1):43-50. 相比,表现比较稳定。特别是,PGMPi只有一个参 [5]HUNT D F,YATES J R,SHABANOWITZ J,et al.Protein 数,并且实验表明PGMPi在大多数数据集上对参数 sequencing by tandem mass spectrometry[J].Proceedings of 是不敏感的,不受参数设定的影响。 the national academy of sciences,1986,83(17):6233- 6237.解所需的水解酶不一样,导致酶解效果以及酶解程 度不同,对于蛋白质包含的肽段可能没有酶解出来, 也可能酶解成更小的氨基酸片段。 从而导致推断结 果有误差,甚至出现无意义的数。 综合各种情况,本 文选取了一个比较合理的参数取值[0.2,0.8],实验 结果表明,虽然对于参数的变化模型效果表现比较 稳定,但是仍可以看出当参数 α = 0.2 时,其推断结 果会相对更好一些,也就是说候选蛋白质产生其对 应的肽段的概率小于 0.2,从这也侧面说明了生物酶 解过程的随机性、不彻底性。 图 5 参数对于模型结果的影响 Fig.5 The effect of the parameter on the identification performance 3 结束语 蛋白质组学的一个重要目标是能够快速准确地 进行蛋白质鉴定,即确定一个样本中真实存在的蛋 白质,故蛋白质鉴定问题得到了许多研究人员的关 注。 本文将蛋白质推断问题抽象为概率图求解问 题,并提出了一种基于概率图模型的方法(PGMPi) 来解决蛋白质推断问题。 该模型首先给出了质谱、 肽段以及候选蛋白质的联合概率分布,根据给定的 一些假设条件以及联合概率确定每个蛋白质的后验 概率分布,从而将求解具有最大联合概率分布的候 选蛋白质子集转化为寻找一个具有最大后验的蛋白 质配置问题,最后采用吉布斯抽样来对模型进行求 解,从而获得具有最大后验的最优蛋白质配置。 实 验结果表明,本文提出的 PGMPi 的推断表现不弱于 其他蛋白质推断算法,并且同 Fido 和 MSBayesPro 相比,表现比较稳定。 特别是,PGMPi 只有一个参 数,并且实验表明 PGMPi 在大多数数据集上对参数 是不敏感的,不受参数设定的影响。 参考文献: [1]ALTELAAR A F M, MUNOZ J, HECK A J R. Next-gener⁃ ation proteomics: towards an integrative view of proteome dynamics[J]. Nature reviews genetics, 2013, 14(1): 35⁃ 48. [2]NOBLE W S, MACCOSS M J. Computational and statistical analysis of protein mass spectrometry data[J]. PLoS comput biol, 2012, 8(1): e1002296⁃e1002296. [3] AEBERSOLD R, GOODLETT D R. Mass spectrometry in proteomics[ J]. Chemical reviews, 2001, 101 ( 2): 269⁃ 296. [4]PENG J, ELIAS J E, THOREEN C C, et al. Evaluation of multidimensional chromatography coupled with tandem mass spectrometry (LC/ LC⁃MS / MS) for large⁃scale protein anal⁃ ysis: the yeast proteome[ J]. Journal of proteome research, 2003, 2(1): 43⁃50. [5]HUNT D F, YATES J R, SHABANOWITZ J, et al. Protein sequencing by tandem mass spectrometry[J]. Proceedings of the national academy of sciences, 1986, 83 ( 17): 6233⁃ 6237. ·382· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有