正在加载图片...
·380 智能系统学报 第11卷 标蛋白质序列以及等量的诱饵蛋白质序列的混合蛋 方法中没有一个能在所有数据集上都表现为最好。 白质数据库中搜索串联质谱:当鉴定得到的蛋白质 在6个数据集上,PGMPi是最稳定的并且没有最差 存在于蛋白质参考集或者来自于目标蛋白质数据库 的表现。总体来说,PGMPi在Yeast,.DME,Sigma_49 时,该蛋白质被认为是正确的鉴定结果。 和HumanEKC数据集上几乎都是表现最好的(或者 2.2参数设置 和其他方法的表现非常相近)。同时,PGMPi在18 实验使用的数据库搜索引擎为X!Tandem mixtures数据集上表现次好。具体地说,在所有6 (v2010.10.01.1)2),使用搜索引擎的默认参数并假 个数据集上,PGMPi击败Fido4次,击败MSBaye- 设这些参数已经被最优化。对于18 mixtures,Sig- sPro5次。另一方面,当q_vaue等于0时(没有报 ma49和Yeast数据集,所有的二级质谱只搜索目标 告任何错误的蛋白质),PGMPi在HumanMD和Hu- 蛋白质数据库。对于DME,HumanMD和Hu- manEKC数据集上能够报告最多的正确蛋白质。其 manEKC,二级质谱需要同时搜索目标和诱饵数据 他2个推断算法也能在某些数据集上有类似的表现 库。当数据库搜索引擎报告了肽段及其鉴定分数 但没有PGMPi多。具体的数据是:不报告任何错误 后,实验继续使用包含在TPPv4.5中的Pep 的蛋白质时,ido在一个数据集上报告最多的正确 tideProphe'24对鉴定结果做后续处理,得到肽段的 的蛋白质,而MSBayesPro在所有数据集都没有这样 鉴定概率。 的表现。 本文将PGMPi和其他2个蛋白质推断算法 图4绘制了3个蛋白质推断方法PGMPi、Fido MSBayesPro和Fido进行比较。这2个算法都明确 和MSBayesPro在不同q_value下正确报告的蛋白质 地使用条件概率处理肽段退化问题而且它们的程序 的个数。整体来说,PGMPi在6个数据集上表现比 包是开源的。实验运行MSBayesPro和Fido算法时 较稳定,尤其是在DME、HumanEKC及Yeast等3个 均使用默认参数。PGMPi是使用R语言进行实验 数据集上都是表现最好的:在HumanMD和Sigma_ 求解的,该方法只有一个参数α,设定其取值范围为 49数据集上当g_value较小时,表现不是最优的,但 a∈[0.2,0.8],实验设置PGMPi的参数a=5。 随着g_value的增加,PGMPi较MSBayesPro和Fido 2.3实验结果 而言都是最先达到最优的;I8 mixtures中PGMPi是 本文通过生成曲线评估不同的蛋白质推断算法 表现次优的。而Fido虽然在18 mixtures数据集中 的表现。该曲线根据不同的g_value绘制正确发现 明显优于其他2个算法,但是在其他数据集中的表 的蛋白质鉴定物(TP)的个数。一个鉴定得到的蛋 现都不是太理想,尤其是在Yeast数据集中的表现 白质如果出现在相应的蛋白质参考集或者目标蛋白 远远落后于其他2个算法,这也表明Fido在针对个 质数据库中,则认为被正确发现(TP):反之,则认为 别数据集来说可能会比较适合,模型相对来说不稳 该蛋白质是错误发现的(FP)。给定某个概率阈值 定。对于MSBayesPro,该算法在Sigma_49数据集 t,如果蛋白质概率值大于阈值t的蛋白质中有T,个 上,当q_value较小时,相比于PGMPi和Fido有不 正确发现蛋白质和F,个错误发现蛋白质,那么错误 太显著的优势,但随着g_-value的增加就被PGMPi 发现率(FDR)用如下方式计算:FDR,=F,/(T,+F,)。 超过:在DME和HumanEKC两个数据集上MSBaye- 相应的g-value定义为一个蛋白质被报告的最小 sP0都显著弱于其他2个算法,表现相对较差,尤其 FDR:q,=min:s,FDR,:q,=mins,FDR:。然后,通过 是在HumanEKC数据集上,PGMPi和Fido都在q_ 不断地改变概率阈值t生成最终的曲线。多个方法 value=O.03时可以全部鉴定出样品中存在的蛋白 报告的排名最高的蛋白质拥有相同的分数1.0,这些 质,而对于MSBayesPro,当q_value=0.035时还是 蛋白质在输出文件中的排序是随机的。本文跳过这 没能达到最优解,由于其效果较差,为了便于比较将 些具有相同概率的蛋白质,从下一个出现的拥有不 q_-value>0.035的部分去掉了;MSBayesPro只在 同概率的蛋白质开始计算g_value。. Yeast以及Sigma_49这2个数据集上和表现最好的 图4所示为3种不同的蛋白质推断算法的在6 方法相比,没有明显的差异:总的来说,MSBayesPro 个数据集上的推断结果评估曲线。一方面,这3个 在6个数据集中的表现相比于其他蛋白质推断方法标蛋白质序列以及等量的诱饵蛋白质序列的混合蛋 白质数据库中搜索串联质谱;当鉴定得到的蛋白质 存在于蛋白质参考集或者来自于目标蛋白质数据库 时,该蛋白质被认为是正确的鉴定结果。 2.2 参数设置 实验 使 用 的 数 据 库 搜 索 引 擎 为 X! Tandem (v2010.10.01.1) [23] ,使用搜索引擎的默认参数并假 设这些参数已经被最优化。 对于 18 mixtures,Sig⁃ ma49 和 Yeast 数据集,所有的二级质谱只搜索目标 蛋 白 质 数 据 库。 对 于 DME, HumanMD 和 Hu⁃ manEKC,二级质谱需要同时搜索目标和诱饵数据 库。 当数据库搜索引擎报告了肽段及其鉴定分数 后,实 验 继 续 使 用 包 含 在 TPP v4. 5 中 的 Pep⁃ tideProphe t [24]对鉴定结果做后续处理,得到肽段的 鉴定概率。 本文将 PGMPi 和其他 2 个蛋白质推断算法 MSBayesPro 和 Fido 进行比较。 这 2 个算法都明确 地使用条件概率处理肽段退化问题而且它们的程序 包是开源的。 实验运行 MSBayesPro 和 Fido 算法时 均使用默认参数。 PGMPi 是使用 R 语言进行实验 求解的,该方法只有一个参数 α,设定其取值范围为 α∈[0.2,0.8],实验设置 PGMPi 的参数 α= 5。 2.3 实验结果 本文通过生成曲线评估不同的蛋白质推断算法 的表现。 该曲线根据不同的 q_value 绘制正确发现 的蛋白质鉴定物(TP)的个数。 一个鉴定得到的蛋 白质如果出现在相应的蛋白质参考集或者目标蛋白 质数据库中,则认为被正确发现(TP);反之,则认为 该蛋白质是错误发现的( FP)。 给定某个概率阈值 t,如果蛋白质概率值大于阈值 t 的蛋白质中有 Tt个 正确发现蛋白质和 Ft个错误发现蛋白质,那么错误 发现率(FDR)用如下方式计算:FDRt = Ft / (Tt +Ft)。 相应的 q_value 定义为一个蛋白质被报告的最小 FDR: qt = mini≤tFDRi:qt = mini≤tFDRi。 然后,通过 不断地改变概率阈值 t 生成最终的曲线。 多个方法 报告的排名最高的蛋白质拥有相同的分数 1.0,这些 蛋白质在输出文件中的排序是随机的。 本文跳过这 些具有相同概率的蛋白质,从下一个出现的拥有不 同概率的蛋白质开始计算 q_value。 图 4 所示为 3 种不同的蛋白质推断算法的在 6 个数据集上的推断结果评估曲线。 一方面,这 3 个 方法中没有一个能在所有数据集上都表现为最好。 在 6 个数据集上,PGMPi 是最稳定的并且没有最差 的表现。 总体来说,PGMPi 在 Yeast,DME,Sigma_49 和 HumanEKC 数据集上几乎都是表现最好的(或者 和其他方法的表现非常相近)。 同时,PGMPi 在 18 mixtures 数据集上表现次好。 具体地说,在所有 6 个数据集上,PGMPi 击败 Fido 4 次,击败 MSBaye⁃ sPro 5 次。 另一方面,当 q_value 等于 0 时(没有报 告任何错误的蛋白质),PGMPi 在 HumanMD 和 Hu⁃ manEKC 数据集上能够报告最多的正确蛋白质。 其 他 2 个推断算法也能在某些数据集上有类似的表现 但没有 PGMPi 多。 具体的数据是:不报告任何错误 的蛋白质时,Fido 在一个数据集上报告最多的正确 的蛋白质,而 MSBayesPro 在所有数据集都没有这样 的表现。 图 4 绘制了 3 个蛋白质推断方法 PGMPi、Fido 和 MSBayesPro 在不同 q_value 下正确报告的蛋白质 的个数。 整体来说,PGMPi 在 6 个数据集上表现比 较稳定,尤其是在 DME、HumanEKC 及 Yeast 等 3 个 数据集上都是表现最好的;在 HumanMD 和 Sigma_ 49 数据集上当 q_value 较小时,表现不是最优的,但 随着 q_value 的增加,PGMPi 较 MSBayesPro 和 Fido 而言都是最先达到最优的;18 mixtures 中 PGMPi 是 表现次优的。 而 Fido 虽然在 18 mixtures 数据集中 明显优于其他 2 个算法,但是在其他数据集中的表 现都不是太理想,尤其是在 Yeast 数据集中的表现 远远落后于其他 2 个算法,这也表明 Fido 在针对个 别数据集来说可能会比较适合,模型相对来说不稳 定。 对于 MSBayesPro,该算法在 Sigma_49 数据集 上,当 q_value 较小时,相比于 PGMPi 和 Fido 有不 太显著的优势,但随着 q_value 的增加就被 PGMPi 超过;在 DME 和 HumanEKC 两个数据集上 MSBaye⁃ sPro 都显著弱于其他 2 个算法,表现相对较差,尤其 是在 HumanEKC 数据集上,PGMPi 和 Fido 都在 q_ value = 0.03 时可以全部鉴定出样品中存在的蛋白 质,而对于 MSBayesPro, 当 q_value = 0.035 时还是 没能达到最优解,由于其效果较差,为了便于比较将 q_ value > 0. 035 的部分去掉了; MSBayesPro 只在 Yeast 以及 Sigma_49 这 2 个数据集上和表现最好的 方法相比,没有明显的差异;总的来说,MSBayesPro 在 6 个数据集中的表现相比于其他蛋白质推断方法 ·380· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有