正在加载图片...
第3期 赵璨,等:基于概率图模型的蛋白质推断算法 ·379· 2)假设不同的蛋白质对于其对应鉴定肽的贡 集合。 献是独立的; 1.3模型求解 P(y1y2,…,yn1x1,x2,…,xm)= 给定蛋白质的配置图,以及肽段被正确识别的 Π[1-P(y=11x1,x2,…,xn)]7. 概率s,在参数α确定的情况下,根据式(7)可直接 计算出蛋白质的后验概率。但是这种暴力求解方法 P(=11x1,x2,…,xm)y= 的时间复杂度为O(2"),由于图的规模较大,所以 Π[Π(1-a)][-Π(1-a)]y 直接暴力求解的代价是十分昂贵的,故本文采用了 吉布斯抽样[16]来获得具有最大后验的最优蛋白质 (3) 配置。 式(3)中,由于y,只有0和1两种取值,所以可以表 吉布斯抽样是马尔可夫蒙特卡罗(Markov 示为 Chain monte Carlo,MCMC)算法中的特例,用来构造 P(y1,y2,…,yn|x1,x2,…,xm)= 多变量概率分布的随机样本。考虑具有p(z)= Π(1-y)[Π(1-a)]+[1-Π(1-a)]} ieN p(21,2,…,m)分布的样品集,并且给定一些符合马 (4) 尔可夫性质的初始状态。吉布斯抽样的每一步骤都 会根据剩余变量的当前状态值更新其中一个变量的 P(y1x1,…,xm)三 状态值。也就是说,对于z的第i个组件,可以通过 (1-y)[Π(1-a)]+y[1-Π (1-a)] 计算p(z:Iz)得到,其中表示除z:的所有组件。 (5) 迭代这一过程在每一步使用一个转变函数来更新变 式中:V表示可能产生肽段j的候选蛋白质的集合, 量信息,直到收敛为止。 为对应参数。 将该方法用于求解蛋白质推断问题,大大降低 3)欲求得可能存在于样本中的蛋白质子集,需 了求解模型(PGMP)的时间复杂度,算法收敛所得 使得联合概率最大化。模型可以转化为寻找最大后 的蛋白质后验概率即为该蛋白质真实存在于样本中 验蛋白质配置的问题,对于每个蛋白质的后验概率: 的概率。需要说明的是,该方法所求的解为近似最 AΠp)IP,10IP6,1) 优解,但可以通过改变收敛的判断标准来对近似解 P(x;I S)= 调优。 ΣΠp(,)Py1WPo1) jc M 2实验及结果评估 (6) 为了验证本文提出的蛋白质推断算法PGMPi 4)根据以下规定,将蛋白质和肽段进行分组。 的表现,选取2个典型的蛋白质推断算法MSBaye- ①在同一组中任意两个元素之间至少存在一条 sPro,Fido在6个数据集上进行比较实验。 路径; 2.1数据集 ②除去组中的肽段之外,对于组中的蛋白质没 本文选取了6个公开的数据集来验证PGMPi 有其他的肽段被鉴定到; 的表现:l8 mixtures),Sigma491),Yeast!9 ③没有其他的蛋白质可以生成组中的肽段。 DME2o,HumanMD2]和HumanEKC1。它们主要 A.eHP10A1 分为2类:有参考集的数据集和无参考集的数据集。 P(x;IS)= 瑞= jw调= ∑Πp(x)ΠP(yIX)ΠPIs) 前3个数据集都拥有相对应的蛋白质参考数据集, X 1:GI=G jg=G j:g=GI 即预先知道的存在于样本中的蛋白质集合。另3个 (7) 数据集则不拥有这样的参考集。关于这些数据集的 模型的主要目标为寻找一个具有最大后验的蛋 更多细节详情请参见文献[22]。 白质配置,也就是最大化每个蛋白质后验概率 本文采用广泛使用的目标-诱饵的策略来评估 P(X:IS),从而推断出真实存在于样本中的蛋白质 算法的表现。该策略的主要思想为:在包含所有目2) 假设不同的蛋白质对于其对应鉴定肽的贡 献是独立的; P(y1 ,y2 ,…,yn | x1 ,x2 ,…,xm ) = ∏ j [1 - P(yj = 1 | x1 ,x2 ,…,xm )] 1-yj· P( y j = 1 | x1 ,x2 ,…,xm ) yj = ∏ j [∏i∈Nj (1 - α) xi ] 1-yj [ 1 - ∏i∈Nj (1 - α) xi ] yj (3) 式(3)中,由于 yj 只有 0 和 1 两种取值,所以可以表 示为 P(y1 ,y2 ,…,yn | x1 ,x2 ,…,xm ) = ∏ j {(1 - yj)[∏i∈Nj (1 - α) xi ] + yj[1 - ∏i∈Nj (1 - α) xi ]} (4) P(yj | x1 ,…,xm ) = (1 - yj)[∏i∈Nj (1 - α) xi] + yj[1 - ∏i∈Nj (1 - α) xi] (5) 式中:Nj 表示可能产生肽段 j 的候选蛋白质的集合, α 为对应参数。 3) 欲求得可能存在于样本中的蛋白质子集,需 使得联合概率最大化。 模型可以转化为寻找最大后 验蛋白质配置的问题,对于每个蛋白质的后验概率: P(xi | S) = X∑:xi = 1∏xi p(xi)∏ j∈Mi P(yj | X)∏ j∈Mi P(yj | sj) ∑X ∏xi p(xi)∏ j∈Mi P(yj | X)∏ j∈Mi P(yj | sj) (6) 4)根据以下规定,将蛋白质和肽段进行分组。 ①在同一组中任意两个元素之间至少存在一条 路径; ②除去组中的肽段之外,对于组中的蛋白质没 有其他的肽段被鉴定到; ③没有其他的蛋白质可以生成组中的肽段。 P(xi | S) = X∑:xi = 1l:∏Gl =Gi p(xi) j:∏gj =Gi P(yj | X) j:∏gj =Gi P(yj | sj) ∑X l:∏Gl =Gi p(xi) j:∏gj =Gi P(yj | X) j:∏gj =Gi P(yj | sj) (7) 模型的主要目标为寻找一个具有最大后验的蛋 白质配 置, 也 就 是 最 大 化 每 个 蛋 白 质 后 验 概 率 P(Xi | S),从而推断出真实存在于样本中的蛋白质 集合。 1.3 模型求解 给定蛋白质的配置图,以及肽段被正确识别的 概率 sj,在参数 α 确定的情况下,根据式(7)可直接 计算出蛋白质的后验概率。 但是这种暴力求解方法 的时间复杂度为 O(2 m ),由于图的规模较大,所以 直接暴力求解的代价是十分昂贵的,故本文采用了 吉布斯抽样[16]来获得具有最大后验的最优蛋白质 配置。 吉布斯 抽 样 是 马 尔 可 夫 蒙 特 卡 罗 ( Markov Chain monte Carlo,MCMC)算法中的特例,用来构造 多变量概率分布的随机样本。 考虑具有 p ( z) = p(z1 ,z2 ,…,zm )分布的样品集,并且给定一些符合马 尔可夫性质的初始状态。 吉布斯抽样的每一步骤都 会根据剩余变量的当前状态值更新其中一个变量的 状态值。 也就是说,对于 z 的第 i 个组件 zi可以通过 计算 p( zi | z\i)得到,其中 z\i表示除 zi 的所有组件。 迭代这一过程在每一步使用一个转变函数来更新变 量信息,直到收敛为止。 将该方法用于求解蛋白质推断问题,大大降低 了求解模型(PGMPi)的时间复杂度,算法收敛所得 的蛋白质后验概率即为该蛋白质真实存在于样本中 的概率。 需要说明的是,该方法所求的解为近似最 优解,但可以通过改变收敛的判断标准来对近似解 调优。 2 实验及结果评估 为了验证本文提出的蛋白质推断算法 PGMPi 的表现,选取 2 个典型的蛋白质推断算法 MSBaye⁃ sPro, Fido 在 6 个数据集上进行比较实验。 2.1 数据集 本文选取了 6 个公开的数据集来验证 PGMPi 的 表 现: 18 mixtures [17] , Sigma49 [18] , Yeast [19] , DME [20] ,HumanMD [21] 和 HumanEKC [19] 。 它们主要 分为 2 类:有参考集的数据集和无参考集的数据集。 前 3 个数据集都拥有相对应的蛋白质参考数据集, 即预先知道的存在于样本中的蛋白质集合。 另 3 个 数据集则不拥有这样的参考集。 关于这些数据集的 更多细节详情请参见文献[22]。 本文采用广泛使用的目标-诱饵的策略来评估 算法的表现。 该策略的主要思想为:在包含所有目 第 3 期 赵璨,等:基于概率图模型的蛋白质推断算法 ·379·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有