正在加载图片...
第2期 聂慧饶,等:基于语义分层的行为推理框架 ·181- (用户可以同时发生多个行为)。事实上人的推理 到(0,1)的概率值,也便于处理同一时刻下多个不 过程也并非一次完成的,人们总是会根据当前观测 同行为的发生。 的特征对即将发生的行为作出初步的判断,而后根 愿 =oAj=1 多路视频数据 据初步判断的结果去寻找可以证明或者证伪初步判 断的新的特征。例如,甲向乙伸出手时,乙初步判断 过 确定当前公有观测特征F 程 甲想要同乙握手或者攻击乙,此时乙开始寻找额外 模 的特征,若甲的手向乙的运动而去,则甲想要同乙握 糊 P(dF) 确定新的公有观 i=1,2N) 测特征Fj+1 手,反之则是要攻击乙。 假定系统中共有N个行为需要识别,将该原始 确定新的候选集 行为集记作A={a1,a2,…,ax};系统可以获得的总 =J-1 特征数为M个,总特征集记.F={fi,f,…,f}。这 y 些特征包含了公有特征集以及私有特征集中的元 获 确定中的每个元素的专有特征 取 素,其中月={2,…,月w}G=1,2,…,Jk= 1,2,…,K)为公有特征集,含有M个元素,而J为 定 P(d F) 得到Am (i=1,2,W 推理的总次数,K为第j次推理时候选行为集合。州 义 的总个数:私有特征集针对,A中的每个元素进行定 图3分层推理流程图 义,因此可以得到N个行为的私有特征集,F:= Fig.3 Flow chart of multilayer inference {f,f2,…,}(i=1,2,…,N),对于第i个私有 进行分层次推理时,需要训练出多组逻辑回归 特征集,其含有,M个元素。则有 模型以适应不同的推理层次。令,X= (UF)U(0F)=.F [p2…xm](k∈{1,2,…,K})为第j (UF)0(UF=8 次推理时观测到的公有特征向量,即。x(i=1,2, 推理时则如前所述,第j次推理时可以先依据 …,M)对应于的观测值,第j次推理时的特征 当前的公有特征集,FPn(cur∈{1,2,…,K})从 对行为的贡献度为,W= 中得到模糊语义满足观测的候选集,, [01p02…ph4](z=1,2,…,e八-1) N=,,…心}N是的元素的个数且 其中。d:即表示第j次推理时f对a。的影响。则 (A=AA=A 第1次到第J-1次推理时用到的逻辑回归模型为 NN1j=1,2,,J P(a=a.1X)= 通常NN。在第J次推理时,遍历A1的成 exp(,W‘) 员a1(i=1,2,…,1),根据对a1的私有特 ,2=1,2,…,eN-1-1 征集,F,中的成员进行观测,可以得出Am。该过程 1+m,脱) 如图3所示。需要注意的是,该推理框架可以通过 P(a=a:I X)= 不同的推理方法予以实现,后文当中分别使用了逻 辑回归和HMM对框架进行了实现。 N-1 -,2=N- 3.2基于单帧的推理方法 1+∑exp(,职) 基于单帧的推理方法,即在推理时只使用当前 对于第j层逻辑回归模型,设定阈值 视频帧所观测的特征进行行为理解,其优点在于推 Threshold,若P(.a=a,I,X)>Threshold,则a: 理方式相对简单,计算量较小,可以快速地完成,而 会被添加至。对于第J次推理,需要判断。A-中 其缺点在于不使用时间上下文,从而对于噪声的抗 的每个成员是否属于Am,因此需要对于所有的行 性较差。基于单帧的推理方法有逻辑回归、支持向 为都训练一个二项逻辑回归模型,即根据特征判断 量机以及决策树等。本文实现时使用了逻辑回归模 该行为发生或者没有发生,对于行为a(m∈{1, 型作为实现单帧推理的方法,可以方便地得到对齐 2,…,V-1}),第J次推理时用到的特征向量X为(用户可以同时发生多个行为)。 事实上人的推理 过程也并非一次完成的,人们总是会根据当前观测 的特征对即将发生的行为作出初步的判断,而后根 据初步判断的结果去寻找可以证明或者证伪初步判 断的新的特征。 例如,甲向乙伸出手时,乙初步判断 甲想要同乙握手或者攻击乙,此时乙开始寻找额外 的特征,若甲的手向乙的运动而去,则甲想要同乙握 手,反之则是要攻击乙。 假定系统中共有 N 个行为需要识别,将该原始 行为集记作oA = {a1 ,a2 ,…,aN };系统可以获得的总 特征数为 M 个,总特征集记oF = {f 1 ,f 2 ,…,fM }。 这 些特征包含了公有特征集以及私有特征集中的元 素,其中 pF j k = {p f j k1 ,p f j k2 ,…,p f j kpMj k }(j = 1,2,…,J;k = 1,2,…,Kj) 为公有特征集,含有pMk j个元素,而 J 为 推理的总次数,Kj为第 j 次推理时候选行为集合c A j 的总个数;私有特征集针对oA 中的每个元素进行定 义,因此可以得到 N 个行为的私有特征集, sFi = {s f i1 ,s f i2 ,…,s f i sMi }(i = 1,2,…,N) ,对于第 i 个私有 特征集,其含有sMi个元素。 则有 ∪KJ-1 i = 1 pF J-1 i { } ∪ ∪N i = 1 sFi { } =oF ∪KJ-1 i = 1 pF J-1 i { } ∩ ∪N i = 1 sFi { { } = ⌀ 推理时则如前所述,第 j 次推理时可以先依据 当前的公有特征集 pF j curr(curr ∈ {1,2,…,Kj}) 从 cA j-1 中 得 到 模 糊 语 义 满 足 观 测 的 候 选 集cA j , cA j ={ca j 1 ,ca j 2 ,…,ca j c Nj } ,cNj是cA j的元素的个数且 cA 0 =oA,cA J = Acurr cA j ⊆cA j-1 { ,j = 1,2,...,J 通常cNJ≪N。 在第 J 次推理时,遍历 cA J-1 的成 员 ca J-1 i (i = 1,2,…,cN J-1 ) ,根据对 ca J-1 i 的私有特 征集 sFi 中的成员进行观测,可以得出 Acurr。 该过程 如图 3 所示。 需要注意的是,该推理框架可以通过 不同的推理方法予以实现,后文当中分别使用了逻 辑回归和 HMM 对框架进行了实现。 3.2 基于单帧的推理方法 基于单帧的推理方法,即在推理时只使用当前 视频帧所观测的特征进行行为理解,其优点在于推 理方式相对简单,计算量较小,可以快速地完成,而 其缺点在于不使用时间上下文,从而对于噪声的抗 性较差。 基于单帧的推理方法有逻辑回归、支持向 量机以及决策树等。 本文实现时使用了逻辑回归模 型作为实现单帧推理的方法,可以方便地得到对齐 到(0,1)的概率值,也便于处理同一时刻下多个不 同行为的发生。 图 3 分层推理流程图 Fig.3 Flow chart of multilayer inference 进行分层次推理时,需要训练出多组逻辑回归 模 型 以 适 应 不 同 的 推 理 层 次。 令 pX j k = [p x j k1 p x j k2 … p xk j pMj k ](k ∈ {1,2,…,Kj}) 为第 j 次推理时观测到的公有特征向量,即 p x j ki(i = 1,2, …,pM j k) 对应于 p f j ki 的观测值,第 j 次推理时的特征 对 行 为 的 贡 献 度 为 pW j zk = [ pw j z,k1 pw j z,k2 … pw j z,k p Mj k] (z = 1,2,…,cNj-1 ) , 其中 pw j z,i 即表示第 j 次推理时 p f j ki 对 an 的影响。 则 第 1 次到第 J-1 次推理时用到的逻辑回归模型为 P(ca = az | pX j k) = exp(pW j zk·pX j k) 1 + ∑ N-1 i = 1 exp(pW j ik·pX j k) ,z = 1,2,…,cNj-1 - 1 P(ca = az | pX j k) = 1 1 + ∑ N-1 i = 1 exp(pW j ik·pX j k) ,z =cNj-1 ì î í ï ï ï ï ï ï ï ï ï ï ï ï 对 于 第 j 层 逻 辑 回 归 模 型, 设 定 阈 值 Threshold j ,若 P(ca = az | pX j k) > Threshold j ,则 az 会被添加至cA j 。 对于第 J 次推理,需要判断cA J-1中 的每个成员是否属于 Acurr,因此需要对于所有的行 为都训练一个二项逻辑回归模型,即根据特征判断 该行为发生或者没有发生,对于行为 ca J m(m ∈ {1, 2,…,cNj-1 }) ,第 J 次推理时用到的特征向量 X J m 为 第 2 期 聂慧饶,等:基于语义分层的行为推理框架 ·181·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有