（用户可以同时发生多个行为）。事实上人的推理过程也并非一次完成的，人们

正在加载图片...

第2期聂慧饶，等：基于语义分层的行为推理框架 ·181- (用户可以同时发生多个行为)。事实上人的推理到(0,1)的概率值，也便于处理同一时刻下多个不过程也并非一次完成的，人们总是会根据当前观测同行为的发生。的特征对即将发生的行为作出初步的判断，而后根愿 =oAj=1 多路视频数据据初步判断的结果去寻找可以证明或者证伪初步判断的新的特征。例如，甲向乙伸出手时，乙初步判断过确定当前公有观测特征F 程甲想要同乙握手或者攻击乙，此时乙开始寻找额外模的特征，若甲的手向乙的运动而去，则甲想要同乙握糊 P(dF) 确定新的公有观 i=1,2N) 测特征Fj+1 手，反之则是要攻击乙。假定系统中共有N个行为需要识别，将该原始确定新的候选集行为集记作A={a1,a2,…,ax};系统可以获得的总 =J-1 特征数为M个，总特征集记.F={fi,f,…,f}。这 y 些特征包含了公有特征集以及私有特征集中的元获确定中的每个元素的专有特征取素，其中月={2，…，月w}G=1,2,…,Jk= 1,2,…,K)为公有特征集，含有M个元素，而J为定 P(d F) 得到Am (i=1,2,W 推理的总次数，K为第j次推理时候选行为集合。州义的总个数：私有特征集针对，A中的每个元素进行定图3分层推理流程图义，因此可以得到N个行为的私有特征集，F:= Fig.3 Flow chart of multilayer inference {f,f2,…,}(i=1,2,…,N),对于第i个私有进行分层次推理时，需要训练出多组逻辑回归特征集，其含有，M个元素。则有模型以适应不同的推理层次。令，X= (UF)U(0F)=.F [p2…xm](k∈{1,2，…，K})为第j (UF)0(UF=8 次推理时观测到的公有特征向量，即。x(i=1,2, 推理时则如前所述，第j次推理时可以先依据 …,M)对应于的观测值，第j次推理时的特征当前的公有特征集，FPn(cur∈{1,2，…，K})从对行为的贡献度为，W= 中得到模糊语义满足观测的候选集，， [01p02…ph4](z=1,2,…,e八-1） N=,,…心}N是的元素的个数且其中。d:即表示第j次推理时f对a。的影响。则 (A=AA=A 第1次到第J-1次推理时用到的逻辑回归模型为 NN1j=1,2,,J P(a=a.1X)= 通常NN。在第J次推理时，遍历A1的成 exp(,W‘) 员a1(i=1,2,…,1),根据对a1的私有特 ,2=1,2,…,eN-1-1 征集，F,中的成员进行观测，可以得出Am。该过程 1+m,脱) 如图3所示。需要注意的是，该推理框架可以通过 P(a=a:I X)= 不同的推理方法予以实现，后文当中分别使用了逻辑回归和HMM对框架进行了实现。 N-1 -,2=N- 3.2基于单帧的推理方法 1+∑exp(,职) 基于单帧的推理方法，即在推理时只使用当前对于第j层逻辑回归模型，设定阈值视频帧所观测的特征进行行为理解，其优点在于推 Threshold,若P(.a=a,I,X)>Threshold,则a: 理方式相对简单，计算量较小，可以快速地完成，而会被添加至。对于第J次推理，需要判断。A-中其缺点在于不使用时间上下文，从而对于噪声的抗的每个成员是否属于Am,因此需要对于所有的行性较差。基于单帧的推理方法有逻辑回归、支持向为都训练一个二项逻辑回归模型，即根据特征判断量机以及决策树等。本文实现时使用了逻辑回归模该行为发生或者没有发生，对于行为a(m∈{1，型作为实现单帧推理的方法，可以方便地得到对齐 2,…,V-1}),第J次推理时用到的特征向量X为（用户可以同时发生多个行为）。事实上人的推理过程也并非一次完成的，人们总是会根据当前观测的特征对即将发生的行为作出初步的判断，而后根据初步判断的结果去寻找可以证明或者证伪初步判断的新的特征。例如，甲向乙伸出手时，乙初步判断甲想要同乙握手或者攻击乙，此时乙开始寻找额外的特征，若甲的手向乙的运动而去，则甲想要同乙握手，反之则是要攻击乙。假定系统中共有Ｎ个行为需要识别，将该原始行为集记作ｏＡ＝｛ａ１，ａ２，…，ａＮ｝；系统可以获得的总特征数为Ｍ个，总特征集记ｏＦ＝｛ｆ１，ｆ２，…，ｆＭ｝。这些特征包含了公有特征集以及私有特征集中的元素，其中ｐＦｊｋ＝｛ｐｆｊｋ１，ｐｆｊｋ２，…，ｐｆｊｋｐＭｊｋ｝（ｊ＝１，２，…，Ｊ；ｋ＝１，２，…，Ｋｊ）为公有特征集，含有ｐＭｋｊ个元素，而Ｊ为推理的总次数，Ｋｊ为第ｊ次推理时候选行为集合ｃＡｊ的总个数；私有特征集针对ｏＡ中的每个元素进行定义，因此可以得到Ｎ个行为的私有特征集，ｓＦｉ＝｛ｓｆｉ１，ｓｆｉ２，…，ｓｆｉｓＭｉ｝（ｉ＝１，２，…，Ｎ），对于第ｉ个私有特征集，其含有ｓＭｉ个元素。则有 ∪ＫＪ－１ｉ＝１ｐＦＪ－１ｉ { } ∪ ∪Ｎｉ＝１ｓＦｉ { } ＝ｏＦ ∪ＫＪ－１ｉ＝１ｐＦＪ－１ｉ { } ∩ ∪Ｎｉ＝１ｓＦｉ { { } ＝ ⌀ 推理时则如前所述，第ｊ次推理时可以先依据当前的公有特征集ｐＦｊｃｕｒｒ（ｃｕｒｒ ∈ ｛１，２，…，Ｋｊ｝）从ｃＡｊ－１中得到模糊语义满足观测的候选集ｃＡｊ，ｃＡｊ＝｛ｃａｊ１，ｃａｊ２，…，ｃａｊｃＮｊ｝，ｃＮｊ是ｃＡｊ的元素的个数且ｃＡ０＝ｏＡ，ｃＡＪ＝ＡｃｕｒｒｃＡｊ ⊆ｃＡｊ－１ { ，ｊ＝１，２，．．．，Ｊ通常ｃＮＪ≪Ｎ。在第Ｊ次推理时，遍历ｃＡＪ－１的成员ｃａＪ－１ｉ（ｉ＝１，２，…，ｃＮＪ－１），根据对ｃａＪ－１ｉ的私有特征集ｓＦｉ中的成员进行观测，可以得出Ａｃｕｒｒ。该过程如图３所示。需要注意的是，该推理框架可以通过不同的推理方法予以实现，后文当中分别使用了逻辑回归和ＨＭＭ对框架进行了实现。３．２基于单帧的推理方法基于单帧的推理方法，即在推理时只使用当前视频帧所观测的特征进行行为理解，其优点在于推理方式相对简单，计算量较小，可以快速地完成，而其缺点在于不使用时间上下文，从而对于噪声的抗性较差。基于单帧的推理方法有逻辑回归、支持向量机以及决策树等。本文实现时使用了逻辑回归模型作为实现单帧推理的方法，可以方便地得到对齐到（０，１）的概率值，也便于处理同一时刻下多个不同行为的发生。图３分层推理流程图Ｆｉｇ．３Ｆｌｏｗｃｈａｒｔｏｆｍｕｌｔｉｌａｙｅｒｉｎｆｅｒｅｎｃｅ进行分层次推理时，需要训练出多组逻辑回归模型以适应不同的推理层次。令ｐＸｊｋ＝［ｐｘｊｋ１ｐｘｊｋ２ … ｐｘｋｊｐＭｊｋ］（ｋ ∈ ｛１，２，…，Ｋｊ｝）为第ｊ次推理时观测到的公有特征向量，即ｐｘｊｋｉ（ｉ＝１，２， …，ｐＭｊｋ）对应于ｐｆｊｋｉ的观测值，第ｊ次推理时的特征对行为的贡献度为ｐＷｊｚｋ＝［ｐｗｊｚ，ｋ１ｐｗｊｚ，ｋ２ … ｐｗｊｚ，ｋｐＭｊｋ］（ｚ＝１，２，…，ｃＮｊ－１），其中ｐｗｊｚ，ｉ即表示第ｊ次推理时ｐｆｊｋｉ对ａｎ的影响。则第１次到第Ｊ－１次推理时用到的逻辑回归模型为Ｐ（ｃａ＝ａｚ｜ｐＸｊｋ）＝ｅｘｐ（ｐＷｊｚｋ·ｐＸｊｋ）１＋ ∑ Ｎ－１ｉ＝１ｅｘｐ（ｐＷｊｉｋ·ｐＸｊｋ），ｚ＝１，２，…，ｃＮｊ－１－１Ｐ（ｃａ＝ａｚ｜ｐＸｊｋ）＝１１＋ ∑ Ｎ－１ｉ＝１ｅｘｐ（ｐＷｊｉｋ·ｐＸｊｋ），ｚ＝ｃＮｊ－１ ì î í ï ï ï ï ï ï ï ï ï ï ï ï 对于第ｊ层逻辑回归模型，设定阈值Ｔｈｒｅｓｈｏｌｄｊ，若Ｐ（ｃａ＝ａｚ｜ｐＸｊｋ）＞Ｔｈｒｅｓｈｏｌｄｊ，则ａｚ会被添加至ｃＡｊ。对于第Ｊ次推理，需要判断ｃＡＪ－１中的每个成员是否属于Ａｃｕｒｒ，因此需要对于所有的行为都训练一个二项逻辑回归模型，即根据特征判断该行为发生或者没有发生，对于行为ｃａＪｍ（ｍ ∈ ｛１，２，…，ｃＮｊ－１｝），第Ｊ次推理时用到的特征向量ＸＪｍ为第２期聂慧饶，等：基于语义分层的行为推理框架 ·１８１·

<<向上翻页向下翻页>>

点击下载：智能系统：基于语义分层的行为推理框架