正在加载图片...
第3期 姬晓飞,等:深度学习的双人交互行为识别与预测算法研究 ·489· 2.5 2.5 2.0 -train 2.0 train 1.5 -test -test 1.5 1.0 2.5 0.5 0.5 20 406080100120140160 20 406080100120140160 迭代次数 迭代次数 (©)测试视频时间长度为60% (①)测试视频时间长度为50% 图8不同时间长度下模型损失 Fig.8 Model loss at different lengths of time 5.3实验结果与其他文献的比较 为识别与预测技术复杂、准确性较低的问题。人 本文将提出的方法与其他文献在UT-interac- 类交互动作可能持续很长时间,并且可以由多个 tion数据库中得到的识别与预测结果进行比较, 不同的子动作组成。单纯使用在交互发生之前捕 见表1所示。 获的单个帧来推断交互类别信息往往是不够的, 从表1可以看出,本文提出的基于深度学习 几个连续帧的时间信息和上下文依赖为预测未来 的新框架在双人交互行为识别与预测一体化上得 的交互动作提供了关键线索。采用新颖的网络组 到了较好的结果。与文献[1-4]相比,本文的方法 合模型LSTM+InceptionV3,旨在了解视频全局和 在对未知动作类别视频的预测问题上准确性最 局部上下文之间的依赖关系,并捕获交互场景的 优,尽管文献[3]和文献[4得到的识别结果稍高 显著信息。实验测试结果表明,本文采用的算法 于本文的算法,但是其算法较为复杂,在前期对 在国际公开数据库中取得了良好的结果,识别准 输入图像的预处理计算量很大。文献[3]实验结 确率和算法鲁棒性都有了明显的提升。 果依附于带有明显判别动作的关键帧信息,算法 执行性和实际可操作性不强;文献[4]开发了一 参考文献: 种具有复合内核的最大边际动作预测机制,但是 [1]RYOO M S.Human activity prediction:Early recognition 其基于丰富的预测先验知识,学习过程复杂,且 of ongoing activities from streaming videos[Cl//Proceed- 很难实现实时操作。本文采用的方法无需人为参 ings of 2011 International Conference on Computer Vis- 与,即可达到较好的识别与预测效果,且可以实 ion.Barcelona,Spain,2011:1036-1043. 现实时操作。但由于深度学习算法对数据量的要 [2]XU Kaiping,QIN Zheng,WANG Guolong.Human activ- 求较高,要想达到更优的预测与识别效果,训练 ities prediction by learning combinatorial sparse represent- 模型仍然有待一步进行改善。 ations[C]//Proceedings of 2016 IEEE International Confer- 表1不同方法在UT-interaction数据库中的动作识别与 ence on Image Processing.Phoenix,USA,2016:724-728. 预测结果比较 [3]RAPTIS M,SIGAL L.Poselet key-framing:a model for Table 1 Comparison of different algorithms for interac- human activity recognition[Cl//Proceedings of 2013 IEEE tion recognition and prediction in UT-interaction Conference on Computer Vision and Pattern Recognition dataset Portland,USA,2013:2650-2657. 一半观测序列得 整个观测序列得 来源 [4]KONG Yu,FU Yun.Max-margin action prediction ma- 到的识别率% 到的识别率% chine[J.IEEE transactions on pattern analysis and ma- 文献) 65.00 81.70 chine intelligence,2016,38(9):1844-1858. 文献2] 70.00 80.00 [5]KUNZE K,LUKOWICZ P.Dealing with sensor displace- ment in motion-based onbody activity recognition 文献3] 73.30 93.30 systems[C]//Proceedings of the 10th International Confer- 文献[4) 78.33 95.00 ence on Ubiquitous Computing.Seoul,South Korea,2008: 本文 78.85 92.31 20-29. [6]BULLING A,ROGGEN D.Recognition of visual memory 6结束语 recall processes using eye movement analysis[Cl//Proceed- ings of the 13th International Conference on Ubiquitous 本文提出一种基于深度学习的人体交互行为 Computing.New York,USA,2011:455-464. 识别与预测方法,来解决基于传统特征的交互行 [7]VAN KASTEREN T,NOULAS A,ENGLEBIENNE G,et2.0 1.5 1.0 0.5 0 20 40 60 80 100 120 140 160 迭代次数 损失函数 2.5 2.0 1.5 1.0 0.5 0 20 40 60 80 100 120 140 160 迭代次数 损失函数 2.5 train test train test (e) 测试视频时间长度为60% 2.5 (f) 测试视频时间长度为50% 图 8 不同时间长度下模型损失 Fig. 8 Model loss at different lengths of time 5.3 实验结果与其他文献的比较 本文将提出的方法与其他文献在 UT-interac￾tion 数据库中得到的识别与预测结果进行比较, 见表 1 所示。 从表 1 可以看出,本文提出的基于深度学习 的新框架在双人交互行为识别与预测一体化上得 到了较好的结果。与文献 [1-4] 相比,本文的方法 在对未知动作类别视频的预测问题上准确性最 优,尽管文献 [3] 和文献 [4] 得到的识别结果稍高 于本文的算法,但是其算法较为复杂,在前期对 输入图像的预处理计算量很大。文献 [3] 实验结 果依附于带有明显判别动作的关键帧信息,算法 执行性和实际可操作性不强;文献 [4] 开发了一 种具有复合内核的最大边际动作预测机制,但是 其基于丰富的预测先验知识,学习过程复杂,且 很难实现实时操作。本文采用的方法无需人为参 与,即可达到较好的识别与预测效果,且可以实 现实时操作。但由于深度学习算法对数据量的要 求较高,要想达到更优的预测与识别效果,训练 模型仍然有待一步进行改善。 表 1 不同方法在 UT-interaction 数据库中的动作识别与 预测结果比较 Table 1 Comparison of different algorithms for interac￾tion recognition and prediction in UT-interaction dataset 来源 一半观测序列得 到的识别率/% 整个观测序列得 到的识别率/% 文献[1] 65.00 81.70 文献[2] 70.00 80.00 文献[3] 73.30 93.30 文献[4] 78.33 95.00 本文 78.85 92.31 6 结束语 本文提出一种基于深度学习的人体交互行为 识别与预测方法,来解决基于传统特征的交互行 为识别与预测技术复杂、准确性较低的问题。人 类交互动作可能持续很长时间,并且可以由多个 不同的子动作组成。单纯使用在交互发生之前捕 获的单个帧来推断交互类别信息往往是不够的, 几个连续帧的时间信息和上下文依赖为预测未来 的交互动作提供了关键线索。采用新颖的网络组 合模型 LSTM+InceptionV3,旨在了解视频全局和 局部上下文之间的依赖关系,并捕获交互场景的 显著信息。实验测试结果表明,本文采用的算法 在国际公开数据库中取得了良好的结果,识别准 确率和算法鲁棒性都有了明显的提升。 参考文献: RYOO M S. Human activity prediction: Early recognition of ongoing activities from streaming videos[C]//Proceed￾ings of 2011 International Conference on Computer Vis￾ion. Barcelona, Spain, 2011: 1036−1043. [1] XU Kaiping, QIN Zheng, WANG Guolong. Human activ￾ities prediction by learning combinatorial sparse represent￾ations[C]//Proceedings of 2016 IEEE International Confer￾ence on Image Processing. Phoenix, USA, 2016: 724−728. [2] RAPTIS M, SIGAL L. Poselet key-framing: a model for human activity recognition[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 2650−2657. [3] KONG Yu, FU Yun. Max-margin action prediction ma￾chine[J]. IEEE transactions on pattern analysis and ma￾chine intelligence, 2016, 38(9): 1844–1858. [4] KUNZE K, LUKOWICZ P. Dealing with sensor displace￾ment in motion-based onbody activity recognition systems[C]//Proceedings of the 10th International Confer￾ence on Ubiquitous Computing. Seoul, South Korea, 2008: 20−29. [5] BULLING A, ROGGEN D. Recognition of visual memory recall processes using eye movement analysis[C]//Proceed￾ings of the 13th International Conference on Ubiquitous Computing. New York, USA, 2011: 455−464. [6] [7] VAN KASTEREN T, NOULAS A, ENGLEBIENNE G, et 第 3 期 姬晓飞,等:深度学习的双人交互行为识别与预测算法研究 ·489·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有