第4卷第2期 智能系统学报 Vol 4 Ng 2 2009年4月 CAA I Transactions on Intelligent System s Apr 2009 海量视频数据标引平台的设计和开发 张博张勇,朱义,邢春晓 (清华大学信息技术研究院,北京100084) 摘要:就海量视频数据进行标引的方法进行了阐述,对元数据、Dublin Cor心OAS进行了分析.通过研究这些技术 在视频挖掘中所具有的优势,提出了一种海量视频数据标引平台的体系结构并实现了相关的功能模块,并对视频数 据的搜索提出了一个基于标引的解决方法.实验结果证明,该平台可为互联网视频搜索的发展提供更加快捷、方便、 准确的标引和检索模式,有效降低了用户获取相关视频数据的时间. 关键词:数据挖掘;标引;都柏林核心元数据集;元数据,开放归档信息系统 中图分类号:TP31文献标识码:A文章编号:1673-4785(2009)020107-05 Research and development of a massive video da ta indexing ZHANG Bo,ZHANG Yong,ZHU Yi,XNG Chun-xiao (Research Institute of Infomaton Technobgy,Tsinghua University,Beijing 100084,China) Abstract:This paper describes indexing methods for massive video data It analyzes metadata,Dublin Core,and the open archival infomation system (OA IS)in detail To app ly these technobgical advances to video m ining,we suggested a platom for massive video data indexing and the relevant functionalmodules were established Further more,a solution for video searches based on indexing was proposed It was proven by experments that this plat fom,with itsmore detailed and convenient indexing approach,would be a great help to the development of Inter- net video searches by effectively saving users'tme and energy in the search for valuable data Keywords:data m ining indexing Dublin core;metadata;open archival infomation system(OA IS) 世界已经进入一个信息化、高速化的阶段,流媒研究.首先,对于视频海量数据,如果是MPEG7标 体已经越来越广泛地在日常生活中得到应用,互联准的,那么在文件的头部可以获得一些关于视频内 网上视频类文件呈现直线上升态势.2009年1月,容的描述性信息,通过元数据抽取,然后针对视频元 中国互联网络信息中心(CNNC)发布的《第21次 数据进行详细标引.如果是非MPEG7标准的,可以 中国互联网络发展状况统计报告》显示:网络视频直接对相关的元数据进行标引.这样,将基本的视频 用户相比2007年底净增4000多万用户,达到文件元数据信息储存至数据库」 202亿).随着网民数量的不断增加,更多的用户 1相关技术和知识 喜好在互联网上收看视频类文件.但随即出现了需 要考虑的问题,视频文件不同于文本文件,可以直接 11数据挖掘 搜索查找,对于视频文件,搜索起来是相当困难的. 数据挖掘(data m ining),又称为数据库中的知 为了解决这个问题,对这个问题进行了详细的 识发现(knowledge discovery in database,KDD),就 是从大量的、不完全的、有噪声的模糊的、随机的实 收稿日期:2008-12-16 际应用数据中,提取隐含在其中的、人们事先不知 基金项目:因家“863计划资助项目(2009A401Z143):铁道部清华 大学科研计划资助项目(J2008X009). 道的,但又是潜在有用的信息和知识的过程2] 通信作者:张博.Emai止hackfy@163.cam 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.htp://ww.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 第 4卷第 2期 智 能 系 统 学 报 Vol. 4 №. 2 2009年 4月 CAA I Transactions on Intelligent System s Ap r. 2009 海量视频数据标引平台的设计和开发 张 博 ,张 勇 ,朱 义 ,邢春晓 (清华大学 信息技术研究院 , 北京 100084) 摘 要 :就海量视频数据进行标引的方法进行了阐述 ,对元数据、Dublin Core、OA IS进行了分析. 通过研究这些技术 在视频挖掘中所具有的优势 ,提出了一种海量视频数据标引平台的体系结构并实现了相关的功能模块 ,并对视频数 据的搜索提出了一个基于标引的解决方法. 实验结果证明 ,该平台可为互联网视频搜索的发展提供更加快捷、方便、 准确的标引和检索模式 ,有效降低了用户获取相关视频数据的时间. 关键词 :数据挖掘 ;标引 ;都柏林核心元数据集 ;元数据 ;开放归档信息系统 中图分类号 : TP31 文献标识码 : A 文章编号 : 167324785 (2009) 0220107205 Research and development of a massive video data indexing ZHANG Bo, ZHANG Yong, ZHU Yi, X ING Chun2xiao (Research Institute of Information Technology, Tsinghua University, Beijing 100084, China) Abstract: This paper describes indexing methods for massive video data. It analyzes metadata, Dublin Core, and the open archival information system (OA IS) in detail. To app ly these technological advances to video m ining, we suggested a p latform formassive video data indexing and the relevant functionalmoduleswere established. Further2 more, a solution for video searches based on indexing was p roposed. It was p roven by experiments that this p lat2 form, with its more detailed and convenient indexing app roach, would be a great help to the development of Inter2 net video searches by effectively saving users’time and energy in the search for valuable data. Keywords: data m ining; indexing; Dublin core; metadata; open archival information system (OA IS) 收稿日期 : 2008212216. 基金项目 :国家“863”计划资助项目 (2009AA01Z143) ;铁道部 —清华 大学科研计划资助项目 (J2008X009). 通信作者 :张 博. E2mail: hackfly@163. com. 世界已经进入一个信息化、高速化的阶段 ,流媒 体已经越来越广泛地在日常生活中得到应用 ,互联 网上视频类文件呈现直线上升态势. 2009年 1月 , 中国互联网络信息中心 (CNN IC)发布的《第 21次 中国互联网络发展状况统计报告 》显示 :网络视频 用户相比 2007 年底净增 4 000 多万用户 , 达到 2. 02亿 [ 1 ] . 随着网民数量的不断增加 ,更多的用户 喜好在互联网上收看视频类文件. 但随即出现了需 要考虑的问题 ,视频文件不同于文本文件 ,可以直接 搜索查找 ,对于视频文件 ,搜索起来是相当困难的. 为了解决这个问题 ,对这个问题进行了详细的 研究. 首先 ,对于视频海量数据 ,如果是 MPEG7标 准的 ,那么在文件的头部可以获得一些关于视频内 容的描述性信息 ,通过元数据抽取 ,然后针对视频元 数据进行详细标引. 如果是非 MPEG7标准的 ,可以 直接对相关的元数据进行标引. 这样 ,将基本的视频 文件元数据信息储存至数据库. 1 相关技术和知识 1. 1 数据挖掘 数据挖掘 ( data m ining) ,又称为数据库中的知 识发现 ( knowledge discovery in database, KDD ) ,就 是从大量的、不完全的、有噪声的、模糊的、随机的实 际应用数据中 , 提取隐含在其中的、人们事先不知 道的 ,但又是潜在有用的信息和知识的过程 [ 2 ]
·108· 智能系统学报 第4卷 数据挖掘可以在任何类型的数据上进行,既可 15个元素中,DC概括了电子信息的主要特征,如 以来自社会科学,又可以来自自然科学产生的数 重要检索点、辅助检索点和关联检索.DC修饰词是 据,还可以是卫星观测得到的数据.数据形式和结 对15个元素的语义进行限定和修饰的词.它的制定 构也各不相同,可以是传统的关系数据库、面向对 遵循著名的Dub Down(向下兼容)原则,即修饰 象的高级数据库系统,也可以是面向特殊应用的数 词的语义包含于未修饰词中.在范围上,对未修饰 据库,如空间数据库、时序数据库、文本数据库和多 词的语义进行限定,在深度上对未修饰词的语义进 媒体数据库等,还可以是Web数据信息[) 行延伸 1.2元数据 DC在网络信息组织方面具有如下作用:1)DC 元数据(metadata)是从数据发展而来,同时作 可以直接处理网络数据.DC提供了全新的元数据 为数据的一种功能,这就是为什么将其称为“数据定义,既是DC的交换格式,也是元数据的内部处 的数据或者信息的信息”在实际使用中,元数据 理格式,给数据处理带来极大的便利;2)DC是为 以标签或标记的形式存在,用于标识所有类型的信 网络资源的著录而制定的,适用于众多领域,同样 息.一条元数据记录由一组属性或元素组成,这些 很好地解决了数据变长、可重复问题.结构简单、易 属性或元素对于描述被查询的资源是必需的.元数 懂,自学就可以掌握.它的15项核心定义可根据需 据有助于查找和描述信息资源以促进和改善对资源 要扩展,弹性好,又实用;3)它适用于世界上通用 的检索、管理和利用.在那些需要制作或管理大量文 的软件成果,便于系统与时俱进.便于网络资源编 件的环境下,元数据有多种不同的用途.在图书馆 目的自动化;4)DC著录格式简单,大大减轻了编 里,使用标准工具生成的元数据被广泛用于资源描 目人员的劳动强度.在发展网络环境下的数字化信 述,提高了检索的效率和可靠性.在网络环境下, 息系统中有广阔的应用前景;5)DC元数据是结构 元数据被用于尽可能地挑选出大量的可用信息,从 化的数据格式,它支持字段查询【 而改进万维网上可用信息的可获取性.除了捕获和 1.4 OAIS 检索科研语境中的结构化信息之外,元数据还可以 1993年12月,澳大利亚成立“面向2001年保 帮助组织电子资源,促进其互用性,验证其标识, 护澳大利亚数字信息调研组”,其目标是制定数字 以及确保对它们的长期保存,通过元数据可以检索、 信息存取和保护的指南).1994年3月,欧洲保护 访问数据库,有效利用计算机的系统资源,以及对 与存取委员会(European Comm ission Preservationand 数据进行加工处理和二次开发等) Access,.ECPA)在荷兰首都阿姆斯特丹成立,其目 1.3DC(Dublin core)元数据 的是发展与扶持欧洲各国图书馆、档案馆及相关组 1995年3月,由OaC(online computer library 织间的协作,以确保各种格式的出版物和文档的长 center)NCSAC national center for supercamputing) 期保存,并促进人们对文化遗产的存取.同年12月, 联合在美国俄亥俄州的都柏林镇召开的第一届元数据 ECPA与研究图书馆组(the research libraries group) 研讨会上,产生了一个精简的元数据集都柏林核 联合创立了数字归档特别工作组(the task force on 心元素集(Dublin core element set,DC)例 digital archiving),目的是“确保对未来以数字格式 DC是国际通用的适用于网络资源描述著录的 存储的文件的存取”1995年初,国际标准化组织 格式.它的结构简单,数据元素的含义清晰易懂, (SO)为了开发其领域内的归档标准,授权空间数 即使是非图书馆编目人员也能掌握.有德语、日语、 据系统咨询委员会(The Consultative Comm it tee for 葡萄牙语、西班牙语等10多种语种的版本,可扩性 Space Data Systems,CCSDS)开发其领域内的归档标 好,可以与其他元数据连接使用.DC由15个数据准,以支持空间领域数字信息的长期保存.CCSDS 元素组成:题名、著者、主题及关键词、说明、出版接受任务后,积极发动其会员机构着手制定空间领 者、其他责任者、出版日期、类型、格式、标识、来源、 域数字信息长期保存的归档标准,并逐渐将该标准 语言、相关资源、覆盖范围、版权.这15个元素依据 扩大到为政府、私企和学术界等组织的资源服务.经 其描述的内容类型和范围可分为3组:对资源内容 过CCs①S各成员的不懈努力,2003年2月24日,国 的描述对知识产权的描述、对外部属性的描述.在 际标准S014721:2003《空间数据和信息归档系 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 数据挖掘可以在任何类型的数据上进行 , 既可 以来自社会科学 , 又可以来自自然科学产生的数 据 , 还可以是卫星观测得到的数据. 数据形式和结 构也各不相同 , 可以是传统的关系数据库、面向对 象的高级数据库系统 , 也可以是面向特殊应用的数 据库 , 如空间数据库、时序数据库、文本数据库和多 媒体数据库等 , 还可以是 W eb数据信息 [ 3 ] . 1. 2 元数据 元数据 (metadata) 是从数据发展而来 , 同时作 为数据的一种功能 ,这就是为什么将其称为“数据 的数据 ”或者“信息的信息 ”. 在实际使用中 ,元数据 以标签或标记的形式存在 , 用于标识所有类型的信 息. 一条元数据记录由一组属性或元素组成 , 这些 属性或元素对于描述被查询的资源是必需的. 元数 据有助于查找和描述信息资源以促进和改善对资源 的检索、管理和利用. 在那些需要制作或管理大量文 件的环境下 , 元数据有多种不同的用途. 在图书馆 里 , 使用标准工具生成的元数据被广泛用于资源描 述 , 提高了检索的效率和可靠性. 在网络环境下 , 元数据被用于尽可能地挑选出大量的可用信息 , 从 而改进万维网上可用信息的可获取性. 除了捕获和 检索科研语境中的结构化信息之外 , 元数据还可以 帮助组织电子资源 , 促进其互用性 , 验证其标识 , 以及确保对它们的长期保存. 通过元数据可以检索、 访问数据库 , 有效利用计算机的系统资源 , 以及对 数据进行加工处理和二次开发等 [ 4 ] . 1. 3 DC (Dublin core)元数据 1995年 3 月 , 由 OCLC (online computer library center)和 NCSAC ( national center for supercomputing) 联合在美国俄亥俄州的都柏林镇召开的第一届元数据 研讨会上 , 产生了一个精简的元数据集 ———都柏林核 心元素集 (Dublin core element set,DC) [ 5 ] . DC是国际通用的适用于网络资源描述著录的 格式. 它的结构简单 , 数据元素的含义清晰易懂 , 即使是非图书馆编目人员也能掌握. 有德语、日语、 葡萄牙语、西班牙语等 10 多种语种的版本 ,可扩性 好 , 可以与其他元数据连接使用. DC 由 15 个数据 元素组成 : 题名、著者、主题及关键词、说明、出版 者、其他责任者、出版日期、类型、格式、标识、来源、 语言、相关资源、覆盖范围、版权. 这 15 个元素依据 其描述的内容类型和范围可分为 3组 : 对资源内容 的描述、对知识产权的描述、对外部属性的描述. 在 15个元素中 , DC概括了电子信息的主要特征 , 如 重要检索点、辅助检索点和关联检索. DC修饰词是 对 15个元素的语义进行限定和修饰的词. 它的制定 遵循著名的 Dumb Down (向下兼容 ) 原则 ,即修饰 词的语义包含于未修饰词中. 在范围上 , 对未修饰 词的语义进行限定 , 在深度上对未修饰词的语义进 行延伸. DC在网络信息组织方面具有如下作用 : 1) DC 可以直接处理网络数据. DC 提供了全新的元数据 定义 , 既是 DC的交换格式 , 也是元数据的内部处 理格式 , 给数据处理带来极大的便利 ; 2) DC是为 网络资源的著录而制定的 ,适用于众多领域 , 同样 很好地解决了数据变长、可重复问题. 结构简单、易 懂 ,自学就可以掌握. 它的 15项核心定义可根据需 要扩展 , 弹性好 , 又实用 ; 3) 它适用于世界上通用 的软件成果 , 便于系统与时俱进 ,便于网络资源编 目的自动化 ; 4) DC著录格式简单 , 大大减轻了编 目人员的劳动强度. 在发展网络环境下的数字化信 息系统中有广阔的应用前景 ; 5) DC元数据是结构 化的数据格式 , 它支持字段查询 [ 6 ] . 1. 4 OA IS 1993年 12月 ,澳大利亚成立“面向 2001 年保 护澳大利亚数字信息调研组 ”,其目标是制定数字 信息存取和保护的指南 [ 7 ] . 1994 年 3 月 ,欧洲保护 与存取委员会 ( European Comm ission Preservationand Access, ECPA) 在荷兰首都阿姆斯特丹成立 ,其目 的是发展与扶持欧洲各国图书馆、档案馆及相关组 织间的协作 ,以确保各种格式的出版物和文档的长 期保存 ,并促进人们对文化遗产的存取. 同年 12月 , ECPA 与研究图书馆组 ( the research libraries group ) 联合创立了数字归档特别工作组 ( the task force on digital archiving) ,目的是“确保对未来以数字格式 存储的文件的存取 ”. 1995 年初 ,国际标准化组织 ( ISO) 为了开发其领域内的归档标准 ,授权空间数 据系统咨询委员会 ( The Consultative Comm it tee for Space Data System s, CCSDS)开发其领域内的归档标 准 ,以支持空间领域数字信息的长期保存. CCSDS 接受任务后 ,积极发动其会员机构着手制定空间领 域数字信息长期保存的归档标准 ,并逐渐将该标准 扩大到为政府、私企和学术界等组织的资源服务. 经 过 CCSDS各成员的不懈努力 , 2003年 2月 24日 ,国 际标准 ISO14721: 2003《空间数据和信息归档系 ·108· 智 能 系 统 学 报 第 4卷
第2期 张博,等:海量视频数据标引平台的设计和开发 109· 统开放档案信息系统参考模型》(space da- 从图1可以看出,系统架构主要有4层:基础架 ta and in fomation transfer systems-open archival in 构层、存储中间件及持久层、服务中间件及业务控制 fomaton system一reference model)终于诞生了. 层、用户接口及表现层 OAIs1(open archival inmation system)就是一个 基础架构层的上面是存储数据的数据库,它通 开放的档案馆,是由人和系统组成的有机体,其职责 过DAO和存储中间件及持久层进行通信.存储中间 是为指定的社会群体保存信息并使之可以利用,具 件及持久层通过H ibemate和Springi进行控制管理, 体包括6方面的内容:1)与生产者谈判并接收恰当 形成一个完整的业务逻辑.最上层是用户接口及表 的信息;2)对需要长期保存的信息取得充分的控制 现层,用来将整个系统体现给用户并进行使用」 权;3)由自己或联合其他团体决定哪些群体应该成 3功能模块设计 为指定用户,并且这些用户应该能够懂得OAS所 提供的信息;4)确保提供的信息对指定用户而言是 31功能模块设计 可以独立理解的,也即是说,在没有信息创建人员的 如图2所示,系统用户可以根据标引模块对数 帮助之下,指定用户群能够理解信息,5)遵循己制 据进行详细标引,提交标引存储至数据库,然后普通 定的政策和程序,确保信息的保存不发生任何意外 用户可以针对数据库进行搜索查询寻找自己有价值 事故,并确保传播的信息是己授权的原作品的拷贝 的数据,系统根据用户查询条件将有价值的数据返 或可追潮到原作品,6)确保指定用户可以利用到保 回给用户 存的信息, OAS中的术语“Open指的是这一参考模型以 用户添加或 系统用户 修改标引 及将来相关的标准将在开放式论坛中不断地发展, 而不是指档案的存取不受限制.数字信息是OAS 用户添加或 储存用户 修改标引 添加的标 中信息的基本格式,但OAS不仅支持数字信息,同 数据库 写的标 样也支持非数字信息川 系统用广 标引模块 2体系架构设计 搜索相关标 整个系统架构如图1所示,可以看出,该结构层 获取相关标引 次清晰,而且削弱了模块之间的耦合度,更符合代码 系统用户 复用的规范 用户接口及表现层 普通用户 图2系统功能图示 服务中间件及业务控制层(Suts) Fig 2 System function 准 系统主要功能如下: 规 对于管理员来说,需要对视频数据进行详细标 范 存储中何件及持久层(Illibernate) 引并存入数据库,提供修改、删除功能,方便针对标 年 引不完整或者标引出错的数据进行方便修改,对于 Video DAO 垃圾数据进行删除以防止影响搜索结果」 从科研角度来讲由于本系统为自动标引加人工 数据库(MySQL) 标引,而并不是单纯地人工标引,所以在很大程度上 基础架构层 减轻了人工标引的工作量:并且更重要的是对于视 图1系统架构图 频数据也更大程度上增加了其准确度,更方便用户 Fig 1 System architecture 在更短的时间内搜索到最有价值的数据: 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.ne
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 统 ———开放档案信息系统 ———参考模型 》( space da2 ta and in formation transfer system s —open archival in formation system— reference model) 终于诞生了. OA IS [ 8 ] (open archival information system) 就是一个 开放的档案馆 ,是由人和系统组成的有机体 ,其职责 是为指定的社会群体保存信息并使之可以利用 ,具 体包括 6方面的内容 : 1)与生产者谈判并接收恰当 的信息 ; 2)对需要长期保存的信息取得充分的控制 权 ; 3)由自己或联合其他团体决定哪些群体应该成 为指定用户 , 并且这些用户应该能够懂得 OA IS所 提供的信息 ; 4)确保提供的信息对指定用户而言是 可以独立理解的 ,也即是说 ,在没有信息创建人员的 帮助之下 ,指定用户群能够理解信息 ; 5)遵循已制 定的政策和程序 ,确保信息的保存不发生任何意外 事故 ,并确保传播的信息是已授权的原作品的拷贝 或可追溯到原作品 ; 6)确保指定用户可以利用到保 存的信息. OA IS中的术语“Open”指的是这一参考模型以 及将来相关的标准将在开放式论坛中不断地发展 , 而不是指档案的存取不受限制. 数字信息是 OA IS 中信息的基本格式 ,但 OA IS不仅支持数字信息 ,同 样也支持非数字信息 [ 9 ] . 2 体系架构设计 整个系统架构如图 1所示 ,可以看出 ,该结构层 次清晰 ,而且削弱了模块之间的耦合度 ,更符合代码 复用的规范. 图 1 系统架构图 Fig. 1 System architecture 从图 1可以看出 ,系统架构主要有 4层 :基础架 构层、存储中间件及持久层、服务中间件及业务控制 层、用户接口及表现层. 基础架构层的上面是存储数据的数据库 ,它通 过 DAO和存储中间件及持久层进行通信. 存储中间 件及持久层通过 H ibernate和 Sp ring进行控制管理 , 形成一个完整的业务逻辑. 最上层是用户接口及表 现层 ,用来将整个系统体现给用户并进行使用. 3 功能模块设计 3. 1 功能模块设计 如图 2所示 ,系统用户可以根据标引模块对数 据进行详细标引 ,提交标引存储至数据库 ,然后普通 用户可以针对数据库进行搜索查询寻找自己有价值 的数据 ,系统根据用户查询条件将有价值的数据返 回给用户. 图 2 系统功能图示 Fig. 2 System function 系统主要功能如下 : 对于管理员来说 ,需要对视频数据进行详细标 引并存入数据库 ,提供修改、删除功能 ,方便针对标 引不完整或者标引出错的数据进行方便修改 ,对于 垃圾数据进行删除以防止影响搜索结果. 从科研角度来讲由于本系统为自动标引加人工 标引 ,而并不是单纯地人工标引 ,所以在很大程度上 减轻了人工标引的工作量 ;并且更重要的是对于视 频数据也更大程度上增加了其准确度 ,更方便用户 在更短的时间内搜索到最有价值的数据. 第 2期 张 博 ,等 :海量视频数据标引平台的设计和开发 ·109·
110 智能系统学报 第4卷 3.2具体功能模块 录,针对指定目录中的视频文件进行批量扫描并提 1)添加标引模块 取部分元数据,存储所提取元数据至数据库 如图3所示,本模块中用户可以根据系统定义 围863数提资源元数据趾景松取 报胡老物阳时文档帮助 好的DC对文件进行标引,其中15项为DC核心元 L机电影高者电型 数据,其余为扩展的元数据,按照数据分类为22~ 示授取过中钓信 开触 33项不等.确认无误提交后存储到数据库 影国申影标注 中空片老, 必 装义片名, 年漏 土凉, 文件生型, 量中卫 对白言 所属区编, 口凭习 文件容径, 。 图4自动提取视频文件元数据 文件进钱管 文件源, Fig 4 Automatic extracton of video files metadata 关健宁选 宁时长, 清拾室鞋李粉式检入。知,:02封 制片底客, 4标引的实现和应用 影片评滤。 文开升几氏水年节 本系统使用Java语言,采用Eclipse,Mysq 到, 系剂分 Tomcat等工具开发.该系统采用Jp+Struts+Hi 出品公雨 新中公同 bemate+Mysq的架构 用制片线板, 使用本系统,可以使用户将数据进行更详细的 片黄n, 标引,供给用户填写和提交,并存入数据库,方便对 区国包 于己标引的数据进行修改和删除,在搜索引擎方面 可以更方便快捷地获得有价值的数据.系统的应用 图3添加标引页面 场景有很多,比如,在图书馆中,用户需要获得一本 Fig 3 Add indexing 书,而这本书的书名有很多作者写过,而用户需要固 考虑到一般性和通用性,本系统中,添加标引的 定作者、固定出版日期的书.此时,使用本系统就可 类型只有3种:下拉菜单、指定路径和输入框.添加 以很轻松地标引完书目,使得用户可以在最短的时 过程中自动定义日期以及时间格式是本模块的一大 间内找到所找书籍的位置, 亮点,也是一大难点 系统界面的截图参见图5 4海五 2)修改标引模块 所有电影两型 本模块实现用户对于数据文件标引出现失误导 致错误的情况下进行修正的功能, 3)查找标引模块 本模块实现用户对于已标引或者为标引的数据 进行查找功能,此模块包含简单搜索以及高级搜索, 简单搜索只针对于文件名以及文件内容所包含的数 据进行搜索,高级搜索可以依据一些核心的元数据 图5查看标引页面 进行搜索 Fig 5 See indexing 4)删除标引模块 5结束语 本模块实现针对一些重复数据以及个别错误数 据进行删除操作 随着互联网带宽的不断增大,视频文件越来越 5)自动标引模块 多地应用在互联网上,并且视频网站也是越来越多 如图4所示,本模块实现系统用户指定目标目 而像这么多的视频数据想要搜索到自己有价值的数 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 3. 2 具体功能模块 1)添加标引模块 如图 3所示 ,本模块中用户可以根据系统定义 好的 DC对文件进行标引 ,其中 15项为 DC核心元 数据 ,其余为扩展的元数据 ,按照数据分类为 22~ 33项不等. 确认无误提交后存储到数据库. 图 3 添加标引页面 Fig. 3 Add indexing 考虑到一般性和通用性 ,本系统中 ,添加标引的 类型只有 3种 :下拉菜单、指定路径和输入框. 添加 过程中自动定义日期以及时间格式是本模块的一大 亮点 ,也是一大难点. 2)修改标引模块 本模块实现用户对于数据文件标引出现失误导 致错误的情况下进行修正的功能. 3)查找标引模块 本模块实现用户对于已标引或者为标引的数据 进行查找功能 ,此模块包含简单搜索以及高级搜索 , 简单搜索只针对于文件名以及文件内容所包含的数 据进行搜索 ,高级搜索可以依据一些核心的元数据 进行搜索. 4)删除标引模块 本模块实现针对一些重复数据以及个别错误数 据进行删除操作. 5)自动标引模块 如图 4所示 ,本模块实现系统用户指定目标目 录 ,针对指定目录中的视频文件进行批量扫描并提 取部分元数据 ,存储所提取元数据至数据库. 图 4 自动提取视频文件元数据 Fig. 4 Automatic extraction of video files metadata 4 标引的实现和应用 本系统使用 Java 语言 , 采用 Eclip se、Mysql、 Tomcat等工具开发. 该系统采用 Jsp + Struts + H i2 bernate + Mysql的架构. 使用本系统 ,可以使用户将数据进行更详细的 标引 ,供给用户填写和提交 ,并存入数据库 ,方便对 于已标引的数据进行修改和删除 ,在搜索引擎方面 可以更方便快捷地获得有价值的数据. 系统的应用 场景有很多 ,比如 ,在图书馆中 ,用户需要获得一本 书 ,而这本书的书名有很多作者写过 ,而用户需要固 定作者、固定出版日期的书. 此时 ,使用本系统就可 以很轻松地标引完书目 ,使得用户可以在最短的时 间内找到所找书籍的位置. 系统界面的截图参见图 5. 图 5 查看标引页面 Fig. 5 See indexing 5 结束语 随着互联网带宽的不断增大 ,视频文件越来越 多地应用在互联网上 ,并且视频网站也是越来越多. 而像这么多的视频数据想要搜索到自己有价值的数 ·110· 智 能 系 统 学 报 第 4卷
第2期 张博,等:海量视频数据标引平台的设计和开发 ·111 据犹如大海捞针,因为视频文件不像文本文件,可以 [7颜晓栋.电子文件的长期保存研究[D]武汉:武汉大 直接进行文本搜索就能得到.在视频领域基本很多 学,2004 都是自动提取元数据进行标引,但是这样带来的问 YAN Xiaodong Long-tem preservation research of electron- 题是:由于视频文件的种类很多,在自动标引的过程 ic documents[D ]Wuhan:W uhan University,2004 中很容易出现错误而导致用户搜索出的数据没有价 [8]Consultative Comm ittee for Space Data Systems Reference Model for an Open Archival Infomation System (OA IS) 值.所以采用自动提取加手动标引的方法,扩展DC [S].BLUE BOOK,2002. 元素,对每个视频文件都进行更详细的标引,方便了 [9李明娟.OAS参考模型与数字信息长期保存[J]图书 更多用户使用更多元素在更短时间内搜索获得有价 情报知识,2007,119:6569 值的数据.本系统可以作为任何有视频标引需求的 L IM ingjuan OA IS reference model with the long-tem pres- 系统的子系统,能够为用户提供更方便快捷的服务 ervaton of digital infmation[J].Document,Inomation 同时,系统中也存在一些有待进一步改进和增加的 Knowledge,2007,119:65-69 功能,例如,在自动提取中增加更多视频文件格式, 作者简介: 对所标引的数据进行更详细分类等等.作者正逐步 张博,男,1985年生,工程师,主要 完善这些功能 研究方向为海量数字资源存储和管理. 参考文献: [1]中国互联网络发展状况统计报告[B/OL1[2009-01- 12 ]htp://www.cnnic net cn/index/0E/00/11/index hm 张勇,男,1973年生,副教授,副 [2李晶.视频数据挖掘技术研究[J]今日湖北:理论 研究员,主要研究方向为海量数字资源 版,2007,1(4):168-169 管理和服务、大规模并发事务处理等, L IJing Research of video data mining technolgies[J]To- 发表学术论文20余篇,其中被E检索 day Hubei:Theory Edition,2007,1(4):168-169 9篇,SC检索6篇」 [3林淑玲.浅析数据挖掘技术[J]科技信息:学术研究, 2008(1):329,331 L N Shuling Introduction of data m ining technologies[J]. 朱义,男,1972年生,高级工程 Technical Infomation,2008(1):329,331 师,主要研究方向为海量数字媒体管 [4李文峰,刘雪涛,贾月琴.基于元数据标准的标准资源库 理、多媒体应用等,发表学术论文2篇。 建设研究[J]中国标准化,2007,(1):37-39 L IW enfeng.LU Xuetao,JA Yuegin Research of the standard resource database construction based on metadata standard[J].China Standardization,2007(1):37-39 [5赵慧勤.网络信息资源组织Dublin Co心元数据[J] 邢春晓,男,1967年生,教授,中国 情报科学,2001,19(4):439-442 数字图书馆工程、全国文化共享工程专 ZHAO Huiqin Organization of nework infmation re- 家组成员,中国计算机学会咨询工委副 source:Dublin core metadata [J ]Infomation Science, 主任、软件工程和电子政务专业委员会 2001,19(4):439-442 委员,EEE会员,主要研究方向为海量 [6何志兰.网络信息资源组织Dublin Cor心[J]现代情 数字媒体管理、数字图书馆等.曾获软 报,2005(1):83-84. 件著作权2项,申请发明专利1项,教育部科技成果1项.发 HE Zhilan Organization of netork inmation resource: 表的学术论文40余篇被SCL EL ISTP检索 Dublin core[J].Modem Infomation,2005(1):83-84. 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 据犹如大海捞针 ,因为视频文件不像文本文件 ,可以 直接进行文本搜索就能得到. 在视频领域基本很多 都是自动提取元数据进行标引 ,但是这样带来的问 题是 :由于视频文件的种类很多 ,在自动标引的过程 中很容易出现错误而导致用户搜索出的数据没有价 值. 所以采用自动提取加手动标引的方法 ,扩展 DC 元素 ,对每个视频文件都进行更详细的标引 ,方便了 更多用户使用更多元素在更短时间内搜索获得有价 值的数据. 本系统可以作为任何有视频标引需求的 系统的子系统 ,能够为用户提供更方便快捷的服务. 同时 ,系统中也存在一些有待进一步改进和增加的 功能 ,例如 ,在自动提取中增加更多视频文件格式 , 对所标引的数据进行更详细分类等等. 作者正逐步 完善这些功能. 参考文献 : [ 1 ]中国互联网络发展状况统计报告 [ EB /OL ]. [ 20092012 12 ]. http: / /www. cnnic. net. cn / index/0E /00 /11 / index. htm. [ 2 ]李 晶. 视频数据挖掘技术研究 [J ]. 今日湖北 :理论 版 , 2007, 1 (4) : 1682169. L IJing. Research of video data mining technologies[J ]. To2 day Hubei: Theory Edition, 2007, 1 (4) : 1682169. [ 3 ]林淑玲. 浅析数据挖掘技术 [J ]. 科技信息 :学术研究 , 2008 (1) : 329, 331. L IN Shuling. Introduction of data m ining technologies[ J ]. Technical Information, 2008 (1) : 329, 331. [ 4 ]李文峰 ,刘雪涛 ,贾月琴. 基于元数据标准的标准资源库 建设研究 [J ]. 中国标准化 , 2007, (1) : 37239. L IW enfeng, L IU Xuetao, J IA Yueqin. Research of the standard resource database construction based on metadata standard[J ]. China Standardization, 2007 (1) : 37239. [ 5 ]赵慧勤. 网络信息资源组织 ———Dublin Core元数据 [J ]. 情报科学 , 2001, 19 (4) : 4392442. ZHAO Huiqin. O rganization of network information re2 source: Dublin core metadata [ J ]. Information Science, 2001, 19 (4) : 4392442. [ 6 ]何志兰. 网络信息资源组织 ———Dublin Core[J ]. 现代情 报 , 2005 (1) : 83284 . HE Zhilan. O rganization of network information resource: Dublin core[J ]. Modern Information, 2005 (1) : 83284. [ 7 ]颜晓栋. 电子文件的长期保存研究 [D ]. 武汉 :武汉大 学 , 2004. YAN Xiaodong. Long2term p reservation research of electron2 ic documents[D ]. W uhan:W uhan University, 2004. [ 8 ]Consultative Comm ittee for Space Data Systems. Reference Model for an Open A rchival Information System (OA IS) [ S]. BLUE BOOK, 2002 . [ 9 ]李明娟. OA IS参考模型与数字信息长期保存 [J ]. 图书 情报知识 , 2007, 119: 65269. L IM ingjuan. OA IS reference model with the long2term p res2 ervation of digital information[J ]. Document, Information & Knowledge, 2007, 119: 65269. 作者简介 : 张 博 ,男 , 1985年生 ,工程师 ,主要 研究方向为海量数字资源存储和管理. 张 勇 ,男 , 1973年生 ,副教授 ,副 研究员 ,主要研究方向为海量数字资源 管理和服务、大规模并发事务处理等 , 发表学术论文 20余篇 ,其中被 EI检索 9篇 , SCI检索 6篇. 朱 义 ,男 , 1972年生 ,高级工程 师 ,主要研究方向为海量数字媒体管 理、多媒体应用等 ,发表学术论文 2篇. 邢春晓 ,男 , 1967年生 ,教授 ,中国 数字图书馆工程、全国文化共享工程专 家组成员 ,中国计算机学会咨询工委副 主任、软件工程和电子政务专业委员会 委员 , IEEE会员 ,主要研究方向为海量 数字媒体管理、数字图书馆等. 曾获软 件著作权 2项 ,申请发明专利 1项 ,教育部科技成果 1项. 发 表的学术论文 40余篇被 SCI、EI、ISTP检索. 第 2期 张 博 ,等 :海量视频数据标引平台的设计和开发 ·111·