正在加载图片...
·260· 智能系统学报 第3卷 构,其中包括:Rtee的分支嫁接算法 A001.wavA002.wav A056.wav A099.wav A100.wav e-tree结构II、RS-tree61、紧凑R-tree7、SS-trees 9 查询数据 产生小波 X-tree-ol、SR-tree、AB-tree2l、LSDh-tree、 多分辨迎近系数 a100…A072a0564级系数 hybrid tree等等.然而,这些多维数据结构主要是 音须数据 %6 多分拆遍近系数 针对多媒体图象数据、视频数据和文档数据的组织 和管理而提出的,它们大都不适用于多媒体音频数 精 a002…a056…a086+ 5级系数 据的组织、管理和搜索.为此,本文针对基于例子和 N3别 基于内容的音频数据检索,以小波包变换和小波多 a002a059 a056 …a010 6级系数 分辨分析为基础提出一种可以高效地组织、管理和 =100 搜索音频数据的局部搜索树(LS-tree),实现音频数 最好基系数 a001a002,a056…a099al00 据检索, 图1用小波最好基与塔型算法检索音频数据过程 1音频数据的检索方法 Fig 1 The process with wavelet packet best base and py- 对于可以检索各种音频数据的索引产生方法 ram idal algorithm retrieval audio data 文献[I5提出了通过短时Fourier?变换和小波变换 数CA6进行预处理,并生成CA6的过零率(Z)和 产生索引的方法.由于音频信号是非平稳信号,而小 平均幅度M).通过这一对参数(Z.,M,),提出并 波变换具有多分辨分析的特点,因此,采用小波变换 建立可以对3个级别的离散小波逼近系数CA6、 产生索引比基于信号统计和基于短时Fourier变换 CA5、CA4进行有效管理的局部搜索索引结构,即 产生索引的方法具有更好的检索精度.对于小波多 LS-tree 分辨率分析,它可以按照不同的尺度因子把H止 bet空间分解为所有小波子空间w,j∈Z)的正交 2关于LS-tree 和,即L)=,.而小波包可以对形,进行进一 21音频数据文件搜索中的问题 步分解,它克服了小波多分辨分解中当时间分辨率 对于一个具有n个音频数据文件的集合,通过 高时频率分辨率低的缺陷,因此具有更好的音频特 对它们相应的6级小波逼近系数CA6进行预处理, 性.对于不同类型的音频信号,它们的频谱差别较 并生成相应的n对参数{(Z,Ma1}:(Za,Man 大,因此,采用小波包来分析具有更为理想的效果. 如图2所示,以过零率(Zeo-crossing rate)为横坐 用小波包变换来分析音频数据,是根据不同的 标、平均幅度(A verage magnitude)为纵坐标,把这n 音频数据选择不同的最好基对音频数据进行分解, 对参数表示在二维空间上 曾经以小波包最好基和小波多分辨分析为基础,用 2.5f 小波包最好基→小波塔型算法检索音频数据.这种 2.0 方法的思想是,把音频数据分解成小波包最佳树结 构系数S和6级、5级、4级等3个级别的离散小波 1.5i 逼近系数CA6、CA5、CA4在检索过程中,首先用SI 1.0 对音频数据进行初步分类:然后,再分别用6级系数 CA6、5级系数CA5和4级系数CA4通过塔形算法 0.5 ”。e 进行检索61,并最后得出结果.这个过程如图1所 0公, 带● 示为了方便分析,取数据集中文件数n=100,且以 0.20.40.60.81.0 过零率 “A+序号表示音频数据文件名). 在图1中,由于音频数据检索的非确定性,检索 图2由过零率(Z4)和平均幅度(M,)组成的向量二 需要对数据集的所有文件进行计算I16).由于CA6、 维空间上的分布 CA5、CA4这3组小波系数大小不等且维数变化较 Fig 2 The distributing of the vectorswhich are consisted of zero-crossing rates and magnitudes 大(维数变化范围10~20000),采用现有的索引结 构很难对这些系数进行有效管理和检索.为了实现 为了提高检索速度和效率,必须把对整个平面 对这类数据的有效管理和搜索,利用时域分析中计 算过零率和平均幅度的方法81,对维数最小的系 的搜索,缩小到局部的搜索.以在数据集中查询按动 快门的声音为例,局部搜索的工作过程下,取按动快 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net构 , 其 中 包 括 : R2tree 的 分 支 嫁 接 算 法 [ 4 ]、 e2tree结构 [ 5 ]、RS2tree [ 6 ]、紧凑 R2tree [ 7 ]、SS2tree [ 8 ]、 X2tree [ 9210 ]、SR2tree [ 11 ]、AB2tree [ 12 ]、LSDh2tree [ 13 ]、 hybrid tree [ 14 ]等等. 然而 ,这些多维数据结构主要是 针对多媒体图象数据、视频数据和文档数据的组织 和管理而提出的 ,它们大都不适用于多媒体音频数 据的组织、管理和搜索. 为此 ,本文针对基于例子和 基于内容的音频数据检索 ,以小波包变换和小波多 分辨分析为基础 ,提出一种可以高效地组织、管理和 搜索音频数据的局部搜索树 (LS2tree) ,实现音频数 据检索. 1 音频数据的检索方法 对于可以检索各种音频数据的索引产生方法 , 文献 [ 15 ]提出了通过短时 Fourier变换和小波变换 产生索引的方法. 由于音频信号是非平稳信号 ,而小 波变换具有多分辨分析的特点 ,因此 ,采用小波变换 产生索引比基于信号统计和基于短时 Fourier变换 产生索引的方法具有更好的检索精度. 对于小波多 分辨率分析 ,它可以按照不同的尺度因子 j把 H il2 bert空间分解为所有小波子空间 wj ( j ∈ Z ) 的正交 和 ,即 L (R ) = Ý j∈Z W j . 而小波包可以对 W j进行进一 步分解 ,它克服了小波多分辨分解中当时间分辨率 高时 ,频率分辨率低的缺陷 ,因此具有更好的音频特 性. 对于不同类型的音频信号 ,它们的频谱差别较 大 ,因此 ,采用小波包来分析具有更为理想的效果. 用小波包变换来分析音频数据 ,是根据不同的 音频数据选择不同的最好基对音频数据进行分解. 曾经以小波包最好基和小波多分辨分析为基础 ,用 小波包最好基 —小波塔型算法检索音频数据. 这种 方法的思想是 ,把音频数据分解成小波包最佳树结 构系数 SI和 6级、5级、4级等 3个级别的离散小波 逼近系数 CA6、CA5、CA4. 在检索过程中 ,首先用 SI 对音频数据进行初步分类 ;然后 ,再分别用 6级系数 CA6、5级系数 CA5和 4级系数 CA4通过塔形算法 进行检索 [ 16 ] ,并最后得出结果. 这个过程如图 1所 示 (为了方便分析 ,取数据集中文件数 n = 100,且以 “A +序号 ”表示音频数据文件名 ). 在图 1中 ,由于音频数据检索的非确定性 ,检索 需要对数据集的所有文件进行计算 [ 16 ] . 由于 CA6、 CA5、CA4这 3组小波系数大小不等且维数变化较 大 (维数变化范围 10~20 000) ,采用现有的索引结 构很难对这些系数进行有效管理和检索. 为了实现 对这类数据的有效管理和搜索 ,利用时域分析中计 算过零率和平均幅度的方法 [ 17218 ] ,对维数最小的系 图 1 用小波最好基与塔型算法检索音频数据过程 Fig. 1 The p rocess with wavelet packet best base and py2 ram idal algorithm retrieval audio data 数 CA6进行预处理 ,并生成 CA6的过零率 ( Zd ) 和 平均幅度 (M d ). 通过这一对参数 ( Zd , M d ) ,提出并 建立可以对 3 个级别的离散小波逼近系数 CA6、 CA5、CA4进行有效管理的局部搜索索引结构 ,即 LS2tree. 2 关于 LS2tree 2. 1 音频数据文件搜索中的问题 对于一个具有 n个音频数据文件的集合 ,通过 对它们相应的 6级小波逼近系数 CA6进行预处理 , 并生成相应的 n对参数 { ( Zd1 , M d 1 ) } …, ( Zdn , M dn ). 如图 2 所示 ,以过零率 ( Zero2crossing rate)为横坐 标、平均幅度 (Average magnitude)为纵坐标 ,把这 n 对参数表示在二维空间上. 图 2 由过零率 ( Zd )和平均幅度 ( M d )组成的向量二 维空间上的分布 Fig. 2 The distributing of the vectorswhich are consisted of zero2crossing rates and magnitudes 为了提高检索速度和效率 ,必须把对整个平面 的搜索 ,缩小到局部的搜索. 以在数据集中查询按动 快门的声音为例 ,局部搜索的工作过程下. 取按动快 ·260· 智 能 系 统 学 报 第 3卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有