正在加载图片...
18- 智能系统学报 第2卷 索(content-based image retrieval,CBIR)处理负责 计算视觉注意力和分析人眼运动,从而进行图像检 索 亮蟑孔 图5组合语音和触摸的交互式CBR 角膜反射 Fig.5 Combining speech and haptics for interactive CBIR 图像解释相似的距离.如图6就是一个对存储图像 图4瞳孔光照效应及角膜反射 进行分层的过程,这些分层是对象级、特征类级、特 Fig.4 Bright pupil effect and corneal reflection 征向量级,然后是相似度计算.其中,Q是查询对象, 视觉注意力(visual attention,VA)计算过程 On是图像对象,每个特征的相似度是:Sg=mg(w, 是,随机选择图像中的某一像素,根据与相邻像素的 ,9),总相似度为特征相似度之和 匹配情况来计算其VA值,通常图像边界或边缘 VA值较高.计算公式为 存储图像 P= nx2-∑x2 n(n-1) (1) 式中:v表示的是数据集x的VA值在单位时间的 特征类级 平均伸展度及变化 经过实验证明,VA值越高的区域,人们对图像 特征向量级 的兴趣度越高,通过捕获高VA值区可以获得用户 汇总计算 感兴趣区,从而优化图像搜索精度 特征向量级 5语音和触摸导航 特征类级 查询对象 文献[42]中的交互式图像检索系统采用触摸和 自然语言来表明用户的感兴趣图像或图像内容.如 图5,用户首先找到含有感兴趣对象的图像,然后标 示例图 记出兴趣对象,作为查询输入.图像的首次查询采用 的是基于文本的搜索方法,图像检索系统根据对象 图6图像的分层过程 的位置和大小搜索图像库中的图像.当搜索窗口在 Fig.6 Image hierarchy 图像上移动时,窗口中的子图像被分类成对象(正 例)类或非对象(反例)类.当对原始图像扫描完成 其中,图像的感兴趣区是通过关键点检测,使用 后,对图像进行亚采样.使用搜索窗口再对亚采样图 聚类分析得到感兴趣区如图7所示 像扫描并分类子图像,直到亚采样图像的大小小于 用户指定的固定窗体大小.初始化搜索时,只有正 图像 关键点检测 聚类 聚类分析 ·感兴趣区 例,使用贝叶斯分类器分类子图像.系统将图像分成 2020子图像,如果所有子图像是正例,则返回.图 图7检测图像的感兴趣区 像搜索采用2步分类器,首先通过窗口将原始图像 Fig.7 Detection of regions of interest in images 按照位置和大小扫描为一组子图像,第1步通过估 计非条件密度和对象分类条件密度计算出后验概 6结束语 率,使用后验概率对子图像进行分类和排序;第2步 综上所述,实现一个高友好性的图像搜索引擎, 用户相关反馈训练,去除第1步中被错误标记为正 需要拟人化的人机交互方式,并以相关反馈为手段, 例的负子图像;最后,将正子图像返回给用户 个性化文件为过滤机制进行查询优化.具体表现在 基于内容的图像检索可以认为是一个分层的过 对3个方面的需求:1)相关反馈机制:提供友好的用 程3],不同层代表了不同的图像特征和与用户语义 户评价接口和知识问答平台,可以获得更多的相关 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net索(content2based image retrieval ,CBIR) 处理负责 计算视觉注意力和分析人眼运动 ,从而进行图像检 索. 图 4 瞳孔光照效应及角膜反射 Fig. 4 Bright pupil effect and corneal reflection 视觉注意力 ( visual attention , VA) 计算过程 是 ,随机选择图像中的某一像素 ,根据与相邻像素的 匹配情况来计算其 VA 值 ,通常图像边界或边缘 VA 值较高. 计算公式为 v = n ∑x 2 - ( ∑x) 2 n( n - 1) . (1) 式中 : v 表示的是数据集 x 的 VA 值在单位时间的 平均伸展度及变化. 经过实验证明 ,VA 值越高的区域 ,人们对图像 的兴趣度越高 ,通过捕获高 VA 值区可以获得用户 感兴趣区 ,从而优化图像搜索精度. 5 语音和触摸导航 文献[42 ]中的交互式图像检索系统采用触摸和 自然语言来表明用户的感兴趣图像或图像内容. 如 图 5 ,用户首先找到含有感兴趣对象的图像 ,然后标 记出兴趣对象 ,作为查询输入. 图像的首次查询采用 的是基于文本的搜索方法 ,图像检索系统根据对象 的位置和大小搜索图像库中的图像. 当搜索窗口在 图像上移动时 ,窗口中的子图像被分类成对象 (正 例) 类或非对象 (反例) 类. 当对原始图像扫描完成 后 ,对图像进行亚采样. 使用搜索窗口再对亚采样图 像扫描并分类子图像 ,直到亚采样图像的大小小于 用户指定的固定窗体大小. 初始化搜索时 ,只有正 例 ,使用贝叶斯分类器分类子图像. 系统将图像分成 20 ×20 子图像 ,如果所有子图像是正例 ,则返回. 图 像搜索采用 2 步分类器 ,首先通过窗口将原始图像 按照位置和大小扫描为一组子图像 ,第 1 步通过估 计非条件密度和对象分类条件密度计算出后验概 率 ,使用后验概率对子图像进行分类和排序 ;第 2 步 用户相关反馈训练 ,去除第 1 步中被错误标记为正 例的负子图像 ;最后 ,将正子图像返回给用户. 基于内容的图像检索可以认为是一个分层的过 程[33 ] ,不同层代表了不同的图像特征和与用户语义 图 5 组合语音和触摸的交互式 CBIR Fig. 5 Combining speech and haptics for interactive CBIR 图像解释相似的距离. 如图 6 就是一个对存储图像 进行分层的过程 ,这些分层是对象级、特征类级、特 征向量级 ,然后是相似度计算. 其中 ,Q 是查询对象 , On 是图像对象 ,每个特征的相似度是 :Sij = mij ( wij , rij , qij ) ,总相似度为特征相似度之和. 图 6 图像的分层过程 Fig. 6 Image hierarchy 其中 ,图像的感兴趣区是通过关键点检测 ,使用 聚类分析得到感兴趣区 ,如图 7 所示. 图 7 检测图像的感兴趣区 Fig. 7 Detection of regions of interest in images 6 结束语 综上所述 ,实现一个高友好性的图像搜索引擎 , 需要拟人化的人机交互方式 ,并以相关反馈为手段 , 个性化文件为过滤机制进行查询优化. 具体表现在 对 3 个方面的需求 :1) 相关反馈机制 :提供友好的用 户评价接口和知识问答平台 ,可以获得更多的相关 · 81 · 智 能 系 统 学 报 第 2 卷 © 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有