第6期 杨晓兰,等:基于医学征象和卷积神经网络的肺结节CT图像哈希检索 ·861· 算法2基于自适应比特位的检索算法 输入待查询结节图像x,对应的哈希码 h,={h,",h,,h,,图像库第i幅图像的哈希码 H=[h",h2,,h,,参数,阈值po 输出最近似肺结节图像xp。 肺部CT图像 肺实质图像48×48的肺结节 1)根据式(8)~(9)计算查询结节与图像库间 的汉明距离,选择汉明距离最小的前p个图像得到 图5肺结节的获取过程 肺结节候选集1。 Fig.5 Interception of pulmonary nodule 为了验证本文方法的性能,实验使用平均准确 Dh月=u≠W (8) 率MAP(mean average precision),查准率P@K,召 I={,x2,…,xe}←-sort(DH,'descend') (9) 回率R@K3个指标,和5种常用的哈希算法(包括 2)计算待查询结节的每一位哈希码的权值 LSH、SH、PCA、ITQ、KSH)对本文提出的方法进行 评价。 W)={可1,可2,…,可x}。 初始化权值向量o={1,1,…,1) MAP反映的是在所有相似结节中的检索性能, 相似结节在检索结果中的排序越靠前,MAP值就越 for /=1:P 大。P@K反映的是在检索到的前K个结节中,和 for=1:K 查询结节相似的结节出现的概率。R@K反映的是 判断待查询结节图像的第k位哈希码 相似结节在检索到的前K个结节中,与所有相似结 和图像库第幅图像的哈希码是否相同 节的比值。相关公式的定义为 如果相同,可=(1+)河飞 否则,可k=o MAP(q)= 1兴1子k 名m白R (11) End for End for P@K= #similar lung nodules images in top k results) 3)根据式(10)计算待查询结节与候选集I之间 (12) 的加权汉明距离。 R@K- #[similar lung nodules images in top k results) dh,h)=∑(ohgi-hlD (10) #all similar lung nodules images (13) 4)选择距离最小的数据项作为最近似结节。 3.2 实验结果分析 3实验结果与分析 为了得到精确的检索效果,本文首先对本文方 法中的参数1和p进行讨论。 3.1数据集与实验设置 图6所示为不同编码长度下前5个检索结果的 本文方法的实验环境是Visual Studio2010. 排序精度,其中1的取值范围为0.1~1,阈值p的取 MATLAB2012b,PC处理器为Intel Core i7-3770, 值分别为5、10、15、20和25。由图6(a)可知,当 主频3.40GHz,内存8GB。用于研究的肺部CT图 p为15时检索精度达到最大值;当1为0.2和0.3 像数据来自公共数据集LIDC和山西某医院(已与 时,本文方法具有较高的检索精度。由图6(b)和 医院签订相关协议,且已征得患者的同意),该医院 6(d)可知,当p为15时检索精度最高;随着1的增 使用的是美国通用公司的Discovery ST16PET-CT, 大,检索精度值变化不明显。由图6(©)可知,检索 CT采集参数为150mA、140kV,层厚3.75mm, 精度随着1的改变变化很小。因此,本文在自适应 CT图像大小为512×512。 比特位检索方法中将参数1和阈值p分别设置为 为了验证本文方法的有效性,实验所用的 0.3和15。 CT数据集是在专业医师的标注下,利用基于超像 为了比较不同编码长度对检索效果的影响,使 素图和自生成神经森林的肺实质分割算法从肺实 用查全率-查准率(Recall--Precision)来衡量本文方法 质中截取的大小为48×48的矩形区域,如图5所 的性能 示。为了保证训练集和测试集的无关性,本文从 本文在文献[5-121的基础上选取编码长度为12b LIDC数据库中选取了包含9种单一征象的156例 24b、32b、48b、64b、和72b的6组值。图7分别 数据(2669个肺结节)的图像集作为训练集,来自 展示了不同编码长度下,PR曲线的比较结果,可以 合作医院的50例数据(796个结节)的图像集作为 看出本文方法的检索性能随着编码长度的增加而提 测试集。 高,当=64b时,性能趋于稳定。一方面,CNNs提算法 2 基于自适应比特位的检索算法 ··· ··· 输入 待查询结节图像 x p,对应的哈希码 hq={hq (1) , hq (2) , , hq (K) },图像库第 i 幅图像的哈希码 Hi=[hi (1) , hi (2) , , hi (K) ],参数 λ,阈值 ρ。 输出 最近似肺结节图像 xp。 1)根据式(8)~(9)计算查询结节与图像库间 的汉明距离,选择汉明距离最小的前 ρ 个图像得到 肺结节候选集 I。 DH(hq ,hi) = ∑n i=1 (ui , vi) (8) I = {x1, x2,··· , xρ} ← sort(DH, ′ descend′ ) (9) {W} = {ϖ1,ϖ2,···,ϖK} 2)计算待查询结节的每一位哈希码的权值 。 初始化权值向量 ϖk = {1,1,···,1} for j=1:ρ for k=1:K 判断待查询结节图像的第 k 位哈希码 和图像库第 i 幅图像的哈希码是否相同 如果相同, ϖk = (1+λ)ϖk 否则, ϖk = λϖk End for End for 3)根据式(10)计算待查询结节与候选集 I 之间 的加权汉明距离。 d(hq,hI) = ∑k i=1 (ϖ|hqi −hIi |) (10) 4)选择距离最小的数据项作为最近似结节。 3 实验结果与分析 3.1 数据集与实验设置 本文方法的实验环境是 Visual Studio 2010, MATLAB 2012b,PC 处理器为 Intel Core i7-3770, 主频 3.40 GHz,内存 8 GB。用于研究的肺部 CT 图 像数据来自公共数据集 LIDC 和山西某医院(已与 医院签订相关协议,且已征得患者的同意),该医院 使用的是美国通用公司的 Discovery ST16 PET-CT, CT 采集参数为 150 mA、140 kV,层厚 3.75 mm, CT 图像大小为 512×512。 为了验证本文方法的有效性,实验所用的 CT 数据集是在专业医师的标注下,利用基于超像 素 [18]和自生成神经森林的肺实质分割算法[19]从肺实 质中截取的大小为 48×48 的矩形区域,如图 5 所 示。为了保证训练集和测试集的无关性,本文从 LIDC 数据库中选取了包含 9 种单一征象的 156 例 数据(2 669 个肺结节)的图像集作为训练集,来自 合作医院的 50 例数据(796 个结节)的图像集作为 测试集。 为了验证本文方法的性能,实验使用平均准确 率 MAP(mean average precision),查准率 P@K,召 回率 R@K 3 个指标,和 5 种常用的哈希算法(包括 LSH、SH、PCA、ITQ、KSH)对本文提出的方法进行 评价。 MAP 反映的是在所有相似结节中的检索性能, 相似结节在检索结果中的排序越靠前,MAP 值就越 大。P@K 反映的是在检索到的前 K 个结节中,和 查询结节相似的结节出现的概率。R@K 反映的是 相似结节在检索到的前 K 个结节中,与所有相似结 节的比值。相关公式的定义为 MAP(q) = 1 q ∑ |q| j=1 1 mj ∑mj k=1 k Rjk (11) P@K = # { similar lung nodules images in top k results} k (12) R@K = # { similar lung nodules images in top k results} # { all similar lung nodules images} (13) 3.2 实验结果分析 为了得到精确的检索效果,本文首先对本文方 法中的参数 λ 和 ρ 进行讨论。 图 6 所示为不同编码长度下前 5 个检索结果的 排序精度,其中 λ 的取值范围为 0.1~1,阈值 ρ 的取 值分别为 5、10、15、20 和 25。由图 6(a) 可知,当 ρ 为 15 时检索精度达到最大值;当 λ 为 0.2 和 0.3 时,本文方法具有较高的检索精度。由图 6(b) 和 6(d) 可知,当 ρ 为 15 时检索精度最高;随着 λ 的增 大,检索精度值变化不明显。由图 6(c) 可知,检索 精度随着 λ 的改变变化很小。因此,本文在自适应 比特位检索方法中将参数 λ 和阈值 ρ 分别设置为 0.3 和 15。 为了比较不同编码长度对检索效果的影响,使 用查全率-查准率(Recall-Precision)来衡量本文方法 的性能。 本文在文献[5-12]的基础上选取编码长度为 12 b、 24 b、32 b、48 b、64 b、和 72 b 的 6 组值。图 7 分别 展示了不同编码长度下,P-R 曲线的比较结果,可以 看出本文方法的检索性能随着编码长度的增加而提 高,当 r=64 b 时,性能趋于稳定。一方面,CNNs 提 㗦䘔 CT ప 㗦䉔ప 48×48⮰㗦㏿㞮 图 5 肺结节的获取过程 Fig. 5 Interception of pulmonary nodule 第 6 期 杨晓兰,等:基于医学征象和卷积神经网络的肺结节 CT 图像哈希检索 ·861·