算法 2 基于自适应比特位的检索算法 ···

正在加载图片...

第6期杨晓兰，等：基于医学征象和卷积神经网络的肺结节CT图像哈希检索 ·861· 算法2基于自适应比特位的检索算法输入待查询结节图像x,对应的哈希码 h,={h,",h,,h,,图像库第i幅图像的哈希码 H=[h",h2,,h,,参数，阈值po 输出最近似肺结节图像xp。肺部CT图像肺实质图像48×48的肺结节 1)根据式(8)~(9)计算查询结节与图像库间的汉明距离，选择汉明距离最小的前p个图像得到图5肺结节的获取过程肺结节候选集1。 Fig.5 Interception of pulmonary nodule 为了验证本文方法的性能，实验使用平均准确 Dh月=u≠W (8) 率MAP(mean average precision),查准率P@K,召 I={,x2,…,xe}←-sort(DH,'descend') (9) 回率R@K3个指标，和5种常用的哈希算法（包括 2)计算待查询结节的每一位哈希码的权值 LSH、SH、PCA、ITQ、KSH)对本文提出的方法进行评价。 W)={可1，可2，…，可x}。初始化权值向量o={1,1,…,1) MAP反映的是在所有相似结节中的检索性能，相似结节在检索结果中的排序越靠前，MAP值就越 for /=1:P 大。P@K反映的是在检索到的前K个结节中，和 for=1:K 查询结节相似的结节出现的概率。R@K反映的是判断待查询结节图像的第k位哈希码相似结节在检索到的前K个结节中，与所有相似结和图像库第幅图像的哈希码是否相同节的比值。相关公式的定义为如果相同，可=(1+)河飞否则，可k=o MAP(q)= 1兴1子k 名m白R (11) End for End for P@K= #similar lung nodules images in top k results) 3)根据式(10)计算待查询结节与候选集I之间 (12) 的加权汉明距离。 R@K- #[similar lung nodules images in top k results) dh,h）=∑(ohgi-hlD (10) #all similar lung nodules images (13) 4)选择距离最小的数据项作为最近似结节。 3.2 实验结果分析 3实验结果与分析为了得到精确的检索效果，本文首先对本文方法中的参数1和p进行讨论。 3.1数据集与实验设置图6所示为不同编码长度下前5个检索结果的本文方法的实验环境是Visual Studio2010. 排序精度，其中1的取值范围为0.1~1，阈值p的取 MATLAB2012b,PC处理器为Intel Core i7-3770, 值分别为5、10、15、20和25。由图6(a)可知，当主频3.40GHz,内存8GB。用于研究的肺部CT图 p为15时检索精度达到最大值；当1为0.2和0.3 像数据来自公共数据集LIDC和山西某医院（已与时，本文方法具有较高的检索精度。由图6(b)和医院签订相关协议，且已征得患者的同意)，该医院 6(d)可知，当p为15时检索精度最高；随着1的增使用的是美国通用公司的Discovery ST16PET-CT, 大，检索精度值变化不明显。由图6（©）可知，检索 CT采集参数为150mA、140kV,层厚3.75mm, 精度随着1的改变变化很小。因此，本文在自适应 CT图像大小为512×512。比特位检索方法中将参数1和阈值p分别设置为为了验证本文方法的有效性，实验所用的 0.3和15。 CT数据集是在专业医师的标注下，利用基于超像为了比较不同编码长度对检索效果的影响，使素图和自生成神经森林的肺实质分割算法从肺实用查全率-查准率(Recall--Precision)来衡量本文方法质中截取的大小为48×48的矩形区域，如图5所的性能示。为了保证训练集和测试集的无关性，本文从本文在文献[5-121的基础上选取编码长度为12b LIDC数据库中选取了包含9种单一征象的156例 24b、32b、48b、64b、和72b的6组值。图7分别数据(2669个肺结节)的图像集作为训练集，来自展示了不同编码长度下，PR曲线的比较结果，可以合作医院的50例数据(796个结节)的图像集作为看出本文方法的检索性能随着编码长度的增加而提测试集。高，当=64b时，性能趋于稳定。一方面，CNNs提算法 2 基于自适应比特位的检索算法 ··· ··· 输入待查询结节图像 x p，对应的哈希码 hq={hq (1) , hq (2) , , hq (K) }，图像库第 i 幅图像的哈希码 Hi=[hi (1) , hi (2) , , hi (K) ]，参数 λ，阈值 ρ。输出最近似肺结节图像 xp。 1）根据式（8）～（9）计算查询结节与图像库间的汉明距离，选择汉明距离最小的前 ρ 个图像得到肺结节候选集 I。 DH(hq ,hi) = ∑n i=1 (ui , vi) (8) I = {x1, x2,··· , xρ} ← sort(DH, ′ descend′ ) (9) {W} = {ϖ1,ϖ2,···,ϖK} 2）计算待查询结节的每一位哈希码的权值。初始化权值向量 ϖk = {1,1,···,1} for j=1：ρ for k=1：K 判断待查询结节图像的第 k 位哈希码和图像库第 i 幅图像的哈希码是否相同如果相同， ϖk = (1+λ)ϖk 否则， ϖk = λϖk End for End for 3）根据式（10）计算待查询结节与候选集 I 之间的加权汉明距离。 d(hq,hI) = ∑k i=1 (ϖ|hqi −hIi |) (10) 4）选择距离最小的数据项作为最近似结节。 3 实验结果与分析 3.1 数据集与实验设置本文方法的实验环境是 Visual Studio 2010， MATLAB 2012b，PC 处理器为 Intel Core i7-3770，主频 3.40 GHz，内存 8 GB。用于研究的肺部 CT 图像数据来自公共数据集 LIDC 和山西某医院（已与医院签订相关协议，且已征得患者的同意），该医院使用的是美国通用公司的 Discovery ST16 PET-CT， CT 采集参数为 150 mA、140 kV，层厚 3.75 mm， CT 图像大小为 512×512。为了验证本文方法的有效性，实验所用的 CT 数据集是在专业医师的标注下，利用基于超像素 [18]和自生成神经森林的肺实质分割算法[19]从肺实质中截取的大小为 48×48 的矩形区域，如图 5 所示。为了保证训练集和测试集的无关性，本文从 LIDC 数据库中选取了包含 9 种单一征象的 156 例数据（2 669 个肺结节）的图像集作为训练集，来自合作医院的 50 例数据（796 个结节）的图像集作为测试集。为了验证本文方法的性能，实验使用平均准确率 MAP（mean average precision），查准率 P@K，召回率 R@K 3 个指标，和 5 种常用的哈希算法（包括 LSH、SH、PCA、ITQ、KSH）对本文提出的方法进行评价。 MAP 反映的是在所有相似结节中的检索性能，相似结节在检索结果中的排序越靠前，MAP 值就越大。P@K 反映的是在检索到的前 K 个结节中，和查询结节相似的结节出现的概率。R@K 反映的是相似结节在检索到的前 K 个结节中，与所有相似结节的比值。相关公式的定义为 MAP(q) = 1 q ∑ |q| j=1 1 mj ∑mj k=1 k Rjk (11) P@K = # { similar lung nodules images in top k results} k (12) R@K = # { similar lung nodules images in top k results} # { all similar lung nodules images} (13) 3.2 实验结果分析为了得到精确的检索效果，本文首先对本文方法中的参数 λ 和 ρ 进行讨论。图 6 所示为不同编码长度下前 5 个检索结果的排序精度，其中 λ 的取值范围为 0.1~1，阈值 ρ 的取值分别为 5、10、15、20 和 25。由图 6(a) 可知，当 ρ 为 15 时检索精度达到最大值；当 λ 为 0.2 和 0.3 时，本文方法具有较高的检索精度。由图 6(b) 和 6(d) 可知，当 ρ 为 15 时检索精度最高；随着 λ 的增大，检索精度值变化不明显。由图 6(c) 可知，检索精度随着 λ 的改变变化很小。因此，本文在自适应比特位检索方法中将参数 λ 和阈值 ρ 分别设置为 0.3 和 15。为了比较不同编码长度对检索效果的影响，使用查全率-查准率（Recall-Precision）来衡量本文方法的性能。本文在文献[5-12]的基础上选取编码长度为 12 b、 24 b、32 b、48 b、64 b、和 72 b 的 6 组值。图 7 分别展示了不同编码长度下，P-R 曲线的比较结果，可以看出本文方法的检索性能随着编码长度的增加而提高，当 r=64 b 时，性能趋于稳定。一方面，CNNs 提㗦䘔 CT ప׻ 㗦჊䉔ప׻ 48×48⮰㗦㏿㞮图 5 肺结节的获取过程 Fig. 5 Interception of pulmonary nodule 第 6 期杨晓兰，等：基于医学征象和卷积神经网络的肺结节 CT 图像哈希检索 ·861·

<<向上翻页向下翻页>>

点击下载：【机器学习】基于医学征象和卷积神经网络的肺结节CT图像哈希检索