·860· 智能系统学报 第12卷 本相似度的一致性,因而哈希函数的选择至关重 LDC征象训练集 要。本文借鉴LSH中保持内积相似性哈希函数的 构造思想:如果哈希码的长度为k,则需要设计一组 包含k个哈希函数的函数族。哈希函数的定义为 CNNs [h h2...hl=[sign(Wx+b)] (2) 参数迁移 式中:x为肺结节的特征,W为系数向量,b为偏差, 肺结节图像 本文使用PCA处理,所以b的值为0,哈希函数可 简化为 h(x:w)=sign(wx) (3) 为了求解系数,本文在目标函数的设计中,加入 CNNs 哈希函数的约束条件和量化误差,目标函数可表示为 图3基于卷积神经网络的特征提取框架 minO= (4) Fig.3 The convolutional neural network architecture used 约束条件: for features extraction 本文提出基于CNNs的深层次特征提取框架主 h:=-l,1 (5) 要包括包括3部分:1)由多个卷积层和全连接层组 ∑A=0 (6) 成的特征提取层;2)用来对9种单一征象进行分类 的softmax分类器层。肺结节重要语义特征的提取 ∑=l (7) 如算法1所示。 式中:h,=sign(Wx)∈R为哈希码的映射值,Y= 算法1基于CNNs和PCA的重要语义特征 [y…y为训练集准确的哈希码;式(6)要求哈希 提取算法 码均匀分布,式(⑦)要求不同的哈希码之间相互独立。 输入肺结节征象训练集{x,x2,x},对应的 式(4)是通过最小化目标函数求解系数矩阵 征象类别y9∈{1,2,,,=9。 W=[w1w2…w「,保证了不同哈希函数之间的独立 输出肺结节的重要语义特征Y=x1x…xm]。 性,从而学习到最优的哈希函数hx;w)=sign(wx) 1)将肺结节单一征象集输入到卷积神经网络 之后对数据集中的所有肺结节征象特征编码,即可 中,并将网络全连接层输出的肺结节高维表示记为 {x",y9,0,y0 得到肺结节图像的哈希码库H=[h,h2,,hn]。 2)通过softmax分类器建立肺结节高维表示 2.4肺结节的检索过程 与征象类别之间的概率分布p心=)。因为一张 虽然将图像特征映射为哈希码可以加快检索速 肺结节图像可能包含k(心1)种征象,对k种征象的 度,但是哈希码对原始图像的表示有一定的局限 可能值进行累加,同时引入权值衰减项。代价函数 性。如图4所示,不同的特征被映射成相同的哈希 可表示为 码,单纯使用汉明距离度量图像间的相似性不够准 确。如果为查询图像的不同码位自适应地分配不 J()= 同的权值,避免所有码位权值相同对汉明距离的影 =11 =0 响,就可以提高检索性能。为此,本文提出基于自 22 适应比特位的检索方法,具体描述如算法2所示。 =1j=0 式中:0为网络参数组合,1为平衡前后两项的影响 不相似 因子。 3)优化代价函数,选择最优的参数组合0对 特征提取 CNNs网络进行调整。去掉调整好网络中的sof- max分类器层,将CNNs框架中最后一层的输出作 哈希映射 为肺结节的高维特征X=[x…xJ。 01101100 4)计算高维特征矩阵X的PCA映射矩阵 Y=PXo 图4不同的特征被映射成相同的哈希码 2.3哈希函数的学习 Fig.4 The phenomenon that different features are map- 哈希函数必须尽可能地保持哈希前与哈希后样 ped to the same hashing codes本文提出基于 CNNs 的深层次特征提取框架主 要包括包括 3 部分:1)由多个卷积层和全连接层组 成的特征提取层;2)用来对 9 种单一征象进行分类 的 softmax 分类器层。肺结节重要语义特征的提取 如算法 1 所示。 算法 1 基于 CNNs 和 PCA 的重要语义特征 提取算法 ··· ··· 输入 肺结节征象训练集{x1 , x2 , , xn},对应的 征象类别 y (i)∈{1, 2, , k}, k=9。 输出 肺结节的重要语义特征 Y=[x ··· 1 x2 xm]。 ··· 1) 将肺结节单一征象集输入到卷积神经网络 中,并将网络全连接层输出的肺结节高维表示记为 {(x (1) , y (2) , , (x (n) , y (n) )}。 2) 通过 softmax 分类器建立肺结节高维表示 X (i) 与征象类别之间的概率分布 p(y=j|x)。因为一张 肺结节图像可能包含 k(k>1)种征象,对 k 种征象的 可能值进行累加,同时引入权值衰减项。代价函数 可表示为 J(θ) = k n ∑n i=1 ∑1 j=0 1 { y (i) = j } log p ( y (i) = j| x (i) ; θ ) + l 2 ∑k i=1 ∑n j=0 θ 2 i j (1) 式中:θ 为网络参数组合,l 为平衡前后两项的影响 因子。 X = [x1 x2 ··· xn] T 3) 优化代价函数,选择最优的参数组合 θ 对 CNNs 网络进行调整。去掉调整好网络中的 softmax 分类器层,将 CNNs 框架中最后一层的输出作 为肺结节的高维特征 。 Y = PX 4) 计算高维特征矩阵 X 的 PCA 映射矩阵 。 2.3 哈希函数的学习 哈希函数必须尽可能地保持哈希前与哈希后样 本相似度的一致性,因而哈希函数的选择至关重 要。本文借鉴 LSH[5]中保持内积相似性哈希函数的 构造思想:如果哈希码的长度为 k,则需要设计一组 包含 k 个哈希函数的函数族。哈希函数的定义为 [h1 h2 ··· hk] T = [sign(W x+b)]T (2) 式中:x 为肺结节的特征,W 为系数向量,b 为偏差, 本文使用 PCA 处理,所以 b 的值为 0,哈希函数可 简化为 h(x;w) = sign(w T x) (3) 为了求解系数,本文在目标函数的设计中,加入 哈希函数的约束条件和量化误差,目标函数可表示为 min w O = ∑n i=1 ∑k j=1 (sign(w T j xi)⊕yi j) (4) 约束条件: hi = {−1,1} k (5) ∑ i hi = 0 (6) 1 n ∑ i hih T i = I (7) ··· 式中:hi=sign(W T x)∈R k 为哈希码的映射值,Y= [y1 y2 yn ]为训练集准确的哈希码;式 (6) 要求哈希 码均匀分布,式 (7) 要求不同的哈希码之间相互独立。 W = [w1 w2 ··· wk] T ··· 式(4)是通过最小化目标函数求解系数矩阵 ,保证了不同哈希函数之间的独立 性,从而学习到最优的哈希函数 h(x;w)=sign(w T x)。 之后对数据集中的所有肺结节征象特征编码,即可 得到肺结节图像的哈希码库 H=[h1 , h2 , , hn ]。 2.4 肺结节的检索过程 虽然将图像特征映射为哈希码可以加快检索速 度,但是哈希码对原始图像的表示有一定的局限 性。如图 4 所示,不同的特征被映射成相同的哈希 码,单纯使用汉明距离度量图像间的相似性不够准 确 [17]。如果为查询图像的不同码位自适应地分配不 同的权值,避免所有码位权值相同对汉明距离的影 响,就可以提高检索性能。为此,本文提出基于自 适应比特位的检索方法,具体描述如算法 2 所示。 LIDC ᒭ䆍䃙㏯䯲 CNNs CNNs 宀䓭࣮ 㗦㏿㞮ప . . . . . . . . . . . . . . . 图 3 基于卷积神经网络的特征提取框架 Fig. 3 The convolutional neural network architecture used for features extraction ➥ᒭं ̹ⰤѨ 01101100 ৴ጸᭌᄰ 图 4 不同的特征被映射成相同的哈希码 Fig. 4 The phenomenon that different features are mapped to the same hashing codes ·860· 智 能 系 统 学 报 第 12 卷