正在加载图片...
·730 智能系统学报 第12卷 像产生不同的诊断结果。因此,使用计算机辅助诊 验分布的半监督FCM算法,通过引入标记样本的先 断系统(computer-aided diagnosis,CAD)Is)对肺部 验分布信息,赋予标记样本更大的权重,并将其融 CT图像进行自动分析,提供一个客观的肺结节诊断 入到FCM聚类过程中,使得监督信息在最后聚类中 结果具有重要的意义。 发挥更重要的作用,从而更好地指导聚类。在LDC 一般情况下,肺部CT图像的数据标注较少,大 数据库进行了实验,实验结果证明了本文提出的算 量的数据是未标记的。受限于临床专业知识,人工 法能够取得更高的分类准确率。 对所有的数据进行标注将耗费大量的人力。半监 督学习思想是利用少量的标记样本和大量的未标 1特征提取 记样本训练分类器,通过未标记数据的信息辅助提 肺结节的诊断过程主要分为肺结节的分割、特 升分类器的性能。因此,本文使用半监督学习方法 征提取、肺结节良恶性分类。图1为一幅肺部CT 对肺结节进行分类。 图像,图2为分割出的肺结节。基于分割的肺结节 半监督聚类是一种常用的半监督学习方法[6、 进行特征提取。在临床上,肺结节的形状及边缘的 通过利用少量标记样本辅助提高聚类的准确率。 粗糙程度等信息是判断良恶性的重要依据,为了获 半监督FCM算法是半监督聚类算法的经典算法之 取这些重要信息,本文主要提取以下特征):灰度 一。Bensaid等[)针对传统FCM中簇数的选择以 特征6(灰度方差、灰度直方图嫡),形态特征 及训练样本数量较少等问题提出了一种部分监督 (似圆度、紧凑度、径向均值、径向方差,边界粗糙 聚类FCM算法:张慧哲等[8)针对传统FCM算法聚 度、形状不变矩H。,H1,H2,H3)等11维特征,并对每 类结果受初始聚类中心的影响,提出了一种简洁快 维特征进行归一化。 速的初始聚类中心选取规则,并根据聚类中心的分 离特性改进了目标函数,从而使聚类结果达到最 优:李春芳等[]针对传统的半监督FCM算法的目 标函数在a=1,0时退化为经典的FCM算法,提出 了一种基于改进目标函数的半监督模糊聚类算法 SS-FCM,提高了聚类的准确性和收敛速度;K.L WuIo]针对传统半监督FCM的模糊因子参数m的 选择进行了详细的分析,提出在数据集包含噪声和 离群值的情况下m=4有更强的健壮性和聚类效 果:侯薇等)针对计算FCM隶属度导致算法执行 率低这一问题,提出了一种抽样初始化产生较好的 图1LDC中肺部CT图像 初始聚类中心,对较大隶属度的数据点,通过k Fig.1 Lung CT image in LIDC means操作更新模糊聚类中心,同时仅更新小隶属 度来达到提高FCM算法聚类的效率;李斌等[2]针 对传统的核模糊C均值中只考虑类内关系忽略了 类间关系,从而使边界对噪声敏感等问题,提出了 一种改进核FCM类间极大化聚类算法MKFCM,使 边界处样本得到很好的划分。 图2肺结节分割 Fig.2 Segmentation of pulmonary nodules 现有的半监督FCM虽然能够在一定程度上取 得了较好的聚类效果,但标记样本与未标记样本的 2 肺结节的良恶性分类 分布不平衡问题将会影响半监督聚类的性能]」 传统半监督FCM算法的思想是基于类内加权平方 2.1经典FCM算法 误差最小化准则,聚类中心是通过标记样本的隶属 FCM算法[18)主要思想是在每个样本进行聚类 度来控制的,样本通常归属于最近的聚类中心所 时,引入一个类簇的隶属度计算样本属于某个类簇 代表的类。当标记样本与未标记样本数量差异较 的可能性。聚类的过程可形式化为目标函数的优 大时,将会弱化标记样本的监督信息在聚类中的作 化过程,如式(1)所示。其中k的取值为式(2)所 用,导致聚类结果产生错误,进而影响肺结节分类 示。FCM算法通过不断迭代求解模糊隶属度函数 的准确率。本文针对这一问题,提出了一种基于先 u和聚类中心v,使得目标函数最小化,迭代停止,像产生不同的诊断结果。 因此,使用计算机辅助诊 断系统( computer⁃aided diagnosis, CAD) [5] 对肺部 CT 图像进行自动分析,提供一个客观的肺结节诊断 结果具有重要的意义。 一般情况下,肺部 CT 图像的数据标注较少,大 量的数据是未标记的。 受限于临床专业知识,人工 对所有的数据进行标注将耗费大量的人力。 半监 督学习思想是利用少量的标记样本和大量的未标 记样本训练分类器,通过未标记数据的信息辅助提 升分类器的性能。 因此,本文使用半监督学习方法 对肺结节进行分类。 半监督聚类是一种常用的半监督学习方法[6] , 通过利用少量标记样本辅助提高聚类的准确率。 半监督 FCM 算法是半监督聚类算法的经典算法之 一。 Bensaid 等 [7]针对传统 FCM 中簇数的选择以 及训练样本数量较少等问题提出了一种部分监督 聚类 FCM 算法;张慧哲等 [8]针对传统 FCM 算法聚 类结果受初始聚类中心的影响,提出了一种简洁快 速的初始聚类中心选取规则,并根据聚类中心的分 离特性改进了目标函数,从而使聚类结果达到最 优;李春芳等 [9]针对传统的半监督 FCM 算法的目 标函数在 α= 1,0 时退化为经典的 FCM 算法,提出 了一种基于改进目标函数的半监督模糊聚类算法 SS⁃FCM,提高了聚类的准确性和收敛速度; K. L. Wu [10]针对传统半监督 FCM 的模糊因子参数 m 的 选择进行了详细的分析,提出在数据集包含噪声和 离群值的情况下 m = 4 有更强的健壮性和聚类效 果;侯薇等[11]针对计算 FCM 隶属度导致算法执行 率低这一问题,提出了一种抽样初始化产生较好的 初始聚类中心,对较大隶属度的数据点,通过 k⁃ means 操作更新模糊聚类中心,同时仅更新小隶属 度来达到提高 FCM 算法聚类的效率;李斌等 [12]针 对传统的核模糊 C 均值中只考虑类内关系忽略了 类间关系,从而使边界对噪声敏感等问题,提出了 一种改进核 FCM 类间极大化聚类算法 MKFCM,使 边界处样本得到很好的划分。 现有的半监督 FCM 虽然能够在一定程度上取 得了较好的聚类效果,但标记样本与未标记样本的 分布不平衡问题将会影响半监督聚类的性能[13] 。 传统半监督 FCM 算法的思想是基于类内加权平方 误差最小化准则,聚类中心是通过标记样本的隶属 度来控制的[14] ,样本通常归属于最近的聚类中心所 代表的类。 当标记样本与未标记样本数量差异较 大时,将会弱化标记样本的监督信息在聚类中的作 用,导致聚类结果产生错误,进而影响肺结节分类 的准确率。 本文针对这一问题,提出了一种基于先 验分布的半监督 FCM 算法,通过引入标记样本的先 验分布信息,赋予标记样本更大的权重,并将其融 入到 FCM 聚类过程中,使得监督信息在最后聚类中 发挥更重要的作用,从而更好地指导聚类。 在 LIDC 数据库进行了实验,实验结果证明了本文提出的算 法能够取得更高的分类准确率。 1 特征提取 肺结节的诊断过程主要分为肺结节的分割、特 征提取、肺结节良恶性分类。 图 1 为一幅肺部 CT 图像,图 2 为分割出的肺结节。 基于分割的肺结节, 进行特征提取。 在临床上,肺结节的形状及边缘的 粗糙程度等信息是判断良恶性的重要依据,为了获 取这些重要信息,本文主要提取以下特征[15] :灰度 特征[16] (灰度方差、灰度直方图熵),形态特征[17] (似圆度、紧凑度、径向均值、径向方差,边界粗糙 度、形状不变矩 H0 ,H1 ,H2 ,H3 )等 11 维特征,并对每 一维特征进行归一化。 图 1 LIDC 中肺部 CT 图像 Fig.1 Lung CT image in LIDC 图 2 肺结节分割 Fig.2 Segmentation of pulmonary nodules 2 肺结节的良恶性分类 2.1 经典 FCM 算法 FCM 算法[18]主要思想是在每个样本进行聚类 时,引入一个类簇的隶属度计算样本属于某个类簇 的可能性。 聚类的过程可形式化为目标函数的优 化过程,如式(1) 所示。 其中 k 的取值为式(2) 所 示。 FCM 算法通过不断迭代求解模糊隶属度函数 uk和聚类中心 vi,使得目标函数最小化,迭代停止, ·730· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有