第12卷第5期 智能系统学报 Vol.12 No.5 2017年10月 CAAI Transactions on Intelligent Systems 0ct.2017 D0I:10.11992/tis.201706018 网络出版地址:htp:/kns.cmki.net/kcms/detail/23.1538.TP.20170831.1058.014.html 基于分布先验的半监督FCM的肺结节分类 姜婷,袭肖明,岳厚光 (山东财经大学计算机科学与技术学院,山东济南250014) 摘要:肺结节的良恶性分类对于肺癌的早期发现及诊断具有重要意义。然而实际应用中,标记的图像数量较少 且获取标记将耗费大量的人力,在这种情况下,使用半监督学习算法是有效提高分类性能的一个思路。作为一种经 典的半监督学习算法,传统的半监督FCM在未标记样本与标记样本分布不平衡情况下不能充分利用标记信息。针 对此问题,本文提出了一种基于分布先验的半监督FCM算法。首先计算样本的先验分布概率,基于获得的先验概 率,给样本赋予权重,并将其融入到半监督F℃M聚类中,从而强化少量的标记样本在聚类过程中的指导作用。文中 在LDC数据库上进行了相应的实验,实验结果证明,相比较传统的半监督FCM算法,提出的算法能够取得更好的肺 结节分类性能。 关键词:肺结节分类:半监督FCM:先验分布信息:图像处理:LDC数据库 中图分类号:TP399文献标志码:A文章编号:1673-4785(2017)05-0729-06 中文引用格式:姜婷,袭肖明,岳厚光.基于分布先验的半监督FCM的肺结节分类[J].智能系统学报,2017,12(5):729-734. 英文引用格式:JIANG Ting,XⅪXiaoming,YUE Houguang..Classification of pulmonary nodules by semi-supervised FCM based on prior distribution[J].CAAI transactions on intelligent systems,2017,12(5):729-734. Classification of pulmonary nodules by semi-supervised FCM based on prior distribution JIANG Ting,XI Xiaoming,YUE Houguang (School of Computer Science and Technology,Shandong University of Finance and Economics,Ji'nan 250014,China) Abstract:The classification of pulmonary nodules is significant for the early detection and treatment of lung cancer. However,in real clinical applications,few medical images are labeled and it is difficult to obtain these labels. Semi-supervised learning methods that utilize supervised information to label images may be employed to improve the classification performance of pulmonary nodules.Traditional semi-supervised methods ignore the use of label information when the distribution between labeled and unlabeled specimens is imbalanced.To solve this problem, we propose a semi-supervised fuzzy c-means (FCM)algorithm based on prior distribution for classifying pulmonary nodules.This algorithm first calculates the prior probability of the specimens.Based on the obtained probability,a weight is assigned to each specimen for clustering to intensify the instruction role of a few labeled specimens in the clustering process.We conducted a corresponding test for Lung Image Database Consortium (LIDC)database.The result shows that,compared with the traditional semi-supervised FCM algorithm,the proposed algorithm can obtain better classification performances of pulmonary nodules. Keywords:classification of pulmonary nodules;semi-supervised FCM;prior distribution;image processing; LIDC database 根据世界卫生组织2016年公布的数据,肺癌在 发现及治疗对于挽救患者的生命具有重要意义[)。 全球的发病率和死亡率均为最高。肺癌的早期 肺癌早期通常表现为肺结节3)。在临床上,医生 通常结合肺部医学影像来对肺部结节进行分析与 收稿日期:2017-06-07.网络出版日期:2017-08-31. 基金项目:国家自然科学基金项目(61573219,61671274):山东省自然 诊断。CT是一种常用的辅助检查肺结节医学成像 科学基金项目(ZR2016FQ18,ZR2014HM065):医药卫生科 技发展计划项目(2014ws0109). 模态的手段。然而,由于医生个人经验等主观因素 通信作者:袭肖明.E-mail:yz四l0@126.com 的影响,不同的医生可能对于同一个患者的CT图
第 12 卷第 5 期 智 能 系 统 学 报 Vol.12 №.5 2017 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2017 DOI:10.11992 / tis.201706018 网络出版地址:http: / / kns.cnki.net / kcms/ detail / 23.1538.TP.20170831.1058.014.html 基于分布先验的半监督 FCM 的肺结节分类 姜婷,袭肖明,岳厚光 (山东财经大学 计算机科学与技术学院,山东 济南 250014) 摘 要:肺结节的良恶性分类对于肺癌的早期发现及诊断具有重要意义。 然而实际应用中,标记的图像数量较少, 且获取标记将耗费大量的人力,在这种情况下,使用半监督学习算法是有效提高分类性能的一个思路。 作为一种经 典的半监督学习算法,传统的半监督 FCM 在未标记样本与标记样本分布不平衡情况下不能充分利用标记信息。 针 对此问题,本文提出了一种基于分布先验的半监督 FCM 算法。 首先计算样本的先验分布概率,基于获得的先验概 率,给样本赋予权重,并将其融入到半监督 FCM 聚类中,从而强化少量的标记样本在聚类过程中的指导作用。 文中 在 LIDC 数据库上进行了相应的实验,实验结果证明,相比较传统的半监督 FCM 算法,提出的算法能够取得更好的肺 结节分类性能。 关键词:肺结节分类;半监督 FCM;先验分布信息;图像处理;LIDC 数据库 中图分类号:TP399 文献标志码:A 文章编号:1673-4785(2017)05-0729-06 中文引用格式:姜婷,袭肖明,岳厚光.基于分布先验的半监督 FCM 的肺结节分类[J]. 智能系统学报, 2017, 12(5): 729-734. 英文引用格式:JIANG Ting, XI Xiaoming, YUE Houguang. Classification of pulmonary nodules by semi⁃supervised FCM based on prior distribution[J]. CAAI transactions on intelligent systems, 2017, 12(5): 729-734. Classification of pulmonary nodules by semi⁃supervised FCM based on prior distribution JIANG Ting, XI Xiaoming, YUE Houguang (School of Computer Science and Technology, Shandong University of Finance and Economics, Ji’nan 250014, China) Abstract:The classification of pulmonary nodules is significant for the early detection and treatment of lung cancer. However, in real clinical applications, few medical images are labeled and it is difficult to obtain these labels. Semi⁃supervised learning methods that utilize supervised information to label images may be employed to improve the classification performance of pulmonary nodules. Traditional semi⁃supervised methods ignore the use of label information when the distribution between labeled and unlabeled specimens is imbalanced. To solve this problem, we propose a semi⁃supervised fuzzy c⁃means (FCM) algorithm based on prior distribution for classifying pulmonary nodules. This algorithm first calculates the prior probability of the specimens. Based on the obtained probability, a weight is assigned to each specimen for clustering to intensify the instruction role of a few labeled specimens in the clustering process. We conducted a corresponding test for Lung Image Database Consortium (LIDC) database. The result shows that, compared with the traditional semi⁃supervised FCM algorithm, the proposed algorithm can obtain better classification performances of pulmonary nodules. Keywords: classification of pulmonary nodules; semi⁃supervised FCM; prior distribution; image processing; LIDC database 收稿日期:2017-06-07. 网络出版日期:2017-08-31. 基金项目:国家自然科学基金项目( 61573219,61671274);山东省自然 科学基金项目( ZR2016FQ18 , ZR2014HM065);医药卫生科 技发展计划项目(2014ws0109). 通信作者:袭肖明. E⁃mail: fyzq10@ 126.com. 根据世界卫生组织 2016 年公布的数据,肺癌在 全球的发病率和死亡率均为最高[1] 。 肺癌的早期 发现及治疗对于挽救患者的生命具有重要意义[2] 。 肺癌早期通常表现为肺结节[3-4] 。 在临床上,医生 通常结合肺部医学影像来对肺部结节进行分析与 诊断。 CT 是一种常用的辅助检查肺结节医学成像 模态的手段。 然而,由于医生个人经验等主观因素 的影响,不同的医生可能对于同一个患者的 CT 图
·730 智能系统学报 第12卷 像产生不同的诊断结果。因此,使用计算机辅助诊 验分布的半监督FCM算法,通过引入标记样本的先 断系统(computer-aided diagnosis,CAD)Is)对肺部 验分布信息,赋予标记样本更大的权重,并将其融 CT图像进行自动分析,提供一个客观的肺结节诊断 入到FCM聚类过程中,使得监督信息在最后聚类中 结果具有重要的意义。 发挥更重要的作用,从而更好地指导聚类。在LDC 一般情况下,肺部CT图像的数据标注较少,大 数据库进行了实验,实验结果证明了本文提出的算 量的数据是未标记的。受限于临床专业知识,人工 法能够取得更高的分类准确率。 对所有的数据进行标注将耗费大量的人力。半监 督学习思想是利用少量的标记样本和大量的未标 1特征提取 记样本训练分类器,通过未标记数据的信息辅助提 肺结节的诊断过程主要分为肺结节的分割、特 升分类器的性能。因此,本文使用半监督学习方法 征提取、肺结节良恶性分类。图1为一幅肺部CT 对肺结节进行分类。 图像,图2为分割出的肺结节。基于分割的肺结节 半监督聚类是一种常用的半监督学习方法[6、 进行特征提取。在临床上,肺结节的形状及边缘的 通过利用少量标记样本辅助提高聚类的准确率。 粗糙程度等信息是判断良恶性的重要依据,为了获 半监督FCM算法是半监督聚类算法的经典算法之 取这些重要信息,本文主要提取以下特征):灰度 一。Bensaid等[)针对传统FCM中簇数的选择以 特征6(灰度方差、灰度直方图嫡),形态特征 及训练样本数量较少等问题提出了一种部分监督 (似圆度、紧凑度、径向均值、径向方差,边界粗糙 聚类FCM算法:张慧哲等[8)针对传统FCM算法聚 度、形状不变矩H。,H1,H2,H3)等11维特征,并对每 类结果受初始聚类中心的影响,提出了一种简洁快 维特征进行归一化。 速的初始聚类中心选取规则,并根据聚类中心的分 离特性改进了目标函数,从而使聚类结果达到最 优:李春芳等[]针对传统的半监督FCM算法的目 标函数在a=1,0时退化为经典的FCM算法,提出 了一种基于改进目标函数的半监督模糊聚类算法 SS-FCM,提高了聚类的准确性和收敛速度;K.L WuIo]针对传统半监督FCM的模糊因子参数m的 选择进行了详细的分析,提出在数据集包含噪声和 离群值的情况下m=4有更强的健壮性和聚类效 果:侯薇等)针对计算FCM隶属度导致算法执行 率低这一问题,提出了一种抽样初始化产生较好的 图1LDC中肺部CT图像 初始聚类中心,对较大隶属度的数据点,通过k Fig.1 Lung CT image in LIDC means操作更新模糊聚类中心,同时仅更新小隶属 度来达到提高FCM算法聚类的效率;李斌等[2]针 对传统的核模糊C均值中只考虑类内关系忽略了 类间关系,从而使边界对噪声敏感等问题,提出了 一种改进核FCM类间极大化聚类算法MKFCM,使 边界处样本得到很好的划分。 图2肺结节分割 Fig.2 Segmentation of pulmonary nodules 现有的半监督FCM虽然能够在一定程度上取 得了较好的聚类效果,但标记样本与未标记样本的 2 肺结节的良恶性分类 分布不平衡问题将会影响半监督聚类的性能]」 传统半监督FCM算法的思想是基于类内加权平方 2.1经典FCM算法 误差最小化准则,聚类中心是通过标记样本的隶属 FCM算法[18)主要思想是在每个样本进行聚类 度来控制的,样本通常归属于最近的聚类中心所 时,引入一个类簇的隶属度计算样本属于某个类簇 代表的类。当标记样本与未标记样本数量差异较 的可能性。聚类的过程可形式化为目标函数的优 大时,将会弱化标记样本的监督信息在聚类中的作 化过程,如式(1)所示。其中k的取值为式(2)所 用,导致聚类结果产生错误,进而影响肺结节分类 示。FCM算法通过不断迭代求解模糊隶属度函数 的准确率。本文针对这一问题,提出了一种基于先 u和聚类中心v,使得目标函数最小化,迭代停止
像产生不同的诊断结果。 因此,使用计算机辅助诊 断系统( computer⁃aided diagnosis, CAD) [5] 对肺部 CT 图像进行自动分析,提供一个客观的肺结节诊断 结果具有重要的意义。 一般情况下,肺部 CT 图像的数据标注较少,大 量的数据是未标记的。 受限于临床专业知识,人工 对所有的数据进行标注将耗费大量的人力。 半监 督学习思想是利用少量的标记样本和大量的未标 记样本训练分类器,通过未标记数据的信息辅助提 升分类器的性能。 因此,本文使用半监督学习方法 对肺结节进行分类。 半监督聚类是一种常用的半监督学习方法[6] , 通过利用少量标记样本辅助提高聚类的准确率。 半监督 FCM 算法是半监督聚类算法的经典算法之 一。 Bensaid 等 [7]针对传统 FCM 中簇数的选择以 及训练样本数量较少等问题提出了一种部分监督 聚类 FCM 算法;张慧哲等 [8]针对传统 FCM 算法聚 类结果受初始聚类中心的影响,提出了一种简洁快 速的初始聚类中心选取规则,并根据聚类中心的分 离特性改进了目标函数,从而使聚类结果达到最 优;李春芳等 [9]针对传统的半监督 FCM 算法的目 标函数在 α= 1,0 时退化为经典的 FCM 算法,提出 了一种基于改进目标函数的半监督模糊聚类算法 SS⁃FCM,提高了聚类的准确性和收敛速度; K. L. Wu [10]针对传统半监督 FCM 的模糊因子参数 m 的 选择进行了详细的分析,提出在数据集包含噪声和 离群值的情况下 m = 4 有更强的健壮性和聚类效 果;侯薇等[11]针对计算 FCM 隶属度导致算法执行 率低这一问题,提出了一种抽样初始化产生较好的 初始聚类中心,对较大隶属度的数据点,通过 k⁃ means 操作更新模糊聚类中心,同时仅更新小隶属 度来达到提高 FCM 算法聚类的效率;李斌等 [12]针 对传统的核模糊 C 均值中只考虑类内关系忽略了 类间关系,从而使边界对噪声敏感等问题,提出了 一种改进核 FCM 类间极大化聚类算法 MKFCM,使 边界处样本得到很好的划分。 现有的半监督 FCM 虽然能够在一定程度上取 得了较好的聚类效果,但标记样本与未标记样本的 分布不平衡问题将会影响半监督聚类的性能[13] 。 传统半监督 FCM 算法的思想是基于类内加权平方 误差最小化准则,聚类中心是通过标记样本的隶属 度来控制的[14] ,样本通常归属于最近的聚类中心所 代表的类。 当标记样本与未标记样本数量差异较 大时,将会弱化标记样本的监督信息在聚类中的作 用,导致聚类结果产生错误,进而影响肺结节分类 的准确率。 本文针对这一问题,提出了一种基于先 验分布的半监督 FCM 算法,通过引入标记样本的先 验分布信息,赋予标记样本更大的权重,并将其融 入到 FCM 聚类过程中,使得监督信息在最后聚类中 发挥更重要的作用,从而更好地指导聚类。 在 LIDC 数据库进行了实验,实验结果证明了本文提出的算 法能够取得更高的分类准确率。 1 特征提取 肺结节的诊断过程主要分为肺结节的分割、特 征提取、肺结节良恶性分类。 图 1 为一幅肺部 CT 图像,图 2 为分割出的肺结节。 基于分割的肺结节, 进行特征提取。 在临床上,肺结节的形状及边缘的 粗糙程度等信息是判断良恶性的重要依据,为了获 取这些重要信息,本文主要提取以下特征[15] :灰度 特征[16] (灰度方差、灰度直方图熵),形态特征[17] (似圆度、紧凑度、径向均值、径向方差,边界粗糙 度、形状不变矩 H0 ,H1 ,H2 ,H3 )等 11 维特征,并对每 一维特征进行归一化。 图 1 LIDC 中肺部 CT 图像 Fig.1 Lung CT image in LIDC 图 2 肺结节分割 Fig.2 Segmentation of pulmonary nodules 2 肺结节的良恶性分类 2.1 经典 FCM 算法 FCM 算法[18]主要思想是在每个样本进行聚类 时,引入一个类簇的隶属度计算样本属于某个类簇 的可能性。 聚类的过程可形式化为目标函数的优 化过程,如式(1) 所示。 其中 k 的取值为式(2) 所 示。 FCM 算法通过不断迭代求解模糊隶属度函数 uk和聚类中心 vi,使得目标函数最小化,迭代停止, ·730· 智 能 系 统 学 报 第 12 卷
第5期 姜婷,等:基于分布先验的半监督FCM的肺结节分类 ·731· 即完成聚类。 为山:,表示第k个样本点相对于第i个聚类中心的 J(u,v)= 模糊隶属度,其取值范围为[0,1];,=∫表示部分 (1) 监督样本的模糊隶属度;“,表示无监督样本的模 糊隶属度:其中 k=1,2,…,N (2) Ix-vll=(-v)TA(-v) (9) 1 (3) A是任何的正定矩阵。 x-y‖、 2.3基于样本分布先验的半监督FCM算法 基于样本分布先验的半监督FCM的目标函 数如下: k=1 := (4 1=22财G+a2w4-r =1=1 i=1k=1 (10) 式中:C为聚类个数;N为样本个数;u4为FCM中的 式中:标记样本的隶属度F=[f],i=1,2,…,C 模糊隶属度,表示第k个样本点属于第i个聚类中 N=1,2,…,n;d4表示第k个样本点相对于第i个聚 心的隶属度,其取值范围为[0,1];,表示第i类的 类中心间的欧式距离:通常情况下模糊因子取经验 聚类中心;‖x-v:‖2表示第k个样本点相对于第i 值p=2:α是使监督和无监督样本之间保持相对平 个聚类中心的欧式距离:P为模糊因子,它决定样本 衡的因子,其中α本文选取的是传统的半监督FCM 在不同类中的模糊程度。 算法中α的取值,即总样本和标记样本数量之比。 通过不断地更新迭代公式(3)、(4),直到式 为区分标记样本和未标记样本,引入了二值向量b= (1)中目标函数的值小于特定的值ε时或者相对于 b,其中k=1,2,…,n,标记样本时bs=1,相反未标 上次的目标函数值的改变量小于特定的值时,停止 记样本时b=0。 迭代。 为了增强标记样本的监督作用,在计算模糊隶 2.2部分监督的FCM算法 属度和聚类中心时分别引入了样本的分布信息。 Bensaid在经典的FCM算法的基础上,提出了 本文通过在式(15)、(16)、(17)中引入两个权重8 种部分监督聚类算法。他提出的算法加强了标 和B,其中日表示标记样本的权重,B表示未标记样 记信息在聚类过程中的指导作用。通过给标记样 本的权重。通过0和B来指导实现聚类的过程。 本赋予较大的权重,使标记样本在聚类中心的形成 q=M/N (11) 过程中发挥更重要的作用,提高了聚类的精度。其 r=(N-M)/N (12) 目标函数为 0=1-q (13) B=1-T (14) (5) 式中:9表示标记样本的先验概率:M表示标记样本 其聚类中心为 的数量:N表示总样本的数量:r表示未标记样本的 先验概率;(N-M)表示未标记样本的数量。通过优 (u)x) 化目标函数,标记样本的模糊隶属度为 k=1 (6) …宫 u) + (15) 模糊隶属度为 uh.=fi (7) 未标记样本的模糊隶属度为 1 1 山= (8) u法=B× ‖x若-V4-1A (16) j=1 式中:聚类中心中的w为权重因子,w=[w1w2… 聚类中心为 w]',文中使w:=w,其中w为具体的数值,表示标 ,(u4)2x4+∑ (Bu)2x 记样本的数量,通过对少量的标记样本进行增加权 (17) ∑(u)2+∑ (B4)2 重,可以更好地加强标记样本的作用:模糊隶属度
即完成聚类。 Jm(u,v) = ∑ C i = 1 ∑ N k = 1 u p ik‖xk - vi‖2 (1) k = 1,2,…,N (2) uik = 1 ∑ n j = 1 ( ‖xk - vi‖ ‖xk - vj‖ ) 2 p-1 (3) vi = ∑ N k = 1 u p ikxk ∑ N k = 1 u p ik (4) 式中:C 为聚类个数;N 为样本个数;uik为 FCM 中的 模糊隶属度,表示第 k 个样本点属于第 i 个聚类中 心的隶属度,其取值范围为[0,1];vi表示第 i 类的 聚类中心;‖xk -vi‖2 表示第 k 个样本点相对于第 i 个聚类中心的欧式距离;P 为模糊因子,它决定样本 在不同类中的模糊程度。 通过不断地更新迭代公式( 3)、 ( 4),直到式 (1)中目标函数的值小于特定的值 ε 时或者相对于 上次的目标函数值的改变量小于特定的值时,停止 迭代。 2.2 部分监督的 FCM 算法 Bensaid 在经典的 FCM 算法的基础上,提出了 一种部分监督聚类算法。 他提出的算法加强了标 记信息在聚类过程中的指导作用。 通过给标记样 本赋予较大的权重,使标记样本在聚类中心的形成 过程中发挥更重要的作用,提高了聚类的精度。 其 目标函数为 Jm(u,v:x) = ∑ c i = 1 ∑ N k = 1 u p ik‖xk - vi‖2 A (5) 其聚类中心为 vi,t = ∑ n k = 1 wk (u d ik,t) m x d k + ∑ n k = 1 (u u ik,t) m x u ( k ) ∑ n k = 1 wk (u d ik,t) m + ∑ n k = 1 (u u ik,t) m (6) 模糊隶属度为 u d ik,t = f ik (7) u u ik,t = 1 ∑ n j = 1 ( ‖x u k - vi,t-1‖A ‖x u k - vj,t-1‖A ) 2 m-1 (8) 式中:聚类中心中的 wk 为权重因子,w = [w1 w2… wnd ] T ,文中使 wk =w,其中 w 为具体的数值,表示标 记样本的数量,通过对少量的标记样本进行增加权 重,可以更好地加强标记样本的作用;模糊隶属度 为 uik,表示第 k 个样本点相对于第 i 个聚类中心的 模糊隶属度,其取值范围为[0,1];u d ik,t = f ik表示部分 监督样本的模糊隶属度;u u ik,t 表示无监督样本的模 糊隶属度;其中 ‖xK - vi‖2 A = (xk - vi) TA(xk - vi) (9) A 是任何的正定矩阵。 2.3 基于样本分布先验的半监督 FCM 算法 基于样本分布先验的半监督 FCM 的目标函 数[19]如下: J = ∑ c i = 1 ∑ N k = 1 u p ikd 2 ik + α ∑ c i = 1 ∑ N k = 1 (uik - f ik bk) p d 2 ik (10) 式中:标记样本的隶属度 F = [ f ik ], i = 1,2,…,C; N= 1,2,…,n;dik表示第 k 个样本点相对于第 i 个聚 类中心间的欧式距离;通常情况下模糊因子取经验 值 p = 2;α 是使监督和无监督样本之间保持相对平 衡的因子,其中 α 本文选取的是传统的半监督 FCM 算法中 α 的取值,即总样本和标记样本数量之比。 为区分标记样本和未标记样本,引入了二值向量b = bk,其中 k = 1,2,…,n,标记样本时 bk = 1,相反未标 记样本时 bk = 0。 为了增强标记样本的监督作用,在计算模糊隶 属度和聚类中心时分别引入了样本的分布信息。 本文通过在式(15)、(16)、(17) 中引入两个权重 θ 和 β,其中 θ 表示标记样本的权重,β 表示未标记样 本的权重。 通过 θ 和 β 来指导实现聚类的过程。 q = M/ N (11) r = (N - M) / N (12) θ = 1 - q (13) β = 1 - r (14) 式中:q 表示标记样本的先验概率;M 表示标记样本 的数量;N 表示总样本的数量;r 表示未标记样本的 先验概率;(N-M)表示未标记样本的数量。 通过优 化目标函数,标记样本的模糊隶属度为 u L ik = θ × 1 1 + α ( 1 ∑ c j = 1 d 2 ik d 2 jk + αf ik) æ è ç ç ç ö ø ÷ ÷ ÷ (15) 未标记样本的模糊隶属度为 u u ik = β × 1 ∑ c j = 1 d 2 ik d 2 jk æ è ç ç ç ö ø ÷ ÷ ÷ (16) 聚类中心为 vik = ∑xk∈x d (θu L ik) 2 xk + ∑xk∈x u (βu u ik) 2 xk ∑xk∈x d (θu L ik) 2 + ∑xk∈x u (βu u ik) 2 (17) 第 5 期 姜婷,等:基于分布先验的半监督 FCM 的肺结节分类 ·731·
·732 智能系统学报 第12卷 由于未标记样本数量会远远大于标记样本的 数量,基于上述公式,权重0的值一般要大于B。通 过在聚类中心中引入权重日和B,聚类中心以及样 本的聚类结果可以根据样本的先验分布进行自动 的调整,0可以强化标记信息对聚类的指导。 综上所述,基于先验分布的半监督FCM算法的 1u7 e 流程大致如下所示。 输入肺结节图像。 输出肺结节的分类结果和肺结节分类准 确率。 算法流程: 1)计算输入图像中肺结节的特征,并组成一个 矩阵: 2)确定样本个数C,平衡因子α,阈值ε,标记样 115。 101Bg 31417f 39323 (a)部分恶性肺结节分类结果 本的先验概率g,未标记样本的先验概率「,以及标 记样本的个数M: 3)初始化聚类中心4以及模糊隶属度u(包括 标记样本的隶属度4以及未标记样本隶属度“); 4)按照式(15)、(16)更新模糊隶属度u: 5)按照式(17)更新聚类中心: 6)重复循环步骤3),当两次迭代矩阵模糊隶属 度的差小于ε阈值时停止迭代: 7)根据计算得到的模糊隶属度u结果进行 分类。 3实验结果及分析 51 +.5E 本文的实验图像来自美国的LDC[0(美国癌 症研究),本文选择了188个病例,一共451个结节, -1:w ,E,41 其中包括了147个恶性结点,155个假阳性结点, (b)部分良性肺结节分类结果 149个良性结点。同时,本文实验中选取144例监 督样本,即47个恶性、42个良性及55个假阳性结 ta2T-1 IRe EN12-1 t523 1t3i456 iiTS Je 点,剩余的样本作为测试样本。实验中,采用肺结 节分类识别准确率作为评估算法性能准则。图3为 部分分类后的结节,大部分样本都能分类正确,只 105 有少量样本存在分类错误,这是因为在特征提取方 面这些肺结节的灰度特征不够明显,导致分类错 误。本实验为了证明提出算法的有效性,在不同未 lt6-1 JPC 215按 1公》0 标记样本和标记样本之间的比例下(分别为7倍、6 倍、5倍、4倍、3倍、2倍),对比提出的算法与其他 4498 30121- 5l1开g 330-51p6 算法的分类正确率。未标记样本和标记样本比例 为7倍、6倍、5倍时分类结果准确率变化不是十分 明显,所以本文只给出了比例为7倍的分类准确率。 343:3g 38)e 34-2B 3行-53月r 表1给出了传统FCM部分监督FCM算法、SS-FCM、 (©)部分假阳性肺结点分类结果 改进的半监督FCM算法[2]以及本文提出的基于样 图3部分结节分类后的结果 本先验概率的半监督聚类算法准确率的比较结果。 Fig.3 Nodules classification results
由于未标记样本数量会远远大于标记样本的 数量,基于上述公式,权重 θ 的值一般要大于 β。 通 过在聚类中心中引入权重 θ 和 β,聚类中心以及样 本的聚类结果可以根据样本的先验分布进行自动 的调整,θ 可以强化标记信息对聚类的指导。 综上所述,基于先验分布的半监督 FCM 算法的 流程大致如下所示。 输入 肺结节图像。 输出 肺结节的分类结果和肺结节分类准 确率。 算法流程: 1)计算输入图像中肺结节的特征,并组成一个 矩阵; 2)确定样本个数 C,平衡因子 α,阈值 ε,标记样 本的先验概率 q,未标记样本的先验概率 r,以及标 记样本的个数 M; 3)初始化聚类中心 vik以及模糊隶属度 uik(包括 标记样本的隶属度 u d ik以及未标记样本隶属度 u u ik); 4)按照式(15)、(16)更新模糊隶属度 uik; 5)按照式(17)更新聚类中心; 6)重复循环步骤 3),当两次迭代矩阵模糊隶属 度的差小于 ε 阈值时停止迭代; 7)根据计算得到的模糊隶属度 uik 结果进行 分类。 3 实验结果及分析 本文的实验图像来自美国的 LIDC [20] (美国癌 症研究),本文选择了 188 个病例,一共 451 个结节, 其中包括了 147 个恶性结点,155 个假阳性结点, 149 个良性结点。 同时,本文实验中选取 144 例监 督样本,即 47 个恶性、42 个良性及 55 个假阳性结 点,剩余的样本作为测试样本。 实验中,采用肺结 节分类识别准确率作为评估算法性能准则。 图 3 为 部分分类后的结节,大部分样本都能分类正确,只 有少量样本存在分类错误,这是因为在特征提取方 面这些肺结节的灰度特征不够明显,导致分类错 误。 本实验为了证明提出算法的有效性,在不同未 标记样本和标记样本之间的比例下(分别为 7 倍、6 倍、5 倍、4 倍、3 倍、2 倍),对比提出的算法与其他 算法的分类正确率。 未标记样本和标记样本比例 为 7 倍、6 倍、5 倍时分类结果准确率变化不是十分 明显,所以本文只给出了比例为 7 倍的分类准确率。 表 1 给出了传统 FCM 部分监督 FCM 算法、SS⁃FCM、 改进的半监督 FCM 算法[21]以及本文提出的基于样 本先验概率的半监督聚类算法准确率的比较结果。 (a)部分恶性肺结节分类结果 (b)部分良性肺结节分类结果 (c)部分假阳性肺结点分类结果 图 3 部分结节分类后的结果 Fig. 3 Nodules classification results ·732· 智 能 系 统 学 报 第 12 卷
第5期 姜婷,等:基于分布先验的半监督FCM的肺结节分类 .733· 表1不同方法的准确率对比 Tablel Comparison of the accuracy of different methods 号 标记样本:未标记样本FCM算法部分监督FCM算法 SS-FCM算法 改进半监督FCM算法本文提出的算法 43:307 73.4 74.3 75.5 72.6 78.2 65:307 73.4 73.2 75.7 72.8 78.4 90:307 73.4 75.1 78.1 77.1 80.1 144:307 73.4 78.7 79.4 77.6 79.3 由表1可知,随着标记样本数量的增加,半监督 nodules in CT images[J].Journal of data acquisition and FCM框架下的肺结节分类的准确率大致是逐渐提 processing,2016,31(5):868-881. 高的。与其他的半监督FCM方法相比较,本文提出 [3]LEE S L A,KOUZANI A Z.HU E J.Automated detection 的算法效果更好。因为本文引入了样本的先验分 of lung nodules in computed tomography images:a review 布信息,能够强化标记信息对聚类的指导作用,从 [J].Machine vision and applications,2012,23 (1): 151-163. 而能够提高分类效果。但是根据表1中数据我们可 [4]VALENTE I R S,CORTEZ P C,NETO E C,et al. 以看出,标记样本为90时的分类准确率要比标记样 Automatic 3D pulmonary nodule detection in CT images:A 本为144时的分类准确率高,这是因为随着标记样 survey[J].Computer methods and programs in biomedicine, 本的增加,当标记样本和未标记样本的数量越来越 2016,124(C):91-107. 接近时,公式中引人的标记样本和未标记样本的权 [5]HAN F,WANG H,ZHANG G,et al.Texture feature 重也就越来越相近,那么式(17)中的系数就可以约 analysis for computer-aided diagnosis on pulmonary nodules 掉,本文的算法退化为传统的半监督模糊C均值算 [J].Journal of digital imaging,2015,28(1):99. 法,从而使得准确率降低。这也是下一步工作的 [6]HADY M F A,SCHWENKER F.Semi-supervised learning 重点。 []Intelligent systems reference library,2010,49(2): 215-239. 4结束语 [7]BENSAID A M,HALL L O,BEZDEK J C,et al.Partially supervised clustering for image segmentation[].Pattern 为了解决半监督聚类算法中标记样本数量少 recognition,1996,29(5):859-871. 导致标记信息在聚类过程中作用弱化的问题,本文 [8]张慧哲,王坚.基于初始聚类中心选取的改进FCM聚类 提出了一种基于先验分布的半监督FCM算法。引 算法[J].计算机科学,2009,36(6):206-209. 入样本的分布先验信息,自适应调节样本的权重, ZHANG Huizhe,WANG Jian.Improved fuzzy C means 强化标记样本在聚类过程中的指导作用,提高半监 clustering algorithm based on selecting initial clustering 督FCM算法在少量标记样本情况下的性能。在本 centers[J].Computer science,2009,36(6):206-209. 文的实验中,通过与传统的半监督聚类算法对比, [9]李春芳,庞雅静,钱丽璞,等.半监督FCM聚类算法目 证明提出的方法能够取得更高的聚类正确率。 标函数研究[J].计算机工程与应用,2009,45(14): 128-132 但是当标记样本数量非常小的时候,给其赋以 LI Chunfang,PANG Yajing,QIAN Lipu,et al.Objective 过大的权重会出现分类结果偏离实际的情况。这 function of semi-supervised FCM clustering algorithm[J]. 也是在未来的工作中进一步研究的问题。 Computer engineering and application,2009,45(14): 参考文献: 128-132. [10]WU K L.Analysis of parameter selections for fuzzy C- [1 MCGUIRE S.World Cancer Report 2014.Geneva, means[J].Pattern recognition,2012,45(1):407-415. Switzerland:World Health Organization,International [11]侯薇,董红斌,印桂生.一种基于隶属度优化的演化聚 Agency for Research on Cancer,WHO Press,2015[R] 类算法[J].计算机研究与发展,2013,50(3): Advances in nutrition,2016,7(2):418-419. 548-558. [2]伍长荣,接标,叶明全.CT图像肺结节计算机辅助检测 HOU Wei,DONG Hongbin,YIN Guisheng.A membership 与诊断技术研究综述[J].数据采集与处理,2016,31 degree refinement-based evolutionary clustering algorithm (5):868-881. [J].Journal of computer research and development,2013, WU Changrong,JIE Biao,YE Mingquan.Reviews on 50(3):548-558. computer-aided detection and diagnosis of pulmonary [12]李斌,狄岚,王少华,等.基于改进核模糊C均值类间
表 1 不同方法的准确率对比 Table1 Comparison of the accuracy of different methods % 标记样本:未标记样本 FCM 算法 部分监督 FCM 算法 SS⁃FCM 算法 改进半监督 FCM 算法 本文提出的算法 43:307 73.4 74.3 75.5 72.6 78.2 65:307 73.4 73.2 75.7 72.8 78.4 90:307 73.4 75.1 78.1 77.1 80.1 144:307 73.4 78.7 79.4 77.6 79.3 由表 1 可知,随着标记样本数量的增加,半监督 FCM 框架下的肺结节分类的准确率大致是逐渐提 高的。 与其他的半监督 FCM 方法相比较,本文提出 的算法效果更好。 因为本文引入了样本的先验分 布信息,能够强化标记信息对聚类的指导作用,从 而能够提高分类效果。 但是根据表 1 中数据我们可 以看出,标记样本为 90 时的分类准确率要比标记样 本为 144 时的分类准确率高,这是因为随着标记样 本的增加,当标记样本和未标记样本的数量越来越 接近时,公式中引入的标记样本和未标记样本的权 重也就越来越相近,那么式(17)中的系数就可以约 掉,本文的算法退化为传统的半监督模糊 C 均值算 法,从而使得准确率降低。 这也是下一步工作的 重点。 4 结束语 为了解决半监督聚类算法中标记样本数量少 导致标记信息在聚类过程中作用弱化的问题,本文 提出了一种基于先验分布的半监督 FCM 算法。 引 入样本的分布先验信息,自适应调节样本的权重, 强化标记样本在聚类过程中的指导作用,提高半监 督 FCM 算法在少量标记样本情况下的性能。 在本 文的实验中,通过与传统的半监督聚类算法对比, 证明提出的方法能够取得更高的聚类正确率。 但是当标记样本数量非常小的时候,给其赋以 过大的权重会出现分类结果偏离实际的情况。 这 也是在未来的工作中进一步研究的问题。 参考文献: [ 1 ] MCGUIRE S. World Cancer Report 2014. Geneva, Switzerland: World Health Organization, International Agency for Research on Cancer, WHO Press, 2015[R]. Advances in nutrition, 2016, 7(2): 418-419. [2]伍长荣, 接标, 叶明全. CT 图像肺结节计算机辅助检测 与诊断技术研究综述[ J]. 数据采集与处理, 2016, 31 (5): 868-881. WU Changrong, JIE Biao, YE Mingquan. Reviews on computer⁃aided detection and diagnosis of pulmonary nodules in CT images [ J]. Journal of data acquisition and processing, 2016, 31(5): 868-881. [3]LEE S L A, KOUZANI A Z, HU E J. Automated detection of lung nodules in computed tomography images: a review [J ]. Machine vision and applications, 2012, 23 ( 1 ): 151-163. [4] VALENTE I R S, CORTEZ P C, NETO E C, et al. Automatic 3D pulmonary nodule detection in CT images: A survey[J]. Computer methods and programs in biomedicine, 2016, 124(C): 91-107. [5] HAN F, WANG H, ZHANG G, et al. Texture feature analysis for computer⁃aided diagnosis on pulmonary nodules [J]. Journal of digital imaging, 2015, 28(1): 99. [6]HADY M F A, SCHWENKER F. Semi⁃supervised learning [J]. Intelligent systems reference library, 2010, 49 ( 2): 215-239. [7]BENSAID A M, HALL L O, BEZDEK J C, et al. Partially supervised clustering for image segmentation [ J]. Pattern recognition, 1996, 29(5): 859-871. [8]张慧哲, 王坚. 基于初始聚类中心选取的改进 FCM 聚类 算法[J]. 计算机科学, 2009, 36(6): 206-209. ZHANG Huizhe, WANG Jian. Improved fuzzy C means clustering algorithm based on selecting initial clustering centers[J]. Computer science, 2009, 36(6): 206-209. [9]李春芳, 庞雅静, 钱丽璞,等. 半监督 FCM 聚类算法目 标函数研究[ J]. 计算机工程与应用, 2009, 45 ( 14): 128-132. LI Chunfang, PANG Yajing, QIAN Lipu, et al. Objective function of semi⁃supervised FCM clustering algorithm [ J]. Computer engineering and application, 2009, 45 ( 14 ): 128-132. [10] WU K L. Analysis of parameter selections for fuzzy C⁃ means[J]. Pattern recognition, 2012, 45(1): 407-415. [11]侯薇, 董红斌, 印桂生. 一种基于隶属度优化的演化聚 类算 法 [ J ]. 计 算 机 研 究 与 发 展, 2013, 50 ( 3 ): 548-558. HOU Wei, DONG Hongbin, YIN Guisheng. A membership degree refinement⁃based evolutionary clustering algorithm [J]. Journal of computer research and development, 2013, 50(3): 548-558. [12]李斌, 狄岚, 王少华,等. 基于改进核模糊 C 均值类间 第 5 期 姜婷,等:基于分布先验的半监督 FCM 的肺结节分类 ·733·
·734· 智能系统学报 第12卷 极大化聚类算法[J].计算机应用,2016,36(7): [19 PEDRYCZ W,WEMBER J,WALETZKY J.Fuzzy 1981-1987. clusteringwith partial supervision []IEEE transaction on LI Bin,DI Lan,WANG Shaohua,et al.Clustering system,man,and cybernetics,part B:cybernetics,1997, algorithm with maximum distance between clusters based 27(5):787-795. on improved kernel fuzzy C-means[J].Journal of computer [20]MCNITT-GRAY M F,MEYER C R,REEVES A P,et al. applications,2016,36(7):1981-1987. The lung image database consortium LIDC)data [13]文传军,汪庆森,詹永照.均衡模糊C均值聚类算法 collection process for nodule detection and annotation[]]. [J].计算机科学,2014,41(8):250-253。 Academic radiolog,2008,14(12):1464-1474. WEN Chuanjun,WANG Qingmiao,ZHAN Yongzhao,et [21]李秋萍,刘慧,苏志远.基于改进的半监督FCM聚类 al.Equalization fuzzy C-means clustering algorithm [J]. 算法的肺结节分类与识别[J].图学学报,2015,36 Computer science,2014,41(8):250-253. (2):244-250 [14]蔡加欣,杨丰,冯国灿.改进退化的半监督模糊聚类应 LI Qiuping,LIU Hui,SU Zhiyuan.Modified fuzzy 用于MR图像分割[J].中国图象图形学报,2011,16 clustering with partial supervision algorithm in (5):784-791. classification and recognition of pulmonary nodules J]. CAI Jiaxin,YANG Feng,FENG Guocan,et al. Journal of graphics,2015,36(2):244-250. Degeneracy-improved semi-supervised fuzzy clustering with 作者简介: application in MR image segmentation [J].Journal of 姜婷,女,1991年生,硕士研究生, image and graphics,2011,16(5):784-791. 主要研究方向为数据挖掘、机器学习。 [15]苏志远,刘慧,尹义龙.基于弱监督EC0C算法的肺结 参与多项国家自然科学基金等科研 节辅助检测[J].数据采集与处理,2015,30(5): 项目。 1003-1010. SU Zhiyuan,LIU Hui,YIN Yilong,et al.Pulmonary nodule aided detection based on weakly-supervised ECOC algorithm[].Jornal of data acqusition and processing, 袭肖明.男.1987年生,博士,主要 2015,30(5):1003-1010. 研究方向为生物识别、机器学习。主持 [16]MURRAY P,MARSHALL S.A new design tool for feature 国家自然科学基金、省自然科学基金等 extraction in noisy images based on grayscale hit-or-miss 多项科学研究项目。 transforms[J].IEEE transactions on image processing a publication of the ieee signal processing society,2011,20 (7):1938-48. [17]BAE H J,KANG E Y,YONG H S,et al.Paratracheal air 岳厚光.男.1971年生,副教授,主 cysts on thoracic multidetector CT:incidence,morphological 要研究方面为数据挖掘、机器学习。 characteristics and relevance to pulmonary emphysema[J] British journal of radiology,2013,8(1021):20120218. [18]BEZDEK J C.EHRLICH R,FULL W.FCM:the fuzzy C- means clustering algorithm[J].Computers and geosciences, 1984.10(2/3):191-203
极大化聚类算法 [ J]. 计算机应用, 2016, 36 ( 7): 1981-1987. LI Bin, DI Lan, WANG Shaohua, et al. Clustering algorithm with maximum distance between clusters based on improved kernel fuzzy C⁃means[J]. Journal of computer applications, 2016, 36(7): 1981-1987. [13]文传军, 汪庆淼, 詹永照. 均衡模糊 C 均值聚类算法 [J]. 计算机科学, 2014, 41(8): 250-253. WEN Chuanjun, WANG Qingmiao, ZHAN Yongzhao, et al. Equalization fuzzy C⁃means clustering algorithm [ J]. Computer science, 2014, 41(8): 250-253. [14]蔡加欣, 杨丰, 冯国灿. 改进退化的半监督模糊聚类应 用于 MR 图像分割[ J]. 中国图象图形学报, 2011, 16 (5): 784-791. CAI Jiaxin, YANG Feng, FENG Guocan, et al. Degeneracy⁃improved semi⁃supervised fuzzy clustering with application in MR image segmentation [ J ]. Journal of image and graphics, 2011, 16(5): 784-791. [15]苏志远, 刘慧, 尹义龙. 基于弱监督 ECOC 算法的肺结 节辅助检测 [ J]. 数据采集与处理, 2015, 30 ( 5): 1003-1010. SU Zhiyuan, LIU Hui, YIN Yilong, et al. Pulmonary nodule aided detection based on weakly⁃supervised ECOC algorithm[ J]. Jornal of data acqusition and processing, 2015, 30(5): 1003-1010. [16]MURRAY P, MARSHALL S. A new design tool for feature extraction in noisy images based on grayscale hit⁃or⁃miss transforms[ J]. IEEE transactions on image processing a publication of the ieee signal processing society, 2011, 20 (7): 1938-48. [17]BAE H J, KANG E Y, YONG H S, et al. Paratracheal air cysts on thoracic multidetector CT: incidence, morphological characteristics and relevance to pulmonary emphysema [ J]. British journal of radiology, 2013, 86(1021): 20120218. [18] BEZDEK J C, EHRLICH R, FULL W. FCM: the fuzzy C⁃ means clustering algorithm[J]. Computers and geosciences, 1984, 10(2/ 3): 191-203. [ 19 ] PEDRYCZ W, WEMBER J, WALETZKY J. Fuzzy clusteringwith partial supervision [J]. IEEE transaction on system, man, and cybernetics, part B: cybernetics,1997, 27(5): 787-795. [20]MCNITT⁃GRAY M F, MEYER C R, REEVES A P, et al. The lung image database consortium ( LIDC ) data collection process for nodule detection and annotation[ J]. Academic radiology, 2008, 14(12): 1464-1474. [21]李秋萍, 刘慧, 苏志远. 基于改进的半监督 FCM 聚类 算法的肺结节分类与识别[ J]. 图学学报, 2015, 36 (2): 244-250. LI Qiuping, LIU Hui, SU Zhiyuan. Modified fuzzy clustering with partial supervision algorithm in classification and recognition of pulmonary nodules [ J ]. Journal of graphics, 2015, 36(2): 244-250. 作者简介: 姜婷,女, 1991 年生,硕士研究生, 主要研究方向为数据挖掘、机器学习。 参与多项国家自然科学基金等科研 项目。 袭肖明,男, 1987 年生,博士,主要 研究方向为生物识别、机器学习。 主持 国家自然科学基金、省自然科学基金等 多项科学研究项目。 岳厚光,男, 1971 年生,副教授,主 要研究方面为数据挖掘、机器学习。 ·734· 智 能 系 统 学 报 第 12 卷