【机器感知与模式识别】基于分布先验的半监督FCM的肺结节分类

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：1.78MB

第12卷第5期智能系统学报 Vol.12 No.5 2017年10月 CAAI Transactions on Intelligent Systems 0ct.2017 D0I:10.11992/tis.201706018 网络出版地址：htp:/kns.cmki.net/kcms/detail/23.1538.TP.20170831.1058.014.html 基于分布先验的半监督FCM的肺结节分类姜婷，袭肖明，岳厚光 (山东财经大学计算机科学与技术学院，山东济南250014) 摘要：肺结节的良恶性分类对于肺癌的早期发现及诊断具有重要意义。然而实际应用中，标记的图像数量较少且获取标记将耗费大量的人力，在这种情况下，使用半监督学习算法是有效提高分类性能的一个思路。作为一种经典的半监督学习算法，传统的半监督FCM在未标记样本与标记样本分布不平衡情况下不能充分利用标记信息。针对此问题，本文提出了一种基于分布先验的半监督FCM算法。首先计算样本的先验分布概率，基于获得的先验概率，给样本赋予权重，并将其融入到半监督F℃M聚类中，从而强化少量的标记样本在聚类过程中的指导作用。文中在LDC数据库上进行了相应的实验，实验结果证明，相比较传统的半监督FCM算法，提出的算法能够取得更好的肺结节分类性能。关键词：肺结节分类：半监督FCM:先验分布信息：图像处理：LDC数据库中图分类号：TP399文献标志码：A文章编号：1673-4785(2017)05-0729-06 中文引用格式：姜婷，袭肖明，岳厚光.基于分布先验的半监督FCM的肺结节分类[J].智能系统学报，2017,12(5)：729-734. 英文引用格式：JIANG Ting,XⅪXiaoming,YUE Houguang..Classification of pulmonary nodules by semi-supervised FCM based on prior distribution[J].CAAI transactions on intelligent systems,2017,12(5):729-734. Classification of pulmonary nodules by semi-supervised FCM based on prior distribution JIANG Ting,XI Xiaoming,YUE Houguang (School of Computer Science and Technology,Shandong University of Finance and Economics,Ji'nan 250014,China) Abstract:The classification of pulmonary nodules is significant for the early detection and treatment of lung cancer. However,in real clinical applications,few medical images are labeled and it is difficult to obtain these labels. Semi-supervised learning methods that utilize supervised information to label images may be employed to improve the classification performance of pulmonary nodules.Traditional semi-supervised methods ignore the use of label information when the distribution between labeled and unlabeled specimens is imbalanced.To solve this problem, we propose a semi-supervised fuzzy c-means (FCM)algorithm based on prior distribution for classifying pulmonary nodules.This algorithm first calculates the prior probability of the specimens.Based on the obtained probability,a weight is assigned to each specimen for clustering to intensify the instruction role of a few labeled specimens in the clustering process.We conducted a corresponding test for Lung Image Database Consortium (LIDC)database.The result shows that,compared with the traditional semi-supervised FCM algorithm,the proposed algorithm can obtain better classification performances of pulmonary nodules. Keywords:classification of pulmonary nodules;semi-supervised FCM;prior distribution;image processing; LIDC database 根据世界卫生组织2016年公布的数据，肺癌在发现及治疗对于挽救患者的生命具有重要意义[)。全球的发病率和死亡率均为最高。肺癌的早期肺癌早期通常表现为肺结节3)。在临床上，医生通常结合肺部医学影像来对肺部结节进行分析与收稿日期：2017-06-07.网络出版日期：2017-08-31. 基金项目：国家自然科学基金项目(61573219,61671274)：山东省自然诊断。CT是一种常用的辅助检查肺结节医学成像科学基金项目(ZR2016FQ18,ZR2014HM065):医药卫生科技发展计划项目(2014ws0109). 模态的手段。然而，由于医生个人经验等主观因素通信作者：袭肖明.E-mail:yz四l0@126.com 的影响，不同的医生可能对于同一个患者的CT图

第１２卷第５期智能系统学报Ｖｏｌ．１２ №．５２０１７年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１７０６０１８网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０８３１．１０５８．０１４．ｈｔｍｌ基于分布先验的半监督ＦＣＭ的肺结节分类姜婷，袭肖明，岳厚光（山东财经大学计算机科学与技术学院，山东济南２５００１４）摘要：肺结节的良恶性分类对于肺癌的早期发现及诊断具有重要意义。然而实际应用中，标记的图像数量较少，且获取标记将耗费大量的人力，在这种情况下，使用半监督学习算法是有效提高分类性能的一个思路。作为一种经典的半监督学习算法，传统的半监督ＦＣＭ在未标记样本与标记样本分布不平衡情况下不能充分利用标记信息。针对此问题，本文提出了一种基于分布先验的半监督ＦＣＭ算法。首先计算样本的先验分布概率，基于获得的先验概率，给样本赋予权重，并将其融入到半监督ＦＣＭ聚类中，从而强化少量的标记样本在聚类过程中的指导作用。文中在ＬＩＤＣ数据库上进行了相应的实验，实验结果证明，相比较传统的半监督ＦＣＭ算法，提出的算法能够取得更好的肺结节分类性能。关键词：肺结节分类；半监督ＦＣＭ；先验分布信息；图像处理；ＬＩＤＣ数据库中图分类号：ＴＰ３９９文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０５－０７２９－０６中文引用格式：姜婷，袭肖明，岳厚光．基于分布先验的半监督ＦＣＭ的肺结节分类［Ｊ］．智能系统学报，２０１７，１２（５）：７２９－７３４．英文引用格式：ＪＩＡＮＧＴｉｎｇ，ＸＩＸｉａｏｍｉｎｇ，ＹＵＥＨｏｕｇｕａｎｇ．Ｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｐｕｌｍｏｎａｒｙｎｏｄｕｌｅｓｂｙｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄＦＣＭｂａｓｅｄｏｎｐｒｉｏｒｄｉｓｔｒｉｂｕｔｉｏｎ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（５）：７２９－７３４．Ｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｐｕｌｍｏｎａｒｙｎｏｄｕｌｅｓｂｙｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄＦＣＭｂａｓｅｄｏｎｐｒｉｏｒｄｉｓｔｒｉｂｕｔｉｏｎＪＩＡＮＧＴｉｎｇ，ＸＩＸｉａｏｍｉｎｇ，ＹＵＥＨｏｕｇｕａｎｇ（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＳｈａｎｄｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＦｉｎａｎｃｅａｎｄＥｃｏｎｏｍｉｃｓ，Ｊｉ’ｎａｎ２５００１４，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｐｕｌｍｏｎａｒｙｎｏｄｕｌｅｓｉｓｓｉｇｎｉｆｉｃａｎｔｆｏｒｔｈｅｅａｒｌｙｄｅｔｅｃｔｉｏｎａｎｄｔｒｅａｔｍｅｎｔｏｆｌｕｎｇｃａｎｃｅｒ．Ｈｏｗｅｖｅｒ，ｉｎｒｅａｌｃｌｉｎｉｃａｌａｐｐｌｉｃａｔｉｏｎｓ，ｆｅｗｍｅｄｉｃａｌｉｍａｇｅｓａｒｅｌａｂｅｌｅｄａｎｄｉｔｉｓｄｉｆｆｉｃｕｌｔｔｏｏｂｔａｉｎｔｈｅｓｅｌａｂｅｌｓ．Ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｍｅｔｈｏｄｓｔｈａｔｕｔｉｌｉｚｅｓｕｐｅｒｖｉｓｅｄｉｎｆｏｒｍａｔｉｏｎｔｏｌａｂｅｌｉｍａｇｅｓｍａｙｂｅｅｍｐｌｏｙｅｄｔｏｉｍｐｒｏｖｅｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎｐｅｒｆｏｒｍａｎｃｅｏｆｐｕｌｍｏｎａｒｙｎｏｄｕｌｅｓ．Ｔｒａｄｉｔｉｏｎａｌｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｍｅｔｈｏｄｓｉｇｎｏｒｅｔｈｅｕｓｅｏｆｌａｂｅｌｉｎｆｏｒｍａｔｉｏｎｗｈｅｎｔｈｅｄｉｓｔｒｉｂｕｔｉｏｎｂｅｔｗｅｅｎｌａｂｅｌｅｄａｎｄｕｎｌａｂｅｌｅｄｓｐｅｃｉｍｅｎｓｉｓｉｍｂａｌａｎｃｅｄ．Ｔｏｓｏｌｖｅｔｈｉｓｐｒｏｂｌｅｍ，ｗｅｐｒｏｐｏｓｅａｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｆｕｚｚｙｃ⁃ｍｅａｎｓ（ＦＣＭ）ａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｐｒｉｏｒｄｉｓｔｒｉｂｕｔｉｏｎｆｏｒｃｌａｓｓｉｆｙｉｎｇｐｕｌｍｏｎａｒｙｎｏｄｕｌｅｓ．Ｔｈｉｓａｌｇｏｒｉｔｈｍｆｉｒｓｔｃａｌｃｕｌａｔｅｓｔｈｅｐｒｉｏｒｐｒｏｂａｂｉｌｉｔｙｏｆｔｈｅｓｐｅｃｉｍｅｎｓ．Ｂａｓｅｄｏｎｔｈｅｏｂｔａｉｎｅｄｐｒｏｂａｂｉｌｉｔｙ，ａｗｅｉｇｈｔｉｓａｓｓｉｇｎｅｄｔｏｅａｃｈｓｐｅｃｉｍｅｎｆｏｒｃｌｕｓｔｅｒｉｎｇｔｏｉｎｔｅｎｓｉｆｙｔｈｅｉｎｓｔｒｕｃｔｉｏｎｒｏｌｅｏｆａｆｅｗｌａｂｅｌｅｄｓｐｅｃｉｍｅｎｓｉｎｔｈｅｃｌｕｓｔｅｒｉｎｇｐｒｏｃｅｓｓ．ＷｅｃｏｎｄｕｃｔｅｄａｃｏｒｒｅｓｐｏｎｄｉｎｇｔｅｓｔｆｏｒＬｕｎｇＩｍａｇｅＤａｔａｂａｓｅＣｏｎｓｏｒｔｉｕｍ（ＬＩＤＣ）ｄａｔａｂａｓｅ．Ｔｈｅｒｅｓｕｌｔｓｈｏｗｓｔｈａｔ，ｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｔｒａｄｉｔｉｏｎａｌｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄＦＣＭａｌｇｏｒｉｔｈｍ，ｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｃａｎｏｂｔａｉｎｂｅｔｔｅｒｃｌａｓｓｉｆｉｃａｔｉｏｎｐｅｒｆｏｒｍａｎｃｅｓｏｆｐｕｌｍｏｎａｒｙｎｏｄｕｌｅｓ．Ｋｅｙｗｏｒｄｓ：ｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｐｕｌｍｏｎａｒｙｎｏｄｕｌｅｓ；ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄＦＣＭ；ｐｒｉｏｒｄｉｓｔｒｉｂｕｔｉｏｎ；ｉｍａｇｅｐｒｏｃｅｓｓｉｎｇ；ＬＩＤＣｄａｔａｂａｓｅ收稿日期：２０１７－０６－０７．网络出版日期：２０１７－０８－３１．基金项目：国家自然科学基金项目（６１５７３２１９，６１６７１２７４）；山东省自然科学基金项目（ＺＲ２０１６ＦＱ１８，ＺＲ２０１４ＨＭ０６５）；医药卫生科技发展计划项目（２０１４ｗｓ０１０９）．通信作者：袭肖明．Ｅ⁃ｍａｉｌ：ｆｙｚｑ１０＠１２６．ｃｏｍ．根据世界卫生组织２０１６年公布的数据，肺癌在全球的发病率和死亡率均为最高［１］。肺癌的早期发现及治疗对于挽救患者的生命具有重要意义［２］。肺癌早期通常表现为肺结节［３－４］。在临床上，医生通常结合肺部医学影像来对肺部结节进行分析与诊断。ＣＴ是一种常用的辅助检查肺结节医学成像模态的手段。然而，由于医生个人经验等主观因素的影响，不同的医生可能对于同一个患者的ＣＴ图

·730 智能系统学报第12卷像产生不同的诊断结果。因此，使用计算机辅助诊验分布的半监督FCM算法，通过引入标记样本的先断系统(computer-aided diagnosis,CAD)Is)对肺部验分布信息，赋予标记样本更大的权重，并将其融 CT图像进行自动分析，提供一个客观的肺结节诊断入到FCM聚类过程中，使得监督信息在最后聚类中结果具有重要的意义。发挥更重要的作用，从而更好地指导聚类。在LDC 一般情况下，肺部CT图像的数据标注较少，大数据库进行了实验，实验结果证明了本文提出的算量的数据是未标记的。受限于临床专业知识，人工法能够取得更高的分类准确率。对所有的数据进行标注将耗费大量的人力。半监督学习思想是利用少量的标记样本和大量的未标 1特征提取记样本训练分类器，通过未标记数据的信息辅助提肺结节的诊断过程主要分为肺结节的分割、特升分类器的性能。因此，本文使用半监督学习方法征提取、肺结节良恶性分类。图1为一幅肺部CT 对肺结节进行分类。图像，图2为分割出的肺结节。基于分割的肺结节半监督聚类是一种常用的半监督学习方法[6、进行特征提取。在临床上，肺结节的形状及边缘的通过利用少量标记样本辅助提高聚类的准确率。粗糙程度等信息是判断良恶性的重要依据，为了获半监督FCM算法是半监督聚类算法的经典算法之取这些重要信息，本文主要提取以下特征)：灰度一。Bensaid等[)针对传统FCM中簇数的选择以特征6（灰度方差、灰度直方图嫡），形态特征及训练样本数量较少等问题提出了一种部分监督 (似圆度、紧凑度、径向均值、径向方差，边界粗糙聚类FCM算法：张慧哲等[8)针对传统FCM算法聚度、形状不变矩H。,H1,H2,H3)等11维特征，并对每类结果受初始聚类中心的影响，提出了一种简洁快维特征进行归一化。速的初始聚类中心选取规则，并根据聚类中心的分离特性改进了目标函数，从而使聚类结果达到最优：李春芳等[]针对传统的半监督FCM算法的目标函数在a=1,0时退化为经典的FCM算法，提出了一种基于改进目标函数的半监督模糊聚类算法 SS-FCM,提高了聚类的准确性和收敛速度；K.L WuIo]针对传统半监督FCM的模糊因子参数m的选择进行了详细的分析，提出在数据集包含噪声和离群值的情况下m=4有更强的健壮性和聚类效果：侯薇等)针对计算FCM隶属度导致算法执行率低这一问题，提出了一种抽样初始化产生较好的图1LDC中肺部CT图像初始聚类中心，对较大隶属度的数据点，通过k Fig.1 Lung CT image in LIDC means操作更新模糊聚类中心，同时仅更新小隶属度来达到提高FCM算法聚类的效率；李斌等[2]针对传统的核模糊C均值中只考虑类内关系忽略了类间关系，从而使边界对噪声敏感等问题，提出了一种改进核FCM类间极大化聚类算法MKFCM,使边界处样本得到很好的划分。图2肺结节分割 Fig.2 Segmentation of pulmonary nodules 现有的半监督FCM虽然能够在一定程度上取得了较好的聚类效果，但标记样本与未标记样本的 2 肺结节的良恶性分类分布不平衡问题将会影响半监督聚类的性能]」传统半监督FCM算法的思想是基于类内加权平方 2.1经典FCM算法误差最小化准则，聚类中心是通过标记样本的隶属 FCM算法[18)主要思想是在每个样本进行聚类度来控制的，样本通常归属于最近的聚类中心所时，引入一个类簇的隶属度计算样本属于某个类簇代表的类。当标记样本与未标记样本数量差异较的可能性。聚类的过程可形式化为目标函数的优大时，将会弱化标记样本的监督信息在聚类中的作化过程，如式(1)所示。其中k的取值为式(2)所用，导致聚类结果产生错误，进而影响肺结节分类示。FCM算法通过不断迭代求解模糊隶属度函数的准确率。本文针对这一问题，提出了一种基于先 u和聚类中心v,使得目标函数最小化，迭代停止

像产生不同的诊断结果。因此，使用计算机辅助诊断系统（ｃｏｍｐｕｔｅｒ⁃ａｉｄｅｄｄｉａｇｎｏｓｉｓ，ＣＡＤ）［５］对肺部ＣＴ图像进行自动分析，提供一个客观的肺结节诊断结果具有重要的意义。一般情况下，肺部ＣＴ图像的数据标注较少，大量的数据是未标记的。受限于临床专业知识，人工对所有的数据进行标注将耗费大量的人力。半监督学习思想是利用少量的标记样本和大量的未标记样本训练分类器，通过未标记数据的信息辅助提升分类器的性能。因此，本文使用半监督学习方法对肺结节进行分类。半监督聚类是一种常用的半监督学习方法［６］，通过利用少量标记样本辅助提高聚类的准确率。半监督ＦＣＭ算法是半监督聚类算法的经典算法之一。Ｂｅｎｓａｉｄ等［７］针对传统ＦＣＭ中簇数的选择以及训练样本数量较少等问题提出了一种部分监督聚类ＦＣＭ算法；张慧哲等［８］针对传统ＦＣＭ算法聚类结果受初始聚类中心的影响，提出了一种简洁快速的初始聚类中心选取规则，并根据聚类中心的分离特性改进了目标函数，从而使聚类结果达到最优；李春芳等［９］针对传统的半监督ＦＣＭ算法的目标函数在 α＝１，０时退化为经典的ＦＣＭ算法，提出了一种基于改进目标函数的半监督模糊聚类算法ＳＳ⁃ＦＣＭ，提高了聚类的准确性和收敛速度；Ｋ．Ｌ．Ｗｕ［１０］针对传统半监督ＦＣＭ的模糊因子参数ｍ的选择进行了详细的分析，提出在数据集包含噪声和离群值的情况下ｍ＝４有更强的健壮性和聚类效果；侯薇等［１１］针对计算ＦＣＭ隶属度导致算法执行率低这一问题，提出了一种抽样初始化产生较好的初始聚类中心，对较大隶属度的数据点，通过ｋ⁃ ｍｅａｎｓ操作更新模糊聚类中心，同时仅更新小隶属度来达到提高ＦＣＭ算法聚类的效率；李斌等［１２］针对传统的核模糊Ｃ均值中只考虑类内关系忽略了类间关系，从而使边界对噪声敏感等问题，提出了一种改进核ＦＣＭ类间极大化聚类算法ＭＫＦＣＭ，使边界处样本得到很好的划分。现有的半监督ＦＣＭ虽然能够在一定程度上取得了较好的聚类效果，但标记样本与未标记样本的分布不平衡问题将会影响半监督聚类的性能［１３］。传统半监督ＦＣＭ算法的思想是基于类内加权平方误差最小化准则，聚类中心是通过标记样本的隶属度来控制的［１４］，样本通常归属于最近的聚类中心所代表的类。当标记样本与未标记样本数量差异较大时，将会弱化标记样本的监督信息在聚类中的作用，导致聚类结果产生错误，进而影响肺结节分类的准确率。本文针对这一问题，提出了一种基于先验分布的半监督ＦＣＭ算法，通过引入标记样本的先验分布信息，赋予标记样本更大的权重，并将其融入到ＦＣＭ聚类过程中，使得监督信息在最后聚类中发挥更重要的作用，从而更好地指导聚类。在ＬＩＤＣ数据库进行了实验，实验结果证明了本文提出的算法能够取得更高的分类准确率。１特征提取肺结节的诊断过程主要分为肺结节的分割、特征提取、肺结节良恶性分类。图１为一幅肺部ＣＴ图像，图２为分割出的肺结节。基于分割的肺结节，进行特征提取。在临床上，肺结节的形状及边缘的粗糙程度等信息是判断良恶性的重要依据，为了获取这些重要信息，本文主要提取以下特征［１５］：灰度特征［１６］（灰度方差、灰度直方图熵），形态特征［１７］（似圆度、紧凑度、径向均值、径向方差，边界粗糙度、形状不变矩Ｈ０，Ｈ１，Ｈ２，Ｈ３）等１１维特征，并对每一维特征进行归一化。图１ＬＩＤＣ中肺部ＣＴ图像Ｆｉｇ．１ＬｕｎｇＣＴｉｍａｇｅｉｎＬＩＤＣ图２肺结节分割Ｆｉｇ．２Ｓｅｇｍｅｎｔａｔｉｏｎｏｆｐｕｌｍｏｎａｒｙｎｏｄｕｌｅｓ２肺结节的良恶性分类２．１经典ＦＣＭ算法ＦＣＭ算法［１８］主要思想是在每个样本进行聚类时，引入一个类簇的隶属度计算样本属于某个类簇的可能性。聚类的过程可形式化为目标函数的优化过程，如式（１）所示。其中ｋ的取值为式（２）所示。ＦＣＭ算法通过不断迭代求解模糊隶属度函数ｕｋ和聚类中心ｖｉ，使得目标函数最小化，迭代停止， ·７３０· 智能系统学报第１２卷

第5期姜婷，等：基于分布先验的半监督FCM的肺结节分类 ·731· 即完成聚类。为山：，表示第k个样本点相对于第i个聚类中心的 J(u,v)= 模糊隶属度，其取值范围为[0,1]；，=∫表示部分 (1) 监督样本的模糊隶属度；“，表示无监督样本的模糊隶属度：其中 k=1,2,…,N (2) Ix-vll=(-v)TA(-v) (9) 1 (3) A是任何的正定矩阵。 x-y‖、 2.3基于样本分布先验的半监督FCM算法基于样本分布先验的半监督FCM的目标函数如下： k=1 := (4 1=22财G+a2w4-r =1=1 i=1k=1 (10) 式中：C为聚类个数；N为样本个数；u4为FCM中的式中：标记样本的隶属度F=[f],i=1,2,…,C 模糊隶属度，表示第k个样本点属于第i个聚类中 N=1,2,…,n;d4表示第k个样本点相对于第i个聚心的隶属度，其取值范围为[0,1]；，表示第i类的类中心间的欧式距离：通常情况下模糊因子取经验聚类中心；‖x-v:‖2表示第k个样本点相对于第i 值p=2:α是使监督和无监督样本之间保持相对平个聚类中心的欧式距离：P为模糊因子，它决定样本衡的因子，其中α本文选取的是传统的半监督FCM 在不同类中的模糊程度。算法中α的取值，即总样本和标记样本数量之比。通过不断地更新迭代公式(3)、(4)，直到式为区分标记样本和未标记样本，引入了二值向量b= (1)中目标函数的值小于特定的值ε时或者相对于 b,其中k=1,2,…,n,标记样本时bs=1,相反未标上次的目标函数值的改变量小于特定的值时，停止记样本时b=0。迭代。为了增强标记样本的监督作用，在计算模糊隶 2.2部分监督的FCM算法属度和聚类中心时分别引入了样本的分布信息。 Bensaid在经典的FCM算法的基础上，提出了本文通过在式(15)、(16)、(17)中引入两个权重8 种部分监督聚类算法。他提出的算法加强了标和B,其中日表示标记样本的权重，B表示未标记样记信息在聚类过程中的指导作用。通过给标记样本的权重。通过0和B来指导实现聚类的过程。本赋予较大的权重，使标记样本在聚类中心的形成 q=M/N (11) 过程中发挥更重要的作用，提高了聚类的精度。其 r=(N-M)/N (12) 目标函数为 0=1-q (13) B=1-T (14) (5) 式中：9表示标记样本的先验概率：M表示标记样本其聚类中心为的数量：N表示总样本的数量：r表示未标记样本的先验概率；(N-M)表示未标记样本的数量。通过优 (u)x) 化目标函数，标记样本的模糊隶属度为 k=1 (6) …宫 u) + (15) 模糊隶属度为 uh.=fi (7) 未标记样本的模糊隶属度为 1 1 山= (8) u法=B× ‖x若-V4-1A (16) j=1 式中：聚类中心中的w为权重因子，w=[w1w2… 聚类中心为 w]',文中使w:=w,其中w为具体的数值，表示标，(u4)2x4+∑ (Bu)2x 记样本的数量，通过对少量的标记样本进行增加权 (17) ∑(u)2+∑ (B4)2 重，可以更好地加强标记样本的作用：模糊隶属度

即完成聚类。Ｊｍ（ｕ，ｖ）＝ ∑ Ｃｉ＝１ ∑ Ｎｋ＝１ｕｐｉｋ‖ｘｋ－ｖｉ‖２（１）ｋ＝１，２，…，Ｎ（２）ｕｉｋ＝１ ∑ ｎｊ＝１（ ‖ｘｋ－ｖｉ‖ ‖ｘｋ－ｖｊ‖ ）２ｐ－１（３）ｖｉ＝ ∑ Ｎｋ＝１ｕｐｉｋｘｋ ∑ Ｎｋ＝１ｕｐｉｋ（４）式中：Ｃ为聚类个数；Ｎ为样本个数；ｕｉｋ为ＦＣＭ中的模糊隶属度，表示第ｋ个样本点属于第ｉ个聚类中心的隶属度，其取值范围为［０，１］；ｖｉ表示第ｉ类的聚类中心；‖ｘｋ－ｖｉ‖２表示第ｋ个样本点相对于第ｉ个聚类中心的欧式距离；Ｐ为模糊因子，它决定样本在不同类中的模糊程度。通过不断地更新迭代公式（３）、（４），直到式（１）中目标函数的值小于特定的值 ε 时或者相对于上次的目标函数值的改变量小于特定的值时，停止迭代。２．２部分监督的ＦＣＭ算法Ｂｅｎｓａｉｄ在经典的ＦＣＭ算法的基础上，提出了一种部分监督聚类算法。他提出的算法加强了标记信息在聚类过程中的指导作用。通过给标记样本赋予较大的权重，使标记样本在聚类中心的形成过程中发挥更重要的作用，提高了聚类的精度。其目标函数为Ｊｍ（ｕ，ｖ：ｘ）＝ ∑ ｃｉ＝１ ∑ Ｎｋ＝１ｕｐｉｋ‖ｘｋ－ｖｉ‖２Ａ（５）其聚类中心为ｖｉ，ｔ＝ ∑ ｎｋ＝１ｗｋ（ｕｄｉｋ，ｔ）ｍｘｄｋ＋ ∑ ｎｋ＝１（ｕｕｉｋ，ｔ）ｍｘｕ ( ｋ ) ∑ ｎｋ＝１ｗｋ（ｕｄｉｋ，ｔ）ｍ＋ ∑ ｎｋ＝１（ｕｕｉｋ，ｔ）ｍ（６）模糊隶属度为ｕｄｉｋ，ｔ＝ｆｉｋ（７）ｕｕｉｋ，ｔ＝１ ∑ ｎｊ＝１（ ‖ｘｕｋ－ｖｉ，ｔ－１‖Ａ ‖ｘｕｋ－ｖｊ，ｔ－１‖Ａ）２ｍ－１（８）式中：聚类中心中的ｗｋ为权重因子，ｗ＝［ｗ１ｗ２… ｗｎｄ］Ｔ，文中使ｗｋ＝ｗ，其中ｗ为具体的数值，表示标记样本的数量，通过对少量的标记样本进行增加权重，可以更好地加强标记样本的作用；模糊隶属度为ｕｉｋ，表示第ｋ个样本点相对于第ｉ个聚类中心的模糊隶属度，其取值范围为［０，１］；ｕｄｉｋ，ｔ＝ｆｉｋ表示部分监督样本的模糊隶属度；ｕｕｉｋ，ｔ表示无监督样本的模糊隶属度；其中 ‖ｘＫ－ｖｉ‖２Ａ＝（ｘｋ－ｖｉ）ＴＡ（ｘｋ－ｖｉ）（９）Ａ是任何的正定矩阵。２．３基于样本分布先验的半监督ＦＣＭ算法基于样本分布先验的半监督ＦＣＭ的目标函数［１９］如下：Ｊ＝ ∑ ｃｉ＝１ ∑ Ｎｋ＝１ｕｐｉｋｄ２ｉｋ＋ α ∑ ｃｉ＝１ ∑ Ｎｋ＝１（ｕｉｋ－ｆｉｋｂｋ）ｐｄ２ｉｋ（１０）式中：标记样本的隶属度Ｆ＝［ｆｉｋ］，ｉ＝１，２，…，Ｃ；Ｎ＝１，２，…，ｎ；ｄｉｋ表示第ｋ个样本点相对于第ｉ个聚类中心间的欧式距离；通常情况下模糊因子取经验值ｐ＝２；α 是使监督和无监督样本之间保持相对平衡的因子，其中 α 本文选取的是传统的半监督ＦＣＭ算法中 α 的取值，即总样本和标记样本数量之比。为区分标记样本和未标记样本，引入了二值向量ｂ＝ｂｋ，其中ｋ＝１，２，…，ｎ，标记样本时ｂｋ＝１，相反未标记样本时ｂｋ＝０。为了增强标记样本的监督作用，在计算模糊隶属度和聚类中心时分别引入了样本的分布信息。本文通过在式（１５）、（１６）、（１７）中引入两个权重 θ 和 β，其中 θ 表示标记样本的权重，β 表示未标记样本的权重。通过 θ 和 β 来指导实现聚类的过程。ｑ＝Ｍ／Ｎ（１１）ｒ＝（Ｎ－Ｍ）／Ｎ（１２） θ ＝１－ｑ（１３） β ＝１－ｒ（１４）式中：ｑ表示标记样本的先验概率；Ｍ表示标记样本的数量；Ｎ表示总样本的数量；ｒ表示未标记样本的先验概率；（Ｎ－Ｍ）表示未标记样本的数量。通过优化目标函数，标记样本的模糊隶属度为ｕＬｉｋ＝ θ × １１＋ α （１ ∑ ｃｊ＝１ｄ２ｉｋｄ２ｊｋ＋ αｆｉｋ） æ è ç ç ç ö ø ÷ ÷ ÷ （１５）未标记样本的模糊隶属度为ｕｕｉｋ＝ β × １ ∑ ｃｊ＝１ｄ２ｉｋｄ２ｊｋ æ è ç ç ç ö ø ÷ ÷ ÷ （１６）聚类中心为ｖｉｋ＝ ∑ｘｋ∈ｘｄ（θｕＬｉｋ）２ｘｋ＋ ∑ｘｋ∈ｘｕ（βｕｕｉｋ）２ｘｋ ∑ｘｋ∈ｘｄ（θｕＬｉｋ）２＋ ∑ｘｋ∈ｘｕ（βｕｕｉｋ）２（１７）第５期姜婷，等：基于分布先验的半监督ＦＣＭ的肺结节分类 ·７３１·

·732 智能系统学报第12卷由于未标记样本数量会远远大于标记样本的数量，基于上述公式，权重0的值一般要大于B。通过在聚类中心中引入权重日和B,聚类中心以及样本的聚类结果可以根据样本的先验分布进行自动的调整，0可以强化标记信息对聚类的指导。综上所述，基于先验分布的半监督FCM算法的 1u7 e 流程大致如下所示。输入肺结节图像。输出肺结节的分类结果和肺结节分类准确率。算法流程： 1)计算输入图像中肺结节的特征，并组成一个矩阵： 2)确定样本个数C,平衡因子α，阈值ε，标记样 115。 101Bg 31417f 39323 (a)部分恶性肺结节分类结果本的先验概率g,未标记样本的先验概率「，以及标记样本的个数M: 3)初始化聚类中心4以及模糊隶属度u(包括标记样本的隶属度4以及未标记样本隶属度“)； 4)按照式(15)、(16)更新模糊隶属度u: 5)按照式(17)更新聚类中心： 6)重复循环步骤3)，当两次迭代矩阵模糊隶属度的差小于ε阈值时停止迭代： 7)根据计算得到的模糊隶属度u结果进行分类。 3实验结果及分析 51 +.5E 本文的实验图像来自美国的LDC[0(美国癌症研究)，本文选择了188个病例，一共451个结节， -1:w ,E,41 其中包括了147个恶性结点，155个假阳性结点， (b)部分良性肺结节分类结果 149个良性结点。同时，本文实验中选取144例监督样本，即47个恶性、42个良性及55个假阳性结 ta2T-1 IRe EN12-1 t523 1t3i456 iiTS Je 点，剩余的样本作为测试样本。实验中，采用肺结节分类识别准确率作为评估算法性能准则。图3为部分分类后的结节，大部分样本都能分类正确，只 105 有少量样本存在分类错误，这是因为在特征提取方面这些肺结节的灰度特征不够明显，导致分类错误。本实验为了证明提出算法的有效性，在不同未 lt6-1 JPC 215按 1公》0 标记样本和标记样本之间的比例下（分别为7倍、6 倍、5倍、4倍、3倍、2倍)，对比提出的算法与其他 4498 30121- 5l1开g 330-51p6 算法的分类正确率。未标记样本和标记样本比例为7倍、6倍、5倍时分类结果准确率变化不是十分明显，所以本文只给出了比例为7倍的分类准确率。 343:3g 38)e 34-2B 3行-53月r 表1给出了传统FCM部分监督FCM算法、SS-FCM、 (©)部分假阳性肺结点分类结果改进的半监督FCM算法[2]以及本文提出的基于样图3部分结节分类后的结果本先验概率的半监督聚类算法准确率的比较结果。 Fig.3 Nodules classification results

由于未标记样本数量会远远大于标记样本的数量，基于上述公式，权重 θ 的值一般要大于 β。通过在聚类中心中引入权重 θ 和 β，聚类中心以及样本的聚类结果可以根据样本的先验分布进行自动的调整，θ 可以强化标记信息对聚类的指导。综上所述，基于先验分布的半监督ＦＣＭ算法的流程大致如下所示。输入肺结节图像。输出肺结节的分类结果和肺结节分类准确率。算法流程：１）计算输入图像中肺结节的特征，并组成一个矩阵；２）确定样本个数Ｃ，平衡因子 α，阈值 ε，标记样本的先验概率ｑ，未标记样本的先验概率ｒ，以及标记样本的个数Ｍ；３）初始化聚类中心ｖｉｋ以及模糊隶属度ｕｉｋ（包括标记样本的隶属度ｕｄｉｋ以及未标记样本隶属度ｕｕｉｋ）；４）按照式（１５）、（１６）更新模糊隶属度ｕｉｋ；５）按照式（１７）更新聚类中心；６）重复循环步骤３），当两次迭代矩阵模糊隶属度的差小于 ε 阈值时停止迭代；７）根据计算得到的模糊隶属度ｕｉｋ结果进行分类。３实验结果及分析本文的实验图像来自美国的ＬＩＤＣ［２０］（美国癌症研究），本文选择了１８８个病例，一共４５１个结节，其中包括了１４７个恶性结点，１５５个假阳性结点，１４９个良性结点。同时，本文实验中选取１４４例监督样本，即４７个恶性、４２个良性及５５个假阳性结点，剩余的样本作为测试样本。实验中，采用肺结节分类识别准确率作为评估算法性能准则。图３为部分分类后的结节，大部分样本都能分类正确，只有少量样本存在分类错误，这是因为在特征提取方面这些肺结节的灰度特征不够明显，导致分类错误。本实验为了证明提出算法的有效性，在不同未标记样本和标记样本之间的比例下（分别为７倍、６倍、５倍、４倍、３倍、２倍），对比提出的算法与其他算法的分类正确率。未标记样本和标记样本比例为７倍、６倍、５倍时分类结果准确率变化不是十分明显，所以本文只给出了比例为７倍的分类准确率。表１给出了传统ＦＣＭ部分监督ＦＣＭ算法、ＳＳ⁃ＦＣＭ、改进的半监督ＦＣＭ算法［２１］以及本文提出的基于样本先验概率的半监督聚类算法准确率的比较结果。（ａ）部分恶性肺结节分类结果（ｂ）部分良性肺结节分类结果（ｃ）部分假阳性肺结点分类结果图３部分结节分类后的结果Ｆｉｇ．３Ｎｏｄｕｌｅｓｃｌａｓｓｉｆｉｃａｔｉｏｎｒｅｓｕｌｔｓ ·７３２· 智能系统学报第１２卷

第5期姜婷，等：基于分布先验的半监督FCM的肺结节分类 .733· 表1不同方法的准确率对比 Tablel Comparison of the accuracy of different methods 号标记样本：未标记样本FCM算法部分监督FCM算法 SS-FCM算法改进半监督FCM算法本文提出的算法 43:307 73.4 74.3 75.5 72.6 78.2 65:307 73.4 73.2 75.7 72.8 78.4 90:307 73.4 75.1 78.1 77.1 80.1 144:307 73.4 78.7 79.4 77.6 79.3 由表1可知，随着标记样本数量的增加，半监督 nodules in CT images[J].Journal of data acquisition and FCM框架下的肺结节分类的准确率大致是逐渐提 processing,2016,31(5):868-881. 高的。与其他的半监督FCM方法相比较，本文提出 [3]LEE S L A,KOUZANI A Z.HU E J.Automated detection 的算法效果更好。因为本文引入了样本的先验分 of lung nodules in computed tomography images:a review 布信息，能够强化标记信息对聚类的指导作用，从 [J].Machine vision and applications,2012,23 (1): 151-163. 而能够提高分类效果。但是根据表1中数据我们可 [4]VALENTE I R S,CORTEZ P C,NETO E C,et al. 以看出，标记样本为90时的分类准确率要比标记样 Automatic 3D pulmonary nodule detection in CT images:A 本为144时的分类准确率高，这是因为随着标记样 survey[J].Computer methods and programs in biomedicine, 本的增加，当标记样本和未标记样本的数量越来越 2016,124(C):91-107. 接近时，公式中引人的标记样本和未标记样本的权 [5]HAN F,WANG H,ZHANG G,et al.Texture feature 重也就越来越相近，那么式(17)中的系数就可以约 analysis for computer-aided diagnosis on pulmonary nodules 掉，本文的算法退化为传统的半监督模糊C均值算 [J].Journal of digital imaging,2015,28(1):99. 法，从而使得准确率降低。这也是下一步工作的 [6]HADY M F A,SCHWENKER F.Semi-supervised learning 重点。 []Intelligent systems reference library,2010,49(2): 215-239. 4结束语 [7]BENSAID A M,HALL L O,BEZDEK J C,et al.Partially supervised clustering for image segmentation[].Pattern 为了解决半监督聚类算法中标记样本数量少 recognition,1996,29(5):859-871. 导致标记信息在聚类过程中作用弱化的问题，本文 [8]张慧哲，王坚.基于初始聚类中心选取的改进FCM聚类提出了一种基于先验分布的半监督FCM算法。引算法[J].计算机科学，2009,36(6)：206-209. 入样本的分布先验信息，自适应调节样本的权重， ZHANG Huizhe,WANG Jian.Improved fuzzy C means 强化标记样本在聚类过程中的指导作用，提高半监 clustering algorithm based on selecting initial clustering 督FCM算法在少量标记样本情况下的性能。在本 centers[J].Computer science,2009,36(6):206-209. 文的实验中，通过与传统的半监督聚类算法对比， [9]李春芳，庞雅静，钱丽璞，等.半监督FCM聚类算法目证明提出的方法能够取得更高的聚类正确率。标函数研究[J].计算机工程与应用，2009,45(14)： 128-132 但是当标记样本数量非常小的时候，给其赋以 LI Chunfang,PANG Yajing,QIAN Lipu,et al.Objective 过大的权重会出现分类结果偏离实际的情况。这 function of semi-supervised FCM clustering algorithm[J]. 也是在未来的工作中进一步研究的问题。 Computer engineering and application,2009,45(14): 参考文献： 128-132. [10]WU K L.Analysis of parameter selections for fuzzy C- [1 MCGUIRE S.World Cancer Report 2014.Geneva, means[J].Pattern recognition,2012,45(1):407-415. Switzerland:World Health Organization,International [11]侯薇，董红斌，印桂生.一种基于隶属度优化的演化聚 Agency for Research on Cancer,WHO Press,2015[R] 类算法[J].计算机研究与发展，2013,50(3)： Advances in nutrition,2016,7(2):418-419. 548-558. [2]伍长荣，接标，叶明全.CT图像肺结节计算机辅助检测 HOU Wei,DONG Hongbin,YIN Guisheng.A membership 与诊断技术研究综述[J].数据采集与处理，2016,31 degree refinement-based evolutionary clustering algorithm (5):868-881. [J].Journal of computer research and development,2013, WU Changrong,JIE Biao,YE Mingquan.Reviews on 50(3):548-558. computer-aided detection and diagnosis of pulmonary [12]李斌，狄岚，王少华，等.基于改进核模糊C均值类间

表１不同方法的准确率对比Ｔａｂｌｅ１Ｃｏｍｐａｒｉｓｏｎｏｆｔｈｅａｃｃｕｒａｃｙｏｆｄｉｆｆｅｒｅｎｔｍｅｔｈｏｄｓ％标记样本：未标记样本ＦＣＭ算法部分监督ＦＣＭ算法ＳＳ⁃ＦＣＭ算法改进半监督ＦＣＭ算法本文提出的算法４３：３０７７３．４７４．３７５．５７２．６７８．２６５：３０７７３．４７３．２７５．７７２．８７８．４９０：３０７７３．４７５．１７８．１７７．１８０．１１４４：３０７７３．４７８．７７９．４７７．６７９．３由表１可知，随着标记样本数量的增加，半监督ＦＣＭ框架下的肺结节分类的准确率大致是逐渐提高的。与其他的半监督ＦＣＭ方法相比较，本文提出的算法效果更好。因为本文引入了样本的先验分布信息，能够强化标记信息对聚类的指导作用，从而能够提高分类效果。但是根据表１中数据我们可以看出，标记样本为９０时的分类准确率要比标记样本为１４４时的分类准确率高，这是因为随着标记样本的增加，当标记样本和未标记样本的数量越来越接近时，公式中引入的标记样本和未标记样本的权重也就越来越相近，那么式（１７）中的系数就可以约掉，本文的算法退化为传统的半监督模糊Ｃ均值算法，从而使得准确率降低。这也是下一步工作的重点。４结束语为了解决半监督聚类算法中标记样本数量少导致标记信息在聚类过程中作用弱化的问题，本文提出了一种基于先验分布的半监督ＦＣＭ算法。引入样本的分布先验信息，自适应调节样本的权重，强化标记样本在聚类过程中的指导作用，提高半监督ＦＣＭ算法在少量标记样本情况下的性能。在本文的实验中，通过与传统的半监督聚类算法对比，证明提出的方法能够取得更高的聚类正确率。但是当标记样本数量非常小的时候，给其赋以过大的权重会出现分类结果偏离实际的情况。这也是在未来的工作中进一步研究的问题。参考文献：［１］ＭＣＧＵＩＲＥＳ．ＷｏｒｌｄＣａｎｃｅｒＲｅｐｏｒｔ２０１４．Ｇｅｎｅｖａ，Ｓｗｉｔｚｅｒｌａｎｄ：ＷｏｒｌｄＨｅａｌｔｈＯｒｇａｎｉｚａｔｉｏｎ，ＩｎｔｅｒｎａｔｉｏｎａｌＡｇｅｎｃｙｆｏｒＲｅｓｅａｒｃｈｏｎＣａｎｃｅｒ，ＷＨＯＰｒｅｓｓ，２０１５［Ｒ］．Ａｄｖａｎｃｅｓｉｎｎｕｔｒｉｔｉｏｎ，２０１６，７（２）：４１８－４１９．［２］伍长荣，接标，叶明全．ＣＴ图像肺结节计算机辅助检测与诊断技术研究综述［Ｊ］．数据采集与处理，２０１６，３１（５）：８６８－８８１．ＷＵＣｈａｎｇｒｏｎｇ，ＪＩＥＢｉａｏ，ＹＥＭｉｎｇｑｕａｎ．Ｒｅｖｉｅｗｓｏｎｃｏｍｐｕｔｅｒ⁃ａｉｄｅｄｄｅｔｅｃｔｉｏｎａｎｄｄｉａｇｎｏｓｉｓｏｆｐｕｌｍｏｎａｒｙｎｏｄｕｌｅｓｉｎＣＴｉｍａｇｅｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｄａｔａａｃｑｕｉｓｉｔｉｏｎａｎｄｐｒｏｃｅｓｓｉｎｇ，２０１６，３１（５）：８６８－８８１．［３］ＬＥＥＳＬＡ，ＫＯＵＺＡＮＩＡＺ，ＨＵＥＪ．Ａｕｔｏｍａｔｅｄｄｅｔｅｃｔｉｏｎｏｆｌｕｎｇｎｏｄｕｌｅｓｉｎｃｏｍｐｕｔｅｄｔｏｍｏｇｒａｐｈｙｉｍａｇｅｓ：ａｒｅｖｉｅｗ［Ｊ］．Ｍａｃｈｉｎｅｖｉｓｉｏｎａｎｄａｐｐｌｉｃａｔｉｏｎｓ，２０１２，２３（１）：１５１－１６３．［４］ＶＡＬＥＮＴＥＩＲＳ，ＣＯＲＴＥＺＰＣ，ＮＥＴＯＥＣ，ｅｔａｌ．Ａｕｔｏｍａｔｉｃ３ＤｐｕｌｍｏｎａｒｙｎｏｄｕｌｅｄｅｔｅｃｔｉｏｎｉｎＣＴｉｍａｇｅｓ：Ａｓｕｒｖｅｙ［Ｊ］．Ｃｏｍｐｕｔｅｒｍｅｔｈｏｄｓａｎｄｐｒｏｇｒａｍｓｉｎｂｉｏｍｅｄｉｃｉｎｅ，２０１６，１２４（Ｃ）：９１－１０７．［５］ＨＡＮＦ，ＷＡＮＧＨ，ＺＨＡＮＧＧ，ｅｔａｌ．Ｔｅｘｔｕｒｅｆｅａｔｕｒｅａｎａｌｙｓｉｓｆｏｒｃｏｍｐｕｔｅｒ⁃ａｉｄｅｄｄｉａｇｎｏｓｉｓｏｎｐｕｌｍｏｎａｒｙｎｏｄｕｌｅｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｄｉｇｉｔａｌｉｍａｇｉｎｇ，２０１５，２８（１）：９９．［６］ＨＡＤＹＭＦＡ，ＳＣＨＷＥＮＫＥＲＦ．Ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ［Ｊ］．Ｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓｒｅｆｅｒｅｎｃｅｌｉｂｒａｒｙ，２０１０，４９（２）：２１５－２３９．［７］ＢＥＮＳＡＩＤＡＭ，ＨＡＬＬＬＯ，ＢＥＺＤＥＫＪＣ，ｅｔａｌ．Ｐａｒｔｉａｌｌｙｓｕｐｅｒｖｉｓｅｄｃｌｕｓｔｅｒｉｎｇｆｏｒｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ，１９９６，２９（５）：８５９－８７１．［８］张慧哲，王坚．基于初始聚类中心选取的改进ＦＣＭ聚类算法［Ｊ］．计算机科学，２００９，３６（６）：２０６－２０９．ＺＨＡＮＧＨｕｉｚｈｅ，ＷＡＮＧＪｉａｎ．ＩｍｐｒｏｖｅｄｆｕｚｚｙＣｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｓｅｌｅｃｔｉｎｇｉｎｉｔｉａｌｃｌｕｓｔｅｒｉｎｇｃｅｎｔｅｒｓ［Ｊ］．Ｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，２００９，３６（６）：２０６－２０９．［９］李春芳，庞雅静，钱丽璞，等．半监督ＦＣＭ聚类算法目标函数研究［Ｊ］．计算机工程与应用，２００９，４５（１４）：１２８－１３２．ＬＩＣｈｕｎｆａｎｇ，ＰＡＮＧＹａｊｉｎｇ，ＱＩＡＮＬｉｐｕ，ｅｔａｌ．Ｏｂｊｅｃｔｉｖｅｆｕｎｃｔｉｏｎｏｆｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄＦＣＭｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．Ｃｏｍｐｕｔｅｒｅｎｇｉｎｅｅｒｉｎｇａｎｄａｐｐｌｉｃａｔｉｏｎ，２００９，４５（１４）：１２８－１３２．［１０］ＷＵＫＬ．ＡｎａｌｙｓｉｓｏｆｐａｒａｍｅｔｅｒｓｅｌｅｃｔｉｏｎｓｆｏｒｆｕｚｚｙＣ⁃ ｍｅａｎｓ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ，２０１２，４５（１）：４０７－４１５．［１１］侯薇，董红斌，印桂生．一种基于隶属度优化的演化聚类算法［Ｊ］．计算机研究与发展，２０１３，５０（３）：５４８－５５８．ＨＯＵＷｅｉ，ＤＯＮＧＨｏｎｇｂｉｎ，ＹＩＮＧｕｉｓｈｅｎｇ．Ａｍｅｍｂｅｒｓｈｉｐｄｅｇｒｅｅｒｅｆｉｎｅｍｅｎｔ⁃ｂａｓｅｄｅｖｏｌｕｔｉｏｎａｒｙｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．Ｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒｒｅｓｅａｒｃｈａｎｄｄｅｖｅｌｏｐｍｅｎｔ，２０１３，５０（３）：５４８－５５８．［１２］李斌，狄岚，王少华，等．基于改进核模糊Ｃ均值类间第５期姜婷，等：基于分布先验的半监督ＦＣＭ的肺结节分类 ·７３３·

·734· 智能系统学报第12卷极大化聚类算法[J].计算机应用，2016,36(7)： [19 PEDRYCZ W,WEMBER J,WALETZKY J.Fuzzy 1981-1987. clusteringwith partial supervision []IEEE transaction on LI Bin,DI Lan,WANG Shaohua,et al.Clustering system,man,and cybernetics,part B:cybernetics,1997, algorithm with maximum distance between clusters based 27(5):787-795. on improved kernel fuzzy C-means[J].Journal of computer [20]MCNITT-GRAY M F,MEYER C R,REEVES A P,et al. applications,2016,36(7):1981-1987. The lung image database consortium LIDC)data [13]文传军，汪庆森，詹永照.均衡模糊C均值聚类算法 collection process for nodule detection and annotation[]]. [J].计算机科学，2014,41(8)：250-253。 Academic radiolog,2008,14(12):1464-1474. WEN Chuanjun,WANG Qingmiao,ZHAN Yongzhao,et [21]李秋萍，刘慧，苏志远.基于改进的半监督FCM聚类 al.Equalization fuzzy C-means clustering algorithm [J]. 算法的肺结节分类与识别[J].图学学报，2015,36 Computer science,2014,41(8):250-253. (2):244-250 [14]蔡加欣，杨丰，冯国灿.改进退化的半监督模糊聚类应 LI Qiuping,LIU Hui,SU Zhiyuan.Modified fuzzy 用于MR图像分割[J].中国图象图形学报，2011,16 clustering with partial supervision algorithm in (5):784-791. classification and recognition of pulmonary nodules J]. CAI Jiaxin,YANG Feng,FENG Guocan,et al. Journal of graphics,2015,36(2):244-250. Degeneracy-improved semi-supervised fuzzy clustering with 作者简介： application in MR image segmentation [J].Journal of 姜婷，女，1991年生，硕士研究生， image and graphics,2011,16(5):784-791. 主要研究方向为数据挖掘、机器学习。 [15]苏志远，刘慧，尹义龙.基于弱监督EC0C算法的肺结参与多项国家自然科学基金等科研节辅助检测[J].数据采集与处理，2015,30(5)：项目。 1003-1010. SU Zhiyuan,LIU Hui,YIN Yilong,et al.Pulmonary nodule aided detection based on weakly-supervised ECOC algorithm[].Jornal of data acqusition and processing, 袭肖明.男.1987年生，博士，主要 2015,30(5):1003-1010. 研究方向为生物识别、机器学习。主持 [16]MURRAY P,MARSHALL S.A new design tool for feature 国家自然科学基金、省自然科学基金等 extraction in noisy images based on grayscale hit-or-miss 多项科学研究项目。 transforms[J].IEEE transactions on image processing a publication of the ieee signal processing society,2011,20 (7):1938-48. [17]BAE H J,KANG E Y,YONG H S,et al.Paratracheal air 岳厚光.男.1971年生，副教授，主 cysts on thoracic multidetector CT:incidence,morphological 要研究方面为数据挖掘、机器学习。 characteristics and relevance to pulmonary emphysema[J] British journal of radiology,2013,8(1021):20120218. [18]BEZDEK J C.EHRLICH R,FULL W.FCM:the fuzzy C- means clustering algorithm[J].Computers and geosciences, 1984.10(2/3):191-203

极大化聚类算法［Ｊ］．计算机应用，２０１６，３６（７）：１９８１－１９８７．ＬＩＢｉｎ，ＤＩＬａｎ，ＷＡＮＧＳｈａｏｈｕａ，ｅｔａｌ．ＣｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｗｉｔｈｍａｘｉｍｕｍｄｉｓｔａｎｃｅｂｅｔｗｅｅｎｃｌｕｓｔｅｒｓｂａｓｅｄｏｎｉｍｐｒｏｖｅｄｋｅｒｎｅｌｆｕｚｚｙＣ⁃ｍｅａｎｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｃｏｍｐｕｔｅｒａｐｐｌｉｃａｔｉｏｎｓ，２０１６，３６（７）：１９８１－１９８７．［１３］文传军，汪庆淼，詹永照．均衡模糊Ｃ均值聚类算法［Ｊ］．计算机科学，２０１４，４１（８）：２５０－２５３．ＷＥＮＣｈｕａｎｊｕｎ，ＷＡＮＧＱｉｎｇｍｉａｏ，ＺＨＡＮＹｏｎｇｚｈａｏ，ｅｔａｌ．ＥｑｕａｌｉｚａｔｉｏｎｆｕｚｚｙＣ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．Ｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，２０１４，４１（８）：２５０－２５３．［１４］蔡加欣，杨丰，冯国灿．改进退化的半监督模糊聚类应用于ＭＲ图像分割［Ｊ］．中国图象图形学报，２０１１，１６（５）：７８４－７９１．ＣＡＩＪｉａｘｉｎ，ＹＡＮＧＦｅｎｇ，ＦＥＮＧＧｕｏｃａｎ，ｅｔａｌ．Ｄｅｇｅｎｅｒａｃｙ⁃ｉｍｐｒｏｖｅｄｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇｗｉｔｈａｐｐｌｉｃａｔｉｏｎｉｎＭＲｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆｉｍａｇｅａｎｄｇｒａｐｈｉｃｓ，２０１１，１６（５）：７８４－７９１．［１５］苏志远，刘慧，尹义龙．基于弱监督ＥＣＯＣ算法的肺结节辅助检测［Ｊ］．数据采集与处理，２０１５，３０（５）：１００３－１０１０．ＳＵＺｈｉｙｕａｎ，ＬＩＵＨｕｉ，ＹＩＮＹｉｌｏｎｇ，ｅｔａｌ．Ｐｕｌｍｏｎａｒｙｎｏｄｕｌｅａｉｄｅｄｄｅｔｅｃｔｉｏｎｂａｓｅｄｏｎｗｅａｋｌｙ⁃ｓｕｐｅｒｖｉｓｅｄＥＣＯＣａｌｇｏｒｉｔｈｍ［Ｊ］．Ｊｏｒｎａｌｏｆｄａｔａａｃｑｕｓｉｔｉｏｎａｎｄｐｒｏｃｅｓｓｉｎｇ，２０１５，３０（５）：１００３－１０１０．［１６］ＭＵＲＲＡＹＰ，ＭＡＲＳＨＡＬＬＳ．Ａｎｅｗｄｅｓｉｇｎｔｏｏｌｆｏｒｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎｉｎｎｏｉｓｙｉｍａｇｅｓｂａｓｅｄｏｎｇｒａｙｓｃａｌｅｈｉｔ⁃ｏｒ⁃ｍｉｓｓｔｒａｎｓｆｏｒｍｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｉｍａｇｅｐｒｏｃｅｓｓｉｎｇａｐｕｂｌｉｃａｔｉｏｎｏｆｔｈｅｉｅｅｅｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｓｏｃｉｅｔｙ，２０１１，２０（７）：１９３８－４８．［１７］ＢＡＥＨＪ，ＫＡＮＧＥＹ，ＹＯＮＧＨＳ，ｅｔａｌ．ＰａｒａｔｒａｃｈｅａｌａｉｒｃｙｓｔｓｏｎｔｈｏｒａｃｉｃｍｕｌｔｉｄｅｔｅｃｔｏｒＣＴ：ｉｎｃｉｄｅｎｃｅ，ｍｏｒｐｈｏｌｏｇｉｃａｌｃｈａｒａｃｔｅｒｉｓｔｉｃｓａｎｄｒｅｌｅｖａｎｃｅｔｏｐｕｌｍｏｎａｒｙｅｍｐｈｙｓｅｍａ［Ｊ］．Ｂｒｉｔｉｓｈｊｏｕｒｎａｌｏｆｒａｄｉｏｌｏｇｙ，２０１３，８６（１０２１）：２０１２０２１８．［１８］ＢＥＺＤＥＫＪＣ，ＥＨＲＬＩＣＨＲ，ＦＵＬＬＷ．ＦＣＭ：ｔｈｅｆｕｚｚｙＣ⁃ ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．Ｃｏｍｐｕｔｅｒｓａｎｄｇｅｏｓｃｉｅｎｃｅｓ，１９８４，１０（２／３）：１９１－２０３．［１９］ＰＥＤＲＹＣＺＷ，ＷＥＭＢＥＲＪ，ＷＡＬＥＴＺＫＹＪ．Ｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇｗｉｔｈｐａｒｔｉａｌｓｕｐｅｒｖｉｓｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｏｎｓｙｓｔｅｍ，ｍａｎ，ａｎｄｃｙｂｅｒｎｅｔｉｃｓ，ｐａｒｔＢ：ｃｙｂｅｒｎｅｔｉｃｓ，１９９７，２７（５）：７８７－７９５．［２０］ＭＣＮＩＴＴ⁃ＧＲＡＹＭＦ，ＭＥＹＥＲＣＲ，ＲＥＥＶＥＳＡＰ，ｅｔａｌ．Ｔｈｅｌｕｎｇｉｍａｇｅｄａｔａｂａｓｅｃｏｎｓｏｒｔｉｕｍ（ＬＩＤＣ）ｄａｔａｃｏｌｌｅｃｔｉｏｎｐｒｏｃｅｓｓｆｏｒｎｏｄｕｌｅｄｅｔｅｃｔｉｏｎａｎｄａｎｎｏｔａｔｉｏｎ［Ｊ］．Ａｃａｄｅｍｉｃｒａｄｉｏｌｏｇｙ，２００８，１４（１２）：１４６４－１４７４．［２１］李秋萍，刘慧，苏志远．基于改进的半监督ＦＣＭ聚类算法的肺结节分类与识别［Ｊ］．图学学报，２０１５，３６（２）：２４４－２５０．ＬＩＱｉｕｐｉｎｇ，ＬＩＵＨｕｉ，ＳＵＺｈｉｙｕａｎ．Ｍｏｄｉｆｉｅｄｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇｗｉｔｈｐａｒｔｉａｌｓｕｐｅｒｖｉｓｉｏｎａｌｇｏｒｉｔｈｍｉｎｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｒｅｃｏｇｎｉｔｉｏｎｏｆｐｕｌｍｏｎａｒｙｎｏｄｕｌｅｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｇｒａｐｈｉｃｓ，２０１５，３６（２）：２４４－２５０．作者简介：姜婷，女，１９９１年生，硕士研究生，主要研究方向为数据挖掘、机器学习。参与多项国家自然科学基金等科研项目。袭肖明，男，１９８７年生，博士，主要研究方向为生物识别、机器学习。主持国家自然科学基金、省自然科学基金等多项科学研究项目。岳厚光，男，１９７１年生，副教授，主要研究方面为数据挖掘、机器学习。 ·７３４· 智能系统学报第１２卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录