即完成聚类。Ｊｍ（ｕ，ｖ）＝ ∑ Ｃｉ＝１ ∑ Ｎｋ＝１

正在加载图片...

第5期姜婷，等：基于分布先验的半监督FCM的肺结节分类 ·731· 即完成聚类。为山：，表示第k个样本点相对于第i个聚类中心的 J(u,v)= 模糊隶属度，其取值范围为[0,1]；，=∫表示部分 (1) 监督样本的模糊隶属度；“，表示无监督样本的模糊隶属度：其中 k=1,2,…,N (2) Ix-vll=(-v)TA(-v) (9) 1 (3) A是任何的正定矩阵。 x-y‖、 2.3基于样本分布先验的半监督FCM算法基于样本分布先验的半监督FCM的目标函数如下： k=1 := (4 1=22财G+a2w4-r =1=1 i=1k=1 (10) 式中：C为聚类个数；N为样本个数；u4为FCM中的式中：标记样本的隶属度F=[f],i=1,2,…,C 模糊隶属度，表示第k个样本点属于第i个聚类中 N=1,2,…,n;d4表示第k个样本点相对于第i个聚心的隶属度，其取值范围为[0,1]；，表示第i类的类中心间的欧式距离：通常情况下模糊因子取经验聚类中心；‖x-v:‖2表示第k个样本点相对于第i 值p=2:α是使监督和无监督样本之间保持相对平个聚类中心的欧式距离：P为模糊因子，它决定样本衡的因子，其中α本文选取的是传统的半监督FCM 在不同类中的模糊程度。算法中α的取值，即总样本和标记样本数量之比。通过不断地更新迭代公式(3)、(4)，直到式为区分标记样本和未标记样本，引入了二值向量b= (1)中目标函数的值小于特定的值ε时或者相对于 b,其中k=1,2,…,n,标记样本时bs=1,相反未标上次的目标函数值的改变量小于特定的值时，停止记样本时b=0。迭代。为了增强标记样本的监督作用，在计算模糊隶 2.2部分监督的FCM算法属度和聚类中心时分别引入了样本的分布信息。 Bensaid在经典的FCM算法的基础上，提出了本文通过在式(15)、(16)、(17)中引入两个权重8 种部分监督聚类算法。他提出的算法加强了标和B,其中日表示标记样本的权重，B表示未标记样记信息在聚类过程中的指导作用。通过给标记样本的权重。通过0和B来指导实现聚类的过程。本赋予较大的权重，使标记样本在聚类中心的形成 q=M/N (11) 过程中发挥更重要的作用，提高了聚类的精度。其 r=(N-M)/N (12) 目标函数为 0=1-q (13) B=1-T (14) (5) 式中：9表示标记样本的先验概率：M表示标记样本其聚类中心为的数量：N表示总样本的数量：r表示未标记样本的先验概率；(N-M)表示未标记样本的数量。通过优 (u)x) 化目标函数，标记样本的模糊隶属度为 k=1 (6) …宫 u) + (15) 模糊隶属度为 uh.=fi (7) 未标记样本的模糊隶属度为 1 1 山= (8) u法=B× ‖x若-V4-1A (16) j=1 式中：聚类中心中的w为权重因子，w=[w1w2… 聚类中心为 w]',文中使w:=w,其中w为具体的数值，表示标，(u4)2x4+∑ (Bu)2x 记样本的数量，通过对少量的标记样本进行增加权 (17) ∑(u)2+∑ (B4)2 重，可以更好地加强标记样本的作用：模糊隶属度即完成聚类。Ｊｍ（ｕ，ｖ）＝ ∑ Ｃｉ＝１ ∑ Ｎｋ＝１ｕｐｉｋ‖ｘｋ－ｖｉ‖２（１）ｋ＝１，２，…，Ｎ（２）ｕｉｋ＝１ ∑ ｎｊ＝１（ ‖ｘｋ－ｖｉ‖ ‖ｘｋ－ｖｊ‖ ）２ｐ－１（３）ｖｉ＝ ∑ Ｎｋ＝１ｕｐｉｋｘｋ ∑ Ｎｋ＝１ｕｐｉｋ（４）式中：Ｃ为聚类个数；Ｎ为样本个数；ｕｉｋ为ＦＣＭ中的模糊隶属度，表示第ｋ个样本点属于第ｉ个聚类中心的隶属度，其取值范围为［０，１］；ｖｉ表示第ｉ类的聚类中心；‖ｘｋ－ｖｉ‖２表示第ｋ个样本点相对于第ｉ个聚类中心的欧式距离；Ｐ为模糊因子，它决定样本在不同类中的模糊程度。通过不断地更新迭代公式（３）、（４），直到式（１）中目标函数的值小于特定的值 ε 时或者相对于上次的目标函数值的改变量小于特定的值时，停止迭代。２．２部分监督的ＦＣＭ算法Ｂｅｎｓａｉｄ在经典的ＦＣＭ算法的基础上，提出了一种部分监督聚类算法。他提出的算法加强了标记信息在聚类过程中的指导作用。通过给标记样本赋予较大的权重，使标记样本在聚类中心的形成过程中发挥更重要的作用，提高了聚类的精度。其目标函数为Ｊｍ（ｕ，ｖ：ｘ）＝ ∑ ｃｉ＝１ ∑ Ｎｋ＝１ｕｐｉｋ‖ｘｋ－ｖｉ‖２Ａ（５）其聚类中心为ｖｉ，ｔ＝ ∑ ｎｋ＝１ｗｋ（ｕｄｉｋ，ｔ）ｍｘｄｋ＋ ∑ ｎｋ＝１（ｕｕｉｋ，ｔ）ｍｘｕ ( ｋ ) ∑ ｎｋ＝１ｗｋ（ｕｄｉｋ，ｔ）ｍ＋ ∑ ｎｋ＝１（ｕｕｉｋ，ｔ）ｍ（６）模糊隶属度为ｕｄｉｋ，ｔ＝ｆｉｋ（７）ｕｕｉｋ，ｔ＝１ ∑ ｎｊ＝１（ ‖ｘｕｋ－ｖｉ，ｔ－１‖Ａ ‖ｘｕｋ－ｖｊ，ｔ－１‖Ａ）２ｍ－１（８）式中：聚类中心中的ｗｋ为权重因子，ｗ＝［ｗ１ｗ２… ｗｎｄ］Ｔ，文中使ｗｋ＝ｗ，其中ｗ为具体的数值，表示标记样本的数量，通过对少量的标记样本进行增加权重，可以更好地加强标记样本的作用；模糊隶属度为ｕｉｋ，表示第ｋ个样本点相对于第ｉ个聚类中心的模糊隶属度，其取值范围为［０，１］；ｕｄｉｋ，ｔ＝ｆｉｋ表示部分监督样本的模糊隶属度；ｕｕｉｋ，ｔ表示无监督样本的模糊隶属度；其中 ‖ｘＫ－ｖｉ‖２Ａ＝（ｘｋ－ｖｉ）ＴＡ（ｘｋ－ｖｉ）（９）Ａ是任何的正定矩阵。２．３基于样本分布先验的半监督ＦＣＭ算法基于样本分布先验的半监督ＦＣＭ的目标函数［１９］如下：Ｊ＝ ∑ ｃｉ＝１ ∑ Ｎｋ＝１ｕｐｉｋｄ２ｉｋ＋ α ∑ ｃｉ＝１ ∑ Ｎｋ＝１（ｕｉｋ－ｆｉｋｂｋ）ｐｄ２ｉｋ（１０）式中：标记样本的隶属度Ｆ＝［ｆｉｋ］，ｉ＝１，２，…，Ｃ；Ｎ＝１，２，…，ｎ；ｄｉｋ表示第ｋ个样本点相对于第ｉ个聚类中心间的欧式距离；通常情况下模糊因子取经验值ｐ＝２；α 是使监督和无监督样本之间保持相对平衡的因子，其中 α 本文选取的是传统的半监督ＦＣＭ算法中 α 的取值，即总样本和标记样本数量之比。为区分标记样本和未标记样本，引入了二值向量ｂ＝ｂｋ，其中ｋ＝１，２，…，ｎ，标记样本时ｂｋ＝１，相反未标记样本时ｂｋ＝０。为了增强标记样本的监督作用，在计算模糊隶属度和聚类中心时分别引入了样本的分布信息。本文通过在式（１５）、（１６）、（１７）中引入两个权重 θ 和 β，其中 θ 表示标记样本的权重，β 表示未标记样本的权重。通过 θ 和 β 来指导实现聚类的过程。ｑ＝Ｍ／Ｎ（１１）ｒ＝（Ｎ－Ｍ）／Ｎ（１２） θ ＝１－ｑ（１３） β ＝１－ｒ（１４）式中：ｑ表示标记样本的先验概率；Ｍ表示标记样本的数量；Ｎ表示总样本的数量；ｒ表示未标记样本的先验概率；（Ｎ－Ｍ）表示未标记样本的数量。通过优化目标函数，标记样本的模糊隶属度为ｕＬｉｋ＝ θ × １１＋ α （１ ∑ ｃｊ＝１ｄ２ｉｋｄ２ｊｋ＋ αｆｉｋ） æ è ç ç ç ö ø ÷ ÷ ÷ （１５）未标记样本的模糊隶属度为ｕｕｉｋ＝ β × １ ∑ ｃｊ＝１ｄ２ｉｋｄ２ｊｋ æ è ç ç ç ö ø ÷ ÷ ÷ （１６）聚类中心为ｖｉｋ＝ ∑ｘｋ∈ｘｄ（θｕＬｉｋ）２ｘｋ＋ ∑ｘｋ∈ｘｕ（βｕｕｉｋ）２ｘｋ ∑ｘｋ∈ｘｄ（θｕＬｉｋ）２＋ ∑ｘｋ∈ｘｕ（βｕｕｉｋ）２（１７）第５期姜婷，等：基于分布先验的半监督ＦＣＭ的肺结节分类 ·７３１·

<<向上翻页向下翻页>>

点击下载：【机器感知与模式识别】基于分布先验的半监督FCM的肺结节分类