正在加载图片...
第5期 姜婷,等:基于分布先验的半监督FCM的肺结节分类 ·731· 即完成聚类。 为山:,表示第k个样本点相对于第i个聚类中心的 J(u,v)= 模糊隶属度,其取值范围为[0,1];,=∫表示部分 (1) 监督样本的模糊隶属度;“,表示无监督样本的模 糊隶属度:其中 k=1,2,…,N (2) Ix-vll=(-v)TA(-v) (9) 1 (3) A是任何的正定矩阵。 x-y‖、 2.3基于样本分布先验的半监督FCM算法 基于样本分布先验的半监督FCM的目标函 数如下: k=1 := (4 1=22财G+a2w4-r =1=1 i=1k=1 (10) 式中:C为聚类个数;N为样本个数;u4为FCM中的 式中:标记样本的隶属度F=[f],i=1,2,…,C 模糊隶属度,表示第k个样本点属于第i个聚类中 N=1,2,…,n;d4表示第k个样本点相对于第i个聚 心的隶属度,其取值范围为[0,1];,表示第i类的 类中心间的欧式距离:通常情况下模糊因子取经验 聚类中心;‖x-v:‖2表示第k个样本点相对于第i 值p=2:α是使监督和无监督样本之间保持相对平 个聚类中心的欧式距离:P为模糊因子,它决定样本 衡的因子,其中α本文选取的是传统的半监督FCM 在不同类中的模糊程度。 算法中α的取值,即总样本和标记样本数量之比。 通过不断地更新迭代公式(3)、(4),直到式 为区分标记样本和未标记样本,引入了二值向量b= (1)中目标函数的值小于特定的值ε时或者相对于 b,其中k=1,2,…,n,标记样本时bs=1,相反未标 上次的目标函数值的改变量小于特定的值时,停止 记样本时b=0。 迭代。 为了增强标记样本的监督作用,在计算模糊隶 2.2部分监督的FCM算法 属度和聚类中心时分别引入了样本的分布信息。 Bensaid在经典的FCM算法的基础上,提出了 本文通过在式(15)、(16)、(17)中引入两个权重8 种部分监督聚类算法。他提出的算法加强了标 和B,其中日表示标记样本的权重,B表示未标记样 记信息在聚类过程中的指导作用。通过给标记样 本的权重。通过0和B来指导实现聚类的过程。 本赋予较大的权重,使标记样本在聚类中心的形成 q=M/N (11) 过程中发挥更重要的作用,提高了聚类的精度。其 r=(N-M)/N (12) 目标函数为 0=1-q (13) B=1-T (14) (5) 式中:9表示标记样本的先验概率:M表示标记样本 其聚类中心为 的数量:N表示总样本的数量:r表示未标记样本的 先验概率;(N-M)表示未标记样本的数量。通过优 (u)x) 化目标函数,标记样本的模糊隶属度为 k=1 (6) …宫 u) + (15) 模糊隶属度为 uh.=fi (7) 未标记样本的模糊隶属度为 1 1 山= (8) u法=B× ‖x若-V4-1A (16) j=1 式中:聚类中心中的w为权重因子,w=[w1w2… 聚类中心为 w]',文中使w:=w,其中w为具体的数值,表示标 ,(u4)2x4+∑ (Bu)2x 记样本的数量,通过对少量的标记样本进行增加权 (17) ∑(u)2+∑ (B4)2 重,可以更好地加强标记样本的作用:模糊隶属度即完成聚类。 Jm(u,v) = ∑ C i = 1 ∑ N k = 1 u p ik‖xk - vi‖2 (1) k = 1,2,…,N (2) uik = 1 ∑ n j = 1 ( ‖xk - vi‖ ‖xk - vj‖ ) 2 p-1 (3) vi = ∑ N k = 1 u p ikxk ∑ N k = 1 u p ik (4) 式中:C 为聚类个数;N 为样本个数;uik为 FCM 中的 模糊隶属度,表示第 k 个样本点属于第 i 个聚类中 心的隶属度,其取值范围为[0,1];vi表示第 i 类的 聚类中心;‖xk -vi‖2 表示第 k 个样本点相对于第 i 个聚类中心的欧式距离;P 为模糊因子,它决定样本 在不同类中的模糊程度。 通过不断地更新迭代公式( 3)、 ( 4),直到式 (1)中目标函数的值小于特定的值 ε 时或者相对于 上次的目标函数值的改变量小于特定的值时,停止 迭代。 2.2 部分监督的 FCM 算法 Bensaid 在经典的 FCM 算法的基础上,提出了 一种部分监督聚类算法。 他提出的算法加强了标 记信息在聚类过程中的指导作用。 通过给标记样 本赋予较大的权重,使标记样本在聚类中心的形成 过程中发挥更重要的作用,提高了聚类的精度。 其 目标函数为 Jm(u,v:x) = ∑ c i = 1 ∑ N k = 1 u p ik‖xk - vi‖2 A (5) 其聚类中心为 vi,t = ∑ n k = 1 wk (u d ik,t) m x d k + ∑ n k = 1 (u u ik,t) m x u ( k ) ∑ n k = 1 wk (u d ik,t) m + ∑ n k = 1 (u u ik,t) m (6) 模糊隶属度为 u d ik,t = f ik (7) u u ik,t = 1 ∑ n j = 1 ( ‖x u k - vi,t-1‖A ‖x u k - vj,t-1‖A ) 2 m-1 (8) 式中:聚类中心中的 wk 为权重因子,w = [w1 w2… wnd ] T ,文中使 wk =w,其中 w 为具体的数值,表示标 记样本的数量,通过对少量的标记样本进行增加权 重,可以更好地加强标记样本的作用;模糊隶属度 为 uik,表示第 k 个样本点相对于第 i 个聚类中心的 模糊隶属度,其取值范围为[0,1];u d ik,t = f ik表示部分 监督样本的模糊隶属度;u u ik,t 表示无监督样本的模 糊隶属度;其中 ‖xK - vi‖2 A = (xk - vi) TA(xk - vi) (9) A 是任何的正定矩阵。 2.3 基于样本分布先验的半监督 FCM 算法 基于样本分布先验的半监督 FCM 的目标函 数[19]如下: J = ∑ c i = 1 ∑ N k = 1 u p ikd 2 ik + α ∑ c i = 1 ∑ N k = 1 (uik - f ik bk) p d 2 ik (10) 式中:标记样本的隶属度 F = [ f ik ], i = 1,2,…,C; N= 1,2,…,n;dik表示第 k 个样本点相对于第 i 个聚 类中心间的欧式距离;通常情况下模糊因子取经验 值 p = 2;α 是使监督和无监督样本之间保持相对平 衡的因子,其中 α 本文选取的是传统的半监督 FCM 算法中 α 的取值,即总样本和标记样本数量之比。 为区分标记样本和未标记样本,引入了二值向量b = bk,其中 k = 1,2,…,n,标记样本时 bk = 1,相反未标 记样本时 bk = 0。 为了增强标记样本的监督作用,在计算模糊隶 属度和聚类中心时分别引入了样本的分布信息。 本文通过在式(15)、(16)、(17) 中引入两个权重 θ 和 β,其中 θ 表示标记样本的权重,β 表示未标记样 本的权重。 通过 θ 和 β 来指导实现聚类的过程。 q = M/ N (11) r = (N - M) / N (12) θ = 1 - q (13) β = 1 - r (14) 式中:q 表示标记样本的先验概率;M 表示标记样本 的数量;N 表示总样本的数量;r 表示未标记样本的 先验概率;(N-M)表示未标记样本的数量。 通过优 化目标函数,标记样本的模糊隶属度为 u L ik = θ × 1 1 + α ( 1 ∑ c j = 1 d 2 ik d 2 jk + αf ik) æ è ç ç ç ö ø ÷ ÷ ÷ (15) 未标记样本的模糊隶属度为 u u ik = β × 1 ∑ c j = 1 d 2 ik d 2 jk æ è ç ç ç ö ø ÷ ÷ ÷ (16) 聚类中心为 vik = ∑xk∈x d (θu L ik) 2 xk + ∑xk∈x u (βu u ik) 2 xk ∑xk∈x d (θu L ik) 2 + ∑xk∈x u (βu u ik) 2 (17) 第 5 期 姜婷,等:基于分布先验的半监督 FCM 的肺结节分类 ·731·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有