象。大量研究表明，复杂网络中存在着一种普遍特征———社区结构［４］。

正在加载图片...

第3期郑文萍，等：基于稠密子图的社区发现算法 ·427. 象。大量研究表明，复杂网络中存在着一种普遍特面的性能表现。基于归属度的中心社区扩展策略也征—社区结构。复杂网络中社区发现)不仅将应用在CPM、k-dense等基于密度的图聚类算法有助于深入研究整个网络的拓扑结构、功能模块以中，对未聚类结点进一步处理，以提高聚类有效性。及动力学特性，同时在生物蛋白质的性能与互作用的分析6、社会组织结构的网络分析)、搜索引 1背景知识擎[]及推荐系统[)等方面均有广泛的应用前景，因通常，一个复杂网络可以表示为图G=(V,E), 此具有十分重要的理论意义和应用价值。其中顶点集V={1,2,…,vn},n=V;边集E中每目前，社区发现算法的研究主要分为基于图划条边e,对应V中一对顶点(：，心)之间的连接关系，分的聚类算法[1o)、基于谱分析的聚类算法[2]、基 m=IEI。顶点v的邻域Nc()={u|(v,u)∈E}, 于层次的聚类算法[)]和基于密度的聚类算法[) 表示图G中与顶点v相邻的顶点集合，简记为V,。等。其中基于密度的聚类算法通过搜索网络中稠密结点：的度记为k,。除非特别指明，以下仅考虑简子图1能较好地发现网络中的功能模块，因此在社区发现中得到了广泛应用。2005年，Palla等161提单无向图，因此k.=NI。令UCV(G),用[U]G表出派系过滤算法(clique percolation method,CPM), 示G的结点子集U的导出子图，在不发生混淆时，首先挖掘网络中结点数大于k的所有派系（完全记为[U]。记顶点子集[U]在G中的邻域为图)，然后将重叠结点大于k-1的派系合并得到k Nc(U)={ulu∈Nc(x)Ax∈U}o 派系社区。2006年，Saito等[]提出k-dense子图结在复杂网络中，图G的密度[20]记为De= 构，通过寻找网络中的k-dense结构进行社区检测。 m 2009年，Sun等18以CPM为基础，通过改进寻找派 n(n-1)2。可以看出，D。∈【0，]，当D。越趋近于系的方法提高算法效率，提出迭代派系过滤算法 1,图G中的边数越多；当Dc=1时，图G为完全图。 iterative-clique percolation method,ICPM)2010 结点的点介数2B()可以用来度量结点年，Liu等I]提出基于极大团的聚类算法(cluste- 在网络G中的重要性。如果一对结点(：，)间共 ring-based on maximal cliques,CMC),通过搜索网络有L条不同的最短路径，其中有L()条经过中的所有极大团，并依据相互连接度合并重叠率较结点4，那么结点对结点对(：，)的贡献为高的极大团得到网络的社区结构。由于这些算法要搜索网络中的相对稠密子图来进行聚类，当网络中 L)/L0定义结点的点介数B(): 存在包含大量结点的稀疏子图时，这些结点可能最 B(u)= L两 (1)》终成为未聚类结点，造成了聚类结果的不完全覆盖。这些未聚类结点构成的稀疏子图可能具有某种功通常一个结点的点介数越大，则该结点对网络能，或者与某些稠密子图共同行使功能，因此需要对结构的影响越大。点介数是网络中结点重要性度量网络中的部分未聚类结点进行进一步分析，判断其指标之一。是否属于某一社区或形成新的社区。针对基于密度算法中大量未聚类结点问题，提 2结点对社区的归属度定义出一种基于稠密子图的社区发现算法(community 基于密度的图聚类算法中可能存在大量不属于 detection based on dense subgraphs,BDSG)。首先通任何已有社区的未聚类结点，为了将这些结点聚类过搜索网络中的相对稠密子图得到中心社区：对于到合适的社区，需要定义未聚类结点和社区的关联未聚类结点，定义了结点v对社区C的归属度b(, 强度，称为结点v对于社区C的归属度b(v,C)。归 C)来度量结点和社区的连接倾向程度：基于归属属度的定义对聚类结果的影响至关重要，结点，对度，给出一种中心社区扩展策略(core community ex- 于社区C的归属度越大，则结点属于社区C的可 tended strateg罗，CE),对未聚类结点进一步处理。 BDSG算法中，一个结点可能属于多个社区，是一种能性越大。软聚类方法。通过在空手道俱乐部、海豚社交网络、 Cui等2基于结点v与社区C关联边数定义了大学生足球网络、电子邮件网络和合作网络5个真结点对于社区C的归属度6，(，C)=N,nC,其实网络上与CPM、k-dense算法进行比较，评估和分 k 析BDSG算法在未聚类结点分配和社区模块性等方中N,∩C={ul(u,u)∈E,u∈C}表示结点v在社区象。大量研究表明，复杂网络中存在着一种普遍特征———社区结构［４］。复杂网络中社区发现［５］不仅有助于深入研究整个网络的拓扑结构、功能模块以及动力学特性，同时在生物蛋白质的性能与互作用的分析［６］、社会组织结构的网络分析［７］、搜索引擎［８］及推荐系统［９］等方面均有广泛的应用前景，因此具有十分重要的理论意义和应用价值。目前，社区发现算法的研究主要分为基于图划分的聚类算法［１０⁃１１］、基于谱分析的聚类算法［１２］、基于层次的聚类算法［１３］和基于密度的聚类算法［１４］等。其中基于密度的聚类算法通过搜索网络中稠密子图［１５］能较好地发现网络中的功能模块，因此在社区发现中得到了广泛应用。２００５年，Ｐａｌｌａ等［１６］提出派系过滤算法（ｃｌｉｑｕｅｐｅｒｃｏｌａｔｉｏｎｍｅｔｈｏｄ，ＣＰＭ），首先挖掘网络中结点数大于ｋ的所有派系（完全图），然后将重叠结点大于ｋ－１的派系合并得到ｋ派系社区。２００６年，Ｓａｉｔｏ等［１７］提出ｋ⁃ｄｅｎｓｅ子图结构，通过寻找网络中的ｋ⁃ｄｅｎｓｅ结构进行社区检测。２００９年，Ｓｕｎ等［１８］以ＣＰＭ为基础，通过改进寻找派系的方法提高算法效率，提出迭代派系过滤算法（ｉｔｅｒａｔｉｖｅ⁃ｃｌｉｑｕｅｐｅｒｃｏｌａｔｉｏｎｍｅｔｈｏｄ，ＩＣＰＭ）。２０１０年，Ｌｉｕ等［１９］提出基于极大团的聚类算法（ｃｌｕｓｔｅ⁃ ｒｉｎｇ⁃ｂａｓｅｄｏｎｍａｘｉｍａｌｃｌｉｑｕｅｓ，ＣＭＣ），通过搜索网络中的所有极大团，并依据相互连接度合并重叠率较高的极大团得到网络的社区结构。由于这些算法要搜索网络中的相对稠密子图来进行聚类，当网络中存在包含大量结点的稀疏子图时，这些结点可能最终成为未聚类结点，造成了聚类结果的不完全覆盖。这些未聚类结点构成的稀疏子图可能具有某种功能，或者与某些稠密子图共同行使功能，因此需要对网络中的部分未聚类结点进行进一步分析，判断其是否属于某一社区或形成新的社区。针对基于密度算法中大量未聚类结点问题，提出一种基于稠密子图的社区发现算法（ｃｏｍｍｕｎｉｔｙｄｅｔｅｃｔｉｏｎｂａｓｅｄｏｎｄｅｎｓｅｓｕｂｇｒａｐｈｓ，ＢＤＳＧ）。首先通过搜索网络中的相对稠密子图得到中心社区；对于未聚类结点，定义了结点ｖ对社区Ｃ的归属度ｂ（ｖ，Ｃ）来度量结点和社区的连接倾向程度；基于归属度，给出一种中心社区扩展策略（ｃｏｒｅｃｏｍｍｕｎｉｔｙｅｘ⁃ ｔｅｎｄｅｄｓｔｒａｔｅｇｙ，ＣＥ），对未聚类结点进一步处理。ＢＤＳＧ算法中，一个结点可能属于多个社区，是一种软聚类方法。通过在空手道俱乐部、海豚社交网络、大学生足球网络、电子邮件网络和合作网络５个真实网络上与ＣＰＭ、ｋ⁃ｄｅｎｓｅ算法进行比较，评估和分析ＢＤＳＧ算法在未聚类结点分配和社区模块性等方面的性能表现。基于归属度的中心社区扩展策略也将应用在ＣＰＭ、ｋ⁃ｄｅｎｓｅ等基于密度的图聚类算法中，对未聚类结点进一步处理，以提高聚类有效性。１背景知识通常，一个复杂网络可以表示为图Ｇ＝ (Ｖ，Ｅ) ，其中顶点集Ｖ＝ｖ１，ｖ２，…，ｖｎ { } ，ｎ＝Ｖ；边集Ｅ中每条边ｅｉ，ｊ对应Ｖ中一对顶点（ｖｉ，ｖｊ）之间的连接关系，ｍ＝｜Ｅ｜。顶点ｖ的邻域ＮＧ (ｖ) ＝ {ｕ｜ (ｖ，ｕ) ∈ Ｅ} ，表示图Ｇ中与顶点ｖ相邻的顶点集合，简记为Ｎｖ。结点ｖ的度记为ｋｖ。除非特别指明，以下仅考虑简单无向图，因此ｋｖ＝｜Ｎｖ｜。令Ｕ⊆Ｖ(Ｇ) ，用 [Ｕ] Ｇ表示Ｇ的结点子集Ｕ的导出子图，在不发生混淆时，记为 [Ｕ] 。记顶点子集 [Ｕ] 在Ｇ中的邻域为ＮＧ（Ｕ）＝｛ｕ｜ｕ∈ＮＧ (ｘ) ∧ｘ∈Ｕ｝。在复杂网络中，图Ｇ的密度［２０］记为ＤＧ＝ｍｎ(ｎ－１) ／２。可以看出，ＤＧ∈ [０，１] ，当ＤＧ越趋近于１，图Ｇ中的边数越多；当ＤＧ＝１时，图Ｇ为完全图。结点ｖｋ的点介数［２１］Ｂｖｋ ( ) 可以用来度量结点ｖｋ在网络Ｇ中的重要性。如果一对结点（ｖｉ，ｖｊ）间共有Ｌｖｉ，ｖｊ条不同的最短路径，其中有Ｌｖｉ，ｖｊｖｋ ( ) 条经过结点ｖｋ，那么结点ｖｋ对结点对（ｖｉ，ｖｊ）的贡献为Ｌｖｉ，ｖｊｖｋ ( ) ／Ｌｖｉ，ｖｊ。定义结点ｖｋ的点介数Ｂｖｋ ( ) ：Ｂｖｋ ( ) ＝ ∑ ｎｉ＝１ ∑ ｎｊ＝ｉ＋１Ｌｖｉ，ｖｊｖｋ ( ) Ｌｖｉ，ｖｊ（１）通常一个结点的点介数越大，则该结点对网络结构的影响越大。点介数是网络中结点重要性度量指标之一。２结点对社区的归属度定义基于密度的图聚类算法中可能存在大量不属于任何已有社区的未聚类结点，为了将这些结点聚类到合适的社区，需要定义未聚类结点和社区的关联强度，称为结点ｖ对于社区Ｃ的归属度ｂ（ｖ，Ｃ）。归属度的定义对聚类结果的影响至关重要，结点ｖ对于社区Ｃ的归属度越大，则结点ｖ属于社区Ｃ的可能性越大。Ｃｕｉ等［２２］基于结点ｖ与社区Ｃ关联边数定义了结点ｖ对于社区Ｃ的归属度ｂｐ（ｖ，Ｃ）＝Ｎｖ∩Ｃｋｖ，其中Ｎｖ∩Ｃ＝ {ｕ｜ (ｖ，ｕ) ∈Ｅ，ｕ∈Ｃ} 表示结点ｖ在社区第３期郑文萍，等：基于稠密子图的社区发现算法 ·４２７·

<<向上翻页向下翻页>>

点击下载：【机器学习】基于稠密子图的社区发现算法编辑部