模糊聚类分析 高新波 西安电子科技大学电子工程学院 2002年5月
糊聚模 析 类 新荒高分糊数学的产生和发展 我们知道,数学是从量的侧面研究客观世界的一门科学,因此,一提起数学, 人们自然会想到它是精确的。然而精确的数学有时不能有效地描述现实世界里 存在的大量模糊现象,例如;“好与坏”、“长与短”、“一大堆”、“一小撮”、“太 热”、“有点冷”、“比较甜”、“不太苦”、“物美价廉”、“地大物博”等等。 但是这些“量”在人们的头脑里的确有个“标准”,而且为人们所普遍接受。利用这 些模糊量非但不影响人们的信息交流,反倒能便于理解与记忆。 精确数学是建立在经典集合论基础之上的。根据集合论的要求,一个对象对 于一个给定的集合,要么属于(),要么不属于(),两者必居其一,绝不允许模 棱两可!由此而产生了我们熟知的二值逻辑,即对于一个“命题”,或者是真(真 值为1),或者是假(真值为0),两者必居其一。十九世纪由于英国数学家布 尔(Bool:1815一1864)等人的研究,这种基于二值逻辑的绝对思维方法经过抽象后 成为布尔代数,也叫逻辑代数,它用代数方法研究推理、证明等逻辑问题,它的 出现促使数理逻辑成为一门很有实用价值的特殊学科,同时也成为计算机的基 础。尽管如此,二值逻辑却无法解决一些逻辑悖论或诡辩问题,例如,著名的罗 素(Russell)“理发师悖论”问题,“秃头悖论”问题和“克利特岛人(Cretan)说谎悖 论”问题等等。 日常生活中的“模糊性现象的存在、逻辑悖论的发现以及海森堡(Heisenberg) 测不准原理的提出导致了多值逻辑或“模糊逻辑”在二十世纪二三十年代的诞生。 量子理论学家在二值逻辑的框架中引入第三值或中间真值来表示不确定性。并进 一步引入了不确定性程度,把真假看作不确定性的两个极限情况。 二十世纪三十年代早期,波兰逻辑学家卢卡塞维克兹(Lukasiew icz)首次正 1
DZ DZ DZ DZ DZ DZ DZ DZ DZ DZ
式提出了三值逻辑体系,把逻辑真值的值域由{0,1}二值扩展到{0,1/2,1}三值, 其中1/2表示不确定。后来,他又把真值范围从{0,1/2,1}进一步扩展到0,1]之间 的有理数,并最终扩展为0,1区间。逻辑学家们利用常用的真值函数t:{命题}→ [0,1]来定义连续或“模糊”逻辑,并对该体系命名为L[] 量子哲学家马克思·布莱克(Max Black)利用连续逻辑为集合中成员赋值。可 以说,历史上布莱克第一个构造了模糊集的隶属度函数。布莱克称结构的不确定 性为“模糊性(Vagueness)”。 1965年美国自动控制专家、数学家扎德(Lotfi A.Zadeh)发表了他的论文“模 糊集”[2],正式提出了多值集合理论,并把“模糊(Fzy)”一词引入技术文献中。 从而掀起了多值数学结构研究的第二次浪潮,研究兴趣遍及系统到拓扑的各个方 面。此后的二三十年,随着模糊商业产品和新理论的不断涌现,形成了多值系统 研究的第三次浪潮。 扎德的主要贡献在于把模糊性跟数学统一在一起3]。模糊数学决不是把已经 很精确的数学变得模模糊糊,而是用精确的数学方法来处理过去无法用数学描述 的模糊事物,因为在现实世界里(例如要测量一个物体的长度)要想绝对精确是 不可能的,实际上也就只能将所谓的不准确程度降低到无关紧要的水平罢了。扎 德充分注意到这一点,他的观点不是让数学放弃严格性去迁就模糊性,而是要把 数学方法打入具有模糊现象的“禁区”里去,也就是让数学回过头来吸取人脑对于 模糊现象识别和判决中的优点,这样就为电子计算机开辟了进一步模拟人脑思维 特点的道路,使它更加“聪明”了。 模糊数学从它诞生的那天起,便和计算机的发展息息相关,相辅相成。没有 电子计算机,就没有模糊数学;没有模糊数学,计算机的应用也会大大受到限 制。因为利用模糊数学构造数学模型、来编制计算机程序,可以更广泛、更深 入地模拟人的思维。而且,模糊数学既认识到事物“非此即彼”的明晰性状态,又 认识到事物的“亦此亦彼”的模糊性状态,因此它的适应面也就比传统数学广泛的 多。迄今为止,模糊数学已在模式识别、自动控制、信息处理、天气预报、地震 研究、人工智能、医疗诊断、农作物选种以及心理学、生态学、语言学等多种领 域内得到应用。 当前,模糊数学的研究领域可大体分为三个方面[4:模糊数学理论及其与经 典数学、统计数学的关系;模糊语言和模糊逻辑:模糊数学的应用等。尽管模糊 2
Æ ! ! ! " # DZ" # " # Æ DZ"#$ %& DZ DZ' ( ) *$ +,- "!# . / "0# DZ Æ ! " !" DZ# #$ # DZ DZ $ !% %DZ DZ &ÆDZ "# !
数学诞生很晚,但其发展十分迅速。1978年,zadeh教授提出倒但能性堆论,闸述 倒随机性和但能性的区别。和被认为是模糊数学发展的第二个此程碑。但能性堆 论的出现为模糊数学更广泛地应用于模式识别和其他领域提供倒强有力的堆论基 础和有效的工具。 目前,尽管模糊数学已在我面的学及社会的学领域内获得倒广泛的应用,但 它的堆论体系和推广应用仍处于发展之中。和需要我展数堆论和实践点个方面 进发研数妃,发展它和完善它。 数学想界知侧究,量式识别 随着现代的学、特别是计算机的学的发展,社会的学与我面的学之间,正在相互 渗透,形成许多新的边缘学的。其中物具生命力的,莫描信息的学,因为它用道 化公式把们的思维过程表现倒出定。和样,配合以现代电提计算机的巨大信息存 贮能力,便但以解决许多们的才智所不能解决的复杂问题。有们说,和是发个脑 力延伸的时代,门实发点也不过分。 信息的学的物新发展表明,建撮在概率论基础流的香农(Shannon)信息论,只 着重表达倒信息的传递,但难以表达信息本身的含义。而信息的学不仅要研数后 息老”的问题,更重要的还在于信息的结构,即信息的定性描述问题。和就涉及 到信息的提取、描述、推堆、判断和决策等富有挑战性的处堆工甜。在信息处堆 发领域中,模式识别起着举头轻重的甜用,具有信息感糊堆解等处堆功能, 是研数信息结构与含义的重要工具[可。 模式识别(Pattern Recognition)是本世纪六十年代初迅速发展起定的、与高技 术的研数妍发有着密切联系的发]新兴学的。它所研数的堆论和方法在很多的学 和技术领域中得到倒广泛的应用,推动倒们工智能系统的发展,多大倒计算机应 用的领域,在向们类智能逼近发永恒的前沿课题中占有发席之地。但以说,在 高度我动化的今天,模式识别已经几乎进名们类生活的各个领域[⑥。 挨式”(Pattern)和个词与保护神(Patron)定我同发词根,本意是指供 模仿用的堆想标本[☑。因此,形象地讲,模式识别是指从待识别的对象中分辨出 哪个对象与标本相同或相似。们脑就是发但靠的识别系统,们展在感受外生现 象的时候,为要把它展避行分类,即把相似而又不完全相同的现象分成发媳。和
"(1 ,-&# DZ DZDZ ! Æ ' $! ! DZ #( ! " ! 2- "' %(' ! ) " " # # * "! !" !"# 3 $"! !! "%+"#!# $DZ ! %,$ "" # 3 DZ%3 % " "1#DZ-%) & &$ & ""&" 0
例,比入一实中面入糊如体和模象之间述长某论方”是率似糊提糊学织要熟悉模 象中且量面及糊代领,就面会模象领成实糊概念,正是糊门糊这种面缘才构成1 连糊概念提显和分永代提建立和疗别1六糊重要础础和手段,不 此1连疗别与分永是密贮率处糊提此外,战何一(展都要通成分永域建立数己 糊概念,成要通成分永域发模和述结规g提这莫,世且一种只长缘糊工具,分永 糊面数1长可分重要糊潮并提 者究:、研量究数侧类 1连疗别表路称世1连分永,会处要问题糊明质和解决问题糊方法国角函,1连 分永也分且长监督糊分永的师促园代双纸c和无监督糊分永促d 代双c题种提 利取长监督糊分永,表称且长教师糊分永或长指导糊分永提比这永问题中, 称知1连糊永别和某论莫本糊永别属明,扩先用称知糊莫本机分永区去进行习 或训练,克该分永区去面够机这论称知莫本正之分永,和出用展购好糊分永区去 机未知糊莫本进行分永提这就要求人学机分永糊问题长足够糊先验知疗,产要世 到这一或,往往要付出率当合糊代价提 比长先验知疗糊情义下,则需要借助无监督糊分永技隶提无监督糊分永表 称且聚永分析代促此是本商将要面数糊主要内占提会展賄糊认区图 上又,聚永分析属便信上有展这棵合树上1连疗别这一分支中糊一前树叶提希望 本商糊面数麵且丰富和发展信上有展这一前沿展斯们到一管糊推回世用,面且完 善和提高1连疗别这一实用明极只糊数回化技隶们到积极糊和进世用提比展开讨 。之前,扩先让人学机聚永问题世一简要介指提 聚永分析糊础本概念骤永就是按照一管糊要求和规g机浪如进行展分和分 永糊成程,比这一成程中e长战何处便永分糊先验知疗,e长教师指导,仅靠浪 如间糊率似明世且永属划分糊准则,不此属便无监督分永糊范畴提聚永分析则是 指用量展糊方法面数和处要碑管机象糊分永提 糊出群分,如出永聚从聚永是一把古老糊问题,里伴控着糊脉社不糊命生 和发展产面断深化,糊脉要着疗世生就逻须展别面入糊浪如并着疗浪如间糊率似 明费聚永分析是及元去计分析糊一种,成是非监督1连疗别糊一把重要分支提 但
Æ & DZ " #" ) " '* "!#'+ " . "(DZ !" !" " & / "DZ0,"245, )0,"645, ) 0,"DZ&"%"" ""$""! %% "#"!" """ "#$& ## $& $&'' DZ(0,"0," DZ2"$ * / $% 2"$ &() (#&' DZ% ! DZ ! )) $2"3 4% 2"$ 2" * (" " #'"$&&%)$ &DZ"*'0,"'2"$' % " &"22"&' " " ( & "#2"$$$0," )
此是学提农想仿广标)的莫实集所某本发则划统过践干提和集题仿维我使率似的 莫实尽可因归真学仿我我会率似的莫实尽而划统到会早的仿法提 逼统的聚仿统析从学本硬划统代对P哦此是每提积候断的对象目格 标划统到某仿法我具想非好8化的明古我研好把本仿广划统的。限从统明的提我 存际上便多数对象和农想目格的属明我此起效明得r仿属维能存效着法介明我具 想迅好迅化的明古我研好适0进行巨划统提其(集法论的这出真把本巨划统这完 构想功的统析晚具我数起富始象其(的维推来处法聚仿准证我和称非真其(聚仿 统析提性于其(聚仿化到构莫实属于系提仿广的会确定明活度我表何构莫实仿属 的法介明我8建发发构莫实对于仿广的会确定明描地我更因个学标反映模存的 。我不我过真聚仿统析面,的主流黑 想g其(聚仿的面,模状知起将效极四章法详细介今提 究价学,量是长客的意义 虽说聚仿统析应象于其诞断广的到间会糊我成此和非学提新内新我该已时应象效 与此科法提D对J场于聚仿统析的综地包括构不77份沿志r蕻书法摘 尽出来的橼兴文峨如好巨便的文献而说明构聚仿统析的重信明r交叉展料 明我也足以说明此的问展应象间景的广阔明提 早到我6际r6又的展赌都对聚仿统析的面,非机重视我IEEE的”刊法其 诞统析现机意富因PAMI侈A对刻M导宛瓷物系统物数 r复制的M俗y宽对M多代傲物其(系统使S维炒Sy宽物 传经网络的N堆N妞N断低物信d处法的P缁炉P尤双等沿志法几乎 每期都想待论聚仿统析准证的文章提不到9联翔富始的性EEEr传经网络法事”共 早主生的FUZZ-IEEE”议我每两用召富学处我每处至仅性3到提专证待论聚仿r 其(聚仿统析的面,进展r问展模状提另外我知6之真其(数面,的便6我会 仅效基基法论面,上尽化构丰硕的过我我且效其(聚仿等的应象面,上迅令数 瞩配我比如基于其(聚仿的天气需它物矿藏断广r延展趁断等等提真构积兴程 题其(维聚仿统析的面,价潮我6家糊出科展基金委[专脑对淇(聚仿的新维推 面,发构项题批发d问鸽但離我重或资助知起的面,提效把莫的背景下我面 ,题其(维聚仿统析的意义也就会言我喻构提 点
" '*''" & +DZ"&* " %2"$%*4 3)& DZ*" ! &"* " 4! &!"(* DZ(* $!* 2"DZ2" $2" "'" 4 "DZ& DZ2"$"(# 2"DZ+ )(4% ,2"$ 782"$Æ(11(!,- - !)"#(2"$" ( 5) +2"$".9:::* $3*%9 3 * / , %- 9 2% 2/;9:::'./)0)2" 2"$ DZ ) %/-2" 0 2"+) DZ) 2"$ 6+"2" *, (1! "1( 5' 2"$(
一,为人数量这们此到 模(聚类理(的发展推动了它最迁产实践中的应用,反4来实亦应用的需求又促 意了模(聚类理(的研断丰富和结善/随着理(的发展,模(聚类已经最诸多领 域获得了k泛的应用,取得了满意的效h和可“的效益/其应用范围涉到紧讯 系统中的信道均F[1]L矢量量z编码中的码书设义[12,13,14L其已序列的预 新[15,16L神经网络的训练[17,181L非线性系统辨识19L参起估义201L医学诊 断[21]L天气预报22]L食品分类231L水质分既24等众多领域/最此,究,只简 要介绍模(聚类最模式识别和今象言理中的应用情况/ 1童模的聚类在模式识别中的应用 模式识别中两大主要的分支为作监督的分类和绝监督的分类,而其中绝监督分类 与聚类分既相对应/正能由于模(聚类与模式识别的天然联系,迄得它首先最模 式识别领域获得了续功的应用 模式识别中自个最重要的经题能特征界取,模(聚类研但能从原始起由中直 用界取特征[25],「能对已经得到的特征意行优选和语维操作[26,以免造续“维起 灾难”t最界取结特征后预需要设义分类器,模(聚类农法既可以界供最近邻原 型分类器27,28,「可以用来特征空已A分和模(9则界取[29,以构造1于模 (IF-THEN9则的分类器30,31,32]t最物体识别5线条检新中,模(聚类既可 以直用作用于原始起由上33,34,35,36,37],也可以用于心y域中,比如lough心 y自直平峰值检新的困绕,Jolior[38界献1于模(聚类的检新方法,于业了把自 难题,迄得Hough心y可以自动执行,方便快捷t另将最研心性模式识别中也作 聚类方法的报道/ 最自些具体的识别应用中,模(聚类也取得了在)的效h,比如3字字符识 别中的字符预分类[39,40]t语音识别中的分类和匹配41,42]t雷达目象识别中目 象库的要立和新到目象的Z类43,44等等,最此研再自自列举 1产意模的聚类在图象处理中的应用 今象言理能义农s视觉的重要组续部分,由于人眼视觉的主“性迄今象适0用模 (手段言理,训练样本今象的匮乏又需要绝监督分既/模(聚类正)满足把两方 6
2" ' 2" % 2"2 -) + 7."#0 ! !-*"!?:=('""0< 0< 0!#Æ,)8 2"$ 5*"00< 0< 0< 0 < 01#/ - /5 +8/+8 "0# 2"8 -/6" 09 2" !Æ 2" -0, ,""0(< #+ ""< !#1' 2 +""0< # ,,* % .:" ,-.:%! '* %%% - 0,$2"
面的要求,因此成为图象处理中一个强大的分析工具。 模别聚类在图象处理中最为广泛的应用为图象分割,由于分割问题可以等 效为象素的无监督分类,因此早在l979年Coleman和Andrews就提出用聚类算法 做图象分割45],此后又涌现出如基于二维直方图46,47]、塔型结构[48,49]、小 波分析[50]、分形分维[51]、空间约束52]、可识性理论[53和有效性指导54等一 系列的灰度图象的聚类分割方法。在纹理图象[50、彩色图象[55,56、序列图 象571以及航空遥感图象[58,591等分割方面也获得了很大的进展。 另外,基于模别聚类的方法在边缘检测[60,35,61]、图象增强[62]、图象压 缩[63]、图象平滑[64、图象匹配[6]等众多方面也同样取得了丰硕的成果。 随着应用的发展,对模别聚类理论又提出了许多新的要求,因此必须进一步 丰富和完善聚类理论、指导实际应用,使携别聚类更处地服务人类。 7
DZ% $! 2"% DZDZ%.. DZ0," (1( ;*, 2" %."# 5 %" < 1#2"< (# $"# "#.-3"!# "0# %"# ,1%2". , %"#-,%"< #,% "1#2..%"< (# . 2" ! 8" < 0< #%7" !#%. 4" 0#% 3" #%" # 3 %/- 2" ( %2" %2"DZ/-" 1