D0I:10.13374/i.issm1001-053x.1993.05.035 第15卷第5期 北京科技大学学报 Vol.15 No.5 1993年10月 Journal of University of Science and Technology Beijing 0ct.1993 复杂过程分析的模糊聚类分类器 设计及其性能 郑慧民”倪涛*孙铁*瞿寿德* 摘要:本文采用模式识别方法推断新烧结矿质量。在给出模糊系统聚类分析算法基础上、用软 件实现了基丁模脚聚类分类器和动态聚类分类器,并用现场实测的样本采用“留一法”分别对 这两种分类器性能进行检验。结果表明:模糊聚类分析法对了先验知识较少、样本量不大 时、性能较佳。 关键词:模糊聚类分析,分类器,设计,性能/模式识别、动态聚类分析 中图分类号:TP274:0159 Design of Fuzzy Classifier for Complicated Process Analysis and Its Performance Zheng Huimin'Ni Tuo'Shun Tie'Qu Shoude ABSTRACT:Application of pattern recognition and AI is a promisive approach to this problem.In the paper,pattern recognition method is used to test the quality of sinter.On the basis of the algorithm of fuzzy clustering analysis,the classifiers based on fuzzy clus- tering and dynamic state clustering in microcomputer are set up.The performance of the classifiers is tested.The results show that.in the case of lacking priori knowledge,fuzzy clustering analysis is superior to dynamic state clustering analysis when the number of sam- ples is small. KEY WORDS:fuzzy clusteing analysis.classifier,design,properties /pattern recognition. dynamic state clustering 对于复杂系统的分析与控制,由于难以建立精确的数学模型,用传统的控制方法往往 难以奏效,有希望的途径是利用模式识别和人工智能方面的综合成果。80年代初, Saridis GN专门撰文论述了这一课题。我国也有一些成功地应用统计模式识别方法来 解决化工生产过程控制问题的例子别,但多采用线性分类器,对于烧结过程质量推断效果 *1992-0409收藤第一作者:女.28岁,讲师,博士 +国家台然科学基金资助项目 *力动化系(Department of Automation)
第 巧 卷第 期 年 月 北 京 科 技 大 学 学 报 刊。 、 咧 复 杂过程分析的模糊 聚类分类器 设计及其性能 郑 慧民 倪 涛 ‘ 孙 铁 ‘ 瞿寿德 ‘ 摘要 本 文 采用 模 式 识别方 法推 断烧结 矿 质量 。 在给 出 模糊 系统 聚类分 析算 法基 础 卜 , 用软 件实现 了基 于模糊 聚类分 类 器 和动 态 聚 类 分类 器 , 并 用现场 实测 的 样本 采 川 “ 留 这 两 种 分 类器性能 进 行 检 验 。 结 果 表 明 模 糊 聚 类分 析 法 对 于 先 验 知识较 少 、 时 , 性能较佳 。 关键词 模糊聚类分析 , 分类器 , 设计 , 性能 模式识别 , 动 态聚类分析 中图分类号 一 法 ” 分 别对 样 本笙 不 大 丁、 人 ‘ 百、 户 八 理 刀召加 , ‘ 几 。 ‘ ,, ’ ‘ 决 ‘ , , 几 , , , 犷 , , , 对于 复杂 系统的分析 与控制 , 由 于难 以建 立精 确 的数学 模型 , 用 传统 的 控制 方法 往往 难 以 奏 效 , 有 希 望 的 途 径 是 利 用 模 式 识 别 和 人 工 智 能方 面 的 综 合 成 果 。 年 代 初 , 专 门撰 文 论述 了这 一 课题川 。 我 国 也有 一 些 成功 地应 用统计模 式识别方法来 解 决化工 生 产 过 程 控 制 问题的 例 子口,但多 采 用 线性 分类 器 , 对 于 烧结 过程 质量 推断效果 卜 】 一 一 收 稿 第 一 作者 女 岁 , 讲师 博 十 十 四 家 自然 科 学 基 金 资助项 月 ‘ 门 动 化系〔 丈 DOI :10.13374/j .issn1001-053x.1993.05.035
·522· 北京科技大学学报 .1993年No.5 不佳。 聚类分析是模式识别中发展较早的方法。由于其有效地处理了非监督学习问题,且对 于模式分布情况知之甚少,难以确定分类器形式时,往往先进行聚类分析。试探法是最简 单直观的聚类方法,但需凭经验确定阈值,,且对初始样本的选择及排列次序和儿何分布敏 感;系统聚类法存在阈值和相似性度量方法的选择;动态聚类法中K均值法按均方误差 最小聚类,适用于样本成团且各类样本数相当的场合而模糊聚类可以避免阈值选择,可以 确定最佳相似性度量准则,并通过寻求最佳人入截矩阵而获得最佳分类。 1 烧结矿质量分类系统的构成 利用模式识别方法对烧结矿在线质量推断的系统如图1所示 改进分析方法 训练样本集 特征选择 聚类分析 的获取 预处理 和提取 错误率检验 训练过程 识别过程 在线获取 特征选择 结果输出 待识别样本 预处理 和提取 分类决策 图1烧结矿质量分类系统构成框图 Fig.1 The configuration of sorting system on quality 任何一个模式识别系统均由训练过程和识别过程两部分组成。首先在现场获取大量样 本形成训练(学习)样本集,再对其进行量纲统一、数据归一和加权等预处理,对样本进 行规范化,以便下级处理。由于烧结矿涉及的因素很多,每个样本维数较大(19维)为 避免“多维计算灾难”,对样本特征进行了初始挑选和基于类均值向量和类中心化特征向量 方法的特征提取,从中提取分类所需信息,:降低空间维数,减少分类器设计的计算量和分 类时间,提高分类速度。在经压缩后的特征空间上再进行分类器的设计。本文采用两种聚 类分析方法进行分类器设计,以比较本文给出的模糊聚类分析方法对处理象烧结过程这种 离散度大,而先验知识又较少时分类的有效性。本文采用模糊系统聚类法对训练样本集进 行分类。 识别过程对于在线采集的待识对象,经过与训练过程相同的预处理、特征选择和选取 方法,形成特征空间的一个特征向量,再由k近邻准则识别其属于何类,从而实现在线 推断烧结矿质量。 2模糊聚类分类器的设计 模糊聚类分类器设计由下列步骤构成
北 京 科 技 大 学 学 报 年 不佳 。 聚类分析是模式识别 中发展较早的方法 。 由于其有效地处理 了非监督学 习 问题 , 且对 于模式分布情况知 之甚少 , 难以确定分类器形式时 , 往往先进行聚类分析 。 试探法是最简 单直观 的聚类方法 , 但需凭经验确定阂值 , 且对初始样本 的选 择及引咧次序和儿何分布敏 感 系统 聚类 法存在 阂值和 相 似性度量方法的选择 动态 聚类法中 均 值捧按均方误差 最小 聚类 , 适用 于样本成团且各类样本数相当的场合而模糊 聚拳可 以避免闽值选择 , 可 以 确定最佳相 似性度量准则 , 并通过寻求最佳人截矩阵而获得最佳分类 二 · 烧结矿质量分类系统的构成 利用模式识别方法对烧结矿在线质量推断的系统如 图 所示 · 改进分析方法 训练样本集 特征选择 的获取 和提取 在线获取 特征选择 待识穷样本 和提取 、 图 烧结矿质量分类系统构成框图 , 。 曲 址 七 加 住 灯 任何一个模式识别 系统均 由训练过程和识别过程两部分组成 。 首先在现场获取 大量样 本形成训练 学习 样本集 , 再对其进行量纲统一 数据归一和加权等预处理 , 对样本进 行规范化 , 以 便下级处理 。 由于烧结矿涉及 的因素很 多 , 每个样本维数较大 维 为 避免 “ 多 维计算灾难 ” , 对样本特征进行了初始挑选和基于类均值向量和 类 中心化特征向量 方法的特征提取 , 从中提取分类所需信息 , , 降低空间维数 , 减少分类器设计的计算量和分 类时间 , 提高分类速度 。 在经压缩后的特征空何上再进行分类器的设计 。 本文采用两种聚 类分析方法进行分类器设计 , 以 比较本文给 出的模枷果类分析方法对处理象烧结过程这种 离散度大 , 而先验知识又较少时分类的有效性 。 本文采用模糊系统聚类法对训练样本集进 行分类 。 识别过程对于在线采集的待识对象 , 经过与训练过程相 同的 预处理 、 特征选择和 选取 方法 , 形成特征空 间 的一个特征 向量 , 再由 近邻准则识别其属于何类 , 从而实现在线 推断烧结矿质量 。 模糊聚类分类器 一 的设计 模糊聚类分类器设计 由下 列步骤构成
Vol.15 No.5 郑慧民等:复朵过程分析的模糊聚类器设计及其性能 ·523· 2.1确定分类对象间的最佳相似性测度r 在N个样本的D维特征空间,确定r(ij=1.2.N) 计算r的方法很多,常用的有下列几种: (1)绝对值减数法r,=1一CΣr术 -I 其中适当选择C、使r,0.1]且尽量分散。 (2)贴近度法: 格贴近度: g三 (,)=Vxx人[I-六(VaVXa】 61 距离贴近度: fn=1-C[d(x,x,月 其中C、x为适当选择参数、d(x,x)为模糊集各种离.在此采用欧氏离·即: d(x)=[∑(k-x)]ミ 11 (3)指数相似系数法 =六三wpi-9川 Sk 其中:适当选择S (4)相关系数法 ∑(r4-下,rR-下k) 其中:下,=Σxm [∑(x-,)][∑x4-,)]: 下,市Σ X,k (5)最大最小法 rn=∑(人心k)/∑·心A) t-i (6)非参数法:令X'=下A一从=N一下, nn-分别为x'r'术'x'…xb'xD中正负数的个数、则、 =1+”) 计算步骤为: (1)先任选上述1种求模糊相似阵R=(r) (2)找R的等价矩阵R、其算法如下:计算R、K…,直至R=R时,R
郑慧 民 等二 父 杂 过程分析 的 模糊 聚类 器设计及 其性能 · · 确定分类对象间的最佳相似性测 度 ’ 在 个样 本 的 维 特征 空 间 , 确 定 二 之… , 计算 ’ 的 方法很 多 , 常用 的有 下 列 几 种 绝对 值减 数法 厂 二 一 艺 、 ,、 一 为 、 其中适 当选 择 使 八, , 且尽量分散 。 贴 近 度 法 格 贴近 度 一 …乙 ‘ ’ 、 丫 伙 ,、 厂人 、 、 八 一 八 ,、 丫二 ,、 距离 贴近 度 厂 , 一 二 ,二 , “ 其 中 , 为适 当选择参数 、 , 丫丫 为 模糊集 各 种趾 离 , 在此 采 用 欧 氏距离 , 即 、 丫 一 「工行 、 一 一 、 〕 ’ 厂 指 数相 似系数法 怎 从 一 工 从 、 , 户 、 以 ‘ 一 、一瓦份甲’ 一 ’ 其 中 适 当选择 从 相 关 系数法 艺仕 、 一 万 二 、 一 万、 工 了、 一 万 ’ 工 、 一 万 ’ 其 中 万 一 乏 工 人 穴 丫 一 一 二万 入 艺 工 、 最 大最小法 。 一 工 二 、 八勺 、 力 丫‘ “ 古 一 非参 数法 ,, 一 分 别 为 令 工 ‘ , 、 、 二 工 活 一 一 人 丫 六 一 工 少 产 、弓 二 , , 八 工 ‘ 一 过 户 · , 二 、 万 中正 负数 的 个数 , 则 , , 一 李‘ 十 矛老 , 一 十 一 计算步 骤 为 先任选 上述 种 求模糊 相 似 阵 一 找 的等 价矩 阵 关 · 其算法 如 下 计 一 算 六 一 , 直至 左 一 左 时 , ‘
·524· 北京科技人学学报 1993年No.5 即为R· (3)计算总编差:N(R)=∑(F,-r) 半均偏秦:NR)=N(R)/N: 相对总偏素:(R)=∑(F,一rn)/r 平均相对总偏差:t(R)=(R)/N? 其中:R=(r)yx,R=(fn)x 形成偏差向量L:(N(R)N(R),x(R),(R) 找最小的偏差向量所对应的州似性度量作为衡量尺度、对应的等价阵化为R 2.2聚类 道过子找最住:倒值(截囚子形成在”截集下的分类,即为所求最住分类、算法 如下: (1)给定·个天的值范固[1小、方(01)i=12并按从人到小排列R中的元素得, 计所取:的个数、按个取、直取完。 (2)分别计算在方水平下的一个等价类C,的云偏差S和i似阵R的偏差度S S,=max{大-之lu1l,∈C,r1<} Sk,=max{SlC,为么水K下的每个等价类} (3)比较诸下的S(R)找对应min{SR,元∈[,元:]}的六即·,此时分类即为 最佳分类。 2.3决策规划 设K,(i=1.2,表示K个近邻模式中属于",类的样本数,待识样本为x。 (I)计算d()=i-kik=1,2…N 其中表小示模式集中的第k个样本 (2)将r)按升序排列如下: l(x)<drtl、(r) 取其前k个i、并定义判别函数为:g=K,i=12…,c (3)若g,(r)=mxg,x以.i=1,2,c则.x·w, 3动态聚类法 基于一均值果类算法设计k一的近邻分类器山下列步骤元成: (1)选择任意K个样本作为初始聚类中心乙1).Z,(1),…,Z(1) (2)遂个将所有的样本x按最小离分给K个聚类中心的某个Z,(1以对于k次迭代: 若∥-Z(k)∥<-∠,(k)!i=I2…K、且≠j则xS,(R) (3)计算各类新的中心∠,(k+I).i=1.2…k
科 于支 人 学 学 报 年 , 即 为 ‘ 计 算总 偏差 二 工 ‘, 一 ,, 平均 偏 差 之 “ 相 对 位 、 偏差 “ 艺 户 ‘ , 一 ‘, , 平均 相对总 偏差 武 二 刊 其 中 二 , · ‘ 、 、 、 , “ 二 户 ,, ‘ 、 、 , 形 成 偏差 向量 , , 万 找最 小的偏差 向最 所 对 应 的相 似性 度量 作 为衡 量 尺 度 , 对应 的等 价 阵化 为 ’ 聚 类 通 过 挤找 最 佳 只 闺 仇 只 ‘ 截囚 子 形 成 在 只 ‘ 截 集 下 的 分类 , 即 为 所求 最 佳 分类 , 算 法 如 一 卜 给定 一 个 之的 八范 围卜 , 处 , 只 , , , 并按 从大 到 小排 列 ’ 中的元素 得 元 , 计 听取 泛 的 个数 , 按 个取 只 直 至取 完 。 分别计 算 在 只水 平 下的 一 个等 价 类 的 只偏 差 凡 〔 , 、 ,和 相 似 阵 的偏 差度 ‘ , 、 只一 又 ,, ‘,, , ‘,, 。 武 , , 只 , 以 , , 为只水 书 一下的每 个等价类 比较诸 元下 的 只 找 对 应 ,, 之。 元 , 只 的 之即 只 ’ , 此 时 分类 即 为 最 佳 分类 。 决 策规划 设 凡 , , … 、 · 表 示 个近 邻模式 中属 于 、 , 类 的样 本数 , 待识样 本 为 , 丫 。 计 算 试 、 二 、 一、 、 , 左 , 一 其 ‘ 一 , 丫 表示 模式集 中的 第 个 样 本 将 ‘ 劝按 升序排 列 如 卜 劝喊…成 、 卜 · 戈, , 、 取 其 前 个仇 , 并定 义判 别 函 数 为 , 、 “ ,, 二 , , … , ’ 若 , 丫 狠 ‘ , , 一 ‘ · 则 · 丫 ‘ ,,, 动态聚类法 摧 几 人一 均 故聚 类 算法 设 汁 一 的近 邻分 类器 山下 列步骤 完 成 选择任 念 个样 本作 为初 始聚 类 中心 , , 二 , 逐 个将 所 有 的样本 、 按 最 小即 离 分 配 给 个聚 类 中心 的 某 个 , , 对 几 次迭 代 若 一 汁 算 各类 ‘ 、 一 新 的 中心 , 十 … 、 凡 且 片 则 刀 匀
Vol.15 No.5 郑慧民等:复杂过程分析的模糊聚类器设计及其性能 ·525· az收+1》=三Xy=12K 其中:N为S,(k)中样本个数。 (b)若Z(k+1≠Z,(k)返回(=)直至Z(k+1)=Z,(k) (4)对于待识样本如上节k一近邻决策规则判别该样本属于何类。 4实例分析 我们从唐钢烧结车间现场采集了大量的原始数据、并从中整理抽选出59个样本用于 分类器的设计。经过图1所示的预处理及特征选择和提取后形成59个7维的特征向量、 并循环采用“留一法”设计分类器并对其性能有效性进行检验,即从第一个样本开始,选择 1个作为考试样本,剩下的58个用于训练样本,进行分类器的设计和性能检查,直至所 有样本均选择完毕。根据(1)式计算分类器的正确率。 A=正确分类的样本数 (1) 样本总数(N) 其中:A为正确率 在本例中N=59,正确分类的样本数为每次设计分类器后检验考试样本正确分类的 次数之和。 5 结束语 计算机运算结果表明:基于模糊系统聚类器分析的分类器正确率高达81.5%,误识率 为18.5%:而基于动态聚类分析器正确率为76.3%误识率为23.7%。从模糊聚类分析过 程可以得到,对于烧结矿质量推断,采用绝对值减数法作为相似性度量方法进行聚类不仅 计算简便,而且效果也好。 参考文献 1 Saridis G N.Application of Pattern Recognition methods to Control Systems. IEEE Trans on Automatic Control,1981.(3):638~645 2邵惠鹤.模式识别在甲醛生产优化控制中的应用.自动化学报,1989(2:161~164 3李国机等.模式识别技术用于工业生产调优.信息与控制,1989(3):54~56 4胡泽新等.模式识别在过程控制系统中的应用.信息与控制,1990(6):30~34 5翟寿德等.模式识别应用于在线推断烧结矿质量.见:1992年控制与决策会议年会 论文集.哈尔滨:1992.96~100 6汪培化等.应用模糊数学.北京:北京经济学院出版社、1989 7檠元龙.模式识别.西安:西北电讯工程大学出版社,1986
郑慧 民等 复杂过程分析 的模糊 聚类器设计 及其性能 · 、 一 牛了 艺 护二 ,么… , 其中 凡 为 乓 劝中样 本个数 。 若 乙 举乙 劝 ,返 回 二 ,直至 乙 二 各 对于 待识样 本 如上 节 一近邻决 策规则判别该样 本属 于何类 。 实例分析 我们 从 唐钢烧结 车 间现场采集 了大量 的原 始数据 , 并 从 中整理抽 选 出 个样 本 用 于 分类 器 的设计 。 经 过 图 所示 的预 处 理 及 特 征选 择 和 提 取 后 形 成 个 维 的特 征 向量 , 并循环采用 “ 留一 法 ” 设计分类 器并对其性能有 效性进行 检验 , 即从第一 个 样 本开 始 , 选择 个 作 为考试样 本 , 剩 下 的 个用 于 训 练 样本 , 进 行分类 器 的设计 和 性 能 检查 , 直至 沂 有 样 本均选择 完毕 。 根据 式计算分类器 的正 确 率 。 正确分类的样 本 数 样本总 数 其 中 为正 确率 在 本 例 中 二 , 正 确 分类 的样 本数 为每 次 设 计分类 器 后 检 验 考 试样 本正 确 分类 的 次数 之 和 。 结束语 计算 机运 算结 果 表 明 基 于 模 糊 系统聚 类 器 分 析 的 分类 器正 确 率 高 达 ,误识率 为 而 基 于 动 态 聚 类 分 析 器正确 率 为 ,误识率 为 。 从模糊 聚 类 分析 过 程可 以 得到 , 对 于烧结矿 质量推断 , 采用绝 对值减数法作为相 似性度量方 法进 行 聚类 不 仅 计算简便 , 而且 效果 也好 。 参 考 文 献 , , 邵 惠鹤 模式识别在 甲醛生 产优化控制 中的应 用 白动 化学报 , 一 李 国 机等 模式识别技 术 用 于 工业 生 产调 优 信息 与控制 , 一 胡泽新等 · 模式识别在过程控制 系统 中的应 用 信息 与 控制 , 一 瞿 寿 德等 模式识别 应 用 于在线 推 断烧结 矿 质 量 见 年 控制 与决 策会议 年会 论文集 哈 尔滨 一 汪培化等 应 用模糊数学 北京 北 京经济学 院 出 版社 , 蔡元龙 模式识别 西安 西北 电讯工 程大学 出版社