第8卷第1期 智能系统学报 Vol.8 No.1 2013年2月 CAAI Transactions on Intelligent Systems Feh.2013 D0I:10.3969/j.issn.1673-4785.201208002 网络出版地址:htp:/nw.cmki.net/kcms/detail/23.1538.TP.20130125.1528.012.html 非平衡集成迁移学习模型及其 在桥梁结构健康监测中的应用 于重重12,吴子裙,谭励,涂序彦2,田蕊 (1.北京工商大学计算机与信息工程学院,北京100048;2.北京科技大学计算机与通信工程学院,北京100083) 摘要:在桥梁结构健康监测与状态评估过程中所获得的桥梁结构数据库常存在间断性异常或缺损,且不同样本分 类数据不均匀,雄以在信息缺失、数据分布失衡的情况下完成对桥梁结构健康的监测与状态评估.针对这一问题,在 改进相似性度量函数的S0M聚类算法和非平衡集成迁移学习算法的基础上,提出了一种改进的迁移学习模型.通过 对实际监测数据的分析,该迁移学习模型的分类精度随着目标数据集所占比例的不断增加而提高,验证了该模型的 有效性和科学性, 关键词:非平衡集成迁移学习算法;S0M算法;迁移学习模型;桥梁结构健康监测 中图分类号:1P391文献标志码:A文章编号:16734785(2013)01004606 Unbalanced integrated transfer learning model and its application to bridge structural health monitoring YU Chongchong'2,WU Zijun',TAN Li',TU Xuyan2,TIAN Rui' (1.School of Computer Information Engineering,Beijing Technology and Business University,Beijing 100048,China;2.School of Computer Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China) Abstract:The examination of bridge structural data obtained in the bridge structural health monitoring and condition assessment process had the problem of intermittent abnormalities or defects in the past.However,the classification of different samples of data is seen to be uneven,thus,making it difficult to complete structural health monitoring and condition assessment of the bridge under the condition of the absence of information and data distribution imbal- ance.In order to solve the problem mentioned above,this paper proposes an improved transfer learning model based on self-organizing map (SOM)clustering algorithm to improve the similarity measure function and unbal- anced integration transfer learning algorithm.According to the analysis of actual monitoring data,the classification accuracy of the proposed transfer learning model increased as the increasing of the proportion of the target data set, validating the efficiency and scientificity of the proposed model. Keywords:unbalanced integrated transfer learning algorithm;self-organizing map algorithm;transfer learning mod- el;bridge structural health monitoring 随着智能监测方法与评估技术的不断发展,桥 测数据的真实可靠.但通常存在一些干扰因素,如传 梁结构健康监测及状态评估的研究逐渐成为热点. 感器损坏、异常受力、天气条件恶劣等,会造成监测 为了对桥梁的安全和维护提供有力保障,通常需要 数据的间断性异常或缺损,从而无法对所获得的监 连续监测桥梁静应变、沉降等数据,同时必须保证监 测数据进行有效的数据分析12].因此,利用相似的 辅助测点数据,实现对有效数据量少的目标测点的 收稿日期:2012-0808.网络出版日期:201301-25 建模与分析,是解决上述问题的重要思路, 基金项目:国家自然科学基金资助项目(61070182);北京市组织部优 秀人才培养资助项目(2010D005003000008):北京市学科 迁移学习是一种强调在相似但不完全相同的领 建设项目(PXM2012014213000074). 域、任务和分布之间实现知识转化的学习方式.本文 通信作者:于重重.E-mail:chongzhy(@ip.ina.com
第1期 于重重,等:非平衡集成迁移学习模型及其在桥梁结构健康监测中的应用 .47. 针对桥梁监测数据的间断性异常或缺损的特点,将 特点: 迁移学习引人到桥梁结构健康监测领域,通过建模 1)不同类别的样本分布极度不平衡,差异大: 分析,解决目标测点实测有效数据过少时的数据分 2)辅助数据中存在大量的与目标数据集不相 类和预测问题.文中提出了一个改进的迁移模型,首 似的冗余信息; 先通过对原始监测数据进行预处理,得到能够表征 3)桥梁实际监测的表征结构健康的正数据和 数据变化规律的训练数据集,然后再利用相似性度 表征结构损伤的负数据分布极度不平衡,负样本数 量函数,完成对具有相似数据变化规律的测点聚类, 量远远小于正样本,但负样本对于桥梁健康监测影 最后运用非平衡集成迁移学习算法(the unbalanced 响很大.因此,对于桥梁结构的损伤判定可以将其看 integrated transfer learning algorithm,UBITLA)(3 作是一个非对称的二分类问题 立桥梁结构健康监测的分类模型,利用过往监测数 本文将迁移学习引入到桥梁结构健康监测领 据模型的迁移对新数据进行预测,以达到对监测数 域,利用已有监测点数据,基于非平衡集成迁移学习 据的类别划分和评定桥梁结构损伤级别的目的. 算法(UBITLA),提出了一种改进的迁移学习模型, 该方法能够有效地解决桥粱梁结构健康监测中存在的 1迁移学习的基本理论 实际问题: 迁移学习作为机器学习和人工智能领域研究的 2改进的迁移学习模型在桥梁结构健 新方向,近年越来越受到关注.迁移学习强调的是区 域、任务、分布相似但不相同的知识的传递45],其 康监测中的应用 突破了传统数据挖掘的两大假设:一是训练数据与 2.1 改进的迁移学习模型描述 测试数据必须同概率分布;二是两者必须同特征空 本文提出的迁移学习模型总体思路如下:1)将 间.然而,随着对迁移学习的研究,不同学者对迁移 桥梁结构健康监测系统中监测到的原始数据进行预 学习中存在的一些缺陷,提出了很多解决问题的算 处理,其中包括信息筛选、去冗余、去噪声以及去除 法,并得到了有效的应用.如运用基于EM的跨语言 重复数据;2)对预处理后的监测数据,根据测点间 文本分类算法用以解决跨特征空间的迁移学习问 的相似度,对具有相似变化规律的测点进行聚类; 题6,基于朴素贝叶斯分类器的支持跨领域文本分 3)对聚类结果使用非平衡集成迁移学习算法,建立 类的分类器实现了不同领域文本之间知识的迁移问 针对目标测点的数据分类模型,对目标数据集中的 题刀,基于TrAdboost算法解决对称的二分类问题 无标签数据进行预测分类,以实现对监测数据进行 等9.这些成功的应用推动了迁移学习在处理新 类别划分,评定桥梁各级损伤情况的目的.总体流程 任务中标记数据量小的问题中的迅猛发展, 图如图1所示 在桥梁结构健康监测领域,监测数据存在以下 训练 数据预处理 初始 源数 聚类 UBITLA 分类 数据 去 去 无关数 SOM测 迁移学 余数 训练 类2 数据 点聚类 习分类 输出 模型 初始目 据 标数据 据 测试 测试 数据 图1改进的迁移学习模型 Fig.1 Improved transfer learning model 2.2基于相似测点的S0M聚类 是将相似的模式样本聚为一类.因为数据存在不同 相似度函数是聚类的前提条件,这是由于分类 的类型,所以有不同的方法计算相似度,如欧氏距
·48 智能系统学报 第8卷 离、切比雪夫距离、曼哈顿距离、明氏距离、加权的明 维度,使大差异维度的贡献率降低; 氏距离、马氏距离、夹角余弦函数等].在自组织映 2)新函数的最大值为1,代表X和Y在所有维 射(self-organizing map,SOM)算法中经常使用相似 度上的值都相等,此时X和Y在d维空间上是完全 度函数作为分类的基础.S0M算法是一个由全连接 重合的,相似度最大.若最小值为0,则代表X和Y 的神经元阵列组成的无导师的自组织、自学习网络, 在每个维度上的差异均接近于无穷大,此时X和Y 是神经网络用于解决聚类问题的典型应用u2] 相似度最小. 由于桥粱结构健康监测系统所获得的监测数据 通过基于SMP℃相似度度量函数的SOM网络, 受突发应力与异常负载等影响,经常会出现个别监 完成对桥梁监测点的聚类,其具体训练步骤如下: 测点数据存在异常,如果使用上述方法难以有效克 1)初始化S0M网络结构,对神经元权值向量随 服个别维度的干扰,且易受到高维特性的干扰,若存 机赋初值; 在2个数据的个别维度上的值差异过大或过小,这 2)随机选择输入样本; 会影响整体度量效果,使数据间的相似信息被这少 3)计算各神经元之间的相似度,选择具有最大 数维度的过大差异所淹没[34].因此为减小这些异 相似度的神经元作为获胜神经元; 常数据对整体数据的影响,对传统的距离度量函数 4)使用单调递减函数对获胜神经元及其邻域 进行修改,从根本上解决传统的相似度度量函数在 范围内的神经元的权值进行调整; 高维数据空间中存在的不足,有效地缓解大差异个 5)对算法的收敛性进行判断,若不满足收敛条 别维度对相似度的影响,具体如下 件则重复上述步骤3)直至算法达到收敛. 定义1设有d维数据向量X=(x1,x2,…,xa) 2.3 UBITLA算法 及Y=(y1,y2,…,ya),则相似度度量函数(similarity 针对桥梁结构健康监测系统表征桥梁结构健康与 measurement points clustering,SMPC)t如式(1) 否的正、负数据分布极度不均衡,若对其施行相同的权 所示: 值调整策略会由于稀缺类样本权值的迅速诚小而导致 e 训练的失败问题,因此模型采用非平衡样本分类的集 fap (X,Y)=ii (1) 成迁移学习算法UBITLA进行处理.算法在TrAdaboost 算法的基础上,通过改变稀缺类样本权值的调整策略, 改进后的相似度度量函数通过引入指数e,实现了 使其不会迅速变小,从而保证这部分样本对模型建立 在x与y:大差异的情况下,分子数值变小的需求通 的贡献率;另外该算法还引入冗余数据动态剔除策略, 过对比计算发现,改进后的相似度度量函数SMP℃对 适时剔除辅助训练数据集中的冗余数据,以确保训练 比于传统的相似性度量函数,具有如下性质: 数据的高质.UBITLA算法流程如图2所示. 1)新函数充分考虑了2个数据向量间的所有 初始化参 初始化 样本 数0、最 N 按1/2抽取 样木权垂 归一化 大迭代次 i=max 训练样木 max、阈值 下限lower 混合训 练数据 Contain 、(+,) 别除 计算分 i++ Y 类精度 计算样本 c<lower 调整样 基分类 最终 测试 本权重 错误率c 器P 分类器 数据 图2 UBITLA算法 Fig.2 UBITLA algorithm
第1期 于重重,等:非平衡集成迁移学习模型及其在桥梁结构健康监测中的应用 ·49. UBITLA算法的主体思想为:将迁移辅助数据 表2杭州湾大桥沉降数据监测点聚类 集A与目标数据集O按比例抽取部分数据后混合 Table 2 Hangzhou Bay Bridge settlement data monitoring 成训练数据集C,并通过初始化样本权重与归一化 points clustering 样本完成对原始样本的预处理;然后在每次的训练 距离函数 结果中选择误差最小的弱分类器h,经T轮迭代后 类别 D2(x,y) f(x,y) 得到弱分类序列h1,h2,…,h,;最终将多个弱分类器 测点5、6、7、11、13、测点5、6、7、11、13、 叠加起来得到一个强分类器 聚类1 16、17、22 16、17、20、22、24 3实验结果与分析 测点8、9、10、19、20、测点8、9、10、19、21、 聚类2 21、23、24 23 3.1实验样本数据 实验采用已有2年监测历史的杭州湾大桥作为 聚类3 测点12、14、15、18 测点12、14、15、18 研究对象,选用某天6:00一20:00共20个测点所测 得的相邻时段的数据差值作为实验数据,其中包含 然后将上述2种不同的聚类结果,应用UBITLA 了早、中、晚3个高峰时段,以及上、下午低峰时段的 迁移学习算法建立针对目标数据的分类模型,完成 数据变化情况,并分别从各数据类型中抽取一定数 对目标数据中无标签数据的预测分类.采用欧式距 目的数据按比例组成初始数据集S,和初始目标数 离作为相似度距离函数与采用SMP℃相似度距离函 据集S2,其具体组成如表1所示. 数的S0M网络聚类结果,对迁移学习模型分类精度 表1实验数据组成描述 的影响如图3所示, Table 1 Description of the experimental data 样本数 100 ◆欧式距离函数 数据类型 时间 比例/% SMPC距离函数 S 80 早高峰 7:009:00 30 1500 600 6 上午低峰 9:00-11:00 5 250 100 40 20 午高峰 11:00-13:00 30 1500 600 下午低峰13:00-17:00 5 250 100 10120230 日标数据集所占比例/% 晚高峰17:00-19:00 30 1500 600 图32种不同的距离函数对迁移学习模型分类精度 其中,正负样本比例为5:1;输人数据为以1h 的影响 为监测周期,采集当日从6:00一20:00共14h的静 Fig.3 Effects of two different distance functions on mi- 应变数据,并组成具有14维的属性向量(其包含监 gration learning model classification accuracy 测数据在1d内的变化情况).在训练过程中从S, 内随机抽取1/2的数据,经数据预处理后作为源数 从上述的结果来看,2种度量函数的总体聚类 据集Y1,同样从S2内分别随机抽取1/2的数据,经 效果基本相近,但是对于个别测点,如杭州湾大桥的 数据预处理后作为目标数据集G,与测试数据集 20号测点,在采用欧式距离作为相似度距离函数的 T,并通过由源数据集Y,与目标数据集G所组成 S0M网络的聚类结果中将其分入了类别2中,而在 的训练数据完成对迁移学习模型的训练,实现对目 采用SMP℃相似度距离函数的SOM网络的聚类结 标数据集T中无标签数据的预测分类,这样就可以 果中将该测点分人了类别1中.通过对该测点和所 通过监测数据的类别来评定桥梁的级别损伤, 在类别特点的进一步分析发现,该测点只是在某2 3.2结果与分析 个维度上的数据波动较大而在其余的12个维度的 3.2.1不同距离函数 波动均比较小.由于传统的距离函数将所获得的14 通过对训练数据采用不同的相似度距离函数的 维数据向量都均等看待,放大了个别维度中异常数 S0M网络完成对监测点的聚类,其聚类结果如表2 据所造成的影响,因此影响了整个聚类结果的合理 所示,其中D2(x,y)为欧式距离的相似性度量 性;但是本文提出的SMPC距离函数克服了传统度 函数 量函数的这一缺陷,使得聚类结果更接近实际.因
·50 智能系统学报 第8卷 此,采用SMP℃距离函数所获得的迁移学习模型分 4结束语 类精度高于传统的欧式距离函数 3.2.2辅助数据集的加入 本文围绕迁移学习的基本理论和在数据分类问 选择杭州湾大桥测点20作为目标分类测点,分 题中的应用,针对桥梁健康监测中监测数据存在的 别选择同类辅助测点5和异类辅助测点8作为辅助 问题,提出了一个改进的迁移学习模型,并且介绍了 训练测点,代入UBITLA算法进行训练.辅助数据集 模型总体思路和关键技术.通过对现役桥梁的监测 对迁移学习模型分类精度的影响如图4和5所示. 数据的实验,证明了该模型的有效性.随着技术的创 新、方法的完善,迁移学习在不久的将来会应用在不 +未加入铺助数据集 同的领域上,期待其有更好的创新, 100·加入同类辅助数据集 80 参考文献: 604 [1]刘永前.大型桥梁结构健康监测技术研究与应用[D].北 40 京:北京交通大学,2007:1-12. 20H LIU Yonggian.Research and application on structural 51015202530 health monitoring of long-span bridge[D].Beijing:Beijing 日标数据集所占比例/% Jiaotong University,2007:1-12. 图4同类辅助数据集的加入对迁移学习模型分类 [2]李鹏飞,吴太成.桥梁健康监测技术研究综述[J].建筑 精度的影响 监督检测与造价,2010,7(7):28-31,40. Fig.4 Effects of similar auxiliary data sets on migra LI Pengfei,WU Taicheng.A review of health monitoring tion learning model classification accuracy techniques of bridge[J].Supervision Test and Cost of Con- struction,2010,7(7):28-31,40. ◆未加人辅助数据集 [3]于重重,田蕊,谭励,等.非平衡样本分类的集成迁移学 100喜加人异类辅助数据集 习算法[J].电子学报,2012,40(7):1358-1363 80H YU Chongchong,TIAN Rui,TAN Li,et al.Integrated 殿60 transfer learning algorithmic for unbalanced samples classifi- 40叶 cation[J].Acta Electronica Sinica,2012,40(7):1358- 20月 1363 510152023 30 [4]许至杰.迁移学习理论与算法研究[D].上海:华东师范 日标数据集所占比例/% 大学,2012:4-10. 图5异类辅助数据集的加入对迁移学习模型分类 XU Zhijie.Research about the theories and algorithms of 精度的影响 transfer learning[D].Shanghai:East China Normal Univer- Fig.5 Effects of heterogeneous auxiliary data sets on sity,2012:4-10. migration learning model classification accuracy [5]戴文渊.基于实例和特征的迁移学习算法研究[D].上 海:上海交通大学,2008:14-21. 实验结果表明,同类轴助数据集的加入可以有 DAI Wenyuan.Instance-based and feature-based transfer learning[D].Shanghai:Shanghai Jiao Tong University, 效地帮助目标数据的学习,随着目标数据集比例的 2008:14-21. 增加,迁移学习模型分类精度不断提高:异类辅助数 [6]UNKELBACH J,YI S,SCHMIDHUBER J.An EM based 据集的添加,有时会对目标数据的学习起到促进作 training algorithm for recurrent neural networks[J].Pro- 用,但是随着目标数据集所占比例的增加会出现相 ceedings of the 19th Interational Conference on Artificial 反的情况,这可能是由于异类辅助数据集数据与目 Neural Networks.Berlin/Heidelberg:Springer-Verlag, 标数据差异性较大,对迁移学习模型分类精度造成 2009:964974. 了一定的消极影响,导致分类精度下降.总之,引入 [7]DAI Wenyuan,XUE Guirong,YANG Qiang,et al.Trans- 同类辅助数据集能够有效地在辅助数据与目标数据 ferring naive Bayes classifiers for text classification C]// 间进行知识迁移,提高对目标数据的学习效率和迁 Proceedings of the 22nd National Conference on Artificial 移学习模型分类的准确性。 Intelligence.Vancouver,Canada,2007:540-545 [8]RAINA R,BATTLE A,LEE H,et al.Self-taught learn-
第1期 于重重,等:非平衡集成迁移学习模型及其在桥梁结构健康监测中的应用 ·51· ing:transfer learning from unlabeled data[C]//The Twen- 作者简介: ty-fourth International Conference on Machine Learning. 于重重,女,1971年生,教授,硕士 Corvallis,USA,2007:759-766. 生导师,主要研究方向为智能信息处理 [9]刘伟,张化祥.数据集动态重构的集成迁移学习[J].计 与模式识别、复杂实时监测系统预测与 算机工程与应用,2010,46(12):126-128. 评估等.参与“十一五”重大科技支撑项 LIU Wei,ZHANG Huaxiang.Ensemble transfer learning al- 目子课题、国家自然科学基金项目多 gorithm based on dynamic dataset regroup[J].Computer 项,获部科技进步奖1项.发表学术论 Engineering and Applications,2010,46(12):126-128. 文40余篇,其中被EI检索20余篇,合作出版著作4部, [10]邵昌昇,楼巍,严利民.高维数据中的相似性度量算法 的改进[J].计算机技术与发展,2011,2(2):7-10. 吴子君,男,1989年生,硕士研究 SHAO Changsheng,LOU Wei,YAN Limin.Optimization 生,主要研究方向为机器学习、人工智 of algorithm of similarity measurement in high-dimensional 能等。 data[J].Computer Technology and Development,2011,2 (2):7-10. [11]杜俊卫,李爱军.一种基于聚类的文本迁移学习算法 [J].计算机系统应用,2010,19(12):238-241. 谭励,女,1980年生,副教授,博士,主 DU Junwei,LI Aijun.Transfer learning algorithm for text 要研究方向为智能信息处理、机器学习、 classification based on clustering[J].Computer Systems 计算机视觉、无线传感器网络等.作为项 Applications,2010,19(12):238-241. 目负责人和主研人员参与国家自然科学 [12]戴群,陈松灿,王喆.一个基于自组织特征映射网络的 基金项目1项、北京市优秀人才项目1 混合神经网络结构[J].软件学报,2009,20(5):1329- 项.发表学术论文20余篇,出版著作1部 1336. DAI Qun,CHEN Songcan,WANG Zhe.Hybrid neural 涂序彦,男,1935年生,教授,博士 network architecture based on self-organizing feature maps 生导师,北京科技大学计算机与系统科 [J].Joural of Software,2009,20(5):1329-1336. 学研究所所长,中国人工智能学会荣誉 [13]王戒躁,钟继卫,王波.大跨桥梁健康监测系统设计构 理事长,北京科技大学信息工程学院特 成及其进展[J].桥梁建设,2009(增刊2):11-16. 聘教授.创立多变量协调控制理论、最 WANG Jiezao,ZHONG Jiwei,WANG Bo.Designed com- 经济控制理论;倡导人体控制论、大系 ponents and development of health monitoring systems for 统控制论新学科,开拓人工智能、专家系统、智能控制、智能 long span bridges[J].Bridge Construction,2009(S2): 管理、人工生命新方法、新技术荣获国家科技攻关重大成果 11-16. 奖,冶金部、机械部、电子部等科技进步奖多项.发表学术论 [14]于重重,杨扬,涂序彦,等.DBSCAN算法在桥梁健康监 文300余篇,出版专著12部. 测预测模型中的应用[J].计算机工程与应用,2008, 44(12):224-227. 田蕊,女,1986年生,硕士研究生,主 YU Chongchong,YANG Yang,TU Xuyan,et al.Applica- 要研究方向为机器学习、人工智能等 tion of DBSCAN algorithm in bridge-health monitoring pre- diction model [J].Computer Engineering and Applica- tions,2008,44(12):224-227