工程科学学报,第39卷,第7期:981987,2017年7月 Chinese Journal of Engineering,Vol.39,No.7:981-987,July 2017 DOI:10.13374/j.issn2095-9389.2017.07.002:http://journals.ustb.edu.cn 基于最大池化稀疏编码的煤岩识别方法 伍云霞网,田一民 中国矿业大学(北京)机电与信息工程学院,北京100083 区通信作者,Emai:angl.wu@163.com 摘要针对现今煤岩图像识别方法的缺乏与不足,为了挖掘新的煤岩图像识别方法以及更好地处理高维煤岩图像数据,提 出了基于最大池化稀疏编码的煤岩识别方法.本方法在提取煤岩图像特征时加入了池化操作,在分类识别时采用了集成分 类器,即多个弱分类器组成一个强分类器.实验结果表明:最大池化稀疏编码的特征提取方式能简单有效表达煤岩图像的纹 理特征,大大增强煤岩图像的可区分性,获得较高的识别率,并且具有良好的识别稳定性.研究结果可为煤岩界面的自动识 别提供新的思路和方法 关键词煤岩识别:图像处理:最大池化;稀疏编码:特征提取:集成分类 分类号TD672:TP391.41 A coal-rock recognition method based on max-pooling sparse coding WU Yun-xia,TIAN Yi-min School of Mechanical Electronic Information Engineering,China University of Mining Technology (Beijing),Beijing 100083,China Corresponding author,E-mail:angil.wu@163.com ABSTRACT Because of the lack of coal-rock methods,a novel coal-rock recognition method was proposed based on max-pooling sparse coding in order to explore new coal-rock image recognition methods and efficiently handle high-dimensional coal-rock image da- ta.This method adds the pooling operation when extracting coal-rock image features and adopts the integrated classifier,which con- sists of multiple weak classifiers when classifying coal-rock images.The experimental results show that this feature-extraction method based on max-pooling sparse coding can simply and effectively express the characteristic information of coal-rock images,greatly en- hance the distinguishability of coal-rock images,and achieve a high recognition rate.This method also has good recognition stability. The results obtained herein could provide a new idea and method for automatic coal-rock interface recognition. KEY WORDS coal-rock recognition:image processing:max-pooling:sparse coding:feature extraction;integrated classification 在现今的煤岩图像识别方法中,如何有效表达煤灰度共生矩阵法需要计算的相关特征较多,计算量也 岩图像的纹理特征,已成为研究煤岩界面自动识别技 较大:字典学习法的识别率不够稳定.因此,研究新的 术的热点.煤岩图像特征提取的好坏直接影响煤岩识 煤岩图像特征提取方法是很有必要的. 别的性能.目前煤岩图像的特征提取方法主要有纹理 近年来,图像的池化操作因其符合人类视觉系统 谱法四、小波变换法、灰度共生矩阵法回、字典学 特性而被广泛应用于深度学习算法7中.稀疏编码 习法圆等.这些特征提取方法取得了一些成果,但仍 更是早已成为广大学者关注和研究的热点,其在压缩 存在着一些不足,比如:纹理谱法易受噪声污染;小波 感知回、图像去噪四、图像修复四等领域有着广泛的 变换法选取合适的小波基较困难且数据冗余度较大: 应用.为了挖掘新的煤岩图像特征提取方法,本文结 收稿日期:20170101 基金项目:国家重点研发计划资助项目(2016YFC0801800):国家自然科学基金重点资助项目(51134024)
工程科学学报,第 39 卷,第 7 期: 981--987,2017 年 7 月 Chinese Journal of Engineering,Vol. 39,No. 7: 981--987,July 2017 DOI: 10. 13374 /j. issn2095--9389. 2017. 07. 002; http: / /journals. ustb. edu. cn 基于最大池化稀疏编码的煤岩识别方法 伍云霞,田一民 中国矿业大学( 北京) 机电与信息工程学院,北京 100083 通信作者,E-mail: angil. wu@ 163. com 摘 要 针对现今煤岩图像识别方法的缺乏与不足,为了挖掘新的煤岩图像识别方法以及更好地处理高维煤岩图像数据,提 出了基于最大池化稀疏编码的煤岩识别方法. 本方法在提取煤岩图像特征时加入了池化操作,在分类识别时采用了集成分 类器,即多个弱分类器组成一个强分类器. 实验结果表明: 最大池化稀疏编码的特征提取方式能简单有效表达煤岩图像的纹 理特征,大大增强煤岩图像的可区分性,获得较高的识别率,并且具有良好的识别稳定性. 研究结果可为煤岩界面的自动识 别提供新的思路和方法. 关键词 煤岩识别; 图像处理; 最大池化; 稀疏编码; 特征提取; 集成分类 分类号 TD672; TP391. 41 A coal--rock recognition method based on max-pooling sparse coding WU Yun-xia ,TIAN Yi-min School of Mechanical Electronic & Information Engineering,China University of Mining & Technology ( Beijing) ,Beijing 100083,China Corresponding author,E-mail: angil. wu@ 163. com ABSTRACT Because of the lack of coal--rock methods,a novel coal--rock recognition method was proposed based on max-pooling sparse coding in order to explore new coal-rock image recognition methods and efficiently handle high-dimensional coal--rock image data. This method adds the pooling operation when extracting coal--rock image features and adopts the integrated classifier,which consists of multiple weak classifiers when classifying coal--rock images. The experimental results show that this feature--extraction method based on max-pooling sparse coding can simply and effectively express the characteristic information of coal--rock images,greatly enhance the distinguishability of coal--rock images,and achieve a high recognition rate. This method also has good recognition stability. The results obtained herein could provide a new idea and method for automatic coal--rock interface recognition. KEY WORDS coal--rock recognition; image processing; max-pooling; sparse coding; feature extraction; integrated classification 收稿日期: 2017--01--01 基金项目: 国家重点研发计划资助项目( 2016YFC0801800) ; 国家自然科学基金重点资助项目( 51134024) 在现今的煤岩图像识别方法中,如何有效表达煤 岩图像的纹理特征,已成为研究煤岩界面自动识别技 术的热点. 煤岩图像特征提取的好坏直接影响煤岩识 别的性能. 目前煤岩图像的特征提取方法主要有纹理 谱法[1]、小波变换法[2--4]、灰度共生矩阵法[5]、字典学 习法[6]等. 这些特征提取方法取得了一些成果,但仍 存在着一些不足,比如: 纹理谱法易受噪声污染; 小波 变换法选取合适的小波基较困难且数据冗余度较大; 灰度共生矩阵法需要计算的相关特征较多,计算量也 较大; 字典学习法的识别率不够稳定. 因此,研究新的 煤岩图像特征提取方法是很有必要的. 近年来,图像的池化操作因其符合人类视觉系统 特性而被广泛应用于深度学习算法[7--8]中. 稀疏编码 更是早已成为广大学者关注和研究的热点,其在压缩 感知[9]、图像去噪[10]、图像修复[11]等领域有着广泛的 应用. 为了挖掘新的煤岩图像特征提取方法,本文结
·982· 工程科学学报,第39卷,第7期 合图像池化操作的良好特性和稀疏编码的稀疏性,提 池化.最常见的池化操作有平均池化和最大池化,平 出了基于最大池化稀疏编码的煤岩图像特征提取方 均池化即统计图像某个区域某个特征的平均值,而最 法.池化作用在样本图像经稀疏编码后的稀疏特征空 大池化则是统计图像某个区域某个特征的最大值.平 间,这样能降低数据维度,并增强煤岩图像的可区分性 均池化能够较好地保留图像的背景信息,而最大池化 和煤岩识别的稳定性.本文采用集成分类器进行分类 能较好地保留图像的边缘信息,因而,最大池化对图像 识别,即多个弱分类器组成一个强分类器.这样不仅 的纹理特征提取更好.本文仅研究与讨论图像的最大 可以取得较好的分类效果,而且由于弱分类器之间的 池化操作. 相互独立性以及样本数据之间的相互独立性,使得本 最大池化稀疏编码特征提取方法主要包括图像块 文所述的煤岩识别方法易于实现并行化处理,从而进 提取、稀疏编码和最大池化三个过程,如图1中特征提 一步提高运行效率,缩短识别时间 取模块所示.首先,各采集一张煤、岩训练样本图像, 1基本原理 分别从煤岩训练样本图像中各提取N个共2N个图像 块构成训练样本矩阵X=x,x2,…,x2w],其中x:∈ 1.1特征提取原理 R(i=1,2,…,2N)是每个图像块向量化后的表示向 通常认为图像具有一种“静态性”的属性,这就是 量,维度为P.图像块提取过程与后面的池化过程有 说在一个图像区域有用的特征极有可能在另一个区域 关,一般图像块提取数N越大,池化区域越大.如果均 同样适用.因此,为了描述大图像,对图像不同区域的 匀分割原图像得到图像块,那么,一般图像块数N越 特征进行聚合统计,得到的统计特征不仅具有更低的 大,图像块就越小,图像块稀疏表示后的表示系数维度 维度,而且还不易产生过拟合.这种聚合操作就叫做 就越低,池化后图像特征数就越少 训练样本 特征提取 图像块提取 稀疏编码 最大池化 随机选取L个基元矩阵 特征提取 判决器 待测样本 图像块提取 待测样本特征向量 1 (子分类器 12 2 (子分类器 稀疏编码 (类别标号 最大池化 (子分类器 图1基于最大池化稀疏编码的煤岩识别原理图 Fig.I Schematic of the coal-rock recognition method based on max-pooling sparse coding 然后,根据下式求出煤岩图像的基元矩阵D= 常见的解法:一是转化为凸优化问题求解;二是采用启 d,d2,…,dk]∈Rx*和2N个图像块的稀疏表示系数 发式的贪婪算法求解.第一种解法通常先将式(1)中 矩阵U=u1,山,…,2v]∈R2,其中u表示第i个 的约束条件松弛,再转化为如下形式: 图像块在稀疏特征空间中的表示系数,即它在稀疏特 征空间中的投影. 吧名(-D+AIu).(2) 其中,入表示平衡因子,‖·‖,表示L范数.式(2)通 吧公I-Dm, 常可以用回归算法求解,比如LASSO(least absolute s.t.‖4:‖。≤To,i=1,2,…,2N. (1) shrinkage and selection operator)算法2-.第二种解 其中,‖·2表示L2范数,‖·‖。表示Lo范数.式(1) 法常见的算法有OMP(orthogonal matching pursuit)算 中的约束项表示向量“:中的非零元素的个数小于等 法4-a、K-SVD(K-singular value decomposition)算 于T。,T。是预先设定的,与稀疏度有关.式(1)实质上 法7等.这两种解法的求解过程相似,如下:(1)初 是一个非凸优化问题,对于该问题的求解,主要有两种 始化D,设置迭代终止条件;(2)固定D,求解U:(3)
工程科学学报,第 39 卷,第 7 期 合图像池化操作的良好特性和稀疏编码的稀疏性,提 出了基于最大池化稀疏编码的煤岩图像特征提取方 法. 池化作用在样本图像经稀疏编码后的稀疏特征空 间,这样能降低数据维度,并增强煤岩图像的可区分性 和煤岩识别的稳定性. 本文采用集成分类器进行分类 识别,即多个弱分类器组成一个强分类器. 这样不仅 可以取得较好的分类效果,而且由于弱分类器之间的 相互独立性以及样本数据之间的相互独立性,使得本 文所述的煤岩识别方法易于实现并行化处理,从而进 一步提高运行效率,缩短识别时间. 1 基本原理 1. 1 特征提取原理 通常认为图像具有一种“静态性”的属性,这就是 说在一个图像区域有用的特征极有可能在另一个区域 同样适用. 因此,为了描述大图像,对图像不同区域的 特征进行聚合统计,得到的统计特征不仅具有更低的 维度,而且还不易产生过拟合. 这种聚合操作就叫做 池化. 最常见的池化操作有平均池化和最大池化,平 均池化即统计图像某个区域某个特征的平均值,而最 大池化则是统计图像某个区域某个特征的最大值. 平 均池化能够较好地保留图像的背景信息,而最大池化 能较好地保留图像的边缘信息,因而,最大池化对图像 的纹理特征提取更好. 本文仅研究与讨论图像的最大 池化操作. 最大池化稀疏编码特征提取方法主要包括图像块 提取、稀疏编码和最大池化三个过程,如图 1 中特征提 取模块所示. 首先,各采集一张煤、岩训练样本图像, 分别从煤岩训练样本图像中各提取 N 个共 2N 个图像 块构成训练样本矩阵 X =[x1,x2,…,x2N],其中 xi ∈ Rp ( i = 1,2,…,2N) 是每个图像块向量化后的表示向 量,维度为 p. 图像块提取过程与后面的池化过程有 关,一般图像块提取数 N 越大,池化区域越大. 如果均 匀分割原图像得到图像块,那么,一般图像块数 N 越 大,图像块就越小,图像块稀疏表示后的表示系数维度 就越低,池化后图像特征数就越少. 图 1 基于最大池化稀疏编码的煤岩识别原理图 Fig. 1 Schematic of the coal--rock recognition method based on max-pooling sparse coding 然后,根据下式求出煤岩图像的基元矩阵 D = [d1,d2,…,dK]∈Rp × K 和 2N 个图像块的稀疏表示系数 矩阵 U =[u1,u2,…,u2N]∈RK × 2N ,其中 ui 表示第 i 个 图像块在稀疏特征空间中的表示系数,即它在稀疏特 征空间中的投影. min D,U ∑ 2N i = 1 ‖xi - Dui‖2 2 s. t. ‖ui‖0≤T0,i = 1,2,…,2N. ( 1) 其中,‖·‖2表示 L2 范数,‖·‖0表示 L0 范数. 式( 1) 中的约束项表示向量 ui 中的非零元素的个数小于等 于 T0,T0 是预先设定的,与稀疏度有关. 式( 1) 实质上 是一个非凸优化问题,对于该问题的求解,主要有两种 常见的解法: 一是转化为凸优化问题求解; 二是采用启 发式的贪婪算法求解. 第一种解法通常先将式( 1) 中 的约束条件松弛,再转化为如下形式: min D,U ∑ 2N i = 1 ( ‖xi - Dui‖2 2 + λ ‖ui‖1 ) . ( 2) 其中,λ 表示平衡因子,‖·‖1表示 L1 范数. 式( 2) 通 常可以 用 回 归 算 法 求 解,比 如 LASSO( least absolute shrinkage and selection operator) 算法[12--13]. 第二 种 解 法常见的算法有 OMP( orthogonal matching pursuit) 算 法[14--16]、K--SVD ( K--singular value decomposition ) 算 法[17--21]等. 这两种解法的求解过程相似,如下: ( 1) 初 始化 D,设置迭代终止条件; ( 2) 固定 D,求解 U; ( 3) · 289 ·
伍云霞等:基于最大池化稀疏编码的煤岩识别方法 ·983 固定U,求解D:(4)步骤(2)和(3)交替进行至迭代结 L个,如图1中判决器模块所示.待测样本与已知的训 束.这个求解过程就是稀疏编码的过程。 练样本之间的相似度用欧氏距离度量即可,即欧氏距 最后,根据稀疏编码所求得的稀疏矩阵U,对2V 离越小,两者的相似度越高.对于第j个子分类器而 个煤岩图像块在稀疏特征空间中进行最大池化操作. 言,根据下式作出决策判断,若△d<0,则第i个待测 稀疏编码实质上就是建立样本数据空间与稀疏特征空 样本判为煤:否则判为岩 间之间的转换关系,基元矩阵D其实就是转换的一组 △d=IWg-ZgI2-‖Wg-ZgIz (4) 基向量,稀疏矩阵U的每一列与每一个图像块一一对 式中:i=1,2,…,H:j=1,2,…,L,W∈R表示第i 应,即U是2N个图像块在稀疏特征空间中的表示,也 个待测样本基于第j个基元矩阵D的基元响应分布. 可看成是在稀疏特征空间上的投影.最大池化操作就 其中,H表示待测样本数.等号右边第一项表示W与 是对U进行的,具体形式如下: Z的欧氏距离,即第i个待测样本与第j个煤训练样本 Z=a2…,zJ',a,=max{lual,lual,…,luwl}. 之间的相似度,第二项表示第i个待测样本与第广个岩 (3) 训练样本之间的相似度.每一个待测样本都进行L次 式中,i=1,2,,K,是由U第i行元素中的N个元 判断,若判定为煤的次数多,则该待测样本最终判为 素求绝对值取最大求得,它表征的是N个图像块对基 煤:否则,判为岩 元矩阵D的第i列原子d的最大响应(绝对值形式). 2实验设置 若N个元素均是煤图像块对应的向量中的元素,那么 Z就表示参与训练的那张煤图像的特征向量,记为 2.1样本集与测试环境 Z。·同样,若N个元素均是岩图像块对应的向量中的 选择208张煤岩样本图像,煤和岩各104张,随机 元素,那么Z就表示参与训练的那张岩图像的特征向 从每类中选择70张放入训练集,剩余34张用作测试, 量,记为Z,煤特征向量和岩特征向量的图示化如图 即训练集中包含140张训练样本图像,测试集中包含 1所示.Z包含K个特征,它就是所要求的经最大池化 68张待测样本图像,即H=68.采集无烟煤等煤类图 稀疏编码提取的煤岩图像的特征向量,又称其为煤岩 像和砂岩等岩类图像作为煤岩样本图像,如图2所示. 图像的基元响应分布 图像尺度均为48×48,格式为png,灰度级为256.本 待测样本图像的基元响应分布的求解过程与上述 文所有的实验数据均是在MATLAB7.10.0(R2010a) 求解训练样本图像的基元响应分布类似.首先,用与 上测试得到 训练样本相同的方法从待测样本图像上提取N个图 像块y:∈R(i=1,2,…,N)构成测试样本矩阵Y= ,y2,…yx]∈RxN.然后,根据训练过程中求得的 基元矩阵D,用稀疏编码算法求得稀疏矩阵V=y, a 2,…,yw]∈Rx,这一步与训练过程略有不同,因为 D已求得,只需求图像块y在D下的稀疏表示系数v 即可,过程上比训练时更简单.最后,用同样的方法求 出待测样本图像的基元响应分布W= (b) w1,02,…,wJT,w:=max{lval,l2l,…,lvwl}.图 1给出了一个待测样本对应的多个基元响应分布的示 意图.求解煤岩图像的基元响应分布的过程就是基于 最大池化稀疏编码特征提取的过程 (c) 1.2分类识别原理 上文描述的过程只有1对煤岩样本图像(1张煤 图像和1张岩图像)参与,若这样的煤岩训练样本对共 有M对,则根据特征提取原理可得D:、Z和Z。,其中i (d) =1,2,·,M.这里借鉴RF(random forest)分类算 图2煤岩样本图像.(a)砂岩:(b)无烟煤:(c)烟煤:(d)页岩 法网的思想一一将若干个弱分类器组合在一起形成 Fig.2 Illustration of coal-rock samples:(a)sandstone;(b)an- 强分类器.Z和Z.是基于D:的基元响应分布,它们3 thracite:(c)bitumite;(d)shale 个为一组,构成一个子分类器,这样的子分类器共有M 个,并且它们之间是相互独立的.然而,并不一定要所 2.2特征提取 有的子分类器都参与决策分类,这里随机选取其中的 首先,将训练集中140张图像分为70对,每一对
伍云霞等: 基于最大池化稀疏编码的煤岩识别方法 固定 U,求解 D; ( 4) 步骤( 2) 和( 3) 交替进行至迭代结 束. 这个求解过程就是稀疏编码的过程. 最后,根据稀疏编码所求得的稀疏矩阵 U,对 2N 个煤岩图像块在稀疏特征空间中进行最大池化操作. 稀疏编码实质上就是建立样本数据空间与稀疏特征空 间之间的转换关系,基元矩阵 D 其实就是转换的一组 基向量,稀疏矩阵 U 的每一列与每一个图像块一一对 应,即 U 是 2N 个图像块在稀疏特征空间中的表示,也 可看成是在稀疏特征空间上的投影. 最大池化操作就 是对 U 进行的,具体形式如下: Z =[z1,z2,…,zK]T ,zi = max { | ui1 | ,| ui2 | ,…,| uiN | } . ( 3) 式中,i = 1,2,…,K,zi 是由 U 第 i 行元素中的 N 个元 素求绝对值取最大求得,它表征的是 N 个图像块对基 元矩阵 D 的第 i 列原子 di 的最大响应( 绝对值形式) . 若 N 个元素均是煤图像块对应的向量中的元素,那么 Z 就表示参与训练的那张煤图像的特征向量,记 为 Zc . 同样,若 N 个元素均是岩图像块对应的向量中的 元素,那么 Z 就表示参与训练的那张岩图像的特征向 量,记为 Zr . 煤特征向量和岩特征向量的图示化如图 1 所示. Z 包含 K 个特征,它就是所要求的经最大池化 稀疏编码提取的煤岩图像的特征向量,又称其为煤岩 图像的基元响应分布. 待测样本图像的基元响应分布的求解过程与上述 求解训练样本图像的基元响应分布类似. 首先,用与 训练样本相同的方法从待测样本图像上提取 N 个图 像块 yi ∈Rp ( i = 1,2,…,N) 构成测试样本矩阵 Y = [y1,y2,…,yN]∈Rp × N . 然后,根据训练过程中求得的 基元矩阵 D,用稀疏编码算法求得稀疏矩阵 V =[v1, v2,…,vN]∈RK × N ,这一步与训练过程略有不同,因为 D 已求得,只需求图像块 y 在 D 下的稀疏表示系数 v 即可,过程上比训练时更简单. 最后,用同样的方法求 出 待 测 样 本 图 像 的 基 元 响 应 分 布 W = [w1,w2,…,wK]T ,wi = max { |vi1 | ,| vi2 | ,…,| viN | } . 图 1 给出了一个待测样本对应的多个基元响应分布的示 意图. 求解煤岩图像的基元响应分布的过程就是基于 最大池化稀疏编码特征提取的过程. 1. 2 分类识别原理 上文描述的过程只有 1 对煤岩样本图像( 1 张煤 图像和1 张岩图像) 参与,若这样的煤岩训练样本对共 有 M 对,则根据特征提取原理可得 Di、Zci和 Zri,其中 i = 1,2,…,M. 这 里 借 鉴 RF ( random forest) 分 类 算 法[22]的思想──将若干个弱分类器组合在一起形成 强分类器. Zci和 Zri是基于 Di 的基元响应分布,它们 3 个为一组,构成一个子分类器,这样的子分类器共有 M 个,并且它们之间是相互独立的. 然而,并不一定要所 有的子分类器都参与决策分类,这里随机选取其中的 L 个,如图 1 中判决器模块所示. 待测样本与已知的训 练样本之间的相似度用欧氏距离度量即可,即欧氏距 离越小,两者的相似度越高. 对于第 j 个子分类器而 言,根据下式作出决策判断,若 Δd < 0,则第 i 个待测 样本判为煤; 否则判为岩. Δd = ‖Wij - Zcj‖2 - ‖Wij - Zrj‖2 . ( 4) 式中: i = 1,2,…,H; j = 1,2,…,L,Wij∈RK 表示第 i 个待测样本基于第 j 个基元矩阵 Dj 的基元响应分布. 其中,H 表示待测样本数. 等号右边第一项表示 Wij与 Zcj的欧氏距离,即第 i 个待测样本与第 j 个煤训练样本 之间的相似度,第二项表示第 i 个待测样本与第 j 个岩 训练样本之间的相似度. 每一个待测样本都进行 L 次 判断,若判定为煤的次数多,则该待测样本最终判为 煤; 否则,判为岩. 2 实验设置 2. 1 样本集与测试环境 选择 208 张煤岩样本图像,煤和岩各 104 张,随机 从每类中选择 70 张放入训练集,剩余 34 张用作测试, 即训练集中包含 140 张训练样本图像,测试集中包含 68 张待测样本图像,即 H = 68. 采集无烟煤等煤类图 像和砂岩等岩类图像作为煤岩样本图像,如图 2 所示. 图像尺度均为 48 × 48,格式为 png,灰度级为 256. 本 文所有的实验数据均是在 MATLAB 7. 10. 0( R2010a) 上测试得到. 图 2 煤岩样本图像. ( a) 砂岩; ( b) 无烟煤; ( c) 烟煤; ( d) 页岩 Fig. 2 Illustration of coal--rock samples: ( a) sandstone; ( b) anthracite; ( c) bitumite; ( d) shale 2. 2 特征提取 首先,将训练集中 140 张图像分为 70 对,每一对 · 389 ·
·984· 工程科学学报,第39卷,第7期 均包含一张煤图像和一张岩图像,即M=70.每对煤 地看出分为两部分(左半部为煤,右半部为岩).X经 岩图像依次进行训练,它们之间是相互独立的.取一 过稀疏编码后得到基元矩阵D和稀疏矩阵U.从U的 对煤岩图像,分别均匀不重叠提取N=64个图像块, 图示化可以看出矩阵U中大多数元素为0(0图中灰 提取方法如图3所示(左为煤图像,右为岩图像),即 色部分表示0元素,由于U有正有负,所以显示时黑 将图像均匀分割成64个图像块,对应图1中图像块提 色表示较大的负数,白色表示较大的正数),所以是稀 取部分.由于图像块的尺度大小为6×6,所以称是对 疏矩阵.U经最大池化得到煤图像特征向量Z.(与训 原始图像进行6×6提取操作或称提取尺度为6×6. 练样本左半部分对应)和岩图像特征向量Z.(与训练 提取尺度的选择很关键,经实验表明,6×6是合适的. 样本右半部分对应).基元矩阵D参与待测样本的特 这一步不仅起到了降低数据维度的作用,而且还为后 征提取过程,得到待测样本的图像特征向量W.从图 面的池化操作做准备.每个图像块按列相连拉成一 示化可以看出,W与Z,更相似,但Y却与X的左半部 列,组成训练样本矩阵XERx2,X的前64列均为煤 分更相似.这就意味着,若在特征提取前作判别,待测 图像块,后64列均为岩图像块.为了更好地处理样本 样本很有可能被判为煤,而在特征提取后作判别,待测 数据,对X的每一列进行归一化处理,归一化公式 样本很有可能被判为岩.然而,实际上图4中的待测 如下: 样本是一张砂岩图像(训练样本是一张无烟煤图像和 一张页岩图像),由此可知根据特征提取后的特征向 =gi=12128 (5) 量判断是正确的.这也说明本文所述的特征提取方法 式中,‖x:I2表示X中第i列向量的L2范数,即归一 能够大大增强煤岩图像的可区分性,能够有效表达煤 化后使得X的每一列的向量模为1. 岩图像的纹理特征,因此,本文所述的特征提取方法是 可行的 最大池化 训练样本 图像块提取 稀疏编码 图3一对煤岩样本图像 待测样本 Fig.3 A pair of coal-rock image samples 图像块提取 +稀疏编码卡 然后,根据稀疏编码原理,对煤岩训练样本矩阵X 进行稀疏编码,得到基元矩阵D,∈R6x和特征矩阵 最大池化 U∈Rx2.从变换的角度讲,编码前的空间可以看成 图4特征提取流程图 样本数据空间,编码后的空间可以看成稀疏特征空间, Fig.4 Flow chart of feature extraction D,其实就是将稀疏特征空间变换到样本数据空间的 空间基向量,U就是X在稀疏特征空间中的表示系数 2.3分类识别 或者说是投影.因此,U的各列与X的各列一一对应. 根据分类识别原理,随机选择L≤M个子分类器 最后,对U进行最大池化操作,得到煤图像的基 组成一个强分类器,作为判决器,如图1所示.判决器 元响应分布Z。∈R和岩图像的基元响应分布Z,:∈ 是一个集成分类器,其原理结构如图5所示.判决方 R,即为一开始参与训练的那对煤岩图像各自的特征 法是:根据式(4)对每个待测样本进行L次判断,若判 向量.重复上述过程,对剩余的煤岩图像对进行相同 为煤的次数多,则判为煤;反之,则判为岩.这里,共有 的训练过程,则可以得到D,∈R6x、Z.∈R和Z.∈ 68个待测样本,将它们一一送入判决器,得出每个待 R,其中i=1,2,…,70,如图1所示 测样本的类别. 从70个基元矩阵中随机选取L个参与待测样本2.4参数讨论 的特征提取过程,即将测试集中的每一个待测样本图 经实验表明,主要有3个因素影响本文所述方法 像基于L个基元矩阵分别求出其对应的基元响应分 的煤岩识别率,包括提取尺度、稀疏度和L值.提取尺 布,可得W∈R,i=1,2,…,68j=1,2,…,L. 度指的是提取的图像块的大小,一般对于不重叠提取 为了更好地描述上述特征提取过程,将这一过程 而言,图像块尺度越小,提取的图像块越多,则池化区 可视化,如图4所示.图中训练样本是一对煤岩图像 域越大,图像特征数越少.稀疏度是指图像块的稀疏 样本,X是归一化后的训练样本矩阵,从图中可以鲜明 表示系数中零元素个数占元素总数的最小比重,其取
工程科学学报,第 39 卷,第 7 期 均包含一张煤图像和一张岩图像,即 M = 70. 每对煤 岩图像依次进行训练,它们之间是相互独立的. 取一 对煤岩图像,分别均匀不重叠提取 N = 64 个图像块, 提取方法如图 3 所示( 左为煤图像,右为岩图像) ,即 将图像均匀分割成 64 个图像块,对应图 1 中图像块提 取部分. 由于图像块的尺度大小为 6 × 6,所以称是对 原始图像进行 6 × 6 提取操作或称提取尺度为 6 × 6. 提取尺度的选择很关键,经实验表明,6 × 6 是合适的. 这一步不仅起到了降低数据维度的作用,而且还为后 面的池化操作做准备. 每个图像块按列相连拉成一 列,组成训练样本矩阵 X∈R36 × 128,X 的前 64 列均为煤 图像块,后 64 列均为岩图像块. 为了更好地处理样本 数据,对 X 的 每 一 列 进 行 归 一 化 处 理,归 一 化 公 式 如下: xi = xi ‖xi‖2 ,i = 1,2,…,128. ( 5) 式中,‖xi‖2 表示 X 中第 i 列向量的 L2 范数,即归一 化后使得 X 的每一列的向量模为 1. 图 3 一对煤岩样本图像 Fig. 3 A pair of coal--rock image samples 然后,根据稀疏编码原理,对煤岩训练样本矩阵 X 进行稀疏编码,得到基元矩阵 D1 ∈R36 × K 和特征矩阵 U∈RK × 128 . 从变换的角度讲,编码前的空间可以看成 样本数据空间,编码后的空间可以看成稀疏特征空间, D1 其实就是将稀疏特征空间变换到样本数据空间的 空间基向量,U 就是 X 在稀疏特征空间中的表示系数 或者说是投影. 因此,U 的各列与 X 的各列一一对应. 最后,对 U 进行最大池化操作,得到煤图像的基 元响应分布 Zc1∈RK 和岩图像的基元响应分布 Zr1 ∈ RK ,即为一开始参与训练的那对煤岩图像各自的特征 向量. 重复上述过程,对剩余的煤岩图像对进行相同 的训练过程,则可以得到 Di∈R36 × K 、Zci∈RK 和 Zri∈ RK ,其中 i = 1,2,…,70,如图 1 所示. 从 70 个基元矩阵中随机选取 L 个参与待测样本 的特征提取过程,即将测试集中的每一个待测样本图 像基于 L 个基元矩阵分别求出其对应的基元响应分 布,可得 Wij∈RK ,i = 1,2,…,68 j = 1,2,…,L. 为了更好地描述上述特征提取过程,将这一过程 可视化,如图 4 所示. 图中训练样本是一对煤岩图像 样本,X 是归一化后的训练样本矩阵,从图中可以鲜明 地看出分为两部分( 左半部为煤,右半部为岩) . X 经 过稀疏编码后得到基元矩阵 D 和稀疏矩阵 U. 从 U 的 图示化可以看出矩阵 U 中大多数元素为 0( U 图中灰 色部分表示 0 元素,由于 U 有正有负,所以显示时黑 色表示较大的负数,白色表示较大的正数) ,所以是稀 疏矩阵. U 经最大池化得到煤图像特征向量 Zc ( 与训 练样本左半部分对应) 和岩图像特征向量 Zr ( 与训练 样本右半部分对应) . 基元矩阵 D 参与待测样本的特 征提取过程,得到待测样本的图像特征向量 W. 从图 示化可以看出,W 与 Zr 更相似,但 Y 却与 X 的左半部 分更相似. 这就意味着,若在特征提取前作判别,待测 样本很有可能被判为煤,而在特征提取后作判别,待测 样本很有可能被判为岩. 然而,实际上图 4 中的待测 样本是一张砂岩图像( 训练样本是一张无烟煤图像和 一张页岩图像) ,由此可知根据特征提取后的特征向 量判断是正确的. 这也说明本文所述的特征提取方法 能够大大增强煤岩图像的可区分性,能够有效表达煤 岩图像的纹理特征,因此,本文所述的特征提取方法是 可行的. 图 4 特征提取流程图 Fig. 4 Flow chart of feature extraction 2. 3 分类识别 根据分类识别原理,随机选择 L≤M 个子分类器 组成一个强分类器,作为判决器,如图 1 所示. 判决器 是一个集成分类器,其原理结构如图 5 所示. 判决方 法是: 根据式( 4) 对每个待测样本进行 L 次判断,若判 为煤的次数多,则判为煤; 反之,则判为岩. 这里,共有 68 个待测样本,将它们一一送入判决器,得出每个待 测样本的类别. 2. 4 参数讨论 经实验表明,主要有 3 个因素影响本文所述方法 的煤岩识别率,包括提取尺度、稀疏度和 L 值. 提取尺 度指的是提取的图像块的大小,一般对于不重叠提取 而言,图像块尺度越小,提取的图像块越多,则池化区 域越大,图像特征数越少. 稀疏度是指图像块的稀疏 表示系数中零元素个数占元素总数的最小比重,其取 · 489 ·
伍云霞等:基于最大池化稀疏编码的煤岩识别方法 ·985· 判决器 3s,而采煤机平均切割线速度一般约为7cm·s1,本文 Z 认为3s的识别反应时间是可行的.由表1后5行数 D. 据可知,稀疏度越小,L越大,识别率越高,识别时间 越长. 稀疏度与煤岩识别率的关系如图6所示,其中提 D 取尺度=6×6,L=15.从图中可以看出,随着稀疏度 的减小,识别率不断增大,最后趋于稳定.图中每个节 图5判决器原理图 Fig.5 Schematic of decision maker 点旁边括号里面的数字表示其对应的识别时间(单 位:s),可以看出,稀疏度越小,识别时间越长.综合考 值范围为(0,1).稀疏度是衡量图像特征向量稀疏性 虑识别率和识别时间两方面因素,稀疏度取0.5左右 的重要参数,一般稀疏度越大,特征向量越稀疏.L正 较适宜. 如前文所述,是指参与决策的子分类器数.从本文所 100 28 述方法原理可知,L与煤岩识别时间成正相关,其值越 2.3) (3.03.23.43.63.94.1 95 (2.0) 2.5) 大,识别时间越长.为了获取合适的参数配置,下面将 90 (1.7 具体讨论这些参数对煤岩识别率的影响. 85 经实验测试,测得不同参数配置下的煤岩识别率, 1.4) 见表1.表中的稀疏度指的是待测样本图像块的稀疏 80 度,因为相比于训练样本,我们更关心待测样本.本文 75 1.0) 中的稀疏度,若无特别说明,均指待测样本图像块的稀 70 90 8070605040302010 疏度.从上文所述的分类识别原理可知,由于参与决 稀硫度102 策的子分类器是随机选取的,所以导致同一样本集每 图6稀疏度与识别率的关系 次测得的识别率并不一致.因此,表中的识别率均指 Fig.6 Relationship between sparsity and recognition rate 在同等条件下,出现概率最大的识别率,即独立连续测 参与决策的子分类器数L与煤岩识别率的关系曲 试10次,取出现次数最多的.表中的识别时间表示的 线如图7所示,其中提取尺度=6×6,稀疏度=0.5 是平均每识别10个待测样本所用的时间.因为在实 可以看出,随着L的增大,识别率稳步提升,最后趋于 际应用中可能需要同时采集多幅煤岩图像进行识别判 稳定.而且,L越大,识别时间越长.从图中可以看出, 断,所以考虑识别时间时要有所富余 L取15左右较适宜.由上文分类识别原理可知,子分 表1不同参数选择下的识别率 类器一共有70个,然而从图7可以看出子分类器只需 Table 1 Recognition rate based on different parameter selections 20个左右即可.那么,是不是可以进一步减少训练样 提取尺度稀疏度 L识别率错误样本数识别时间/s 本数,也能得到较高的煤岩识别率呢?下面将对这一 12×12 0.50 150.60294 27 1.881123 问题进行探讨. 12×6 0.50 150.91176 6 1.893696 100 6×6 0.50 15 0.98529 2.744992 1.829260B694 95 (1.0 6×6 0.07 21 0.98529 1 5.710197 90 6×6 0.07 3 0.91176 6 0.870445 0.6) 85 6×6 0.86 19 0.85294 10 1.787096 0.2) 80 6×6 0.86 50.80882 13 0.494909 2 68101214161820 L 由表1可知,提取尺度越小,识别效果越好,但提 图7L值与识别率的关系 Fig.7 Relationship between the value of L and the recognition rate 取尺度过小的话,会破坏图像内部的结构特征,而且带 来的计算量也较大.因此,应该选择合适的提取尺度. 对上述问题进行实验测试,测得的数据记录于表 从表1中前3行数据可知,提取尺度选择6×6是合适 2.其中,样本集1、2和3都有208张煤岩图像,只是各 的,能够得到较高的煤岩识别率.从表中第3、4行数 自的训练样本数与测试样本数的比例不一样.样本集 据可以看出,煤岩识别率可以达到98.529%,错误样 1有140个训练样本,68个测试样本,即是上文用于实 本数为1(总测试样本数为68).这一识别率也是本文 验的样本集;样本集2有124个训练样本,84个测试样 所测得的最高识别率,由第3行数据可知,其识别时间 本:样本集3有104个训练样本,104个测试样本.从 约为3$,即每识别10个煤岩待测样本图像大概需要 表2中数据可以看出,对于不同的样本集,本文所述的
伍云霞等: 基于最大池化稀疏编码的煤岩识别方法 图 5 判决器原理图 Fig. 5 Schematic of decision maker 值范围为( 0,1) . 稀疏度是衡量图像特征向量稀疏性 的重要参数,一般稀疏度越大,特征向量越稀疏. L 正 如前文所述,是指参与决策的子分类器数. 从本文所 述方法原理可知,L 与煤岩识别时间成正相关,其值越 大,识别时间越长. 为了获取合适的参数配置,下面将 具体讨论这些参数对煤岩识别率的影响. 经实验测试,测得不同参数配置下的煤岩识别率, 见表 1. 表中的稀疏度指的是待测样本图像块的稀疏 度,因为相比于训练样本,我们更关心待测样本. 本文 中的稀疏度,若无特别说明,均指待测样本图像块的稀 疏度. 从上文所述的分类识别原理可知,由于参与决 策的子分类器是随机选取的,所以导致同一样本集每 次测得的识别率并不一致. 因此,表中的识别率均指 在同等条件下,出现概率最大的识别率,即独立连续测 试 10 次,取出现次数最多的. 表中的识别时间表示的 是平均每识别 10 个待测样本所用的时间. 因为在实 际应用中可能需要同时采集多幅煤岩图像进行识别判 断,所以考虑识别时间时要有所富余. 表 1 不同参数选择下的识别率 Table 1 Recognition rate based on different parameter selections 提取尺度 稀疏度 L 识别率 错误样本数 识别时间/ s 12 × 12 0. 50 15 0. 60294 27 1. 881123 12 × 6 0. 50 15 0. 91176 6 1. 893696 6 × 6 0. 50 15 0. 98529 1 2. 744992 6 × 6 0. 07 21 0. 98529 1 5. 710197 6 × 6 0. 07 3 0. 91176 6 0. 870445 6 × 6 0. 86 19 0. 85294 10 1. 787096 6 × 6 0. 86 5 0. 80882 13 0. 494909 由表 1 可知,提取尺度越小,识别效果越好,但提 取尺度过小的话,会破坏图像内部的结构特征,而且带 来的计算量也较大. 因此,应该选择合适的提取尺度. 从表 1 中前 3 行数据可知,提取尺度选择 6 × 6 是合适 的,能够得到较高的煤岩识别率. 从表中第 3、4 行数 据可以看出,煤岩识别率可以达到 98. 529% ,错误样 本数为 1( 总测试样本数为 68) . 这一识别率也是本文 所测得的最高识别率,由第 3 行数据可知,其识别时间 约为 3 s,即每识别 10 个煤岩待测样本图像大概需要 3 s,而采煤机平均切割线速度一般约为 7 cm·s - 1,本文 认为 3 s 的识别反应时间是可行的. 由表 1 后 5 行数 据可知,稀疏度越小,L 越大,识别率越高,识别时间 越长. 稀疏度与煤岩识别率的关系如图 6 所示,其中提 取尺度 = 6 × 6,L = 15. 从图中可以看出,随着稀疏度 的减小,识别率不断增大,最后趋于稳定. 图中每个节 点旁边括号里面的数字表示其对应的识别时间( 单 位: s) ,可以看出,稀疏度越小,识别时间越长. 综合考 虑识别率和识别时间两方面因素,稀疏度取 0. 5 左右 较适宜. 图 6 稀疏度与识别率的关系 Fig. 6 Relationship between sparsity and recognition rate 参与决策的子分类器数 L 与煤岩识别率的关系曲 线如图 7 所示,其中提取尺度 = 6 × 6,稀疏度 = 0. 5. 可以看出,随着 L 的增大,识别率稳步提升,最后趋于 稳定. 而且,L 越大,识别时间越长. 从图中可以看出, L 取 15 左右较适宜. 由上文分类识别原理可知,子分 类器一共有 70 个,然而从图 7 可以看出子分类器只需 20 个左右即可. 那么,是不是可以进一步减少训练样 本数,也能得到较高的煤岩识别率呢? 下面将对这一 问题进行探讨. 图 7 L 值与识别率的关系 Fig. 7 Relationship between the value of L and the recognition rate 对上述问题进行实验测试,测得的数据记录于表 2. 其中,样本集 1、2 和 3 都有 208 张煤岩图像,只是各 自的训练样本数与测试样本数的比例不一样. 样本集 1 有 140 个训练样本,68 个测试样本,即是上文用于实 验的样本集; 样本集2 有124 个训练样本,84 个测试样 本; 样本集 3 有 104 个训练样本,104 个测试样本. 从 表 2 中数据可以看出,对于不同的样本集,本文所述的 · 589 ·
·986· 工程科学学报,第39卷,第7期 煤岩识别方法均可得到较高的煤岩识别率.因此,有 的曲线波动在4%左右,即有2个样本左右的误差.因 理由认为,本文所述的方法可以通过较少的已知样本 此,相比方法1,方法2的识别率曲线波动更小,误差 进行训练,即可得到较高的识别率.这一点在实际应 样本数更少,也就意味着方法2的识别稳定性更好. 用中很有意义,因为有时候已知样本并不容易获得 方法1,即基于字典学习的煤岩识别方法,主要先 从这个角度看,表2也充分说明了本文所述的煤岩识 通过主元分析法降低数据维度,再用字典学习算法提 别方法具有良好的识别稳定性 取煤岩图像特征,最后通过K近邻分类器进行分类识 表2不同样本集下的识别率 别,具体详见参考文献[6].方法2,即本文所述的方 Table 2 Recognition rate under different sample sets 法,借鉴了方法1的稀疏思想和R℉算法的分类思想, 样本集 识别率/% 错误样本数 识别时间/s 并通过最大池化操作,使其更适合处理高维图像数据, 98.529 1 2.744992 并且增强了识别稳定性,提高了识别率 2 98.810 2.868558 表3同类方法的比较 3 98.077 2.838868 Table 3 Comparison of similar methods 识别方法 特征数 识别率/% 错误样本数 综上所述,本文提出的基于最大池化稀疏编码的 方法1 42 96.154 2 煤岩识别方法的识别率与提取尺度、稀疏度和参与决 方法2 14 98.077 策的子分类器数L有关.总的来说,提取尺度越小,稀 疏度越小,L越大,识别率越高.通过前文的讨论,可 100 以知道提取尺度不能过小,稀疏度不能过小,L不能过 09 大,考虑到各方面因素,三者都应取合适的值.这里, 对L个子分类器的随机选取作进一步说明,本文所述 方法的识别率的波动也正是源于此,若选择固定的子 ◆一方法1 一◆一方法2 分类器,则识别率是固定不变的,可以就固定在 98.529%.既然这样,那为何不如此处理呢?因为如 5678910 果固定子分类器,那么就具有太强的特殊性,所得的实 图8识别率稳定性比较 验结果也没说服力,是不可信的.例如,固定子分类 Fig.8 Comparison of recognition rate stability 器,得到一个很高的识别率,但换一组测试样本时识别 以上方法1和方法2之间的比较,是同类型方法 率可能会有较大幅度的下降,因为根据前者得到的参 之间的比较.与其他类型方法的比较见表4.表中数 数配置是不准确的,或者说是特殊的(只对那特定的 据都是基于本文的样本集3(共104个测试样本)测试 一组样本有很好的效果).正是为了减弱这种特殊性, 所得.灰度共生矩阵法采用能量、对比度、熵和相关性 增强普遍性,才采取了随机选择的方式.这样做虽然 在具体的样本集上带来了识别率的不稳定性,但却在 四个特征量来表征图像的纹理信息,局部二值模式 法圆采用3×3的像素邻域来提取图像的纹理特征, 更大的范围内,为整体的识别率带来了稳定性,即局部 小波变换法采用滤波器长度为4、分解尺度为5的 的不稳定换来了整体的相对稳定,表2中的实验数据 Daubechies小波基进行特征提取,并且以上三种方法 就能充分说明这一点 都采用K近邻分类器进行分类识别.从煤岩识别率的 下面将本文所述的煤岩识别方法与基于字典学习 角度来看,本文所述的煤岩识别方法优于以上三种方法 的煤岩识别方法作一下简单对比.如表3所示,方法1 是基于字典学习的煤岩识别方法,方法2是本文所述 表4与其他类型方法的比较 方法,表中数据是基于同一样本集(152个训练样本, Table 4 Comparison with other types of methods 52个测试样本)实测获得.由表可知,相比方法1,本 方法 煤岩识别率/% 错误样本数 文方法特征数大为减少,这意味着所需的存储空间更 本文方法 98.077 2 小,更适合处理高维图像数据:煤岩识别率有所提升, 灰度共生矩阵法 88.462 12 错误样本数有所下降.图8是两种方法识别率稳定性 局部二值模式法 93.269 比较的曲线图,图中数据是用两种方法分别独立连续 小波变换法 95.192 测试10次所得(图中n表示测试的序号).方法2的 曲线明显在方法1的上方,从这也可以说明方法2的 3 结论 识别率略高于方法1.从图中还可以看出:方法1的曲 线波动在6%左右,即有3个样本左右的误差:方法2 (1)本文提出的基于最大池化稀疏编码的煤岩识
工程科学学报,第 39 卷,第 7 期 煤岩识别方法均可得到较高的煤岩识别率. 因此,有 理由认为,本文所述的方法可以通过较少的已知样本 进行训练,即可得到较高的识别率. 这一点在实际应 用中很有意义,因为有时候已知样本并不容易获得. 从这个角度看,表 2 也充分说明了本文所述的煤岩识 别方法具有良好的识别稳定性. 表 2 不同样本集下的识别率 Table 2 Recognition rate under different sample sets 样本集 识别率/% 错误样本数 识别时间/ s 1 98. 529 1 2. 744992 2 98. 810 1 2. 868558 3 98. 077 2 2. 838868 综上所述,本文提出的基于最大池化稀疏编码的 煤岩识别方法的识别率与提取尺度、稀疏度和参与决 策的子分类器数 L 有关. 总的来说,提取尺度越小,稀 疏度越小,L 越大,识别率越高. 通过前文的讨论,可 以知道提取尺度不能过小,稀疏度不能过小,L 不能过 大,考虑到各方面因素,三者都应取合适的值. 这里, 对 L 个子分类器的随机选取作进一步说明,本文所述 方法的识别率的波动也正是源于此,若选择固定的子 分类 器,则 识 别 率 是 固 定 不 变 的,可 以 就 固 定 在 98. 529% . 既然这样,那为何不如此处理呢? 因为如 果固定子分类器,那么就具有太强的特殊性,所得的实 验结果也没说服力,是不可信的. 例如,固定子分类 器,得到一个很高的识别率,但换一组测试样本时识别 率可能会有较大幅度的下降,因为根据前者得到的参 数配置是不准确的,或者说是特殊的( 只对那特定的 一组样本有很好的效果) . 正是为了减弱这种特殊性, 增强普遍性,才采取了随机选择的方式. 这样做虽然 在具体的样本集上带来了识别率的不稳定性,但却在 更大的范围内,为整体的识别率带来了稳定性,即局部 的不稳定换来了整体的相对稳定,表 2 中的实验数据 就能充分说明这一点. 下面将本文所述的煤岩识别方法与基于字典学习 的煤岩识别方法作一下简单对比. 如表 3 所示,方法 1 是基于字典学习的煤岩识别方法,方法 2 是本文所述 方法,表中数据是基于同一样本集( 152 个训练样本, 52 个测试样本) 实测获得. 由表可知,相比方法 1,本 文方法特征数大为减少,这意味着所需的存储空间更 小,更适合处理高维图像数据; 煤岩识别率有所提升, 错误样本数有所下降. 图 8 是两种方法识别率稳定性 比较的曲线图,图中数据是用两种方法分别独立连续 测试 10 次所得( 图中 n 表示测试的序号) . 方法 2 的 曲线明显在方法 1 的上方,从这也可以说明方法 2 的 识别率略高于方法 1. 从图中还可以看出: 方法 1 的曲 线波动在 6% 左右,即有 3 个样本左右的误差; 方法 2 的曲线波动在 4% 左右,即有 2 个样本左右的误差. 因 此,相比方法 1,方法 2 的识别率曲线波动更小,误差 样本数更少,也就意味着方法 2 的识别稳定性更好. 方法 1,即基于字典学习的煤岩识别方法,主要先 通过主元分析法降低数据维度,再用字典学习算法提 取煤岩图像特征,最后通过 K-近邻分类器进行分类识 别,具体详见参考文献[6]. 方法 2,即本文所述的方 法,借鉴了方法 1 的稀疏思想和 RF 算法的分类思想, 并通过最大池化操作,使其更适合处理高维图像数据, 并且增强了识别稳定性,提高了识别率. 表 3 同类方法的比较 Table 3 Comparison of similar methods 识别方法 特征数 识别率/% 错误样本数 方法 1 42 96. 154 2 方法 2 14 98. 077 1 图 8 识别率稳定性比较 Fig. 8 Comparison of recognition rate stability 以上方法 1 和方法 2 之间的比较,是同类型方法 之间的比较. 与其他类型方法的比较见表 4. 表中数 据都是基于本文的样本集 3( 共 104 个测试样本) 测试 所得. 灰度共生矩阵法采用能量、对比度、熵和相关性 四个特征量来表征图像的纹理信息,局部二值模式 法[23]采用 3 × 3 的像素邻域来提取图像的纹理特征, 小波变换法采用滤波器长度为 4、分 解 尺 度 为 5 的 Daubechies 小波基进行特征提取,并且以上三种方法 都采用 K-近邻分类器进行分类识别. 从煤岩识别率的 角度来看,本文所述的煤岩识别方法优于以上三种方法. 表 4 与其他类型方法的比较 Table 4 Comparison with other types of methods 方法 煤岩识别率/% 错误样本数 本文方法 98. 077 2 灰度共生矩阵法 88. 462 12 局部二值模式法 93. 269 7 小波变换法 95. 192 5 3 结论 ( 1) 本文提出的基于最大池化稀疏编码的煤岩识 · 689 ·
伍云霞等:基于最大池化稀疏编码的煤岩识别方法 ·987· 别方法与提取尺度、稀疏度、参与决策的子分类器数等 6]Wu Y X,Tian Y M.Method of coal-tock image feature extraction 因素有关. and recognition based on dictionary leaming.J China Coal Soc 2016,41(12):3190 (2)本文所述的方法在图像特征提取时加入池化 (伍云霞,田一民.基于字典学习的煤岩图像特征提取与识别 操作,在分类识别时采用集成分类器,能大大增强煤岩 方法.煤炭学报,2016,41(12):3190) 图像的可区分性,并且具有良好的识别稳定性,获得了 [7]Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for 较高的煤岩识别率 deep belief nets.Neural Comput,2006,18(7):1527 (3)本文所述的方法更适合处理高维图像数据, [8]Larochelle H,Bengio Y,Louradour J,et al.Exploring strategies 并且由其原理可知,子分类器是相互独立的,它们的求 for training deep neural networks.J Machine Learning Res,2009, 解、构成以及工作都可同时进行,易于实现并行化处 10(1):1 9]Chen W,Rodrigues M R D.Dictionary learning with optimized 理,这样就可进一步提高运行速度,减小煤岩识别的时 projection design for compressive sensing applications.IEEE Sig- 间,因而,本文所述方法也可用于大规模数据处理. nal Process Lett,2013.20(10)992 总体而言,现今煤岩图像识别方法还是缺乏的,因 [10]Elad M,Aharon M.Image denoising via sparse and redundant 而,研究新的煤岩图像识别方法是有必要的.煤岩图 representation over learned dictionaries.IEEE Trans Image 像识别方法的研究,主要侧重于煤岩图像特征的提取 Process,2006,15(12):3736 方式.现有的煤岩图像特征提取方式取得了一些成 01] Zhou G H,Zhu D Z,Wang K,et al.Wavelet image inpainting 果,但仍存在着不足,无法满足实际需求,本文提出的 based on dictionary learning with a beta process /World Auto- mation Congress.Puerto Vallarta,2012 最大池化稀疏编码的特征提取方式能有效表达煤岩图 [12]Kukreja S L,Lofberg J,Brenner M J.A least absolute shrinkage 像的纹理特征,获得了较高的煤岩识别率.如今的社 and selection operator (LASSO)for nonlinear system identifica- 会已经进入大数据时代,数据的维度越来越高,种类越 tion.IFAC Proc Volumes,2006,39(1)814 来越多,规模越来越大,海量的数据处理已成为现实需 13] Yan Z B,Yao Y.Variable selection method for fault isolation u- 求和发展趋势.本文所述的煤岩识别方法容易实现数 sing least absolute shrinkage and selection operator (LASSO). 据的并行计算,符合这一趋势.而且,图像的最大池化 Chemom Intell Lab Syst,2015,146:136 [14]Tropp J A.Greed is good:algorithmic results for sparse approxi- 操作符合人类视觉系统特性。因此,本文所述的方法 mation.IEEE Trans Inf Theory,2004,50(10):2231 有着良好的发展前景,可为煤岩自动识别技术提供一 [15]Li J,Wang Q,Shen Y.Near optimal condition of OMP algorithm 种新的思路和方法 in recovering sparse signal from noisy measurement.J Syst Eng Electron,2014,25(4):547 参考文献 [16]Cai TT,Wang L.Orthogonal matching pursuit for sparse signal re- [She J.Study of Coal Rock Recognition Methods based on Image covery with noise.IEEE Trans Inf Theory,2011,57(7)4680 Processing [Dissertation].Beijing:China University of Mining [17]Aharon M,Elad M,Bruckstein A.rK-SVD:an algorithm for Technology (Beijing),2014 designing overcomplete dictionaries for sparse representation (佘杰.基于图像的煤岩识别方法研究[学位论文].北京:中 IEEE Trans Signal Process,2006,54(11)4311 国矿业大学(北京),2014) 8] Ptucha R,Savakis A E.LGE-KSVD:robust sparse representation [2]Sun J P,She J.Wavelet-based coal-rock image feature extraction classification.IEEE Trans Image Process,2014,23(4):1737 and recognition.J China Coal Soc,2013,38 (10)1900 [19] Jiang ZL,Lin Z,Davis L S.Label consistent K-SVD:leaming (孙继平,佘杰.基于小波的煤岩图像特征抽取与识别.煤炭 a discriminative dictionary for recognition.IEEE Trans PatternA- 学报,2013,38(10):1900) nal Machine Intell,2013,35 (11)2651 B]Sun J P,Chen B.A coal-rock recognition algorithm using wave- [20]Bryt 0,Elad M.Compression of facial images using the K-SVD let-domain asymmetric generalized Gaussian models.J China algorithm.J Visual Commun Image Representation,2008,19 Coal Soc,2015,40(Suppl 2):568 (4):270 (孙继平,陈浜.基于小波域非对称广义高斯模型的煤岩识别 [21]Shi J,Wang X H.Image super-esolution reconstruction based 算法.煤炭学报,2015,40(增刊2):568) on improved K-SVD dictionary-earning.Acta Electron Sinica, 4]Sun J P,Chen B.An approach to coal-rock recognition via statis- 2013,41(5):997 tical modeling in dual-ree complex wavelet domain.J China Coal (史郡,王晓华.基于改进KSVD字典学习的超分辨率图像 Soc,2016,41(7):1847 重构.电子学报,2013,41(5):997) (孙继平,陈浜.基于双树复小波域统计建模的煤岩识别方 22]Breiman L.Random forests.Machine Learning,2001,45(1):5 法.煤炭学报,2016,41(7):1847) [23] Song K C.Yan Y H,Chen W H,et al.Research and perspec- 5]Zhang H,LiZ B,Jiang YY.Study on coal and rock identifica- tive on local binary pattem.Acta Automatica Sinica,2013,39 tion based on image texture.Coal Technol,2015,34(7):120 (6):730 (章华,李振壁,姜媛媛.基于图像纹理的煤岩识别研究.煤 (宋克臣,颜云辉,陈文辉,等.局部二值模式方法研究与展 炭技术,2015,34(7):120) 望.自动化学报,2013,39(6):730)
伍云霞等: 基于最大池化稀疏编码的煤岩识别方法 别方法与提取尺度、稀疏度、参与决策的子分类器数等 因素有关. ( 2) 本文所述的方法在图像特征提取时加入池化 操作,在分类识别时采用集成分类器,能大大增强煤岩 图像的可区分性,并且具有良好的识别稳定性,获得了 较高的煤岩识别率. ( 3) 本文所述的方法更适合处理高维图像数据, 并且由其原理可知,子分类器是相互独立的,它们的求 解、构成以及工作都可同时进行,易于实现并行化处 理,这样就可进一步提高运行速度,减小煤岩识别的时 间,因而,本文所述方法也可用于大规模数据处理. 总体而言,现今煤岩图像识别方法还是缺乏的,因 而,研究新的煤岩图像识别方法是有必要的. 煤岩图 像识别方法的研究,主要侧重于煤岩图像特征的提取 方式. 现有的煤岩图像特征提取方式取得了一些成 果,但仍存在着不足,无法满足实际需求,本文提出的 最大池化稀疏编码的特征提取方式能有效表达煤岩图 像的纹理特征,获得了较高的煤岩识别率. 如今的社 会已经进入大数据时代,数据的维度越来越高,种类越 来越多,规模越来越大,海量的数据处理已成为现实需 求和发展趋势. 本文所述的煤岩识别方法容易实现数 据的并行计算,符合这一趋势. 而且,图像的最大池化 操作符合人类视觉系统特性. 因此,本文所述的方法 有着良好的发展前景,可为煤岩自动识别技术提供一 种新的思路和方法. 参 考 文 献 [1] She J. Study of Coal Rock Recognition Methods based on Image Processing [Dissertation]. Beijing: China University of Mining & Technology ( Beijing) ,2014 ( 佘杰. 基于图像的煤岩识别方法研究[学位论文]. 北京: 中 国矿业大学( 北京) ,2014) [2] Sun J P,She J. Wavelet-based coal--rock image feature extraction and recognition. J China Coal Soc,2013,38( 10) : 1900 ( 孙继平,佘杰. 基于小波的煤岩图像特征抽取与识别. 煤炭 学报,2013,38( 10) : 1900) [3] Sun J P,Chen B. A coal--rock recognition algorithm using wavelet--domain asymmetric generalized Gaussian models. J China Coal Soc,2015,40( Suppl 2) : 568 ( 孙继平,陈浜. 基于小波域非对称广义高斯模型的煤岩识别 算法. 煤炭学报,2015,40( 增刊 2) : 568) [4] Sun J P,Chen B. An approach to coal-rock recognition via statistical modeling in dual-tree complex wavelet domain. J China Coal Soc,2016,41( 7) : 1847 ( 孙继平,陈浜. 基于双树复小波域统计建模的煤岩识别方 法. 煤炭学报,2016,41( 7) : 1847) [5] Zhang H,Li Z B,Jiang Y Y. Study on coal and rock identification based on image texture. Coal Technol,2015,34( 7) : 120 ( 章华,李振壁,姜媛媛. 基于图像纹理的煤岩识别研究. 煤 炭技术,2015,34( 7) : 120) [6] Wu Y X,Tian Y M. Method of coal-rock image feature extraction and recognition based on dictionary learning. J China Coal Soc, 2016,41( 12) : 3190 ( 伍云霞,田一民. 基于字典学习的煤岩图像特征提取与识别 方法. 煤炭学报,2016,41( 12) : 3190) [7] Hinton G E,Osindero S,Teh Y W. A fast learning algorithm for deep belief nets. Neural Comput,2006,18( 7) : 1527 [8] Larochelle H,Bengio Y,Louradour J,et al. Exploring strategies for training deep neural networks. J Machine Learning Res,2009, 10( 1) : 1 [9] Chen W,Rodrigues M R D. Dictionary learning with optimized projection design for compressive sensing applications. IEEE Signal Process Lett,2013,20( 10) : 992 [10] Elad M,Aharon M. Image denoising via sparse and redundant representation over learned dictionaries. IEEE Trans Image Process,2006,15( 12) : 3736 [11] Zhou G H,Zhu D Z,Wang K,et al. Wavelet image inpainting based on dictionary learning with a beta process / / World Automation Congress. Puerto Vallarta,2012 [12] Kukreja S L,Lfberg J,Brenner M J. A least absolute shrinkage and selection operator ( LASSO) for nonlinear system identification. IFAC Proc Volumes,2006,39( 1) : 814 [13] Yan Z B,Yao Y. Variable selection method for fault isolation using least absolute shrinkage and selection operator ( LASSO) . Chemom Intell Lab Syst,2015,146: 136 [14] Tropp J A. Greed is good: algorithmic results for sparse approximation. IEEE Trans Inf Theory,2004,50( 10) : 2231 [15] Li J,Wang Q,Shen Y. Near optimal condition of OMP algorithm in recovering sparse signal from noisy measurement. J Syst Eng Electron,2014,25( 4) : 547 [16] Cai T T,Wang L. Orthogonal matching pursuit for sparse signal recovery with noise. IEEE Trans Inf Theory,2011,57( 7) : 4680 [17] Aharon M,Elad M,Bruckstein A. rmK--SVD: an algorithm for designing overcomplete dictionaries for sparse representation. IEEE Trans Signal Process,2006,54( 11) : 4311 [18] Ptucha R,Savakis A E. LGE--KSVD: robust sparse representation classification. IEEE Trans Image Process,2014,23( 4) : 1737 [19] Jiang Z L,Lin Z,Davis L S. Label consistent K--SVD: learning a discriminative dictionary for recognition. IEEE Trans Pattern Anal Machine Intell,2013,35( 11) : 2651 [20] Bryt O,Elad M. Compression of facial images using the K--SVD algorithm. J Visual Commun Image Representation,2008,19 ( 4) : 270 [21] Shi J,Wang X H. Image super-resolution reconstruction based on improved K--SVD dictionary-learning. Acta Electron Sinica, 2013,41( 5) : 997 ( 史郡,王晓华. 基于改进 K--SVD 字典学习的超分辨率图像 重构. 电子学报,2013,41( 5) : 997) [22] Breiman L. Random forests. Machine Learning,2001,45( 1) : 5 [23] Song K C,Yan Y H,Chen W H,et al. Research and perspective on local binary pattern. Acta Automatica Sinica,2013,39 ( 6) : 730 ( 宋克臣,颜云辉,陈文辉,等. 局部二值模式方法研究与展 望. 自动化学报,2013,39( 6) : 730) · 789 ·