第15卷第5期 智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0L:10.11992tis.202003018 融合整体与局部信息的武夷岩茶叶片分类方法 林丽惠2,罗志明3,王军政,李绍滋 (1,武夷学院数学与计算机学院,福建式夷山354300;2.武夷学院认知计算与智能信息处理福建省高校重点 实验室,福建武夷山354300:3.厦门大学信息与通信工程博士后流动站,福建厦门361005:4.厦门大学信息科 学与技术学院,福建厦门361005) 摘要:针对武夷岩茶鲜茶叶叶片图像分类问题,提出一种融合整体与局部信息的分类方法。该方法使用两分支 并行结构构建了一个整体与局部信息融合的卷积神经网铬模型。实验表明.在9个品种共计7330张武夷岩茶鲜 茶叶叶片图像数据集上,基于ResNet18构造的两分支并行卷积神经网络模型的分类准确率为96.68%,超过了其 他CNN模型的分类准确率。这表明通过融合全局信息、边缘形状信息和纹理局部信息能有效提高分类准确率。 关键词:武夷岩茶叶片分类;深度学习;迁移学习;特征融合:卷积神经网络;残差网络;边缘形状;纹理 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2020)05-0919-06 中文引用格式:林丽惠,罗志明,王军政,等.融合整体与局部信息的武夷岩茶叶片分类方法.智能系统学报,2020,15(⑤): 919-924. 英文引用格式:LIN Lihui,LUO Zhiming,WANG Junzheng,.etal.Classification of Wuyi rock tealeaves by integrating global and local information[J CAAI transactions on intelligent systems,2020,15(5):919-924. Classification of Wuyi rock tealeaves by integrating global and local information LIN Lihui2,LUO Zhiming,WANG Junzheng',LI Shaozi (1.School of Mathematics and Computer Science,Wuyi University,Wuyishan 354300,China:2.The Key Laboratory of Cognitive Computing and Intelligent Information Processing of Fujian Education Institutions,Wuyi University,Wuyishan 354300,China;3.Post- Doctoral Mobile Station of Information and Communication Engineering,Xiamen University,Xiamen 361005,China;4.Department of Artificial Intelligence,School of Informatics,Xiamen University,Xiamen 361005,China) Abstract:In this study,we focused on the classification of fresh Wuyi rock tealeaf images into different fine-grained categories and the construction of a two-branch parallel-structured convolutional neural network(CNN)model by integ- rating global and local information.We constructed a Wuyi rock tealeaf image dataset comprising 7330 fresh tealeaf im- ages of nine varieties.The experimental results showed that the proposed two-branch parallel-structured CNN model with ResNet18 achieved an accuracy of 96.68%on the Wuyi rock tealeaf image dataset,which is superior to that of oth- er CNN models.This result demonstrates that integrating global information and local information relating to edge shape and texture can effectively improve classification accuracy. Keywords:classification of Wuyi rock tealeaves;deep learning,transfer learning;feature integration;convolutional neural network;residual network;edge shape;texture 武夷岩茶是中国传统名茶,品种资源丰富,史 收稿日期:2020-03-12. 基金项目:国家自然科学基金项目(61876159,61806172, 书记载有上千个品种。因此武夷岩茶茶树品种的 U1705286):福建省2011协同创新中心一中国乌龙 茶产业协同创新中心专项(闽教科〔2015〕75号): 智能识别技术对研究武夷岩茶茶树的分布情况以 福建省自然科学基金项目(2017J01780.2018J01562, 2020J01421):武夷学院认知计算与智能信息处理福 及种质资源保护具有重要意义。基于叶片的识别 建省高校重点实验室开放课题项目(KLCCIIP20I8105, KLCCIIP2018201). 是植物种类识别最直接有效的方法"。鉴于武夷 通信作者:李绍滋.E-mail:slig@xmu.edu.cn 岩茶不同茶树品种的叶片在形态、大小和颜色上
DOI: 10.11992/tis.202003018 融合整体与局部信息的武夷岩茶叶片分类方法 林丽惠1,2,罗志明2,3,王军政4 ,李绍滋4 (1. 武夷学院 数学与计算机学院,福建 武夷山 354300; 2. 武夷学院 认知计算与智能信息处理福建省高校重点 实验室,福建 武夷山 354300; 3. 厦门大学 信息与通信工程博士后流动站,福建 厦门 361005; 4. 厦门大学 信息科 学与技术学院,福建 厦门 361005) 摘 要:针对武夷岩茶鲜茶叶叶片图像分类问题,提出一种融合整体与局部信息的分类方法。该方法使用两分支 并行结构构建了一个整体与局部信息融合的卷积神经网络模型。实验表明,在 9 个品种共计 7 330 张武夷岩茶鲜 茶叶叶片图像数据集上,基于 ResNet18 构造的两分支并行卷积神经网络模型的分类准确率为 96.68%,超过了其 他 CNN 模型的分类准确率。这表明通过融合全局信息、边缘形状信息和纹理局部信息能有效提高分类准确率。 关键词:武夷岩茶叶片分类;深度学习;迁移学习;特征融合;卷积神经网络;残差网络;边缘形状;纹理 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2020)05−0919−06 中文引用格式:林丽惠, 罗志明, 王军政, 等. 融合整体与局部信息的武夷岩茶叶片分类方法 [J]. 智能系统学报, 2020, 15(5): 919–924. 英文引用格式:LIN Lihui, LUO Zhiming, WANG Junzheng, et al. Classification of Wuyi rock tealeaves by integrating global and local information[J]. CAAI transactions on intelligent systems, 2020, 15(5): 919–924. Classification of Wuyi rock tealeaves by integrating global and local information LIN Lihui1,2 ,LUO Zhiming2,3 ,WANG Junzheng4 ,LI Shaozi4 (1. School of Mathematics and Computer Science, Wuyi University, Wuyishan 354300, China; 2. The Key Laboratory of Cognitive Computing and Intelligent Information Processing of Fujian Education Institutions, Wuyi University, Wuyishan 354300, China; 3. PostDoctoral Mobile Station of Information and Communication Engineering, Xiamen University, Xiamen 361005, China; 4. Department of Artificial Intelligence, School of Informatics, Xiamen University, Xiamen 361005, China) Abstract: In this study, we focused on the classification of fresh Wuyi rock tealeaf images into different fine-grained categories and the construction of a two-branch parallel-structured convolutional neural network (CNN) model by integrating global and local information. We constructed a Wuyi rock tealeaf image dataset comprising 7330 fresh tealeaf images of nine varieties. The experimental results showed that the proposed two-branch parallel-structured CNN model with ResNet18 achieved an accuracy of 96.68% on the Wuyi rock tealeaf image dataset, which is superior to that of other CNN models. This result demonstrates that integrating global information and local information relating to edge shape and texture can effectively improve classification accuracy. Keywords: classification of Wuyi rock tealeaves; deep learning; transfer learning; feature integration; convolutional neural network; residual network; edge shape; texture 武夷岩茶是中国传统名茶,品种资源丰富,史 书记载有上千个品种。因此武夷岩茶茶树品种的 智能识别技术对研究武夷岩茶茶树的分布情况以 及种质资源保护具有重要意义。基于叶片的识别 是植物种类识别最直接有效的方法[1]。鉴于武夷 岩茶不同茶树品种的叶片在形态、大小和颜色上 收稿日期:2020−03−12. 基金项目:国家自然科学基金项 目 (61876159, 61806172, U1705286);福建省 2011 协同创新中心—中国乌龙 茶产业协同创新中心专项(闽教科〔2015〕75 号); 福建省自然科学基金项目 (2017J01780,2018J01562, 2020J01421);武夷学院认知计算与智能信息处理福 建省高校重点实验室开放课题项目 (KLCCIIP2018105, KLCCIIP2018201) . 通信作者:李绍滋. E-mail:szlig@xmu.edu.cn. 第 15 卷第 5 期 智 能 系 统 学 报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020
·920· 智能系统学报 第15卷 存在差异,因此,武夷岩茶叶片是识别茶树品种 et模型及其后续版本9在ILSVRC比赛中将Top- 的首要特征。然而不同品种的武夷岩茶鲜茶叶叶 5错误率降低至4.8%。从上述CNN模型发展过 片大小、形状、颜色区别细微,在没有丰富经验的 程看,采用越来越深的网络结构是发展趋势。因 情况下,仅凭肉眼不易分辨茶叶所属品种,因此 为从AlexNet、VGGNet到GoogLeNet,网络模型的 研究自动化的茶叶品种识别方法是必要且有意义 深度越来越深,同时在ILSVRC比赛上取得的成 的工作。 绩也越来越好。 当前,深度学习已成为解决图像分类问题的 种重要方法1,尤其是基于卷积神经网络 2 ResNet模型+迁移学习 (convolutional neural network,CNN)的深度学习。 在CNN模型中,常通过增加网络深度来提升 该方法能得到更准确且接近图像高级语义的特 模型的表达能力。但随着网络深度的增加,梯度 征,已在图像分类方面取得了突破性进展6。目 消失等问题导致网络参数的寻优过程变得愈发困 前,有不少研究者尝试将CNN应用于植物分类 难。为此,何恺明等2o提出了深度残差网络(re- 问题。Yalcin等9提出了一种改进的CNN结构, sidual network,ResNet),并在2015年的ILS- 并在植物图像的分类问题上取得了比基于LBP、 VRC比赛中将Top-5错误率降至3.57%。Res- GIST等特征描述方法更高的分类准确率。Lee Net模型的核心思想是引人输入到输出的捷径连 等采用基于解卷积网络的方法识别植物叶片 接(图1),以降低数据中信息的冗余度2。Res- 特征,展示了植物叶片特征从低层抽象到高层抽 Net模型有不同的网络层数,常用的有l8层深度 象的层次转换。Grinblat等使用深度CNN模 的ResNet18和50层深度的ResNet50. 型自动提取植物叶脉特征,证明通过增加模型深 度可提高植物分类的准确率。Pawara等l使用 基于CNN的方法在多种植物图像数据集上进行 分类实验,结果表明深度CNN方法优于人工特 单层网络 征提取方法。 F(X) 在武夷岩茶鲜茶叶叶片图像分类问题上,目 单层网络 前还未见到基于CNN的相关研究工作,已有方法 仍然采用人工提取特征的技术路线。例如,林丽 惠等)人工提取武夷岩茶鲜茶叶叶片图像的14种 形状和纹理图像特征,然后使用支持向量机进行 分类,取得了91%的分类准确率。总体上,基于 F(x)H+x 人工提取特征的鲜茶叶叶片图像分类方法的分类 图1 ResNet中的捷径连接 准确率都在90%左右41。 Fig.1 Shortcut connection in ResNet 本研究针对武夷岩茶鲜茶叶叶片图像分类问 将深度CNN模型应用于图像分类问题的困 题,在现有CNN模型的基础上,提出了一个融合 难之一是需要庞大的图像数据集,否则其分类准 整体与局部信息的两分支并行卷积神经网络模 确率不佳。迁移学习2是一种把源领域知识迁 型。该模型在武夷岩茶的9个茶叶品种共计7330 移到目标领域的方法,适用于源领域数据量充足 张鲜茶叶叶片图像数据集上的分类准确率显著超 而目标领域数据量较小的情况。因此在图像数据 过已有方法。 量较小的情况下,可将CNN模型和迁移学习相结 1常见的CNN模型 合。这样做有3个益处:I)CNN模型能充分利用 源领域的大数据来预训练网络的参数;2)CNN模 2012年,由Alex等提出的AlexNet!)模型赢 型在训练过程中性能提升的速率更快;3)CNN模 得了2012年ImageNet项目的大规模视觉识别挑 型训练过程能更平稳地收敛到局部最优值。 战(ILSVRC)的第一名,取得Top-5错误率为 3整体与局部信息融合的CNN模型 16.4%的成绩。2014年,牛津大学视觉几何组提 出的VGGNet模型I在ILSVRC比赛中将Top 针对武夷岩茶鲜茶叶叶片分类问题,本研究 5错误率降到7.32%。Google提出的GoogLeN- 构建了一个如图2所示的整体与局部信息融合
存在差异,因此,武夷岩茶叶片是识别茶树品种 的首要特征。然而不同品种的武夷岩茶鲜茶叶叶 片大小、形状、颜色区别细微,在没有丰富经验的 情况下,仅凭肉眼不易分辨茶叶所属品种,因此 研究自动化的茶叶品种识别方法是必要且有意义 的工作。 当前,深度学习已成为解决图像分类问题的 一种重要方法[ 2 - 5 ] ,尤其是基于卷积神经网络 (convolutional neural network,CNN) 的深度学习。 该方法能得到更准确且接近图像高级语义的特 征,已在图像分类方面取得了突破性进展[6-8]。目 前,有不少研究者尝试将 CNN 应用于植物分类 问题。Yalcin 等 [9] 提出了一种改进的 CNN 结构, 并在植物图像的分类问题上取得了比基于 LBP、 GIST 等特征描述方法更高的分类准确率。Lee 等 [10] 采用基于解卷积网络的方法识别植物叶片 特征,展示了植物叶片特征从低层抽象到高层抽 象的层次转换。Grinblat 等 [11] 使用深度 CNN 模 型自动提取植物叶脉特征,证明通过增加模型深 度可提高植物分类的准确率。Pawara 等 [12] 使用 基于 CNN 的方法在多种植物图像数据集上进行 分类实验,结果表明深度 CNN 方法优于人工特 征提取方法。 在武夷岩茶鲜茶叶叶片图像分类问题上,目 前还未见到基于 CNN 的相关研究工作,已有方法 仍然采用人工提取特征的技术路线。例如,林丽 惠等[13] 人工提取武夷岩茶鲜茶叶叶片图像的 14 种 形状和纹理图像特征,然后使用支持向量机进行 分类,取得了 91% 的分类准确率。总体上,基于 人工提取特征的鲜茶叶叶片图像分类方法的分类 准确率都在 90% 左右[14-16]。 本研究针对武夷岩茶鲜茶叶叶片图像分类问 题,在现有 CNN 模型的基础上,提出了一个融合 整体与局部信息的两分支并行卷积神经网络模 型。该模型在武夷岩茶的 9 个茶叶品种共计 7330 张鲜茶叶叶片图像数据集上的分类准确率显著超 过已有方法。 1 常见的 CNN 模型 2012 年,由 Alex 等提出的 AlexNet[17] 模型赢 得了 2012 年 ImageNet 项目的大规模视觉识别挑 战 (ILSVRC) 的第一名,取得 Top-5 错误率为 16.4% 的成绩。2014 年,牛津大学视觉几何组提 出的 VGGNet 模型[18] 在 ILSVRC 比赛中将 Top- 5 错误率降到 7.32%。Google 提出的 GoogLeNet 模型及其后续版本[19] 在 ILSVRC 比赛中将 Top- 5 错误率降低至 4.8%。从上述 CNN 模型发展过 程看,采用越来越深的网络结构是发展趋势。因 为从 AlexNet、VGGNet 到 GoogLeNet,网络模型的 深度越来越深,同时在 ILSVRC 比赛上取得的成 绩也越来越好。 2 ResNet 模型 + 迁移学习 在 CNN 模型中,常通过增加网络深度来提升 模型的表达能力。但随着网络深度的增加,梯度 消失等问题导致网络参数的寻优过程变得愈发困 难。为此,何恺明等[20] 提出了深度残差网络 (residual network,ResNet),并在 2015 年的 ILSVRC 比赛中将 Top-5 错误率降至 3.57%。ResNet 模型的核心思想是引入输入到输出的捷径连 接 (图 1),以降低数据中信息的冗余度[21]。ResNet 模型有不同的网络层数,常用的有 18 层深度 的 ResNet18 和 50 层深度的 ResNet50。 单层网络 单层网络 F(x) F(x)+x 图 1 ResNet 中的捷径连接 Fig. 1 Shortcut connection in ResNet 将深度 CNN 模型应用于图像分类问题的困 难之一是需要庞大的图像数据集,否则其分类准 确率不佳。迁移学习[22] 是一种把源领域知识迁 移到目标领域的方法,适用于源领域数据量充足 而目标领域数据量较小的情况。因此在图像数据 量较小的情况下,可将 CNN 模型和迁移学习相结 合。这样做有 3 个益处:1) CNN 模型能充分利用 源领域的大数据来预训练网络的参数;2) CNN 模 型在训练过程中性能提升的速率更快;3) CNN 模 型训练过程能更平稳地收敛到局部最优值。 3 整体与局部信息融合的 CNN 模型 针对武夷岩茶鲜茶叶叶片分类问题,本研究 构建了一个如图 2 所示的整体与局部信息融合 ·920· 智 能 系 统 学 报 第 15 卷
第5期 林丽患,等:融合整体与局部信息的武夷岩茶叶片分类方法 ·921· 的CNN模型(IGL-CNN),并将在ImageNet数据集 式迁移到武夷岩茶鲜茶叶叶片分类问题中。 上预训练的ResNet模型通过微调网络参数的方 整个叶片图像 ResNet 模型 输入 图像 预处理 特征融合 ResNet 模型 叶片图像块 图2整体与局部信息融合的CNN模型 Fig.2 CNN mode constructed by integrating global and local information 3.1网络模型结构概述 征向量[g,,其中g和1均为512维的向量。 IGL-CNN模型包含两个并行分支,分别用于 3.4损失函数 提取鲜茶叶叶片的全局特征和局部特征。两个分 考虑到武夷岩茶鲜茶叶叶片图像样本数量的 支都采用在ImageNet数据集上通过预训练得到 不均匀性,本研究使用交叉熵作为损失函数。假 的ResNet模型。第一个分支的输入是完整的茶 设待分类的武夷岩茶鲜茶叶叶片共有C个品 叶叶片图像(整体信息),其输出是叶片的全局特 种。对叶片样本k,定义其真实的类标签p为一 征。第二个分支的输入是局部的茶叶叶片图像个维度为C的向量,2,…,],当样本k属于品 (局部信息),其输出是叶片的局部特征。其次,在 种i时,t=1,否则=0。将叶片样本k在分类模 特征融合层将全局特征和局部特征进行融合,得 型的输出预测概率分布记为q=2,…,y]。对 到叶片图像对应的最终特征向量。最后,通过分 叶片样本k,其真实类标签与输出预测分布之间 类层将融合后的特征向量分类到不同的茶品种 的差异用交叉嫡l来表示: 类别。 3.2局部特征提取 (1) 将叶片图像归一化到224像素×224像素,然 后再将叶片图像均匀划分为3×3的子块(图3)。 对所有N个叶片样本,总损失函数L如下: 把子块分为3组。第1组由标注为1的子块组 L=-∑∑log0w) (2) 成,代表图像中间信息。第2组由标注为2的子 块组成,代表图像前后端信息。第3组由标注为 当叶片样本k属于品种i时,=1,否则 3的子块组成,代表图像边缘信息。以上3组局 t=0。y贴是IGL-CNN模型预测叶片样本k属于 部信息经过并行分支结构中的第2个分支处理后 品种i的概率。 得到对应的局部特征。 4实验 4.1数据集 数据集为实地采集武夷岩茶中9个茶叶品种 共计7330张鲜茶叶叶片图像。图4列出了9种 茶叶品种的鲜茶叶叶片图像数目。 图3叶片图像的块划分 4.2数据预处理 Fig.3 Division of a leaf image into blocks 通过基于阈值的图像分割算法对叶片图像进 3.3特征融合 行预处理,提取图像前景区域,然后将背景颜色 用特征串联操作将IGL-CNN模型提取出的 设置为纯白。图5为武夷岩茶鲜茶叶叶片图像的 茶叶叶片图像全局特征g与局部特征1组合为特 预处理结果
的 CNN 模型 (IGL-CNN),并将在 ImageNet 数据集 上预训练的 ResNet 模型通过微调网络参数的方 式迁移到武夷岩茶鲜茶叶叶片分类问题中。 输入 图像 预处理 ResNet 模型 ResNet 模型 特征融合 整个叶片图像 分类 叶片图像块 图 2 整体与局部信息融合的 CNN 模型 Fig. 2 CNN mode constructed by integrating global and local information 3.1 网络模型结构概述 IGL-CNN 模型包含两个并行分支,分别用于 提取鲜茶叶叶片的全局特征和局部特征。两个分 支都采用在 ImageNet 数据集上通过预训练得到 的 ResNet 模型。第一个分支的输入是完整的茶 叶叶片图像 (整体信息),其输出是叶片的全局特 征。第二个分支的输入是局部的茶叶叶片图像 (局部信息),其输出是叶片的局部特征。其次,在 特征融合层将全局特征和局部特征进行融合,得 到叶片图像对应的最终特征向量。最后,通过分 类层将融合后的特征向量分类到不同的茶品种 类别。 3.2 局部特征提取 3×3 将叶片图像归一化到 224 像素×224 像素,然 后再将叶片图像均匀划分为 的子块 (图 3)。 把子块分为 3 组。第 1 组由标注为 1 的子块组 成,代表图像中间信息。第 2 组由标注为 2 的子 块组成,代表图像前后端信息。第 3 组由标注为 3 的子块组成,代表图像边缘信息。以上 3 组局 部信息经过并行分支结构中的第 2 个分支处理后 得到对应的局部特征。 3 2 3 3 3 1 2 3 3 图 3 叶片图像的块划分 Fig. 3 Division of a leaf image into blocks 3.3 特征融合 g l 用特征串联操作将 IGL-CNN 模型提取出的 茶叶叶片图像全局特征 与局部特征 组合为特 征向量 [g, l] ,其中 g 和 l 均为 512 维的向量。 3.4 损失函数 C k p C [t1,t2,··· ,tC] k i ti=1 ti= 0 k q= [ y1, y2,··· , yC ] k lCE 考虑到武夷岩茶鲜茶叶叶片图像样本数量的 不均匀性,本研究使用交叉熵作为损失函数。假 设待分类的武夷岩茶鲜茶叶叶片共有 个品 种。对叶片样本 ,定义其真实的类标签 为一 个维度为 的向量 ,当样本 属于品 种 时, ,否则 。将叶片样本 在分类模 型的输出预测概率分布记为 。对 叶片样本 ,其真实类标签与输出预测分布之间 的差异用交叉熵 来表示: lCE = − ∑C i=1 ti log(yi) (1) 对所有 N 个叶片样本,总损失函数 L 如下: L = − ∑N k=1 ∑C i=1 tki log(yki) (2) k i tki=1 tki= 0 yki k i 当叶片样本 属于品种 时 , ,否则 。 是 IGL-CNN 模型预测叶片样本 属于 品种 的概率。 4 实验 4.1 数据集 数据集为实地采集武夷岩茶中 9 个茶叶品种 共计 7 330 张鲜茶叶叶片图像。图 4 列出了 9 种 茶叶品种的鲜茶叶叶片图像数目。 4.2 数据预处理 通过基于阈值的图像分割算法对叶片图像进 行预处理,提取图像前景区域,然后将背景颜色 设置为纯白。图 5 为武夷岩茶鲜茶叶叶片图像的 预处理结果。 第 5 期 林丽惠,等:融合整体与局部信息的武夷岩茶叶片分类方法 ·921·
·922· 智能系统学报 第15卷 2000 4.4实验结果与分析 1800 1600 4.4.1配置ResNet18的IGL-CNN模型 1400 1200 将GL-CNN模型中的两个分支均设置为 1000 800 ResNet1:8。局部的茶叶叶片信息分为边缘、中间 600 和前后端3类,实验中选择了7种组合作为第 400 200 2个分支的输入。表2给出了这7种输入对应的 黄观音 丹性 分类准确率,可见全局信息与边缘信息融合的策 略取得了96.68%的最高分类准确率。 茶叶品种 表2配置ResNet18的IGL-CNN模型的分类准确率 图49种茶叶品种的鲜茶叶叶片图像数目 Table 2 Classification accuracies of IGL-CNN mode with Fig.4 Numbers of fresh tealeaf images of nine kinds of teas ResNet18 组合编号 输人的图像局部信息 分类准确率/% 1 边缘信息 96.68 2 边缘信息+中间信息 96.59 (a)黄观音 (b)瑞香 (c)百岁香 3 中间信息 96.27 4 边缘信息+前后端信息 95.04 (d北斗 (e)丹桂 (①茗科一号 5 中间信息+前后端信息 94.63 6 边缘信息+中间数据+前后端信息 93.91 7 前后端信息 92.25 (g)奇兰 (h)肉桂 (①水仙 图5预处理后的9个品种的鲜茶叶叶片图像 4.4.2配置ResNet50的IGL-CNN模型 Fig.5 Images of fresh tealeafs of nine kinds of teas after 将IGL-CNN模型中的两个分支均设置为 preprocessing ResNet:50。为了与配置ResNet18的IGL-CNN模 4.3训练过程 型进行最优分类准确率的对比,将配置ResNet50 将7330张叶片图像数据按7:3的比例划分为 的IGL-CNN模型的第2个分支的输入设置为图 训练集和测试集。在IGL-CNN模型中,第1个 像边缘信息。实验结果表明其分类精度为96.36%, ResNet模型的输入为整个叶片图像,用于提取叶 低于对应配置ResNet18的IGL-CNN模型的分类 片图像的全局特征,第2个ResNet模型的输入为 准确率96.68%。这表明对于7330张叶片图像数 叶片图像块,即图3所示的3组叶片图像块中的 据集,18层的网络已足够深。如果希望在配置 组或者多组,用于提取叶片图像的局部特征。 ResNet50的IGL-CNN模型上取得更好的分类准 IGL-CNN模型中全连接层的输出设为9维矢量, 确率,7330张叶片图像数据集小了,需要更大的 以适应9类茶叶品种。 数据集。 使用随机梯度下降方法训练模型。为客观比 4.4.3单分支CNN模型 较网络模型和训练机制对分类准确率的影响,对 为验证两分支并行卷积神经网络相较于单分 实验中的超参数进行统一处理,超参数的具体值 支卷积神经网络的优越性,对单分支CNN模型进 如表1所示: 行了实验。第1次实验将单分支设为ResNet18 表1超参数值 模型,第2次实验将单分支设为ResNet5:0模型, Table 1 The values of hyperparameters 第3次实验将单分支设为VGG16模型,第4次实 参数类型 参数值 验将单分支设为AlexNet模型。 Lr(学习率) 103 综合以上3类实验结果,可得到以下结论。 I)当IGL-CNN模型的输人是整个叶片图像 Weight_decay(权重衰减) 10¥ 信息与图像边缘信息时取得96.68%的最高分类 Momentum(动量) 0.9 准确率; Epoch(回合数) 50 2)当IGL-CNN模型的输入是整个叶片图像 Batch size(批样本大小) 30 信息与图像中间信息时,分类准确率为96.27%
黄观音 瑞香 百岁香 北斗 丹桂 茗科1号 奇兰 肉桂 水仙 0 200 400 600 800 1 000 1 200 1 400 1 600 1 800 2 000 数量 茶叶品种 图 4 9 种茶叶品种的鲜茶叶叶片图像数目 Fig. 4 Numbers of fresh tealeaf images of nine kinds of teas (a) 黄观音 (d) 北斗 (g) 奇兰 (h) 肉桂 (i) 水仙 (e) 丹桂 (f) 茗科一号 (b) 瑞香 (c) 百岁香 图 5 预处理后的 9 个品种的鲜茶叶叶片图像 Fig. 5 Images of fresh tealeafs of nine kinds of teas after preprocessing 4.3 训练过程 将 7 330 张叶片图像数据按 7:3 的比例划分为 训练集和测试集。在 IGL-CNN 模型中,第 1 个 ResNet 模型的输入为整个叶片图像,用于提取叶 片图像的全局特征,第 2 个 ResNet 模型的输入为 叶片图像块,即图 3 所示的 3 组叶片图像块中的 一组或者多组,用于提取叶片图像的局部特征。 IGL-CNN 模型中全连接层的输出设为 9 维矢量, 以适应 9 类茶叶品种。 使用随机梯度下降方法训练模型。为客观比 较网络模型和训练机制对分类准确率的影响,对 实验中的超参数进行统一处理,超参数的具体值 如表 1 所示: 表 1 超参数值 Table 1 The values of hyperparameters 参数类型 参数值 Lr(学习率) 10−3 Weight_decay(权重衰减) 10−4 Momentum(动量) 0.9 Epoch(回合数) 50 Batch_size(批样本大小) 30 4.4 实验结果与分析 4.4.1 配置 ResNet18 的 IGL-CNN 模型 将 IGL-CNN 模型中的两个分支均设置为 ResNet18。局部的茶叶叶片信息分为边缘、中间 和前后端 3 类,实验中选择了 7 种组合作为第 2 个分支的输入。表 2 给出了这 7 种输入对应的 分类准确率,可见全局信息与边缘信息融合的策 略取得了 96.68% 的最高分类准确率。 表 2 配置 ResNet18 的 IGL-CNN 模型的分类准确率 Table 2 Classification accuracies of IGL-CNN mode with ResNet18 组合编号 输入的图像局部信息 分类准确率/% 1 边缘信息 96.68 2 边缘信息 + 中间信息 96.59 3 中间信息 96.27 4 边缘信息 + 前后端信息 95.04 5 中间信息 + 前后端信息 94.63 6 边缘信息 + 中间数据 + 前后端信息 93.91 7 前后端信息 92.25 4.4.2 配置 ResNet50 的 IGL-CNN 模型 将 IGL-CNN 模型中的两个分支均设置为 ResNet50。为了与配置 ResNet18 的 IGL-CNN 模 型进行最优分类准确率的对比,将配置 ResNet50 的 IGL-CNN 模型的第 2 个分支的输入设置为图 像边缘信息。实验结果表明其分类精度为 96.36%, 低于对应配置 ResNet18 的 IGL-CNN 模型的分类 准确率 96.68%。这表明对于 7 330 张叶片图像数 据集,18 层的网络已足够深。如果希望在配置 ResNet50 的 IGL-CNN 模型上取得更好的分类准 确率,7 330 张叶片图像数据集小了,需要更大的 数据集。 4.4.3 单分支 CNN 模型 为验证两分支并行卷积神经网络相较于单分 支卷积神经网络的优越性,对单分支 CNN 模型进 行了实验。第 1 次实验将单分支设为 ResNet18 模型,第 2 次实验将单分支设为 ResNet50 模型, 第 3 次实验将单分支设为 VGG16 模型,第 4 次实 验将单分支设为 AlexNet 模型。 综合以上 3 类实验结果,可得到以下结论。 1) 当 IGL-CNN 模型的输入是整个叶片图像 信息与图像边缘信息时取得 96.68% 的最高分类 准确率; 2) 当 IGL-CNN 模型的输入是整个叶片图像 信息与图像中间信息时,分类准确率为 96.27%, ·922· 智 能 系 统 学 报 第 15 卷
第5期 林丽惠,等:融合整体与局部信息的武夷岩茶叶片分类方法 ·923· 高于单分支CNN模型的最高分类准确率96.04%: 参考文献: 3)当IGL-CNN模型的输人是整个叶片图像 和图像前后端信息时,分类准确率为92.25%,略 [1]张宁,刘文萍.基于图像分析的植物叶片识别技术综 高于单分支CNN模型的最低分类准确率92.21%。 述.计算机应用研究,2011,28(11)少4001-4007 4)对于武夷岩茶鲜茶叶叶片分类问题,除了 ZHANG Ning,LIU Wenping.Plant leaf recognition tech- nology based on image analysis[J].Application research of 全局信息,叶片图像的边缘局部信息和中间局部 computers..2011,28(11):4001-4007. 信息也是区分叶片种类的重要信息。图像的边缘 [2]卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的 信息反映了叶片的边缘形状特征,图像的中间信 应用研究综述).数据采集与处理,2016,31(1)少:1-17. 息反映了叶片的纹理特征。因此,边缘形状和纹 LU Hongtao,ZHANG Qinchuan.Applications of deep 理是分类叶片种类的重要信息。在加入图像的前 convolutional neural network in computer vision[J].Journ- 后端信息后,叶片分类的准确率出现了下降,这 al of data acquisition and processing,2016,31(1):1-17. 说明叶片图像的前后两端信息对区分叶片种类的 [3]王成济,罗志明,钟准,等.一种多层特征融合的人脸检 作用不大。 测方法).智能系统学报,2018,13(1)少:138-146. S)合理选择CNN模型的深度很重要。理论 WANG Chengji,LUO Zhiming,ZHONG Zhun,et al.Face 上,模型深度越深,模型的表达能力越好。如表3 detection method fusing multi-layer features[J].CAAI 所示,ResNet50模型的分类准确率要高于 transactions on intelligent systems,2018,13(1):138-146. ResNet18模型的分类准确率。但对于配置Res- [4]周俊宇,赵艳明.卷积神经网络在图像分类和目标检测 Net50的IGL-CNN模型和配置ResNet1:8的IGL- 应用综述.计算机工程与应用,2017,53(13):34-41. CNN模型而言,这种情况出现了逆转。考虑到 ZHOU Junyu,ZHAO Yanming.Application of convolu- IGL-CNN模型的两分支并行结构包含的参数数 tion neural network in image classification and object de- tection[J].Computer engineering and applications,2017, 目是单分支CNN模型的2倍,这说明7330张叶 53(13):34-41. 片图像数据集对于配置ResNet50的IGL-CNN模 [5]刘大伟,韩玲,韩晓勇.基于深度学习的高分辨率遥感影 型是不够的,如果想进一步提高配置ResNet50的 像分类研究).光学学报,2016,36(4):0428001 IGL-CNN模型的分类准确率,还需增大图像数据 LIU Dawei,HAN Ling,HAN Xiaoyong.High spatial res- 集的容量。 olution remote sensing image classification based on deep 表34种单分支CNN模型的分类准确率 learning[J].Acta optica sinica,2016,36(4):0428001. Table 3 Classification accuracies of 4 kinds of single- [6]李亚飞,董红斌.基于卷积神经网络的遥感图像分类研 branch CNN models 究[).智能系统学报,2018,13(4):550-556. 模型 分类准确率% LI Yafei,DONG Hongbin.Classification of remote-sens- ResNet18 94.36 ing image based on convolutional neural network[J].CAAI transactions on intelligent systems,2018,13(4):550-556. ResNet50 96.04 [7刀]刘彪,黄蓉蓉,林和,等.基于卷积神经网络的盲文音乐 VGG16 93.22 识别研究).智能系统学报,2019,14(1):186-193 AlexNet 92.21 LIU Biao,HUANG Rongrong,LIN He,et al.Research on braille music recognition based on convolutional neural networks[J].CAAI transactions on intelligent systems, 5结束语 2019,141):186-193 针对武夷岩茶鲜茶叶叶片图像分类问题,本 [8]周飞燕,金林鹏,董军.卷积神经网络研究综述).计算 机学报,2017,40(6):1229-1251 研究设计了一个两分支并行结构的CNN模型。 ZHOU Feiyan,JIN Linpeng,DONG Jun.Review of con- 该模型融合了叶片图像的整体与局部信息,并 volutional neural network[J].Chinese journal of com- 在给定的武夷岩茶鲜茶叶叶片图像数据集上取 puters,2017,40(6):1229-1251 得了很好的分类准确率。此外,实验结果还表 [9]YALCIN H,RAZAVI S.Plant classification using convo- 明,除了图像的全局信息外,图像的边缘信息和 lutional neural networks[C]//2016 Fifth International Con- 纹理信息也是识别武夷岩茶鲜茶叶叶片的重要 ference on Agro-Geoinformatics.Tianjin,China,2016: 特征。以上结论为后续研究工作提供了有益的 1-5. 借鉴。 [10]LEE S H,CHAN C S,MAYO S J,et al.How deep learn-
高于单分支 CNN 模型的最高分类准确率 96.04%; 3) 当 IGL-CNN 模型的输入是整个叶片图像 和图像前后端信息时,分类准确率为 92.25%,略 高于单分支 CNN 模型的最低分类准确率 92.21%。 4) 对于武夷岩茶鲜茶叶叶片分类问题,除了 全局信息,叶片图像的边缘局部信息和中间局部 信息也是区分叶片种类的重要信息。图像的边缘 信息反映了叶片的边缘形状特征,图像的中间信 息反映了叶片的纹理特征。因此,边缘形状和纹 理是分类叶片种类的重要信息。在加入图像的前 后端信息后,叶片分类的准确率出现了下降,这 说明叶片图像的前后两端信息对区分叶片种类的 作用不大。 5) 合理选择 CNN 模型的深度很重要。理论 上,模型深度越深,模型的表达能力越好。如表 3 所示, ResNet5 0 模型的分类准确率要高 于 ResNet18 模型的分类准确率。但对于配置 ResNet50 的 IGL-CNN 模型和配置 ResNet18 的 IGLCNN 模型而言,这种情况出现了逆转。考虑到 IGL-CNN 模型的两分支并行结构包含的参数数 目是单分支 CNN 模型的 2 倍,这说明 7 330 张叶 片图像数据集对于配置 ResNet50 的 IGL-CNN 模 型是不够的,如果想进一步提高配置 ResNet50 的 IGL-CNN 模型的分类准确率,还需增大图像数据 集的容量。 表 3 4 种单分支 CNN 模型的分类准确率 Table 3 Classification accuracies of 4 kinds of singlebranch CNN models 模型 分类准确率/% ResNet18 94.36 ResNet50 96.04 VGG16 93.22 AlexNet 92.21 5 结束语 针对武夷岩茶鲜茶叶叶片图像分类问题,本 研究设计了一个两分支并行结构的 CNN 模型。 该模型融合了叶片图像的整体与局部信息,并 在给定的武夷岩茶鲜茶叶叶片图像数据集上取 得了很好的分类准确率。此外,实验结果还表 明,除了图像的全局信息外,图像的边缘信息和 纹理信息也是识别武夷岩茶鲜茶叶叶片的重要 特征。以上结论为后续研究工作提供了有益的 借鉴。 参考文献: 张宁, 刘文萍. 基于图像分析的植物叶片识别技术综 述 [J]. 计算机应用研究, 2011, 28(11): 4001–4007. ZHANG Ning, LIU Wenping. Plant leaf recognition technology based on image analysis[J]. Application research of computers, 2011, 28(11): 4001–4007. [1] 卢宏涛, 张秦川. 深度卷积神经网络在计算机视觉中的 应用研究综述 [J]. 数据采集与处理, 2016, 31(1): 1–17. LU Hongtao, ZHANG Qinchuan. Applications of deep convolutional neural network in computer vision[J]. Journal of data acquisition and processing, 2016, 31(1): 1–17. [2] 王成济, 罗志明, 钟准, 等. 一种多层特征融合的人脸检 测方法 [J]. 智能系统学报, 2018, 13(1): 138–146. WANG Chengji, LUO Zhiming, ZHONG Zhun, et al. Face detection method fusing multi-layer features[J]. CAAI transactions on intelligent systems, 2018, 13(1): 138–146. [3] 周俊宇, 赵艳明. 卷积神经网络在图像分类和目标检测 应用综述 [J]. 计算机工程与应用, 2017, 53(13): 34–41. ZHOU Junyu, ZHAO Yanming. Application of convolution neural network in image classification and object detection[J]. Computer engineering and applications, 2017, 53(13): 34–41. [4] 刘大伟, 韩玲, 韩晓勇. 基于深度学习的高分辨率遥感影 像分类研究 [J]. 光学学报, 2016, 36(4): 0428001. LIU Dawei, HAN Ling, HAN Xiaoyong. High spatial resolution remote sensing image classification based on deep learning[J]. Acta optica sinica, 2016, 36(4): 0428001. [5] 李亚飞, 董红斌. 基于卷积神经网络的遥感图像分类研 究 [J]. 智能系统学报, 2018, 13(4): 550–556. LI Yafei, DONG Hongbin. Classification of remote-sensing image based on convolutional neural network[J]. CAAI transactions on intelligent systems, 2018, 13(4): 550–556. [6] 刘彪, 黄蓉蓉, 林和, 等. 基于卷积神经网络的盲文音乐 识别研究 [J]. 智能系统学报, 2019, 14(1): 186–193. LIU Biao, HUANG Rongrong, LIN He, et al. Research on braille music recognition based on convolutional neural networks[J]. CAAI transactions on intelligent systems, 2019, 14(1): 186–193. [7] 周飞燕, 金林鹏, 董军. 卷积神经网络研究综述 [J]. 计算 机学报, 2017, 40(6): 1229–1251. ZHOU Feiyan, JIN Linpeng, DONG Jun. Review of convolutional neural network[J]. Chinese journal of computers, 2017, 40(6): 1229–1251. [8] YALCIN H, RAZAVI S. Plant classification using convolutional neural networks[C]//2016 Fifth International Conference on Agro-Geoinformatics. Tianjin, China, 2016: 1−5. [9] [10] LEE S H, CHAN C S, MAYO S J, et al. How deep learn- 第 5 期 林丽惠,等:融合整体与局部信息的武夷岩茶叶片分类方法 ·923·
·924· 智能系统学报 第15卷 ing extracts and learns leaf features for plant classifica er with convolutions[Cl//Proceedings of 2015 IEEE Con- tion[J].Pattern recognition,2017,71:1-13. ference on Computer Vision and Pattern Recognition.Bo- [11]GRINBLAT G L,UZAL L C,LARESE M G,et al.Deep ston,USA,2015:1-9. learning for plant identification using vein morphological [20]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. patterns[J].Computers and electronics in agriculture, Deep residual learning for image recognition[C]//2016 2016.127:418-424. IEEE Conference on Computer Vision and Pattern Recog- [12]PAWARA P,OKAFOR E,SURINTA O,et al.Compar- nition.Las Vegas,USA,2016:770-778. ing local descriptors and bags of visual words to deep [21]胡越,罗东阳,花奎,等.关于深度学习的综述与讨 convolutional neural networks for plant recognition[C]// 论).智能系统学报2019,14(1)1-19 6th International Conference on Pattern recognition Ap- HU Yue,LUO Dongyang,HUA Kui,et al.Overview on plications and Methods.Porto,Portugal,2017:479-486 deep learning[J].CAAI transactions on intelligent sys- [13]LIN Lihui,LI C,YANG Sheng,et al.Automated classi- tems,2019,14(1)y1-19. fication of Wuyi rock tealeaves based on support vector [22]庄福振,罗平,何清,等.迁移学习研究进展).软件学 machine[J].Concurrency and computation:practice and 报,2015,26(1):26-39. experience,2019,31(23):e4519. [14]PANDOLFI C.MUGNAI S,AZZARELLO E,et al.Arti- ZHUANG Fuzhen,LUO Ping,HE Qing,et al.Survey on ficial neural networks as a tool for plant identification:a transfer learning research[J].Journal of software,2015, case study on vietnamese tea accessions[J].Euphytica, 26(1:26-39. 2009,166(3):411-421. 作者简介: [15]陈怡群,常春,肖宏儒,等.人工神经网络技术在鲜茶叶 林丽惠,副教授,主要研究方向为 分选中的应用.农业网络信息,2010(7):37-40,43. 图像处理和机器学习。主持或参与福 CHEN Yiqun,CHANG Chun,XIAO Hongru,et al.Arti- 建自然科学基金项目多项。表学术论 ficial neural networks technology in the fresh tea 文10余篇。 sorting[J].Agriculture network information,2010(7): 37-40.43. [16]刘自强.鲜茶叶图像特征提取及在茶树品种识别中的 应用研究D].长沙:湖南农业大学,2014. 罗志明.博士研究生,主要研究方 LIU Zigiang.Features extraction of fresh tea images and 向为图像分割、目标检测、医学图像分 析。发表学术论文20余篇。 its application on the recognition of tea varieties[D]. Changsha:Hunan Agricultural University,2014. [17]KRIZHEVSKY A.SUTSKEVER I.HINTON G E.Im- ageNet classification with deep convolutional neural net- works[Cl//Proceedings of the 25th International Confer- 李绍滋,教授,博士生导师,主要 ence on Neural Information Processing Systems.Red 研究方向为计算机视觉、机器学习。 Hook,USA,2012:1097-1105. 主持或参与国家863项目、国家自然 [18]SIMONYAN K,ZISSERMAN A.Very deep convolu- 科学基金项目多项。发表学术论文 tional networks for large-scale image recognition[J].arX- 300余篇。 iv preprint ar Xiv:1409.1556,2014. [19]SZEGEDY C,LIU Wei,JIA Yangqing,et al.Going deep-
ing extracts and learns leaf features for plant classification[J]. Pattern recognition, 2017, 71: 1–13. GRINBLAT G L, UZAL L C, LARESE M G, et al. Deep learning for plant identification using vein morphological patterns[J]. Computers and electronics in agriculture, 2016, 127: 418–424. [11] PAWARA P, OKAFOR E, SURINTA O, et al. Comparing local descriptors and bags of visual words to deep convolutional neural networks for plant recognition[C]// 6th International Conference on Pattern recognition Applications and Methods. Porto, Portugal, 2017: 479−486. [12] LIN Lihui, LI C, YANG Sheng, et al. Automated classification of Wuyi rock tealeaves based on support vector machine[J]. Concurrency and computation: practice and experience, 2019, 31(23): e4519. [13] PANDOLFI C, MUGNAI S, AZZARELLO E, et al. Artificial neural networks as a tool for plant identification: a case study on vietnamese tea accessions[J]. Euphytica, 2009, 166(3): 411–421. [14] 陈怡群, 常春, 肖宏儒, 等. 人工神经网络技术在鲜茶叶 分选中的应用 [J]. 农业网络信息, 2010(7): 37–40, 43. CHEN Yiqun, CHANG Chun, XIAO Hongru, et al. Artificial neural networks technology in the fresh tea sorting[J]. Agriculture network information, 2010(7): 37–40, 43. [15] 刘自强. 鲜茶叶图像特征提取及在茶树品种识别中的 应用研究 [D]. 长沙: 湖南农业大学, 2014. LIU Ziqiang. Features extraction of fresh tea images and its application on the recognition of tea varieties[D]. Changsha: Hunan Agricultural University, 2014. [16] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Red Hook, USA, 2012: 1097−1105. [17] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv: 1409.1556, 2014. [18] [19] SZEGEDY C, LIU Wei, JIA Yangqing, et al. Going deeper with convolutions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA, 2015: 1−9. HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA, 2016: 770−778. [20] 胡越, 罗东阳, 花奎, 等. 关于深度学习的综述与讨 论 [J]. 智能系统学报, 2019, 14(1): 1–19. HU Yue, LUO Dongyang, HUA Kui, et al. Overview on deep learning[J]. CAAI transactions on intelligent systems, 2019, 14(1): 1–19. [21] 庄福振, 罗平, 何清, 等. 迁移学习研究进展 [J]. 软件学 报, 2015, 26(1): 26–39. ZHUANG Fuzhen, LUO Ping, HE Qing, et al. Survey on transfer learning research[J]. Journal of software, 2015, 26(1): 26–39. [22] 作者简介: 林丽惠,副教授,主要研究方向为 图像处理和机器学习。主持或参与福 建自然科学基金项目多项。表学术论 文 10 余篇。 罗志明,博士研究生,主要研究方 向为图像分割、目标检测、医学图像分 析。发表学术论文 20 余篇。 李绍滋,教授,博士生导师,主要 研究方向为计算机视觉、机器学习。 主持或参与国家 863 项目、国家自然 科学基金项目多项。发表学术论文 300 余篇。 ·924· 智 能 系 统 学 报 第 15 卷