1484 工程科学学报,第43卷,第11期 通过卷积核都可以输出到每个输出特征.设定输 入特征通道数为W,卷积核通道数与输入特征通 道数相同,卷积核个数为B,与对应输出特征通道 数相同.卷积核尺寸大小为D×D,对应参数为 DxDx3x2 MxMx2 DxD×W×B,.经过计算,此次卷积过程的参数量 WxW×3 如下: 图2标准卷积操作 Q=DXDXWxB (2) Fig.2 Classical convolution operation 1.2分组卷积 DWConv中,卷积核数量与输入特征通道数相同, GC将输入特征进行了分组,然后再进行卷积 一个卷积核只与一个通道的输入特征进行卷积操 操作,过程如图1所示.基于上述相同输入与输出 作,因此输出特征通道数与输人特征通道数相同 特征的设定,若输人特征分为G组,则每组输入特 需要指出的是,当GC中分组数与输入特征通道 征数量为WG,相应卷积核分组后,每组中卷积核 数、卷积核个数相同时,GC就是DWConv.PWConv 只与同组的输入特征进行卷积操作,卷积核数量 与标准卷积操作相同,但卷积核采用尺寸大小为 与输出特征数量相同,均为BG.计算参数量为: 1×1的单位卷积.相同参数条件下,上述两个步骤 的操作分别如图3(a)和3(b)所示,从图中可知 DSC先考虑卷积区域,再考虑输入特征通道,实现 了通道与卷积区域的分离.DSC操作过程中参数 量大小为: QDsC=DXD×3+3×1 (5) Group G (a) 图1分组卷积 D×Dx1×3 MxMx3 Fig.I Group convolution NxNx3 (b) Qcc=DxDx W xB (3) GC后参数量变为原来标准卷积的1/G,随着 分组数增加,参数量会明显减少.此外,Krizhevsky 1×1×3×2 MxMx2 等20指出GC除能够减少训练参数外,不易产生 图3深度可分离卷积操作.(a)DWCnov操作:(b)PWConv操作 过拟合,具有正则化的效果 Fig.3 Depthwise separable convolutionoperation:(a)DWCnov 1.3深度可分离卷积 operation;(b)PWConv operation 标准卷积操作过程中,卷积层中每个卷积核 通过对比式(4)和式(5)可知,DSC的参数量 分别与每个通道的输入特征进行卷积操作,卷积 要小于标准卷积,尤其当卷积核的数量及输入输 结果线性叠加后即为相应的输出特征.标准卷积 出通道数大幅增加时,参数量的减少将相当可观 操作如图2所示,其中输入特征尺寸大小NxN,通 此外,Howard等2通过研究进一步证实:DSC所 道数为3:输出特征通道数为2,尺寸大小为MxM: 需要的计算量也远小于标准卷积.因此,相比标准 卷积核参数为DxD×3×2,尺寸大小为DxD.从图 卷积,使用DSC的计算力将大为节省 中可知,标准卷积过程中同时考虑了输入特征的 1.4通道混洗 通道数与卷积区域.卷积过程中参数量大小为: GC虽然具备诸多优点,但是分组后由于每组 Oclassical=D×Dx3×2 (4) 卷积核只与同组输入特征进行卷积操作,如 与标准卷积操作不同,DSC卷积操作分为深 图4(a)所示.在分组约束下,各组之间是相互孤立 度卷积(Depthwiseconvolution,DWConv)和逐点卷 的,没有信息的交互流通,输出特征仅从一小部分 积(Pointwise convolution,.PWConv)两个步骤.在 输入通道组中导出,降低了卷积过程中信息的表通过卷积核都可以输出到每个输出特征. 设定输 入特征通道数为 W,卷积核通道数与输入特征通 道数相同,卷积核个数为 B,与对应输出特征通道 数相同 . 卷积核尺寸大小 为 D×D,对应参数 为 D×D×W×B,. 经过计算,此次卷积过程的参数量 如下: Q = D× D× W × B (2) 1.2 分组卷积 W/G B/G GC 将输入特征进行了分组,然后再进行卷积 操作,过程如图 1 所示. 基于上述相同输入与输出 特征的设定,若输入特征分为 G 组,则每组输入特 征数量为 ,相应卷积核分组后,每组中卷积核 只与同组的输入特征进行卷积操作,卷积核数量 与输出特征数量相同,均为 . 计算参数量为: 1 2 3 4 W Group 1 … … Group G 图 1 分组卷积 Fig.1 Group convolution QGC = D× D× W G × B (3) GC 后参数量变为原来标准卷积的 1/G ,随着 分组数增加,参数量会明显减少. 此外,Krizhevsky 等[20] 指出 GC 除能够减少训练参数外,不易产生 过拟合,具有正则化的效果. 1.3 深度可分离卷积 标准卷积操作过程中,卷积层中每个卷积核 分别与每个通道的输入特征进行卷积操作,卷积 结果线性叠加后即为相应的输出特征. 标准卷积 操作如图 2 所示,其中输入特征尺寸大小 N×N,通 道数为 3;输出特征通道数为 2,尺寸大小为 M×M; 卷积核参数为 D×D×3×2,尺寸大小为 D×D. 从图 中可知,标准卷积过程中同时考虑了输入特征的 通道数与卷积区域. 卷积过程中参数量大小为: Qclassical = D× D×3×2 (4) 与标准卷积操作不同,DSC 卷积操作分为深 度卷积(Depthwiseconvolution,DWConv)和逐点卷 积 ( Pointwise convolution, PWConv)两个步骤. 在 DWConv 中,卷积核数量与输入特征通道数相同, 一个卷积核只与一个通道的输入特征进行卷积操 作,因此输出特征通道数与输入特征通道数相同. 需要指出的是,当 GC 中分组数与输入特征通道 数、卷积核个数相同时,GC 就是 DWConv. PWConv 与标准卷积操作相同,但卷积核采用尺寸大小为 1×1 的单位卷积. 相同参数条件下,上述两个步骤 的操作分别如图 3( a)和 3( b)所示,从图中可知 DSC 先考虑卷积区域,再考虑输入特征通道,实现 了通道与卷积区域的分离. DSC 操作过程中参数 量大小为: QDSC = D× D×3+3×1 (5) (a) N×N×3 D×D×1×3 M×M×3 (b) M×M×3 1×1×3×2 M×M×2 图 3 深度可分离卷积操作. (a)DWCnov 操作;(b)PWConv 操作 Fig.3 Depthwise separable convolutionoperation: (a) DWCnov operation; (b) PWConv operation 通过对比式(4)和式(5)可知,DSC 的参数量 要小于标准卷积,尤其当卷积核的数量及输入输 出通道数大幅增加时,参数量的减少将相当可观. 此外,Howard 等[21] 通过研究进一步证实:DSC 所 需要的计算量也远小于标准卷积. 因此,相比标准 卷积,使用 DSC 的计算力将大为节省. 1.4 通道混洗 GC 虽然具备诸多优点,但是分组后由于每组 卷积核只与同组输入特征进行卷积操作 ,如 图 4(a)所示. 在分组约束下,各组之间是相互孤立 的,没有信息的交互流通,输出特征仅从一小部分 输入通道组中导出,降低了卷积过程中信息的表 N×N×3 D×D×3×2 M×M×2 图 2 标准卷积操作 Fig.2 Classical convolution operation · 1484 · 工程科学学报,第 43 卷,第 11 期