正在加载图片...
·592· 智能系统学报 第15卷 3分类算法 b<0。满足上述关系的样本称作支持向量,两个 异类支持向量距超平面距离之和称作间隔,表 在声学海底底质分类应用中,分类算法按照 示为 是否利用底质采样数据可以分为两类:监督学习 2 和无监督学习。鉴于深度学习在网络结构、模型 Y= lbell 性能等方面与传统的监督学习算法存在的差异 在多个超平面中,寻找使间隔最大的分离超 性,本文将单独讨论深度学习算法在海底底质分 平面。非线性模型对应的是最优超曲面,原理与 类中的应用现状和发展前景。 线性模型类似。通过使用核函数,支持向量机可 3.1监督学习 以解决非线性分类问题,具有泛化性能好、适合 利用监督学习算法可以基于已有的底质采样 小样本和高维特征等优点,使用高斯核的支持向 数据获得先验知识并储存在分类规则中,可以对 量机在多分类问题中具有较好的性能。徐超等网 未知的输入样本类型进行预测,一般适用于已有 采用基于径向基核函数的合成核代替单核形式, 底质采样数据、明确掌握海底底质类型的区域。 一方面可以提升分类精度,另一方面合成核对于 在监督学习算法构建的预测模型中,又可以根据 多特征融合具有更好的兼容性。 采样数据标定方式的不同,将海底底质的描述方 3.1.2决策树算法 法分为离散类别法和连续量化法。离散类别法是 决策树算法是一种用于分类和回归的非参数 指根据特定的底质分类原则(如Fok分类体系 监督学习方法,目标是通过创建一个树状的决策 等)将底质标定为某一种类别描述,如泥、砂等, 模型,学习隐藏在数据中的决策规则来预测目标 基于该描述方法构建的底质分类模型预测的是离 变量的数值或分类。利用决策树训练得到的模型 散值,此类学习任务对应的是“分类”问题。而连 是树状的决策图,表示对象属性和对象值之间的 续量化法则通过实验测定的方法将底质的物理属 一种映射。决策树的深度越大,决策规则越复 性用若干参数表示,如粒径分布等,是一种参数 杂,拟合的模型也更精确。同时,为了增强训练 化描述方法,基于该描述方法构建的底质分类模 模型的泛化能力,需要利用合适的约束规则避免 型预测的是连续的属性值,此类学习任务对应的 对训练集的过拟合。 是“回归”问题,一般采用多项式回归、神经网络、 决策树算法通过寻找观测值的最优划分,从 随机森林等方法实现。由于连续量化法的底质样 观测数据的属性集合中选取一个或多个属性作为 本测定较为复杂,且对声呐数据的分辨率要求极 决策节点的分裂属性,将观测数据按照指定的属 高,目前离散类别法仍然是声学海底底质分类中 性阈值划分到子节点中,生成具有多重深度的完 采样数据的主要标定方法,本文主要介绍与离散 整分类树。然后利用剪枝算法对分类树的结构进 类别法对应的分类算法,主要包括支持向量机、 行精简,结合测试数据对剪枝后的模型精度进行 决策树、随机森林、BP神经网络等。 评估,确定最优的分类树结构。在树型结构的训 3.1.1支持向量机 练过程中,核心问题是如何确定各个决策节点的 支持向量机(SVM)是由Vapnik等提出的 分裂属性和变量值。在进行贪婪搜索时,遍历各 基于统计与判别的学习方法,基本思想是最大化 个属性的不同二分裂集合,通过计算节点处的分 分类间隔,通过寻找最优超平面对不同类别的样 裂度量函数对当前采用的分裂属性及其变量值的 本进行划分。SVM基本模型定义为特征空间上 分离性做出评价,最终通过迭代测试确定所有节 间隔最大的线性分类器,其间隔最大化的学习策 点的分裂规则。 略对训练样本局部抗扰动性最好,最终可变换为 决策树分类模型在基于海底声呐图像的底质 凸二次规划问题进行解答。对于线性可分问题, 分类应用中可以有效识别泥、岩、砂等底质类型, 在样本空间中划分超平面可通过线性方程(,b) 在运行效率上更加高效,分类规则明确易解释。 来描述: 决策树算法是一种结构清晰,可以处理多维度分 wx+b=0 类问题的监督学习算法,与神经网络的黑盒分类 式中:w为超平面法向量;b为超平面与原点的距 模型相比,决策树分类模型的逻辑更加清晰,利 离,样本空间任意一点到超平面的距离为r。设 用交叉验证方法执行剪枝后的树形结构,使得 超平面把训练样本准确分类,对任意样本(x,), 从样本数据中学习的分类规则具备较好的泛化 若y=+1,则有wx+b>0,若y=-1,则有wx+ 能力。3 分类算法 在声学海底底质分类应用中,分类算法按照 是否利用底质采样数据可以分为两类:监督学习 和无监督学习。鉴于深度学习在网络结构、模型 性能等方面与传统的监督学习算法存在的差异 性,本文将单独讨论深度学习算法在海底底质分 类中的应用现状和发展前景。 3.1 监督学习 利用监督学习算法可以基于已有的底质采样 数据获得先验知识并储存在分类规则中,可以对 未知的输入样本类型进行预测,一般适用于已有 底质采样数据、明确掌握海底底质类型的区域。 在监督学习算法构建的预测模型中,又可以根据 采样数据标定方式的不同,将海底底质的描述方 法分为离散类别法和连续量化法。离散类别法是 指根据特定的底质分类原则 (如 Folk 分类体系 等) 将底质标定为某一种类别描述,如泥、砂等, 基于该描述方法构建的底质分类模型预测的是离 散值,此类学习任务对应的是“分类”问题。而连 续量化法则通过实验测定的方法将底质的物理属 性用若干参数表示,如粒径分布等,是一种参数 化描述方法,基于该描述方法构建的底质分类模 型预测的是连续的属性值,此类学习任务对应的 是“回归”问题,一般采用多项式回归、神经网络、 随机森林等方法实现。由于连续量化法的底质样 本测定较为复杂,且对声呐数据的分辨率要求极 高,目前离散类别法仍然是声学海底底质分类中 采样数据的主要标定方法,本文主要介绍与离散 类别法对应的分类算法,主要包括支持向量机、 决策树、随机森林、BP 神经网络等。 3.1.1 支持向量机 (w,b) 支持向量机 (SVM) 是由 Vapnik 等 [73] 提出的 基于统计与判别的学习方法,基本思想是最大化 分类间隔,通过寻找最优超平面对不同类别的样 本进行划分。SVM 基本模型定义为特征空间上 间隔最大的线性分类器,其间隔最大化的学习策 略对训练样本局部抗扰动性最好,最终可变换为 凸二次规划问题进行解答。对于线性可分问题, 在样本空间中划分超平面可通过线性方程 来描述: w T x+b = 0 w b r (xi , yi) yi = +1 w T xi +b > 0 yi = −1 w T xi+ 式中: 为超平面法向量; 为超平面与原点的距 离,样本空间任意一点到超平面的距离为 。设 超平面把训练样本准确分类,对任意样本 , 若 ,则有 ,若 ,则有 b < 0 。满足上述关系的样本称作支持向量,两个 异类支持向量距超平面距离之和称作间隔,表 示为 γ = 2 ∥w∥ 在多个超平面中,寻找使间隔最大的分离超 平面。非线性模型对应的是最优超曲面,原理与 线性模型类似。通过使用核函数,支持向量机可 以解决非线性分类问题,具有泛化性能好、适合 小样本和高维特征等优点,使用高斯核的支持向 量机在多分类问题中具有较好的性能。徐超等[74] 采用基于径向基核函数的合成核代替单核形式, 一方面可以提升分类精度,另一方面合成核对于 多特征融合具有更好的兼容性。 3.1.2 决策树算法 决策树算法是一种用于分类和回归的非参数 监督学习方法,目标是通过创建一个树状的决策 模型,学习隐藏在数据中的决策规则来预测目标 变量的数值或分类。利用决策树训练得到的模型 是树状的决策图,表示对象属性和对象值之间的 一种映射。决策树的深度越大,决策规则越复 杂,拟合的模型也更精确。同时,为了增强训练 模型的泛化能力,需要利用合适的约束规则避免 对训练集的过拟合。 决策树算法通过寻找观测值的最优划分,从 观测数据的属性集合中选取一个或多个属性作为 决策节点的分裂属性,将观测数据按照指定的属 性阈值划分到子节点中,生成具有多重深度的完 整分类树。然后利用剪枝算法对分类树的结构进 行精简,结合测试数据对剪枝后的模型精度进行 评估,确定最优的分类树结构。在树型结构的训 练过程中,核心问题是如何确定各个决策节点的 分裂属性和变量值。在进行贪婪搜索时,遍历各 个属性的不同二分裂集合,通过计算节点处的分 裂度量函数对当前采用的分裂属性及其变量值的 分离性做出评价,最终通过迭代测试确定所有节 点的分裂规则。 决策树分类模型在基于海底声呐图像的底质 分类应用中可以有效识别泥、岩、砂等底质类型, 在运行效率上更加高效,分类规则明确易解释。 决策树算法是一种结构清晰,可以处理多维度分 类问题的监督学习算法,与神经网络的黑盒分类 模型相比,决策树分类模型的逻辑更加清晰,利 用交叉验证方法执行剪枝后的树形结构,使得 从样本数据中学习的分类规则具备较好的泛化 能力。 ·592· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有