正在加载图片...
·1144· 智能系 统学报 第15卷 表1标准数据集描述 步长a,=lWF。Heavy-ball型动量法的计算方式 Table 1 Introduction of standard datasets 及步长选取同文献[I1]。NAG型动量法的计算 数据集 训练样本数 维数 稀硫度% 方式及步长选取同文献[10]。根据文献[15]: ijcnnl 49990 22 59.09 平均形式输出的Adam算法步长a,=0.1/Vβ= covtype 522911 54 22.12 0.9,B2=0.99。个体形式输出的Adam算法步长设 a9a 24703 123 11.27 置与迭代次数有关,其中a,=0.1/B2=0.99。本 w8a 49749 300 3.88 次实验我们调用SLEP工具箱来实现投影计算, CCAT 23149 47236 0.16 集合Q为1,范数球{w:wl,<z,根据数据集的不 同,z的取值也会有相应变化。 astro-physic 29882 99757 0.08 图1为5种算法的收敛速率对比图,纵坐标 实验对5种随机优化方法进行比较,分别是 表示当前目标函数值与最优目标函数值之差。其 平均形式输出的SGD方法、个体形式输出的 中绿色、蓝色、青色、粉色、红色分别代表平均形 Heavy-ball型动量法、NAG型动量法、平均形式 式输出的SGD算法、个体形式输出的Heavy- 输出的Adam算法及个体形式输出的Adam算 bal型动量法、个体形式输出的NAG型动量法、 法。从理论分析的角度来说,上述5种算法的收 平均形式输出的Adam算法、个体形式输出的 敛界均达到了最优。 Adam算法。可以看到,在5000步迭代之后,5种 3.2实验方法及结论 算法在6个标准数据集上都达到了10-2的精度, 为了算法比较的公平,各个算法在对应数据 在迭代10000步后,5种算法在6个标准数据集 集上运行10次,每次迭代10000步,最后取平均 上都达到了10-4的精度。5种算法的收敛趋势基 值作为输出。SGD算法的计算方式为式(2),其中 本相同,这与理论分析基本吻合。 10° SGD-avedividual 10f SGD-average NAG-individual idua 10 写102 Adam-individual 103 图 是10 10 SGD-averdividua 10r NAG-individual ¥d Adam-individual 106 10 0 2 4 6 8 10 0 4 6 10 0 2 4 6 8 10 迭代步数/10 迭代步数/10 迭代步数/10 (a)ijcnnl (b)covtype (c)a9a 10° 10 10° 10 10 Adam荒al 10 图102 是1o 室10 SGD-a 103 10r4 二Am-a 10 0 2 10-+ 4 6 8 10 0 2 4 6 8 10 4 6 8 10 迭代步数/10 迭代步数/10 迭代步数/10的 (d)w8a (e)CCAT (f)astro-physic 图1收敛速率对比 Fig.1 Comparison of convergence rates 图2为5种算法的稀疏性对比,纵坐标表示 疏,算法获得的稀疏度也越低。这一结论充分说 各算法对应输出的稀疏度,稀疏度越低,变量中 明,个体解输出比平均解输出能更好地描述样本 非零向量所占比例越小。可以看到,个体形式输 的稀疏性。同时我们观察到在稀疏度一般的前 出的Heavy-ball型动量法、NAG型动量法和 4个数据集上有震荡的现象,这是算法的随机性 Adam算法明显比平均形式输出的SGD算法和 导致的,在维度较大、稀疏度较低的后两个数据 Adam算法拥有更低的稀疏度,同时,数据集越稀 集上该震荡现象消失。表 1 标准数据集描述 Table 1 Introduction of standard datasets 数据集 训练样本数 维数 稀疏度/% ijcnn1 49 990 22 59.09 covtype 522 911 54 22.12 a9a 24 703 123 11.27 w8a 49 749 300 3.88 CCAT 23 149 47 236 0.16 astro-physic 29 882 99 757 0.08 实验对 5 种随机优化方法进行比较,分别是 平均形式输出的 SGD 方法、个体形式输出的 Heavy-ball 型动量法、NAG 型动量法、平均形式 输出的 Adam 算法及个体形式输出的 Adam 算 法。从理论分析的角度来说,上述 5 种算法的收 敛界均达到了最优。 3.2 实验方法及结论 为了算法比较的公平,各个算法在对应数据 集上运行 10 次,每次迭代 10 000 步,最后取平均 值作为输出。SGD 算法的计算方式为式 (2),其中 αt = 1/ √ t αt = 0.1/ √ tβ1 = 0.9, β2 = 0.99 αt = 0.1/ √ tβ2 = 0.99 Q l1 {w : ∥w∥1 < z} z 步长 。Heavy-ball 型动量法的计算方式 及步长选取同文献 [11]。NAG 型动量法的计算 方式及步长选取同文献 [10]。根据文献 [15], 平均形式输出的 Adam 算法步长 。个体形式输出的 Adam 算法步长设 置与迭代次数有关,其中 。本 次实验我们调用 SLEP 工具箱来实现投影计算, 集合 为 范数球 ,根据数据集的不 同, 的取值也会有相应变化。 10−2 10−4 图 1 为 5 种算法的收敛速率对比图,纵坐标 表示当前目标函数值与最优目标函数值之差。其 中绿色、蓝色、青色、粉色、红色分别代表平均形 式输出的 SGD 算法、个体形式输出的 Heavy￾ball 型动量法、个体形式输出的 NAG 型动量法、 平均形式输出的 Adam 算法、个体形式输出的 Adam 算法。可以看到,在 5 000 步迭代之后,5 种 算法在 6 个标准数据集上都达到了 的精度, 在迭代 10 000 步后,5 种算法在 6 个标准数据集 上都达到了 的精度。5 种算法的收敛趋势基 本相同,这与理论分析基本吻合。 (f) astro-physic SGD-average Heavy-ball-individual NAG-individual Adam-average Adam-individual 10−2 10−1 100 10−4 10−3 0 2 4 6 8 10 迭代步数/103 相对函数值 (e) CCAT SGD-average Heavy-ball-individual NAG-individual Adam-average 10−2 Adam-individual 10−1 10−4 10−3 0 2 4 6 8 10 迭代步数/103 相对函数值 (d) w8a SGD-average Heavy-ball-individual NAG-individual Adam-average Adam-individual 10−2 10−1 100 10−4 10−3 0 2 4 6 8 10 迭代步数/103 相对函数值 SGD-average Heavy-ball-individual NAG-individual Adam-average Adam-individual 100 10−2 10−4 10−6 0 2 4 6 8 10 (a) ijcnnl 迭代步数/103 相对函数值 SGD-average Heavy-ball-individual NAG-individual Adam-average 10−2 Adam-individual 10−4 10−6 0 2 4 6 8 10 (b) covtype 迭代步数/103 相对函数值 100 SGD-average Heavy-ball-individual NAG-individual Adam-average Adam-individual 10−2 10−1 100 10−4 10−3 0 2 4 6 8 10 (c) a9a 迭代步数/103 相对函数值 图 1 收敛速率对比 Fig. 1 Comparison of convergence rates 图 2 为 5 种算法的稀疏性对比,纵坐标表示 各算法对应输出的稀疏度,稀疏度越低,变量中 非零向量所占比例越小。可以看到,个体形式输 出的 Heavy-ball 型动量法、 NAG 型动量法和 Adam 算法明显比平均形式输出的 SGD 算法和 Adam 算法拥有更低的稀疏度,同时,数据集越稀 疏,算法获得的稀疏度也越低。这一结论充分说 明,个体解输出比平均解输出能更好地描述样本 的稀疏性。同时我们观察到在稀疏度一般的前 4 个数据集上有震荡的现象,这是算法的随机性 导致的,在维度较大、稀疏度较低的后两个数据 集上该震荡现象消失。 ·1144· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有