正在加载图片...
第17卷 智能系统学报 ·492· 3.23个真实数据集和模型 表2设备数据集分布 Sent1402l是一个Twitter带有表情的文本信 Table 2 Datasets distribution on devices 息情感分类数据集,该任务使用的是一个两层 数据集 设备/台 总样本/个 平均样本/个 LSTM,包含256个隐藏层单元,每个Twitter帐户 Sent140 772 40783 53 对应一个设备。该模型以25个字符序列作为输 MNIST 1000 69035 69 EMNIST 200 18345 92 入,通过两个LSTM层和一个全连接层,每个训 练样本输出一个字符。 3.3 合成数据集实验结果分析 MNIST22是一个0~9手写体数字识别数据 首先在第1个实验中,为了验证本文的算法 集,在这个任务上利用逻辑回归的方法研究手写 在异构数据集上有更快的收敛速度,本文在3组 数字图像分类问题。为了生成非独立同分布数 合成数据集上进行实验,分别是Synthetic_0_0 据,本文将数据随机分布在1000个设备中,每个 Synthetic_0.5_0.5、Synthetic_1l,从左到右数据异 设备只有2种数字。模型的输人是28x28维的图 构性逐渐增强,异构性越强,对模型收敛影响越 像,输出是0~9这10个数字的标签。 大。本文通过损失的减小速度和梯度方差2的 EMNIST2)是MNIST数据集的扩展,包含 变化来衡量模型的收敛速度,结果如图2所示。 09数字和26个英文字母的大小写,构成了更大 为了证明本文方法的公平性和有效性,约束项 难度的62类手写字符图像分类任务,但在实验中 统一设置成相同的值。由图2训练损失和梯度 只随机抽取10个小写字母,每个设备分配5个 方差可以看出,本文的方法在第30轮左右达到 类,在这个任务上利用逻辑回归的方法研究图像 了FedAvg的收敛效果,在第40轮左右达到了 分类问题。模型的输人是28×28维的图像,输出 FedProx的收敛效果,并且40轮以后还在继续收 是aj这10个类的标签。 敛。梯度方差(variance of local gradient,.VLG)越 对于以上所有数据集,客户端的本地数据分配 小表示越稳定,收敛性越好。VLG可表示为 遵循幂律分布。本文在本地分配80%为训练集 VLG= 20%为测试集。各设备数据集组成如表2所示。 G)-v. (8) 60 40 .Ours 40 -Ours 75 50 0 50100150 200 0 50100150200 0 50100.150200 训练轮数 训练轮数 训练轮数 (a)Synthetic_0_0损失曲线 (b)Synthetic0.50.5损失曲线 (c)Synthetic_.L_I损失曲线 8 1.2 2.5 FedAvg FedProx Ours 1.00 1.0 1.5 0.6 1.0 F一ousV .50 0.30 0.4 0.5 50 100150 200 50100150 200 50 100150200 训练轮数 训练轮数 训练轮数 (d)Synthetic00梯度方差曲线(e)Synthetic0.50.5梯度方差曲线 ()Synthetic_L_1梯度方差曲线 图2合成数据集实验结果分析 Fig.2 Analysis of experimental results of synthetic datasets 实验中,通过使所有设备执行相同的工作量 表3合成数据集上平均测试精度 来模拟不存在系统异构性的情况,随着数据异构 Table 3 Average test accuracy on synthetic datasets 性增强,全局模型收敛结果最终会趋于某个区 数据集 FedAvg FedProx 本文 间,因此本文取最后一半通信轮数的平均测试精 Synthetic 00 79.6 83.6 85.0 度作为模型好坏的评判标准,在合成数据集上平 Synthetic 0.5 0.5 79.3 81.7 84.5 均测试精度如表3所示,可以看出本文提出的算 Synthetic 1 I 69.7 75.6 76.3 法平均测试精度普遍高于FedProx和FedAvg。3.2 3 个真实数据集和模型 Sent140[21] 是一个 Twitter 带有表情的文本信 息情感分类数据集,该任务使用的是一个两层 LSTM,包含 256 个隐藏层单元,每个 Twitter 帐户 对应一个设备。该模型以 25 个字符序列作为输 入,通过两个 LSTM 层和一个全连接层,每个训 练样本输出一个字符。 × MNIST[22] 是一个 0~9 手写体数字识别数据 集,在这个任务上利用逻辑回归的方法研究手写 数字图像分类问题。为了生成非独立同分布数 据,本文将数据随机分布在 1 000 个设备中,每个 设备只有 2 种数字。模型的输入是 28 28 维的图 像,输出是 0~9 这 10 个数字的标签。 × EMNIST[23] 是 MNIST 数据集的扩展,包含 0~9 数字和 26 个英文字母的大小写,构成了更大 难度的 62 类手写字符图像分类任务,但在实验中 只随机抽取 10 个小写字母,每个设备分配 5 个 类,在这个任务上利用逻辑回归的方法研究图像 分类问题。模型的输入是 28 28 维的图像,输出 是 a~j 这 10 个类的标签。 对于以上所有数据集,客户端的本地数据分配 遵循幂律分布[24]。本文在本地分配 80% 为训练集, 20% 为测试集。各设备数据集组成如表 2 所示。 表 2 设备数据集分布 Table 2 Datasets distribution on devices 数据集 设备/台 总样本/个 平均样本/个 Sent140 772 40783 53 MNIST 1 000 69035 69 EMNIST 200 18345 92 3.3 合成数据集实验结果分析 λ 首先在第 1 个实验中,为了验证本文的算法 在异构数据集上有更快的收敛速度,本文在 3 组 合成数据集上进行实验,分别是 Synthetic_0_0、 Synthetic_0.5_0.5、Synthetic_1_1,从左到右数据异 构性逐渐增强,异构性越强,对模型收敛影响越 大。本文通过损失的减小速度和梯度方差[25] 的 变化来衡量模型的收敛速度,结果如图 2 所示。 为了证明本文方法的公平性和有效性,约束项 统一设置成相同的值。由图 2 训练损失和梯度 方差可以看出,本文的方法在第 30 轮左右达到 了 FedAvg 的收敛效果,在第 40 轮左右达到了 FedProx 的收敛效果,并且 40 轮以后还在继续收 敛。梯度方差(variance of local gradient, VLG)越 小表示越稳定,收敛性越好。VLG 可表示为 VLG = 1 K ∑K k=1 ∇G ( w t ) − ∇Gk ( w t+1 k ) 2 (8) 60 40 20 0 训练损失 75 100 117 50 25 12 训练损失 64 60 40 20 0 训练损失 (a) Synthetic_0_0 损失曲线 (b) Synthetic_0.5_0.5 损失曲线 (c) Synthetic_1_1 损失曲线 (d) Synthetic_0_0 梯度方差曲线 (e) Synthetic_0.5_0.5 梯度方差曲线 (f) Synthetic_1_1 梯度方差曲线 FedAvg FedProx Ours 50 100 150 200 训练轮数 50 100 150 200 训练轮数 0 50 100 150 200 训练轮数 0 50 100 150 200 训练轮数 FedAvg FedProx Ours FedAvg FedProx FedAvg FedProx FedAvg FedProx Ours Ours Ours 梯度方差 1.50 1.59 1.00 0.50 0.30 梯度方差 1.2 0.8 1.0 0.6 0.4 梯度方差 2.5 2.0 1.5 1.0 0.5 0 50 100 150 200 训练轮数 0 50 100 150 200 训练轮数 FedAvg FedProx Ours 图 2 合成数据集实验结果分析 Fig. 2 Analysis of experimental results of synthetic datasets 实验中,通过使所有设备执行相同的工作量 来模拟不存在系统异构性的情况,随着数据异构 性增强,全局模型收敛结果最终会趋于某个区 间,因此本文取最后一半通信轮数的平均测试精 度作为模型好坏的评判标准,在合成数据集上平 均测试精度如表 3 所示,可以看出本文提出的算 法平均测试精度普遍高于 FedProx 和 FedAvg。 表 3 合成数据集上平均测试精度 Table 3 Average test accuracy on synthetic datasets % 数据集 FedAvg FedProx 本文 Synthetic_0_0 79.6 83.6 85.0 Synthetic_0.5_0.5 79.3 81.7 84.5 Synthetic_1_1 69.7 75.6 76.3 第 17 卷 智 能 系 统 学 报 ·492·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有