5.5新型模型架构····· 5.51参数化状态空间模型··········.108 5.5.2状态空间模型变种 第六章模型预训练 112 6.1预训练任务 611语言建模········.112 6.1.2去噪自编码 6.1.3混合去噪器 6.2优化参数设置.··. …·.116 6.2.1基于批次数据的训练 .116 6.2.2学习率 6.2.3优化器 6.2.4稳定优化技术 6.3可扩展的训练技术 6.3.13D并行训练.· ....119 6.3.2零冗余优化器 .121 6.3.3激活重计算 .122 6.3.4混合精度训练 122 6.4模型参数量计算与效率分析 123 6.4.1参数量计算 123 6.42训练运算量估计.······.·.·········.·.·.124 6.4.3训练时间估计 。。 .126 6.4.4训练显存估计 .126 65预训练代码实践.······。········… ,130 第三部分微调与对齐 13s 第七章指令微调 136 71指令数据的构建。····…··········…········· ,136 7.1.1基于现有的NLP任务数据集构建...............136 7.12基于日常对话数据构建..... ......1385.5 新型模型架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 5.5.1 参数化状态空间模型 . . . . . . . . . . . . . . . . . . . . . . . . 108 5.5.2 状态空间模型变种 . . . . . . . . . . . . . . . . . . . . . . . . . 109 第六章 模型预训练 112 6.1 预训练任务 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 6.1.1 语言建模 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 6.1.2 去噪自编码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 6.1.3 混合去噪器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6.2 优化参数设置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6.2.1 基于批次数据的训练 . . . . . . . . . . . . . . . . . . . . . . . . 116 6.2.2 学习率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 6.2.3 优化器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 6.2.4 稳定优化技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 6.3 可扩展的训练技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 6.3.1 3D 并行训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 6.3.2 零冗余优化器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 6.3.3 激活重计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 6.3.4 混合精度训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 6.4 模型参数量计算与效率分析 . . . . . . . . . . . . . . . . . . . . . . . . 123 6.4.1 参数量计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 6.4.2 训练运算量估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 6.4.3 训练时间估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 6.4.4 训练显存估计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 6.5 预训练代码实践 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 第三部分 微调与对齐 135 第七章 指令微调 136 7.1 指令数据的构建 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 7.1.1 基于现有的 NLP 任务数据集构建 . . . . . . . . . . . . . . . . . 136 7.1.2 基于日常对话数据构建 . . . . . . . . . . . . . . . . . . . . . . . 138