正在加载图片...
7.1.3基于合成数据构建 7.1.4指令数据构建的提升方法 142 7.15指令微调的作用.·····...··.·.·.144 7.2指令微调的训练策略 7.2.1优化设置.. 146 7.2.2数据组织策略 .146 7.3参数高效的模型微调 .148 7.3.1低秩适配微调方法 148 732其他高效微调方法··.·...·...·.........·..150 7.4代码实践与分析.·· ..153 7.4.1指令微调的代码实践 .153 7.4.2指令微调的实验性分析 ,157 7.4.3LoRA代码实践与分析 .160 第八章人类对齐 8.1人类对齐的背景与标准 164 811背景...164 8.1.2对齐标准..· ······.166 8.2基于人类反馈的强化学习 8.21RLHF概述...........................167 8.2.2人类反馈数据的收集 .169 8.2.3奖励模型的训练 171 8.2.4强化学习训练 .175 8.25代表性RLHF工作介绍 .181 8.2.6进阶RLHF工作介绍 83非强化学习的对济方法.····.·.·····.··.185 8.3.1对齐数据的收集 .186 8.3.2代表性监督对齐算法DPO .187 83.3其他有监督对齐算法······················ .193 8.4关于SFT和RLHF的进一步讨论 194 8.4.1基于学习方式的总体比较 ........195 8.4.2SFT的优缺点............................196 7.1.3 基于合成数据构建 . . . . . . . . . . . . . . . . . . . . . . . . . 139 7.1.4 指令数据构建的提升方法 . . . . . . . . . . . . . . . . . . . . . 142 7.1.5 指令微调的作用 . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 7.2 指令微调的训练策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 7.2.1 优化设置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 7.2.2 数据组织策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 7.3 参数高效的模型微调 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 7.3.1 低秩适配微调方法 . . . . . . . . . . . . . . . . . . . . . . . . . 148 7.3.2 其他高效微调方法 . . . . . . . . . . . . . . . . . . . . . . . . . 150 7.4 代码实践与分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 7.4.1 指令微调的代码实践 . . . . . . . . . . . . . . . . . . . . . . . . 153 7.4.2 指令微调的实验性分析 . . . . . . . . . . . . . . . . . . . . . . . 157 7.4.3 LoRA 代码实践与分析 . . . . . . . . . . . . . . . . . . . . . . . 160 第八章 人类对齐 164 8.1 人类对齐的背景与标准 . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 8.1.1 背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 8.1.2 对齐标准 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 8.2 基于人类反馈的强化学习 . . . . . . . . . . . . . . . . . . . . . . . . . 167 8.2.1 RLHF 概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 8.2.2 人类反馈数据的收集 . . . . . . . . . . . . . . . . . . . . . . . . 169 8.2.3 奖励模型的训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 8.2.4 强化学习训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 8.2.5 代表性 RLHF 工作介绍 . . . . . . . . . . . . . . . . . . . . . . . 181 8.2.6 进阶 RLHF 工作介绍 . . . . . . . . . . . . . . . . . . . . . . . . 183 8.3 非强化学习的对齐方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 8.3.1 对齐数据的收集 . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 8.3.2 代表性监督对齐算法 DPO . . . . . . . . . . . . . . . . . . . . . 187 8.3.3 其他有监督对齐算法 . . . . . . . . . . . . . . . . . . . . . . . . 193 8.4 关于 SFT 和 RLHF 的进一步讨论 . . . . . . . . . . . . . . . . . . . . . 194 8.4.1 基于学习方式的总体比较 . . . . . . . . . . . . . . . . . . . . . 195 8.4.2 SFT 的优缺点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有