正在加载图片...
431BPE分词.···········.71 4.3.2 WordPiece分词 74 4.3.3 Unigram分词 4.3.4分词器的选用 6 4.4数据调度. 4.4.1数据混合 76 4.4.2数据课程。······…·……···…·…···· 77 4.4.3预训练数据准备概述—以YuLan模型为例.·····.··· 79 第五章模型架构 81 5.Transformer模型....,........................ 5.1.1输入编码... 512多头自注意力机制·········,····· 5.1.3前馈网络层 电 5.1.4编码器 85 5.1.5解码器 5.2详细配置.······ 5.2.1归一化方法 86 5.2.2归一化模块位置 即 5.2.3激活函数.... 5.2.4位置编码 90 5.2.5注意力机制 5.2.6混合专家模型 96 5.2.7 LLaMA的详细配置 97 5.3主流架构. 5.3.1编码器-解码器架构.·.·..·.··.....··.·.·.100 5.3.2因果解码器架构 ···.101 5.3.3前缀解码器架构 .101 5.4长上下文模型 .101 5.4.1扩展位置编码 102 5.4.2调整上下文窗口 ,。:。。,。,。。。。。。。。,。。。,。,。 .105 5.4.3长文本数据 4.3.1 BPE 分词 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 4.3.2 WordPiece 分词 . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 4.3.3 Unigram 分词 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 4.3.4 分词器的选用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 4.4 数据调度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 4.4.1 数据混合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 4.4.2 数据课程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.4.3 预训练数据准备概述——以 YuLan 模型为例 . . . . . . . . . . . 79 第五章 模型架构 81 5.1 Transformer 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 5.1.1 输入编码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 5.1.2 多头自注意力机制 . . . . . . . . . . . . . . . . . . . . . . . . . 83 5.1.3 前馈网络层 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 5.1.4 编码器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.1.5 解码器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.2 详细配置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.2.1 归一化方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.2.2 归一化模块位置 . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 5.2.3 激活函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.2.4 位置编码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.2.5 注意力机制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 5.2.6 混合专家模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5.2.7 LLaMA 的详细配置 . . . . . . . . . . . . . . . . . . . . . . . . . 97 5.3 主流架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.3.1 编码器-解码器架构 . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.3.2 因果解码器架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.3.3 前缀解码器架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.4 长上下文模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.4.1 扩展位置编码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 5.4.2 调整上下文窗口 . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.4.3 长文本数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有