相关文档

广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（编码器解码器，Seq2seq模型，束搜索）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（高级循环神经网络）
广东工业大学：《机器学习》课程教学资源（课件讲义）第15讲无监督学习——降维深度学习可视化（Neighbor Embedding，LLE T-SNE）
广东工业大学：《机器学习》课程教学资源（课件讲义）第15讲无监督学习——降维深度学习可视化（PCA Kmeans）
广东工业大学：《机器学习》课程教学资源（课件讲义）第14讲循环神经网络（RNN）
广东工业大学：《机器学习》课程教学资源（课件讲义）第13讲卷积神经网络计算机视觉应用（目标检测，计算机视觉训练技巧）
广东工业大学：《机器学习》课程教学资源（课件讲义）第13讲卷积神经网络计算机视觉应用（Inception, 批量归一化和残差网络ResNet）
广东工业大学：《机器学习》课程教学资源（课件讲义）第12讲卷积神经网络（LeNet, AlexNet, VGG和NiN）
广东工业大学：《机器学习》课程教学资源（课件讲义）第12讲卷积神经网络（卷积和池化层）
广东工业大学：《机器学习》课程教学资源（课件讲义）第11讲感知机模型与多层感知机（前馈神经网络，DNN BP）
广东工业大学：《机器学习》课程教学资源（课件讲义）第10讲神经网络的优化（激活函数 dropout）
广东工业大学：《机器学习》课程教学资源（课件讲义）第10讲神经网络的优化（梯度消失和梯度爆炸BN）
广东工业大学：《机器学习》课程教学资源（课件讲义）第10讲神经网络的优化（自适应学习率 AdaGrad RMSProp）
广东工业大学：《机器学习》课程教学资源（课件讲义）第10讲神经网络的优化（batch和动量Momentum NAG）
广东工业大学：《机器学习》课程教学资源（课件讲义）第9讲神经网络的优化（梯度下降、学习率adagrad adam、随机梯度下降、特征缩放）
广东工业大学：《机器学习》课程教学资源（课件讲义）第9讲神经网络的优化（损失函数）
广东工业大学：《机器学习》课程教学资源（课件讲义）第8讲集成学习（决策树的演化）
广东工业大学：《机器学习》课程教学资源（课件讲义）第7讲集成学习（决策树）
广东工业大学：《机器学习》课程教学资源（课件讲义）第6讲线性回归模型及其求解方法 Linear Regression Model and Its Solution
广东工业大学：《机器学习》课程教学资源（课件讲义）第5讲分类问题（4.4 朴素?叶斯分类器）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第17讲注意力机制（概述）
广东工业大学：《机器学习》课程教学资源（课件讲义）第17讲注意力机制（自注意力）
广东工业大学：《机器学习》课程教学资源（PPT讲稿）第18讲变换器模型 Transformer
广东工业大学：《机器学习》课程教学资源（课件讲义）第18讲变换器模型 Transformer
广东工业大学：《机器学习》课程教学资源（课件讲义）第19讲 ViT及注意力机制改进（Vision Transformers ,ViTs）
广东工业大学：《机器学习》课程教学资源（课件讲义）第19讲 ViT及注意力机制改进（各式各样的Attention）
广东工业大学：《机器学习》课程教学资源（课件讲义）第20讲预训练模型 Pre-training of Deep Bidirectional Transformers for Language Understanding（授课：周郭许）
广东工业大学：《机器学习》课程教学资源（课件讲义）第21讲生成式网络模型（自编码器 Deep Auto-encoder）
广东工业大学：《机器学习》课程教学资源（课件讲义）第21讲生成式网络模型（VAE Generation）
广东工业大学：《机器学习》课程教学资源（课件讲义）第22讲生成式网络模型（Diffusion Model）
广东工业大学：《机器学习》课程教学资源（课件讲义）第22讲生成式网络模型（Stable Diffusion）
北京信息科技大学：计算机学院各专业课程教学大纲汇编
北京信息科技大学：计算中心及图书馆课程教学大纲汇编
新乡学院：数学与统计学院信息与计算科学专业《数学分析Ⅰ》课程教学大纲（2015）
新乡学院：数学与统计学院信息与计算科学专业《数学分析Ⅱ》课程教学大纲（2015）
新乡学院：数学与统计学院信息与计算科学专业《数学分析Ⅲ》课程教学大纲（2015）
新乡学院：数学与统计学院信息与计算科学专业《高等代数Ⅰ》课程教学大纲（2015）
新乡学院：数学与统计学院信息与计算科学专业《高等代数Ⅱ》课程教学大纲（2015）
新乡学院：数学与统计学院信息与计算科学专业《解析几何》课程教学大纲（2015）
新乡学院：数学与统计学院信息与计算科学专业《复变函数论》课程教学大纲（2015）

广东工业大学：《机器学习》课程教学资源（PPT讲稿）第16讲现代循环神经网络（嵌入向量, 词嵌入, 子词嵌入, 全局向量的词嵌入）

团购合买资源类别：文库，文档格式：PPTX，文档页数：20，文件大小：5.79MB

动手学深度学习 22.嵌入向量，词嵌入，子词嵌入，全局向量的词嵌入中文教材：zh.d2a 英文教材：w.d2Lai 教学视频：https://courses.d2l.ai/berkeley.-stat-157/units/.word2yec.html D2L.ai

动手学深度学习 22.嵌入向量, 词嵌入, 子词嵌入, 全局向量的词嵌入中文教材：zh.d2l.ai 英文教材：www.d2l.ai 教学视频：https://courses.d2l.ai/berkeley-stat-157/units/word2vec.html

概要。1 嵌入向量（Embeddings) ·词嵌入(Word2vec) ·Skip-gram ·CBOW ·子词嵌入（fastText) 全局向量的词嵌入(GloVe) D2L.ai

概要 • 嵌入向量（Embeddings） • 词嵌入（Word2vec） • Skip-Gram • CBOW • 子词嵌入（fastText） • 全局向量的词嵌入（GloVe）

GAME OF HRONESIN WORDS This viz shows the most unique words by character for each chapter in the 5 Game of Thrones books Legend Daenerys 2edUy以alfreouer 词嵌入 The motscemmon word actoss all 3 charattars are king,hlooe dead Word2vec e指中wodm0 Cerser'stin4aot国 Cersei viz by godamemccann at DuelingData.com data from "A Song of Fir ice" Jon Snow provideit by fedMebata

词嵌入（Word2vec）

动机。上单热向量法将目标对象/单词 X Z 映射到固定长度向量 R 0 ·这些向量仅包含身份信息，而 1 0 不包含语义含义，例如： (xy〉=(z,y〉=0 00 1 D2L.ai

动机• 单热向量法将目标对象 /单词映射到固定长度向量 • 这些向量仅包含身份信息，而不包含语义含义，例如： ⟨ 𝐱 , 𝐲 ⟩ = ⟨ 𝐳 , 𝐲 ⟩ = 0 100… x 010… 001… y z

词嵌入(Word2vec) 。9 学习每个单词的嵌入向量 ·用于(x,y〉衡量相似性 1 0 (xy〉>(z,y〉微 1 0 ·建立概率模型 ·最大化似然函数优化 1 D2L.ai

词嵌入（Word2vec ） • 学习每个单词的嵌入向量 • 用于 ⟨𝐱, 𝐲⟩ 衡量相似性 • 建立概率模型 • 最大化似然函数优化 100… x 010… 001… y z ⟨ 𝐱 , 𝐲 ⟩ > ⟨ 𝐳 , 𝐲 ⟩

Skip-Gram模型 ·一个单词可用于生成它周围的单词 ·给定中心词，每个上下文词是独立生成的 the man his son P("the","man","his","son"|"loves") -P("the"l "loves").P("man"I "loves") P("his"I "Toves").P("son"I "loves") loves D2L.ai

Skip-Gram 模型 • 一个单词可用于生成它周围的单词 • 给定中心词，每个上下文词是独立生成的 ℙ("the","man","his","son" ∣ "loves") = ℙ("the" ∣ "loves") ⋅ ℙ("man" ∣ "loves") ⋅ ℙ("his" ∣ "loves") ⋅ ℙ("son" ∣ "loves")

似然函数全部概率求和非常昂贵词嵌入 P(Wo I Wc)= exp(uovc) 中心词 Wc Vc∈Rd ∑iev exp(uVc) 上下文 Wo uo∈Rd V:所有上下文 ·给定长度为T的序列，上下文窗口长度为，似然函数： T Π，P(w(+DIw) t=1-m≤j≤m,j≠0 D2L.ai

似然函数 • 给定长度为 T 的序列，上下文窗口长度为 m，似然函数： 𝑤𝑜 𝐯𝑐 ∈ ℝ 𝑤 𝑑 𝑐 𝐮𝑜 ∈ ℝ 𝑑 中心词上下文词嵌入 ℙ(𝑤𝑜 ∣ 𝑤𝑐 ) = exp(𝐮𝑜 ⊤𝐯𝑐 ) ∑𝑖∈𝒱exp(𝐮𝑖 ⊤𝐯𝑐 ) 𝒱: 所有上下文 ∏ 𝑡=1 𝑇 ∏ −𝑚≤𝑗≤𝑚,𝑗≠0 ℙ(𝑤 (𝑡+𝑗) ∣ 𝑤 (𝑡) ) 全部概率求和非常昂贵

负采样 ·将中心词和上下文词同时出现在相同窗口中作为一个“事件” 1 P(D 1Wc,Wo)=a(ucvo) (x)=1+eXp(-x) ·将似然函数从nPw1w网更改为 T Π Π P(D=1Iw(9,w(+) t=1-m≤j≤m,j≠0 最简单的解决方案：无限 D2L.ai

负采样 • 将中心词和上下文词同时出现在相同窗口中作为一个“事件” • 将似然函数从∏ 𝑡=1 𝑇 ∏ −𝑚≤𝑗≤𝑚,𝑗≠0 ℙ(𝑤 (𝑡+𝑗) ∣ 𝑤 (𝑡) )更改为 ℙ 𝐷 = 1|𝑤𝑐 ,𝑤𝑜 = 𝜎 𝐮𝑐 𝑇𝐯𝑜 𝜎(𝑥) = 1 1 + exp(−𝑥) ∏ 𝑡=1 𝑇 ∏ −𝑚≤𝑗≤𝑚,𝑗≠0 ℙ(𝐷 = 1 ∣ 𝑤 (𝑡) , 𝑤 (𝑡+𝑗) ) 最简单的解决方案：无限

负抽样 ·样本噪音词wm在窗口中未显示的概率 P(D =0/Wc,Wn)=1-o(unvc) ·加入似然函数 ·最大化似然函数相当于用二元逻辑回归损失求解二元分类问题 D2L.ai

负抽样 • 样本噪音词 𝑤𝑛 在窗口中未显示的概率 • 加入似然函数 • 最大化似然函数相当于用二元逻辑回归损失求解二元分类问题 ℙ 𝐷 = 0|𝑤𝑐 ,𝑤𝑛 = 1 − 𝜎 𝐮𝑛 𝑇𝐯𝑐

CBOW模型 CBOW-Continuous Bag Of Words ·基于上下文词生成中心词 loves P("loves"|"the""man""his","son") the man his son D2L.ai

CBOW 模型 • CBOW - Continuous Bag Of Words • 基于上下文词生成中心词 ℙ("loves" ∣ "the","man","his","son")

点击进入文档下载页（PPTX格式）

共20页，试读已结束，阅读完整版请下载

点击下载（PPTX格式）

浏览记录