模块(组合)网络 1)产生的背景 a)更好的映射非线性函数 b)模拟人类神经系统分工 合作 C)在控制中,克服“时间交叉” 〔 Temporal crosstalk)现象 模块网络的结构(见图)
模块(组合)网络 1) 产生的背景 a) 更好的映射非线性函数 b) 模拟人类神经系统,分工 合作 c) 在控制中,克服“时间交叉” (Temporal Crosstalk) 现象。 模块网络的结构(见图)
X输入向量 网专家网络 专家网络 专家网終 络 2 y 门控网络 g ∑ Y输出向量 组合神绘劂络的结构
学习方法 输出线性和方法:E°=-∑m 各专家网络有强的耦合在情况c时 d为期望输出,n第i个专家网络的贡南 竞争学习方法 E=(4-协=∑k- 强者为胜,一个网络参加学习
学习方法 2 c = d − c i c i c 输出线性和方法: E p y 2 c i c c i c i c i c c E = d − y p = p d − y 竞争学习方法: —— 各专家网络有强的耦合 —— 强者为胜,一个网络参加学习。 d c 为期望输出,pi c 第i个专家网络的贡献 在情况c时
进一步改进算法 -1/2d E=-log ∑ 比较 0EA=-2p(-) 加权项 (1) c-1/2d-y OE (2) 1/2|d-y 式(1)表示最合适的专家网络以最慢的速度下降 式(2)表示最合适的专家网络以最快的速度下降
2 1 2 c i c / d y i c i c E log p e − − = − ( ) ( ) c i c j / d y c j / d y c i c i c c i c c c i i c d y p e p e y E p d y y E c i c c i c − = − = − − − − − − 2 2 1 2 1 2 2 进一步改进算法 比较 (1) (2) 式(1)表示最合适的专家网络以最慢的速度下降 式(2)表示最合适的专家网络以最快的速度下降 加权项
如何确定门控网络输出g;? 给组合网络以概率解释。 训练样本x为p维, 胡望输出 第个专家网络的输出y;,为q维, 门控网络的第个输出为g 整个组合网络的输出向量为 K为专家网络的个数
如何确定门控网络输出gi? —— 给组合网络以概率解释。 训练样本x为p维, 目标输出,即期望输出,为d ,q维, 第i个专家网络的输出 yi , 为q维, 门控网络的第i个输出为gi , 整个组合网络的输出向量为: i k i i y g y = = 1 K 为专家网络 的个数
训练的方法 对{x,d}训练样本的概率进行建模 1)随机从先验分布中选取输入向量x 2)以分布Px)选择一个专家网络; 3)期望d由所选择的规则确定,回归产生: d=Fx)+r的协方差为A1 =1,2,k 对给定的x,第个专家最匹配期望输出d的条件概率分布: f(d(x, 0=1(2z det a. exp (1/2(d-v)A (d-y /(2x) 2 exp(-1/2(d-y)(d-v,) =b(2y2l(121-)
训练的方法 对{x,d}训练样本的概率进行建模 1)随机从先验分布中选取输入向量x 2)以分布P(i/x)选择一个专家网络; 3) 期望d由所选择的规则确定,回归产生: d =Fi (x) + I I的协方差为i i = 1,2,…,k 对给定的x,第i个专家最匹配期望输出d 的条件概率分布: ( ) ( ) ( ) ( ( ) ( )) ( ) ( ) / 2 2 / 2 / 2 1 1/ 2 exp 1/ 2 1/ 2 exp 1/ 2 ( | , ) 1/ 2 det exp 1/ 2( ) ( ) i q i T i q i i i q i d y d y d y f d x i d y d y = − − = − − − = − − − −
每个专家网络y可以看成多元高斯分布的条件平均: ELdx,i]= Fi(x) 总的输出,由k个多元高斯分布的线性组合: f(4x.)=∑g,(lx.) a∑ g;exp(-1/2lld y 2丌 此式为联想高斯混合模型 g;为门控网络第i个输出神经元的激励
总的输出,由k个多元高斯分布的线性组合: ( ) ( ) ( ) ( ) 2 1 / 2 1 exp 1/ 2 2 1 | , | , i k i q i k i i g d y f d x i g f d x i = − − = = = 此式为联想高斯混合模型 为门控网络第i个输出神经元的激励 每个专家网络yi 可以看成多元高斯分布的条件平均: y u E[d | x,i] F (x) i = i = = i gi
p exp(a eqp(a)或B ∑exp(元n 0≤g1≤1对所有i ∑g;=1 Oo i g1称为 oft max 门控网络(虚线部分为 Softmax函数) 这里把F(x)看成线性函数
门控网络(虚线部分为Softmax函数) 或 1 0 1 k i 1 = = i i g g 对所有i ( ) ( ) = = k j j i i u u g 1 exp exp 这里把F(x)看成线性函数 ( ) ( ) = = k j j i i u u g 1 exp exp gi 称为soft max