模块(组合)网络 1)产生的背景 a)更好的映射非线性函数 b)模拟人类神经系统分工 合作 C)在控制中,克服“时间交叉” 〔 Temporal Crosstalk)现象 模块网络的结构(见图)
模块(组合)网络 1) 产生的背景 a) 更好的映射非线性函数 b) 模拟人类神经系统,分工 合作 c) 在控制中,克服“时间交叉” (Temporal Crosstalk) 现象。 模块网络的结构(见图)
X输入向覺 网)专家网络 专家网络 专家网终 络 控网络 ∑ Y输出向量 组合神经劂络的结构
学习方法 输出线性和方法:E°=|d° 各专家网络有强的耦合在情况c时 d为期望输出,p;第i个专家网络的贡酤 竞争学习方法 E=(12-22=2∑1 强者为胜,一个网络参加学习
学习方法 2 c = d − c i c i c 输出线性和方法: E p y 2 c i c c i c i c i c c E = d − y p = p d − y 竞争学习方法: —— 各专家网络有强的耦合 —— 强者为胜,一个网络参加学习。 d c 为期望输出,pi c 第i个专家网络的贡献 在情况c时
进一步改进算法 C g∑ 1/2(-y 比较 OE 加权项 (1) 1/2|d° OE (2) 1/2|d° p. e 式(1)表示最合适的专家网络以最慢的速度下降 式(2)表示最合适的专家网络以最快的速度下降
2 1 2 c i c / d y i c i c E log p e − − = − ( ) ( ) c i c j / d y c j / d y c i c i c c i c c c i i c d y p e p e y E p d y y E c i c c i c − = − = − − − − − − 2 2 1 2 1 2 2 进一步改进算法 比较 (1) (2) 式(1)表示最合适的专家网络以最慢的速度下降 式(2)表示最合适的专家网络以最快的速度下降 加权项
如何确定门控网络输出g;? 给组合网络以概率解释。 训练样本x为p维, 第个专家网络的输出y,为q维, 门控网络的第j个输出为g 整个组合网络的输出向量为 ∑ K为专家网络的个数
如何确定门控网络输出gi? —— 给组合网络以概率解释。 训练样本x为p维, 目标输出,即期望输出,为d ,q维, 第i个专家网络的输出 yi , 为q维, 门控网络的第i个输出为gi , 整个组合网络的输出向量为: i k i i y g y = = 1 K 为专家网络 的个数
训练的方法 对{x,d}训陈练样本的概率进行建模 1)随机从先验分布中选取输入向量x 2)以分布P)选择一个专家网络; 3)期望d由所选择的规则确定,回归产生: d=F(x)+ar的协方差为A j=1,2..k 对给定的x第个专家最匹配期望输出d的条件概率分布: f(d(x, i)=1/(2r det a, z exp (-1/2(d-y,)A, (d-y) 21(-y(a-y) 1/(2x /2 exp(-112ld-m/e
训练的方法 对{x,d}训练样本的概率进行建模 1)随机从先验分布中选取输入向量x 2)以分布P(i/x)选择一个专家网络; 3) 期望d由所选择的规则确定,回归产生: d =Fi (x) + I I的协方差为i i = 1,2,…,k 对给定的x,第i个专家最匹配期望输出d 的条件概率分布: ( ) ( ) ( ) ( ( ) ( )) ( ) ( ) / 2 2 / 2 / 2 1 1/ 2 exp 1/ 2 1/ 2 exp 1/ 2 ( | , ) 1/ 2 det exp 1/ 2( ) ( ) i q i T i q i i i q i d y d y d y f d x i d y d y = − − = − − − = − − − −
每个专家网络y可以看成多元高斯分布的条件平均 y1=l7=E[d|x,]=F(x) 总的输出,由k个多元高斯分布的线性组合 f(l1x)=∑g,f(lx.) ∑gcy(12-x 2丌 此式为联想高斯混合模型 g;为门控网络第i个输出神经元的激励
总的输出,由k个多元高斯分布的线性组合: ( ) ( ) ( ) ( ) 2 1 / 2 1 exp 1/ 2 2 1 | , | , i k i q i k i i g d y f d x i g f d x i = − − = = = 此式为联想高斯混合模型 为门控网络第i个输出神经元的激励 每个专家网络yi 可以看成多元高斯分布的条件平均: y u E[d | x,i] F (x) i = i = = i gi
p exp(au,) e(x)或 exp(u 0≤g:≤1对所有i ∑g expt rxp(w J 8 +2O R g;称为 sort max exple 门控网络(虚线部分为 Softmax函数) 这里把F(x)看成线性函数
门控网络(虚线部分为Softmax函数) 或 1 0 1 k i 1 = = i i g g 对所有i ( ) ( ) = = k j j i i u u g 1 exp exp 这里把F(x)看成线性函数 ( ) ( ) = = k j j i i u u g 1 exp exp gi 称为soft max