神经网络优化 1
神经网络优化 1
Outline ·6.1信息熵 ·6.2模型优化中的目标函数 ·6.3模型优化中常用的经验损失函数 哈尔滨工业大学计算机学院刘远超 2
Outline • 6.1信息熵 • 6.2 模型优化中的⽬标函数 • 6.3 模型优化中常⽤的经验损失函数 哈尔滨工业大学计算机学院 刘远超 2
信息论中的熵(entropy) ●热力学中的熵:是表示分子状态混乱程度 的物理量 ·信息论中的熵:用来描述信源的不确定性 的大小 ·经常使用的熵概念有下列几种: ·信息熵 ●交叉熵 ●相对熵 克劳德·艾尔伍德,香农(Claude Elwood Shannon 1916年4月30日一2001年2月24日)是美国数学家、 ●条件熵 信息论的创始人。1936年获得密歇根大学学士学 位。1940年在麻省理工学院获得硕士和博士学位, 1941年进入贝尔实验室工作。香农提出了信息熵的 ●互信息 概念,为信息论和数字通信奠定了基础。 哈尔滨工业大学计算机学院刘远超
信息论中的熵(entropy) l 热⼒学中的熵: 是表示分⼦状态混乱程度 的物理量 哈尔滨工业大学计算机学院 刘远超 3 l 经常使⽤的熵概念有下列⼏种: l 信息熵 l 交叉熵 l 相对熵 l 条件熵 l 互信息 克劳德·艾尔伍德·香农(Claude Elwood Shannon , 1916年4月30日—2001年2月24日)是美国数学家、 信息论的创始人。1936年获得密歇根大学学士学 位 。1940年在麻省理工学院获得硕士和博士学位, 1941年进入贝尔实验室工作。香农提出了信息熵的 概念,为信息论和数字通信奠定了基础。 l 信息论中的熵:⽤来描述信源的不确定性 的⼤⼩
信息熵 ●信源信息的不确定性函数∫通常满足两个条件: 1)是概率p的单调递减函数。 2)两个独立符号所产生的不确定性应等于各自不确定性之和,即 f(p1,p2)=f(p1)+f(p2)。 ·对数函数同时满足这两个条件:fp)=log=-1ogp ●信息熵:要考虑信源所有可能发生情况的平均不确定性。若信源符号有 n种取值:U1,…,U,Un,对应概率为p1,…,p…,卫n,且各种出现彼此 独立。此时信源的平均不确定性应当为单个符号不确定性-1ogP:的统计 平均值(),称为信息熵,即 H0=E-logl=-∑nogm=∑,nlog合 哈尔滨工业大学计算机学院刘远超 4
信息熵 l 信源信息的不确定性函数 � 通常满⾜两个条件 : 1)是概率 � 的单调递减函数。 2)两个独⽴符号所产⽣的不确定性应等于各⾃不确定性之和,即 � �!, �" = � �! +� �" 。 l 对数函数同时满⾜这两个条件:� � = ��� ! # = −��� � l 信息熵:要考虑信源所有可能发⽣情况的平均不确定性。若信源符号有 n种取值: �1 , … ,�� , … ,��,对应概率为�1, … , �� , … , ��,且各种出现彼此 独⽴。此时信源的平均不确定性应当为单个符号不确定性−log �$的统计 平均值(E),称为信息熵,即 � � = � − log �$ = −1$%! & �$����$ = 1�%� � �����( � �� ) 哈尔滨工业大学计算机学院 刘远超 4
交叉熵(cross entropy) ·定义:交叉熵是信息论中一个重要的概念,用于表征两个变量概率分布 P,Q(假设P表示真实分布,Q为模型预测的分布)的差异性。交叉熵越 大,两个变量差异程度越大。 ●交叉熵公式: .Pogc) 哈尔滨工业大学计算机学院刘远超 5
交叉熵(cross entropy) l 定义:交叉熵是信息论中一个重要的概念, 用于表征两 个变量概率分布 P, Q(假设P表示真实分布, Q为模型预测的分布)的差异性 。交叉熵越 大 , 两个变量差异程度越大。 l 交叉熵公式: � �, � = − 1 �∈� � � ���� � = 1 �∈� � � ��� � � � 哈尔滨工业大学计算机学院 刘远超 5
相对熵relative entropy) 也称为KL散度(Kullback-Leibler divergence,简称KLD)、信息散度 (information divergence)、信息增益(information gain)。 ●相对熵的定义:是交叉熵与信息熵的差值。表示用分布Q模拟真实分 布P,所需的额外信息。 ·计算公式为 Dku(PIQ)=∑P(iog( =.P()iog Q() P(x) 交叉熵 信息熵 哈尔滨工业大学计算机学院刘远超 6
相对熵(relative entropy) l 也称为KL散度(Kullback–Leibler divergence,简称KLD)、信息散度 (information divergence)、信息增益(information gain)。 l 相对熵的定义:是交叉熵与信息熵的差值。表示⽤分布Q模拟真实分 布P,所需的额外信息。 l 计算公式为 ���(�| � = 1 �∈� � � ��� � � � − 1 �∈� � � ��� � � � = 1 �∈� � � ��� �(�) �(�) 哈尔滨工业大学计算机学院 刘远超 6 交叉熵 信息熵
相对熵(relative entropy举例 ●举例:假设某字符发射器随机发出0和1两种字符。且其真实发出概率 分布为A。现在有两人的观察概率分布B与C。各个分布如下: A(0)=1/2,A(1)=1/2 B(0)=1/4,B(1)=3/4 C(0)=1/8,C(1)=7/8 则B和C哪个更接近实际分布A? ●求解过程: 用公式Du(PIQ)=∑exP(og ,则 ·Dx(4B)=log()+21g() ·D(4lC)=1og()+g(3) 结果: ■DK(AIB)=0.14, ■Dk(AIC)=0.41 哈尔滨工业大学计算机学院刘远超 7
相对熵(relative entropy)举例 l 举例:假设某字符发射器随机发出0和1两种字符。且其真实发出概率 分布为A。现在有两人的观察概率分布B与C。各个分布如下: A(0)=1/2,A(1)=1/2 B(0)=1/4,B(1)=3/4 C(0)=1/8,C(1)=7/8 则B和C哪个更接近实际分布A? 哈尔滨工业大学计算机学院 刘远超 7 l 求解过程: 用公式 �/0(�| � = ∑1∈2 � � ��� 3(1) 6(1) ,则 n �/0(�| � = ! " log !/" !/8 + ! " log( !/" 9/8 ) n �/0(�| � = ! " log !/" !/: + ! " log( !/" ;/: ) 结果: n �/0(�| � =0.14, n �/0(�| � = 0.41
相对熵的性质 ●相对熵(KL散度)有两个主要的性质: ■相对熵(KL散度)不具有对称性,即DKL(PQ)≠Dk(QIIP)。 例如 Dku(4B)=1og(份)+1g(券=-0.1438, DxL.(BIIA)=log(+log(=0.1308 即DKL(AIB)≠DK(BIA) ■相对熵具有非负性。即DK(PIQ)≥0 哈尔滨工业大学计算机学院刘远超 8
相对熵的性质 l 相对熵(KL散度)有两个主要的性质: n 相对熵(KL散度)不具有对称性,即�/0(�| � ≠ �/0(�| � 。 例如 �/0(�| � = ! " log !/" !/8 + ! " log( !/" 9/8 ) =0.1438, �/0(�| � = ! 8 log !/8 !/" + 9 8 log( 9/8 !/" ) =0.1308 即���(�| � ≠ ���(�| � n 相对熵具有非负性。 即�/0(�| � ≥ 0 哈尔滨工业大学计算机学院 刘远超 8
JS散度 ●JS散度Jensen--Shannon divergence)具有对称性: 由于KL散度不具对称性,因此S散度在KL散度的基础上进行了改进。 现有两个分布p1和p2,其S散度公式为: IS(PP2)=KL(P)+KL(P2) 哈尔滨工业大学计算机学院刘远超 9
JS散度 l JS散度(Jensen–Shannon divergence)具有对称性: 由于KL散度不具对称性,因此JS散度在KL散度的基础上进行了改进。 现有两个分布p1和p2,其JS散度公式为: ��(�!| �" = ! " ��(�!|| #!$#" " ) + ! " ��(�"| #!$#" " ) 哈尔滨工业大学计算机学院 刘远超 9
联合熵 ●联合熵(复合熵,Joint Entropy): ■用H(X,Y)表示 ■两个随机变量x,Y的联合分布的熵,形成联合熵 哈尔滨工业大学计算机学院刘远超 10
联合熵 l 联合熵 (复合熵,Joint Entropy): n 用H(X, Y)表示 n 两个随机变量X,Y的联合分布的熵, 形成联合熵 哈尔滨工业大学计算机学院 刘远超 10