免费h5网站制作平台,c 网站开发环境,ui设计app界面设计流程,在哪些网站上发外链好同学你好#xff01;本文章于2021年末编写#xff0c;获得广泛的好评#xff01;
故在2022年末对本系列进行填充与更新#xff0c;欢迎大家订阅最新的专栏#xff0c;获取基于Pytorch1.10版本的理论代码(2023版)实现#xff0c;
Pytorch深度学习理论篇(2023版)目录地址…同学你好本文章于2021年末编写获得广泛的好评
故在2022年末对本系列进行填充与更新欢迎大家订阅最新的专栏获取基于Pytorch1.10版本的理论代码(2023版)实现
Pytorch深度学习·理论篇(2023版)目录地址为
CSDN独家 | 全网首发 | Pytorch深度学习·理论篇(2023版)目录本专栏将通过系统的深度学习实例从可解释性的角度对深度学习的原理进行讲解与分析通过将深度学习知识与Pytorch的高效结合帮助各位新入门的读者理解深度学习各个模板之间的关系这些均是在Pytorch上实现的可以有效的结合当前各位研究生的研究方向设计人工智能的各个领域是经过一年时间打磨的精品专栏https://v9999.blog.csdn.net/article/details/127587345欢迎大家订阅(2023版)理论篇 以下为2021版原文~~~~ 1 信息熵
熵 (Entropy)信息熵常被用来作为一个系统的信息含量的量化指标从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。
1.1 信息熵的性质
单调性发生概率越高的事件其携带的信息量越低非负性信息熵可以看作为一种广度量非负性是一种合理的必然累加性多随机事件同时发生存在的总不确定性的量度约等于各事件不确定性的量度的和假设信息熵的函数是I计算概率的函数是PI是关于P的减函数即I(P1,P2)I(P1)I(P2)。
1.1.1 信息熵的公式
香农从数学上严格证明了满足上述三个条件的随机变量不确定性度量函数具有唯一形式 其中的 C 为常数我们将其归一化为 C 1 C1C1 即得到了信息熵公式。目前信息熵大多都是通过上式进行计算的式中的Pi是概率函数Pi(Ui的计算结果求和符号中的i代表从1到n之间的整数。在实践中对数一般以2为底约定0log00。
1.2 信息熵的计算公式
信息熵属于一个抽象概念其计算方法没有固定公式。任何符合信息熵特点的公式都可以被用作信息熵的计算。
1.2.1 对数的信息熵 1.2.2 单符号二元信源的信息熵
以一个最简单的单符号二元信源为例说明该信源符号U(上式中的X)仅可以取值为a或b。其中取a的概率为p则取b的概率为1-p。该信源的信息熵可以记为H(U)pI(p)(1-p)I(1-p)所形成的曲线如图所示。 在图8-2中x轴代表符号U取值为a的概率值py轴代表符号U的信息熵H(U)。由图8-2可以看出信息熵有如下几个特性。
确定性当符号U取值为a的概率值p0和p1时U的值是确定的没有任何变化量所以信息熵为0。极值性当p0.5时U的信息熵达到了最大。对称性图形在水平方向关于p0.5对称。非负性即收到一个信源符号所获得的信息熵应为正值H(U)≥0。
1.3 连续信息熵及特性
信源中的变量是从连续数据中取值。连续信源可以有无限个值信息量是无限大对其求信息熵已无意义一般常会以其他的连续信源做参照相对熵的值进行度量。
1.4 联合熵
联合熵(joint entropy)可将一维随机变量分布推广到多维随机变量分布。两个变量x和Y的联合信息熵H(X,Y)也可以由联合概率函数P(x,y)计算得来 式中的联合概率函数P(x,y)是指x、y同时满足某一条件的概率。
1.5 条件熵
条件熵(conditional entropy)表示在已知随机变量X的条件下随机变量Y的不确定性条件熵H(Y|X)可以由联合橱率函数P(x,y)和条件概率函数P(y|x)计算得来 其中 P(x,y)P(y|x)P(x)即x和y的联合概率等于“在x条件下y出现的概率”乘以“x的边际概率”。 1.5.1 条件熵的另一种计算方式
条件熵H(Y|X)也可以由X和Y的联合信息熵计算而来 可以描述为条件熵H(Y|X)等于联合熵H(X,Y)减去X的边际熵H(X)。
1.6 交叉熵
交叉熵(cross entropy)在神经网络中常用于计算分类模型的损失。交叉熵表示的是实际输出概率与期望输出概率之间的距离。交又熵越小两个概率越接近。
1.6.1 交叉熵数学公式
交叉熵公式假设样本集的概率分布函数为P(x)模型预测结果的概率分布函数为Q(x)则真实样本集的信息熵为p是函数P(x)的值) 使用模型预测结果的概率分布Q(x)来表示数据集中样本分类的信息熵则上述式子可改写为 Q(x)与P(x)的交叉熵。因为分类的概率来自样本集所以式中的概率部分用Qx)来表示。 1.6.2 交叉熵损失 交叉熵损失表示模型对正向样本预测的交叉熵求和项中的第一项)与对负向样本预测的交叉熵求和项中的第二项之和。正向样本的概率为a预测负向样本的概率为1-a。
1.7 相对熵/KL散度/信息散度
相对熵又被称为KL散度或信息散度用来度量两个概率分布间的非对称性差异。在信息理论中相对熵等价于两个概率分布的信息熵的差值。
1.7.1 相对熵的公式 设P(x)、Q(x)是离散随机变量集合X中取值x的两个概率分布函数它们的结果分别为p和q则p对q的相对熵如下 由式可知当P(x)和Q(x)两个概率分布函数相同时相对熵为0因为log10并且相对熵具有不对称性“Ep”代表期望,期望是指每次可能结果的概率乘以结果的总和。
1.7.2 相对熵与交叉熵的关系
将1.7.1中式子中对数部分展开可以看到相对熵与交叉熵之间的关系 由式可以看出p与q的相对熵是由二者的交叉熵去掉p的边际熵得来相对熵是交叉熵中去掉熵的部分。
在神经网络中由于训练数据集是固定的即p的嫡一定因此最小化交叉熵等价于最小化预测结果与真实分布之间的相对熵模型的输出分布与真实分布的相对熵越小表明模型对真实样本拟合效果越好)这也是要用交叉熵作为损失函数的原因。
1.8 JS散度
1.8.1 JS散度出现的原因
KL散度可以表示两个概率分布的差异但它并不是对称的。在使用KL散度训练神经网络时会有因顺序不同而造成训川练结果不同的情况。
1.8.2 JS散度
JS散度在KL散度的基础上进行了一次变换使两个概率分布(p、q)间的差异度量具有对称性 1.8.3 JS散度的特性
与KL散度相比JS散废更适合在神经网络中应用。它具有以下特性。
对称性可以衡量两种不同分布之间的差异。大于或等于0当两个分布完全重叠时其JS散度达到最小值0。有上界当两个分布差异越来越大时其JS散度的值会逐渐增大。当两个分布的JS散度足够大时其值会收敛到一个固定值KL散度是没有上界的。在互信息的最大化任务中常使用JS散度来代替KL散度。
2 互信息
互信息是衡量随机变量之间相互依赖程度的度量用于度量两个变量间的共享信息量。
2.1 三句话解释互信息
一个随机变量中包含的关于另一个随机变量的信息量一个随机变量由于另一个已知的随机变量发生变化而减少的不确定性。例如到中午的时候、去吃饭的不确定性与在任意时间去吃饭的不确定性之差。
2.2 互信息公式
设有两个变量集合X和Y它们中的个体分别为x、y它们的联合概率分布函数为P(x,y)边际概率分布函数分别是P(x)、P(y)。互信息是指联合概率分布函数P(x,y)与边际概分布函数P(x),P(y)的相对熵。 2.3 互信息的特点
(1)对称性由于互信息属于两个变量间的共享信息因此I(X;Y)I(Y|X)。 (2)独立变量间互信息为0如果两个变量独立则它们之间没有任何共享信息此时互信息为0。 (3)非负性共享信息要么有要么没有。互信息量不会出现负值。
2.4 互信息与条件熵之间关系 2.5 互信息与联合熵之间关系 2.6 互信息的应用
互信息已被用作机器学习中的特征选择和特征变换的标准。它可表示变量的相关性和冗余性例如最小冗余特征选择。它可以确定数据集中两个不同聚类的相似性。在时间序列分析中它还可以用于相位同步的检测。对抗神经网络如DIM模型及图神经网络如DGI模型中使用互信息来作为无监督方式提取特征的方法。