阿里云虚拟主机多个网站,莱芜金点子招聘信息电子版,槐荫区网络营销seo,开发网站监控平台熵的本质是香农信息量()的期望。 现有关于样本集的2个概率分布p和q#xff0c;其中p为真实分布#xff0c;q非真实分布。 按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为#xff1a;H(p)。 如果使用错误分布q来表示来自真实分布p的平均编码长度…熵的本质是香农信息量()的期望。 现有关于样本集的2个概率分布p和q其中p为真实分布q非真实分布。 按照真实分布p来衡量识别一个样本的所需要的编码长度的期望(即平均编码长度)为H(p)。 如果使用错误分布q来表示来自真实分布p的平均编码长度则应该是H(p,q)。因为用q来编码的样本来自分布p所以期望H(p,q)中概率是p(i)。H(p,q)我们称之为“交叉熵”。 比如含有4个字母(A,B,C,D)的数据集中真实分布p(1/2, 1/2, 0, 0)即A和B出现的概率均为1/2C和D出现的概率都为0。计算H(p)为1即只需要1位编码即可识别A和B。如果使用分布Q(1/4, 1/4, 1/4, 1/4)来编码则得到 H(p,q)2即需要2位编码来识别A和B(当然还有C和D尽管C和D并不会出现因为真实分布p中C和D出现的概率为0这里就钦定概率为0的事件不会发生啦)。 可以看到上例中根据非真实分布q得到的平均编码长度H(p,q)大于根据真实分布p得到的平均编码长度H(p)。事实上根据Gibbs inequality可知H(p,q)H(p)恒成立当q为真实分布p时取等号。我们将由q得到的平均编码长度比由p得到的平均编码长度多出的bit数称为“相对熵”D(p||q)H(p,q)-H(p)其又被称为KL散度(Kullback–Leibler divergenceKLD) Kullback–Leibler divergence。它表示2个函数或概率分布的差异性差 异越大则相对熵越大差异越小则相对熵越小特别地若2者相同则熵为0。注意KL散度的非对称性。 比如TD-IDF算法就可以理解为相对熵的应用词频在整个语料库的分布与词频在具体文档中分布之间的差异性。 交叉熵可在神经网络(机器学习)中作为损失函数p表示真实标记的分布q则为训练后的模型的预测标记分布交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避 免均方误差损失函数学习速率降低的问题因为学习速率可以被输出的误差所控制。 PS通常“相对熵”也可称为“交叉熵”因为真实分布p是固定的D(p||q)由H(p,q)决定。当然也有特殊情况彼时2者须区别对待。 转载于:https://www.cnblogs.com/Libo-Master/p/7597710.html