网站举报多久有结果,学生成绩管理系统 网站建设,邯郸求职信息网,网站建设哪家强2. 概率论
2.1 概率分布与随机变量
2.1.1 机器学习为什么要使用概率
事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的#xff0c;但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。
机器学习通常必须处理…2. 概率论
2.1 概率分布与随机变量
2.1.1 机器学习为什么要使用概率
事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。
机器学习通常必须处理不确定量有时候也需要处理随机量。几乎所有的活动都需要一些在不确定性存在的情况下进行推理的能力。
不确定性和随机性可能来自多个方面不确定性有 3 种可能的来源
被建模系统内在的随机性。比如纸牌游戏假设纸牌被真正混洗成了随机顺序。不完全观测。对于确定的系统但是如果不能观测到所有驱动系统行为的变量时该系统也会呈现随机性。比如让选手选择三扇门中的一个并获得门后的奖品每个门后的奖品是确定的但是选手无法观测到所以对于选手来说结果是不确定的。不完全建模。当采用一些必须舍弃某些信息的模型时舍弃的信息可能导致模型的预测出现不确定性。
在很多情况下采用简单而不确定的规则要比复杂而确定的规则更加的实用。
可以使用概率论来量化不确定性。 用概率来表示一种信任度概率直接和事件发生的频率相联系的被称为频率派概率比如说某件事发生的概率是 p这表示如果反复试验无限次有 p 的比例是发生这件事情而涉及确定性水平的称为贝叶斯概率比如说医生在对一个病人的诊断中判断其患某个病的概率是 p。
概率论在机器学习中扮演着一个核心角色因为机器学习算法的设计通常依赖于对数据的概率假设。 例如在机器学习Andrew Ng的课中会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件单词x出现在邮件中的概率条件独立于单词y。很明显这个假设不是不失一般性的因为某些单词几乎总是同时出现。然而最终结果是这个简单的假设对结果的影响并不大且无论如何都可以让我们快速判别垃圾邮件。 2.1.2 变量与随机变量有什么区别
随机变量random variable是可以随机地取不同数值的变量。
它表示随机现象在一定条件下并不总是出现相同结果的现象称为随机现象中各种结果的实值函数一切可能的样本点。例如某一时间内公共汽车站等车乘客人数电话交换台在一定时间内收到的呼叫次数等都是随机变量的实例。 随机变量与模糊变量的不确定性的本质差别在于后者的测定结果仍具有不确定性即模糊性。
变量与随机变量的区别 当变量的取值的概率不是1时,变量就变成了随机变量当随机变量取值的概率为1时,随机变量就变成了变量。 比如 当变量xxx值为100的概率为1的话,那么x100x100x100就是确定了的,不会再有变化,除非有进一步运算. 当变量xxx的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。 2.1.3 随机变量与概率分布的联系
一个随机变量仅仅表示一个可能取得的状态还必须给定与之相伴的概率分布来制定每个状态的可能性。用来描述随机变量或一簇随机变量的每一个可能的状态的可能性大小的方法就是概率分布(probability distribution)**.
随机变量可以分为离散型随机变量和连续型随机变量。
相应的描述其概率分布的函数是 概率质量函数(Probability Mass Function, PMF):描述离散型随机变量的概率分布通常用大写字母 PPP表示。 概率密度函数(Probability Density Function, PDF)描述连续型随机变量的概率分布通常用小写字母ppp表示。
2.1.4 离散型随机变量和概率质量函数
PMF 将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。
一般而言P(x)P(x)P(x) 表示时XxXx Xx的概率概率为 1 表示 $ Xx$ 是确定的概率是 0 表示 $ Xx$ 是不可能的有时候为了防止混淆要明确写出随机变量的名称P(P(P(xx)x)x)有时候需要先定义一个随机变量然后制定它遵循的概率分布 x 服从P(P(P(x)))
PMF 可以同时作用于多个随机变量即联合概率分布(joint probability distribution) P(Xx,Yy)P(Xx,Yy)P(Xx,Yy)表示 XxXxXx和YyYy Yy同时发生的概率也可以简写成 P(x,y)P(x,y)P(x,y).
如果一个函数PPP是随机变量 XXX 的 PMF 那么它必须满足如下三个条件
PPP的定义域必须是的所有可能状态的集合∀x∈∀x∈∀x∈x, $0 \leq P(x) \leq 1 $.∑x∈XP(x)1∑_{x∈X} P(x)1∑x∈XP(x)1. 我们把这一条性质称之为归一化的(normalized)如果不满足这条性质那么可能某件事情发生的概率会是大于 1。
2.1…5 连续型随机变量和概率密度函数
如果一个函数ppp是x的PDF那么它必须满足如下几个条件
ppp的定义域必须是x的所有可能状态的集合。∀x∈X,p(x)≥0∀x∈X,p(x)≥0∀x∈X,p(x)≥0. 注意我们并不要求$ p(x)≤1$因为此处 p(x)p(x)p(x)不是表示的对应此状态具体的概率而是概率的一个相对大小(密度)。具体的概率需要积分去求。∫p(x)dx1∫p(x)dx1∫p(x)dx1, 积分下来总和还是1概率之和还是1.
注PDFp(x)p(x)p(x)并没有直接对特定的状态给出概率给出的是密度相对的它给出了落在面积为 δxδxδx的无线小的区域内的概率为$ p(x)δx$.
由此我们无法求得具体某个状态的概率我们可以求得的是 某个状态 xxx 落在 某个区间[a,b][a,b][a,b]内的概率为$ \int_{a}^{b}p(x)dx$.
2.1.6 举例理解条件概率
条件概率公式如下 P(A∣B)P(A∩B)/P(B)P(A|B) P(A\cap B) / P(B) P(A∣B)P(A∩B)/P(B) 说明在同一个样本空间Ω\OmegaΩ中的事件或者子集AAA与BBB如果随机从Ω\OmegaΩ中选出的一个元素属于BBB那么下一个随机选择的元素属于AAA 的概率就定义为在BBB的前提下AAA的条件概率。
条件概率文氏图示意如图1.1所示。
图1.1 条件概率文氏图示意
根据文氏图可以很清楚地看到在事件B发生的情况下事件A发生的概率就是P(A⋂B)P(A\bigcap B)P(A⋂B)除以P(B)P(B)P(B)。
举例一对夫妻有两个小孩已知其中一个是女孩则另一个是女孩子的概率是多少面试、笔试都碰到过
穷举法已知其中一个是女孩那么样本空间为男女女女女男则另外一个仍然是女生的概率就是1/3。
条件概率法P(女∣女)P(女女)/P(女)P(女|女)P(女女)/P(女)P(女∣女)P(女女)/P(女),夫妻有两个小孩那么它的样本空间为女女男女女男男男则P(女女)P(女女)P(女女)为1/4P女1−P(男男)3/4P女 1-P(男男)3/4P女1−P(男男)3/4,所以最后1/31/31/3。
这里大家可能会误解男女和女男是同一种情况但实际上类似姐弟和兄妹是不同情况。
2.1.7 联合概率与边缘概率联系区别
区别 联合概率联合概率指类似于P(Xa,Yb)P(Xa,Yb)P(Xa,Yb)这样包含多个条件且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。
边缘概率边缘概率是某个事件发生的概率而与其它事件无关。边缘概率指类似于P(Xa)P(Xa)P(Xa)P(Yb)P(Yb)P(Yb)这样仅与单个随机变量有关的概率。
联系
联合分布可求边缘分布但若只知道边缘分布无法求得联合分布。
2.1.8 条件概率的链式法则
由条件概率的定义可直接得出下面的乘法公式 乘法公式 设A,BA, BA,B是两个事件并且P(A)0P(A) 0P(A)0, 则有 P(AB)P(B∣A)P(A)P(AB) P(B|A)P(A) P(AB)P(B∣A)P(A) 推广 P(ABC)P(C∣AB)P(B∣A)P(A)P(ABC)P(C|AB)P(B|A)P(A) P(ABC)P(C∣AB)P(B∣A)P(A) 一般地用归纳法可证若P(A1A2...An)0P(A_1A_2...A_n)0P(A1A2...An)0则有 P(A1A2...An)P(An∣A1A2...An−1)P(An−1∣A1A2...An−2)...P(A2∣A1)P(A1)P(A1)∏i2nP(Ai∣A1A2...Ai−1)P(A_1A_2...A_n)P(A_n|A_1A_2...A_{n-1})P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1)\\ P(A_1)\prod_{i2}^{n}P(A_i|A_1A_2...A_{i-1}) P(A1A2...An)P(An∣A1A2...An−1)P(An−1∣A1A2...An−2)...P(A2∣A1)P(A1)P(A1)i2∏nP(Ai∣A1A2...Ai−1) 任何多维随机变量联合概率分布都可以分解成只有一个变量的条件概率相乘形式。
2.1.9 独立性和条件独立性
独立性 两个随机变量xxx和yyy概率分布可以表示成两个因子乘积形式一个因子只包含xxx另一个因子只包含yyy则可以说这两个随机变量相互独立(independent)**。 条件有时为不独立的事件之间带来独立有时也会把本来独立的事件因为此条件的存在而失去独立性。
举例P(XY)P(X)P(Y)P(XY)P(X)P(Y)P(XY)P(X)P(Y), 事件XXX和事件YYY独立。此时给定ZZZ P(X,Y∣Z)̸P(X∣Z)P(Y∣Z)P(X,Y|Z) \not P(X|Z)P(Y|Z) P(X,Y∣Z)P(X∣Z)P(Y∣Z) 事件独立时联合概率等于概率的乘积。这是一个非常好的数学性质然而不幸的是无条件的独立是十分稀少的因为大部分情况下事件之间都是互相影响的。
条件独立性 给定ZZZ的情况下,XXX和YYY条件独立当且仅当 X⊥Y∣Z⟺P(X,Y∣Z)P(X∣Z)P(Y∣Z)X\bot Y|Z \iff P(X,Y|Z) P(X|Z)P(Y|Z) X⊥Y∣Z⟺P(X,Y∣Z)P(X∣Z)P(Y∣Z) XXX和YYY的关系依赖于ZZZ而不是直接产生。 举例定义如下事件 XXX明天下雨 YYY今天的地面是湿的 ZZZ今天是否下雨 ZZZ事件的成立对XXX和YYY均有影响然而在ZZZ事件成立的前提下今天的地面情况对明天是否下雨没有影响。 2.1.10 常见公式
概率基础的公式
P(AB)P(A)P(B)−P(AB)P(AB) P(A)P(B)-P(AB)P(AB)P(A)P(B)−P(AB)P(A−B)P(A)−P(B)P(A-B)P(A)-P(B)P(A−B)P(A)−P(B)P(AB)P(A)P(B∣A)P(AB)P(A)P(B|A)P(AB)P(A)P(B∣A)
全概率
P(A)∑iP(Bi)P(A∣Bi)P(A) \sum_i P(B_i)P(A|B_i)P(A)∑iP(Bi)P(A∣Bi)
贝叶斯
P(B∣A)P(B)P(A∣B)P(A)P(B|A) \frac{P(B)P(A|B)}{P(A)}P(B∣A)P(A)P(B)P(A∣B)
2.1.11 应用
抽球
n 个球对于有放回和无放回的抽取方式 有放回的抽取抽取 m 个排成一列求不同排列的数量nmn^mnm 没有放回的抽取抽取 m 个排成一列求不同排列的数量n!(n−m)!\frac{n!}{(n-m)!}(n−m)!n!
2.2 常见概率分布
2.2.1 均匀分布
离散随机变量的均匀分布假设 X 有 k 个取值则均匀分布的概率质量函数为 p(Xxi)1k,i1,2,⋯,kp(Xx_i) \frac{1}{k},i1,2,\cdots,k p(Xxi)k1,i1,2,⋯,k 连续随机变量的均匀分布假设 X 在 [a, b] 上均匀分布则其概率密度函数为 $$ p(Xx)
\begin{cases} 0,x\notin[a,b]\ \frac{1}{b-a},x\in[a, b] \end{cases} $$
2.2.1 Bernoulli分布
Bernoulli分布(伯努利分布0-1分布)是单个二值随机变量分布, 单参数ϕ\phiϕ∈[0,1]控制,ϕ\phiϕ给出随机变量等于1的概率. 主要性质有: KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ P(x1) \phi… 其期望和方差为 KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ E_x[x] \phi… 适用范围: 伯努利分布适合对离散型随机变量建模.
Multinoulli分布也叫范畴分布, 是单个k值随机分布,经常用来表示对象分类的分布. 其中kkk是有限值.Multinoulli分布由向量p⃗∈[0,1]k−1\vec{p}\in[0,1]^{k-1}p∈[0,1]k−1参数化,每个分量pip_ipi表示第iii个状态的概率, 且pk1−1Tpp_k1-1^Tppk1−1Tp.这里1T1^T1T表示元素全为1的列向量的转置其实就是对于向量p中除了k的概率之和。可以重写为pk1−∑0k−1pip_k1-\sum_{0}^{k-1}p_ipk1−∑0k−1pi 。
补充二项分布、多项分布
二项分布通俗点硬币抛多次。二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。
定义成功 x 次的概率为f(x)Cnxpx(1−p)n−x,x∈0,1,⋯,nf(x)C_n^xp^x(1-p)^{n-x},x\in{0,1,\cdots,n}f(x)Cnxpx(1−p)n−x,x∈0,1,⋯,n。
期望是 np 方差是 np(1-p)
多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验规定了每次试验的结果只有两个如果现在还是做n次试验只不过每次试验的结果可以有多m个且m个结果发生的概率互斥且和为1则发生其中一个结果X次的概率就是多项式分布。
2.2.3 高斯分布
高斯也叫正态分布(Normal Distribution), 概率度函数如下: N(x;μ,σ2)12πσ2exp(−12σ2(x−μ)2)N(x;\mu,\sigma^2) \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right ) N(x;μ,σ2)2πσ21exp(−2σ21(x−μ)2) 其中, μ\muμ和σ\sigmaσ分别是均值和标准差, 中心峰值x坐标由μ\muμ给出, 峰的宽度受σ\sigmaσ控制, 最大点在xμx\muxμ处取得, 拐点为xμ±σx\mu\pm\sigmaxμ±σ
正态分布中±1σ\sigmaσ、±2σ\sigmaσ、±3σ\sigmaσ下的概率分别是68.3%、95.5%、99.73%这3个数最好记住。
此外, 令μ0,σ1\mu0,\sigma1μ0,σ1高斯分布即简化为标准正态分布: N(x;μ,σ2)12πexp(−12x2)N(x;\mu,\sigma^2) \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right ) N(x;μ,σ2)2π1exp(−21x2) 对概率密度函数高效求值: N(x;μ,β−1)β2πexp(−12β(x−μ)2)N(x;\mu,\beta^{-1})\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right) N(x;μ,β−1)2πβexp(−21β(x−μ)2)
其中β1σ2\beta\frac{1}{\sigma^2}βσ21通过参数β∈0∞\beta∈0\inftyβ∈0∞来控制分布精度。
2.2.4 何时采用正态分布
问: 何时采用正态分布?
答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:
中心极限定理告诉我们, 很多独立随机变量均近似服从正态分布, 现实中很多复杂系统都可以被建模成正态分布的噪声, 即使该系统可以被结构化分解.正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.
正态分布的推广:
正态分布可以推广到RnR^nRn空间, 此时称为多位正态分布, 其参数是一个正定对称矩阵Σ\SigmaΣ: N(x;μ⃗,Σ)1(2π)ndet(Σ)exp(−12(x⃗−μ⃗)TΣ−1(x⃗−μ⃗))N(x;\vec\mu,\Sigma)\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right) N(x;μ,Σ)(2π)ndet(Σ)1exp(−21(x−μ)TΣ−1(x−μ)) 对多为正态分布概率密度高效求值: N(x;μ⃗,β⃗−1)det(β⃗)(2π)nexp(−12(x⃗−μ⃗)Tβ(x⃗−μ⃗))N(x;\vec{\mu},\vec\beta^{-1}) \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right) N(x;μ,β−1)det(β)(2π)nexp(−21(x−μ)Tβ(x−μ)) 此处β⃗\vec\betaβ是一个精度矩阵。
2.2.5 指数分布
深度学习中, 指数分布用来描述在x0x0x0点处取得边界点的分布, 指数分布定义如下: p(x;λ)λIx≥0exp(−λx)p(x;\lambda)\lambda I_{x\geq 0}exp(-\lambda{x}) p(x;λ)λIx≥0exp(−λx) 指数分布用指示函数Ix≥0I_{x\geq 0}Ix≥0来使xxx取负值时的概率为零。
2.2.6 Laplace 分布拉普拉斯分布
一个联系紧密的概率分布是 Laplace 分布Laplace distribution它允许我们在任意一点 μ\muμ处设置概率质量的峰值 Laplace(x;μ;γ)12γexp(−∣x−μ∣γ)Laplace(x;\mu;\gamma)\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right) Laplace(x;μ;γ)2γ1exp(−γ∣x−μ∣)
期望是 μ\muμ方差是 2γ22\gamma^22γ2
拉普拉斯分布比高斯分布更加尖锐和狭窄在正则化中通常会利用这个性质。
2.2.7 泊松分布
假设已知事件在单位时间或者单位面积内发生的平均次数为λ则泊松分布描述了事件在单位时间或者单位面积内发生的具体次数为 k 的概率。 概率密度函数 p(Xk;λ)e−λλkk!p(Xk;\lambda)\frac{e^{-\lambda}\lambda^k}{k!} p(Xk;λ)k!e−λλk 期望是 λ\lambdaλ方差是 λ\lambdaλ.
2.2.8 Dirac分布和经验分布
Dirac分布可保证概率分布中所有质量都集中在一个点上. Diract分布的狄拉克δ\deltaδ函数(也称为单位脉冲函数)定义如下: p(x)δ(x−μ),x≠μp(x)\delta(x-\mu), x\neq \mu p(x)δ(x−μ),xμ
∫abδ(x−μ)dx1,aμb\int_{a}^{b}\delta(x-\mu)dx 1, a \mu b ∫abδ(x−μ)dx1,aμb
Dirac 分布经常作为经验分布empirical distribution的一个组成部分出现 p^(x⃗)1m∑i1mδ(x⃗−x⃗(i))\hat{p}(\vec{x})\frac{1}{m}\sum_{i1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)}) p^(x)m1i1∑mδ(x−x(i)) 其中, m个点x1,...,xmx^{1},...,x^{m}x1,...,xm是给定的数据集, 经验分布将概率密度1m\frac{1}{m}m1赋给了这些点.
当我们在训练集上训练模型时, 可以认为从这个训练集上得到的经验分布指明了采样来源.
适用范围: 狄拉克δ函数适合对连续型随机变量的经验分布.
关于经验分布的另一个重要观点是它是训练数据的似然最大的那个概率密度函数。
2.2.9 混合分布
通过组合一些简单的概率分布来定义新的概率分布也是很常见的。
一种通用的组合方法就是构造混合分布。混合分布由一些组件分布构成。
一个混合分布的例子就是实值变量的经验分布对于每一个训练实例来说就是以 Dirac 分布为组件的混合分布。
混合模型是组合简单概率分布来生成更丰富的一种简单策略。一个非常强大且常见的混合模型就是高斯混合模型。
它的组件是高斯分布每个组件有自己的参数均值和协方差矩阵。
2.3 期望、方差、协方差、相关系数
2.3.1 期望
函数 f(x) 关于某个分布 P(x) 的期望或者期望值是指当 x 由 P 产生, f 作用于 x 的时候f(x) 的平均值。
在概率论和统计学中数学期望或均值亦简称期望是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。
线性运算 E(axbyc)aE(x)bE(y)cE(axbyc) aE(x)bE(y)cE(axbyc)aE(x)bE(y)c推广形式 E(∑k1naixic)∑k1naiE(xi)cE(\sum_{k1}^{n}{a_ix_ic}) \sum_{k1}^{n}{a_iE(x_i)c}E(∑k1naixic)∑k1naiE(xi)c函数期望设f(x)f(x)f(x)为xxx的函数则f(x)f(x)f(x)的期望为 离散函数 E(f(x))∑k1nf(xk)P(xk)E(f(x))\sum_{k1}^{n}{f(x_k)P(x_k)}E(f(x))∑k1nf(xk)P(xk)连续函数 E(f(x))∫−∞∞f(x)p(x)dxE(f(x))\int_{-\infty}^{\infty}{f(x)p(x)dx}E(f(x))∫−∞∞f(x)p(x)dx 注意 函数的期望大于等于期望的函数Jensen詹森不等式即E(f(x))⩾f(E(x))E(f(x))\geqslant f(E(x))E(f(x))⩾f(E(x))一般情况下乘积的期望不等于期望的乘积。如果XXX和YYY相互独立则E(xy)E(x)E(y)E(xy)E(x)E(y)E(xy)E(x)E(y)。 2.3.2 方差
概率论中方差用来度量随机变量和其数学期望即均值之间的偏离程度。方差是一种特殊的期望。定义为
Var(x)E((x−E(x))2)Var(x) E((x-E(x))^2) Var(x)E((x−E(x))2) 方差性质 1Var(x)E(x2)−E(x)2Var(x) E(x^2) -E(x)^2Var(x)E(x2)−E(x)2 2常数的方差为0; 3方差不满足线性性质; 4如果XXX和YYY相互独立, Var(axby)a2Var(x)b2Var(y)Var(axby)a^2Var(x)b^2Var(y)Var(axby)a2Var(x)b2Var(y) 2.3.3 协方差
协方差是衡量两个变量线性相关性强度及变量尺度。 两个随机变量的协方差定义为 Cov(x,y)E((x−E(x))(y−E(y)))Cov(x,y)E((x-E(x))(y-E(y))) Cov(x,y)E((x−E(x))(y−E(y)))
方差是一种特殊的协方差。当XYXYXY时Cov(x,y)Var(x)Var(y)Cov(x,y)Var(x)Var(y)Cov(x,y)Var(x)Var(y)。 协方差性质 1独立变量的协方差为0。 2协方差计算公式 Cov(∑i1maixi,∑j1mbjyj)∑i1m∑j1maibjCov(xiyi)Cov(\sum_{i1}^{m}{a_ix_i}, \sum_{j1}^{m}{b_jy_j}) \sum_{i1}^{m} \sum_{j1}^{m}{a_ib_jCov(x_iy_i)} Cov(i1∑maixi,j1∑mbjyj)i1∑mj1∑maibjCov(xiyi) 3特殊情况 Cov(abx,cdy)bdCov(x,y)Cov(abx, cdy) bdCov(x, y) Cov(abx,cdy)bdCov(x,y)
2.3.4 相关系数
相关系数是研究变量之间线性相关程度的量。两个随机变量的相关系数定义为 Corr(x,y)Cov(x,y)Var(x)Var(y)Corr(x,y) \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}} Corr(x,y)Var(x)Var(y)Cov(x,y) 相关系数的性质 1有界性。相关系数的取值范围是 [-1,1]可以看成无量纲的协方差。 2值越接近1说明两个变量正相关性线性越强。越接近-1说明负相关性越强当为0时表示两个变量没有相关性。 2.4 信息论
信息论主要研究的是对一个信号包含新的多少进行量化。
信息论的一个基本想法是一个不太可能发生的事件居然发生了比一个非常可能发生的事件发生能提供更多的信息。
如果想通过这种基本想法来量化信息需要满足这个 3 个性质
非常可能发生的事件信息论要比较少并且极端情况下确保能够发生的事件应该没有信息量较不可能发生的事件具有更高的信息量独立事件应具有增量的信息。例如投掷的硬币两次正面朝上传递的信息应该是投掷一次硬币证明朝上的信息量的两倍。
这里定义一个事件 xxxx 的自信息为 I(x)−logP(x)I(x) -log P(x) I(x)−logP(x) 自信息量只能处理单个的输出。可以用香农熵来对整个概率分布中的不确定性总量进行量化 H(x)−Ex∼P[I(x)]−Ex∼P[logP(x)]H(x) -E_{x\sim P}[I(x)] -E_{x\sim P}[logP(x)] H(x)−Ex∼P[I(x)]−Ex∼P[logP(x)] 也记作 H§。这里的 E 表示的就是期望也就是说一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。
而如果对于一个随机变量有两个单独的概率分布 P(x) 和 Q(x)那么可以使用KL 散度来衡量这两个分布的差异 DKL(P∣∣Q)Ex∼P[logP(x)logQ(x)]Ex∼P[logP(x)−logQ(x)]D_{KL}(P||Q) E_{x\sim P}[\frac{logP(x)}{logQ(x)}] E_{x\sim P}[logP(x)-logQ(x)] DKL(P∣∣Q)Ex∼P[logQ(x)logP(x)]Ex∼P[logP(x)−logQ(x)] 举例对于一个二值随机分布的香农熵H(x)−(1−p)log(1−p)−plogpH(x) - (1-p)log(1-p)-plogpH(x)−(1−p)log(1−p)−plogp
KL散度的性质有
非负的KL 散度为 0 的情况当且仅当 P 和 Q 在离散型变量的情况下是相同的分布或者在连续型变量的情况下是“几乎处处”相同的常用作衡量分布之间的某种距离但并不是真正的距离因为它不是对称的。
一个和 KL 散度很相似的是交叉熵即 H(P,Q)H(P)DKL(P∣∣Q)H(P,Q)H(P)D_{KL}(P||Q)H(P,Q)H(P)DKL(P∣∣Q) H(P,Q)−Ex∼PlogQ(x)H(P,Q)-E_{x\sim P}logQ(x) H(P,Q)−Ex∼PlogQ(x) 针对 Q 最小化交叉熵等价于最小化 KL 散度因为 Q 并不参与被省略的那一项。
在计算这些量的时候经常会遇到 0log0 这个表达式一般对这个的处理是 limx−0xlogx0lim_{x-0}xlogx 0limx−0xlogx0