关于企业网站建设,网站下拉单设计欣赏,曲靖手机网站建设,个人网站名称请概率图模型 概率图模型#xff08;Probabilistic Graphical Model#xff09;是用图结构来表示多元随机变量之间条件依赖关系的模型。在图模型中#xff0c;节点表示随机变量#xff0c;边表示变量之间的依赖关系。概率图模型可以分为有向图模型#xff08;如贝叶斯网络Probabilistic Graphical Model是用图结构来表示多元随机变量之间条件依赖关系的模型。在图模型中节点表示随机变量边表示变量之间的依赖关系。概率图模型可以分为有向图模型如贝叶斯网络和无向图模型如马尔可夫网络或马尔可夫随机场。
1.隐马尔可夫模型
1马尔科夫模型 马尔科夫模型是一种统计模型它描述了状态之间的转换关系。以天气为例如果昨天是晴天那么根据马尔科夫模型我们可以根据一定的概率推断出今天可能是晴天、阴天或雨天。如下图 通过今天的状态我们可以预测明天的情况同理借助明天的状态我们也能推知后天的情况。这种连续的状态转换就如同一个链条一环扣一环。为了实现这一系列的预测我们首先需要定义一个初始状态它将成为我们预测的起点。 在一阶马尔科夫模型中虽然后面的天气跟前面很多天的天气都有关但是为了简化问题我们定义后一天的状态只和前一天的状态有关系。在上面这个例子中
状态晴天多云雷雨
状态转换概率三种天气状态间的转换概率
初始概率 根据以上条件可以计算今天(t1)的天气状况 今天为晴天的概率初始晴天概率X晴天转晴天概率初始多云概率X多云转晴天概率初始雷雨概率X雷雨转晴天概率。 2隐马尔可夫模型 隐马尔可夫模型HMM的核心思想是对一个被假设为具有不可观测隐藏状态的马尔可夫过程系统进行建模。HMM允许你基于一系列观察事件预测一系列隐藏状态。 现在假设我们无法直接观察到天气状况我们只能观察到海藻的状况海藻状态和天气有着密切的关联。海藻是能看到的那它就是观察状态天气信息看不到就是隐藏状态。我们的目标是通过观察状态预测隐藏状态。 首先引入隐马尔科夫模型假设它的目的是简化条件概率的求解
齐次马尔可夫假设当前的状态只和前一状态有关 观测独立假设某个观测只和生成它的状态有关 隐马尔可夫模型关注的3个问题 给定初始概率(π)隐藏状态转移概率矩阵(A)生成观测状态概率矩阵(B)。
模型为 即模型与观测序列之间的匹配程度。 即训练模型得到参数以更好的描述观测序列。 即根据观测序列推断模型的隐状态。
3暴力求解方式 我们要求的是在给定模型下观测序列出现的概率那如果我能把所有的隐藏序列都给列出来也就可以知道联合概率分布 其中隐藏状态和观测状态的联合概率分布为隐藏序列的条件概率乘以生成观测状态概率矩阵 在给定模型下一个隐藏序列出现的概率那就由初始状态求得T时刻的状态等于T-1时刻的状态乘以状态转移矩阵依此类推。因此隐藏状态的条件概率可求为 因此对于固定的隐藏序列得到观察序列 的概率为观测状态由隐藏状态决定它们之间假设是独立的 联合概率 观测序列概率上面得到的是一个隐藏序列的联合概率而我们需要得到所有的隐藏序列的联合概率然后求和 复杂度如果隐藏状态数有N个时间复杂度为 解释当有N个隐藏状态的时候T时刻的隐藏序列将有N^T个每个隐藏序列的计算的时间复杂度为2T。
4 前向算法
利用动态规划求解即以空间换取时间避免重复的计算 给定t时刻的隐藏状态为i观测序列为o1,o2...ot的概率叫做前向概率这是很容易求的 如果我们求出所有可能状态不就能够求解了吗 第一个时刻 表示第一时刻的隐藏状态为i观测序列为y1 现在到了第t时刻状态为j那t1时刻状态为i表示为 现在到了第t时刻状态为j那t1时刻状态为i表示为 其中t时状态为j的前向概率为转移到t1时刻状态为i的概率为 但是这里要考虑t时刻所有的可能还要得到t1的观测 最终结果依然是需要对各种隐藏状态下的观测状态的条件概率求和。
在前项算法中t时刻的隐藏状态有N种t1时刻的条件概率为N种前向算法的时间从t1~T进行遍历因此时间复杂度为OTN^2
5后向算法 与前向算法类似与前向算法相似但它从后向前递归地计算后向变量。也就是递归求解。
6参数估计 当模型的初始概率(π)隐藏状态转移概率矩阵(A)生成观测状态概率矩阵(B)未知时此时涉及到参数估计问题使用EM算法求解。
初始化选定模型参数的初始值。通常这些初始值可以是随机的或者基于某种启发式选择的。HMM的参数通常包括初始状态概率π状态转移概率A和观测概率B。E步期望步在这一步中我们使用当前的模型参数来计算隐变量的期望。对于HMM这涉及到计算给定观测序列和当前模型参数下每个时刻t处于状态qi以及从状态qi转移到qj的期望值。这些期望值是通过前向-后向算法Forward-Backward Algorithm来计算的。M步最大化步在这一步中我们使用E步计算出的隐变量的期望值来更新模型参数。对于HMM这意味着我们要更新初始状态概率π状态转移概率A和观测概率B。更新这些参数的方法是基于这些参数的最大似然估计利用在E步中计算出的期望值。迭代重复E步和M步直到模型参数收敛或者达到预设的迭代次数。每次迭代我们都会使用更新后的模型参数来重新计算隐变量的期望值然后再用这些新的期望值来更新模型参数。
2.马尔可夫随机场 马尔可夫随机场是一种无向图模型用于描述一组随机变量之间的空间依赖关系。在MRF中随机变量对应于图中的节点而变量之间的依赖关系则通过边来表示。MRF的关键特性是它具有马尔可夫性即每个随机变量的条件概率分布仅依赖于它的邻接变量。 在马尔可夫随机场中联合概率使用极大团的势函数的乘积表示。 3.条件随机场CRF 条件随机场是一种判别式概率模型它属于无向图模型的一种。在CRF中我们给定一组输入随机变量观测序列目标是预测另一组输出随机变量标记序列的条件概率分布。CRF假设输出随机变量构成马尔可夫随机场。 CRF的概率图表示 在CRF的概率图表示中通常有两种类型的节点观测节点和标记节点。观测节点对应输入序列中的每个元素而标记节点对应输出序列中的每个标记。边则连接相邻的标记节点表示它们之间的依赖关系。 CRF中的条件概率分布可以通过定义在团clique上的势函数potential function来描述。团是无向图中的完全连接子图。在CRF中我们通常关注两种类型的团节点团和边团。节点团包含单个标记节点而边团包含相邻的标记节点对。 势函数定义了团中变量的兼容性或相关性。对于节点团势函数通常与观测节点和对应的标记节点有关它衡量了给定观测下某个标记的可能性。对于边团势函数衡量了相邻标记之间的兼容性或转移概率。
CRF的计算与推断 CRF的条件概率分布可以通过将所有团的势函数相乘并归一化来计算。然而由于归一化常数的计算涉及到对所有可能的标记序列进行求和这通常是一个难以处理的问题。因此在实际应用中我们通常使用近似推断方法如动态规划如维特比算法或采样方法如吉布斯采样来找到最可能的标记序列或计算条件概率。
4.学习与推断 推断Inference则是基于概率图模型所定义的联合概率分布对目标变量的边际分布或以某些可观测变量为条件的条件分布进行推断。具体来说推断问题可以分为两类精确推断和近似推断。
精确推断希望能计算出目标变量的边际分布或条件分布的精确值。然而一般情形下此类算法的计算复杂度随着极大团规模的增长呈指数增长因此适用范围有限。变量消去法是最直观的精确推断算法也是构建其他精确推断算法的基础。但它有一个明显的缺陷若需计算多个边际分布重复使用变量消去法将造成大量的冗余计算。近似推断希望在较低时间复杂度下获得原问题的近似解。此类方法在现实任务中更常用。近似推断方法大致可以分为两类确定性近似如变分推断和随机近似如马尔可夫链蒙特卡罗方法简称MCMC。这些方法的目标都是在可接受的计算成本下尽可能地接近真实分布。
精确推断
1变量消去 核心思想: 变量消除VE是一种在概率图模型中进行推理的算法它通过系统地从方程中消除变量简化了边缘概率的概率的计算。 在VE中目标是计算某些变量的边缘概率而不必对模型中其他变量的所有可能配置进行求和。这是通过一次消除一个不相关的变量来完成的利用模型的因子分解属性来降低计算复杂性。过程涉及以一种不再需要被消除变量的方式操纵和结合因子概率分布逐步简化模型直到只剩下感兴趣的变量。 想象你在图书馆中寻找一本特定的书。你不需要检查每一本书而是首先排除你知道不包含它的部分例如如果你正在寻找一本科幻小说你就跳过历史部分。然后在正确的部分内你逐个排除书架等等直到找到这本书。变量消除也是类似地通过在每一步丢弃不相关的信息来简化查找你感兴趣的概率的过程。
2信念传播
核心思想: 信念传播BP是一种在图形模型中使用的推理算法包括贝叶斯网络和马尔可夫随机场用于计算边缘分布和每个变量的信念。它通过在图的节点变量和因子之间传递消息来操作根据从其邻居收到的消息迭代更新每个节点的信念。 这个过程从叶子只有一个邻居的节点开始发送它们的初始消息。然后每个节点计算一个要发送给每个邻居的消息通过对发送节点的所有可能值进行整合考虑来自其他邻居的传入消息和节点自己的证据如果有的话。这个程序重复进行消息来回传递直到收敛在这一点上边缘概率可以计算为每个节点传入消息的乘积。 想象一群人试图一起解决一个谜题但每个人只掌握了总信息的一部分。他们开始与他们的直接邻居分享他们所知道的。基于他们学到的他们然后更新他们对谜题的理解并再次分享这个更新的信息。这个过程重复进行直到每个人对整个谜题都有一个一致的理解。信念传播的工作方式类似每个节点根据来自其邻居的信息更新其对世界状态的“信念”。
近似推断
1 MCMC抽样 核心思想: MCMC抽样是一系列算法的统称用于从概率分布中抽样这通过构建一个具有所需分布作为其平衡分布的马尔可夫链来实现。它特别适用于直接抽样不切实际的高维空间。 MCMC方法通过从一个随机位置开始并进行一系列步骤来生成样本其中每一步只依赖于当前位置马尔可夫性质。这些步骤的方式确保了随着时间的推移样本位置的分布将近似目标概率分布。两种众所周知的MCMC方法是Metropolis-Hastings算法和Gibbs抽样。 Metropolis-Hastings算法这种方法基于当前位置和一个提议分布提出一个新位置。新位置是基于接受比率接受或拒绝的接受比率通过比较目标分布下新位置和当前位置的概率来确定。 Gibbs抽样这是Metropolis-Hastings算法的一个特例用于当从每个变量的条件分布中抽样更容易时。它循环遍历每个变量从其条件分布中抽样同时保持所有其他变量固定。 想象你在一个巨大的派对上你想弄清楚哪里是最受欢迎的区域但人太多了一次看不到整个场景。所以你随机穿过人群根据你认为可能接下来会有趣的地方进行步骤这是你的提议分布。你使用一些规则来决定是否移动接受比率比如如果区域看起来更拥挤概率更高。随着时间的推移你花费最多时间的区域会让你知道派对的热点在哪里。
2变分推断 核心思想: 变分推断VI是贝叶斯统计中用于近似复杂概率分布的技术。它将推理问题转化为一个优化问题目标是找到一个最接近真实后验分布的简化分布。 在VI中我们选择一个带有一组参数的分布家族例如高斯分布。然后我们调整这些参数使我们选择的分布尽可能接近目标后验分布通过库尔巴克-莱布勒KL散度来衡量。优化过程旨在最小化这种散度有效地在选定的分布家族内找到最佳近似。 VI的美妙之处在于它可以比精确推理方法如MCMC更有效地处理大型数据集和复杂模型尽管它提供的是近似而非精确解。 想象你试图用很多细节勾勒一个非常复杂的风景里面有山脉、河流和森林。变分推断就像选择绘制这个风景的简化卡通或抽象版本。你决定代表某些关键特征分布家族然后调整你的绘画参数以最好地捕捉风景的本质目标分布。虽然你的画不会捕捉到每一个细节但这是一种传达总体场景的更快方式。
5.LDA主题模型 LDA是一种用于发现文档集合中隐藏主题结构的统计模型。你可以将LDA想象成一个能够自动对文档进行主题分类的机器。这些主题是隐藏的即它们并没有直接给出而是由模型通过分析文档中的单词来推断出来的。 LDA话题模型的核心思想可以概括为利用文档中的词项共现信息来发现隐藏的主题结构。它假设每个文档是由多个主题混合而成的而每个主题则是一组相关的单词的集合。LDA通过分析文档中的单词出现情况来推断文档的主题分布以及每个主题下单词的分布。 在LDA模型中有两个关键的狄利克雷分布一个是文档-主题分布表示每篇文档在各个主题上的权重另一个是主题-单词分布表示每个主题下各个单词的出现概率。LDA通过训练和学习这两个分布来揭示文档集合中的主题结构。
LDA的工作过程可以大致分为两个步骤
训练阶段在这个阶段LDA模型会分析整个文档集合并尝试找出隐藏的主题。它会根据文档中的单词出现情况来推断每个文档的主题分布以及每个主题下单词的分布。这个过程是通过贝叶斯推断和狄利克雷分布一种多项分布的先验分布来实现的。推断阶段一旦模型训练完成它就可以用来对新的文档进行主题推断。给定一个新的文档LDA模型会根据已经学到的主题和单词分布来预测该文档的主题构成。这可以帮助我们理解文档的主题内容或者对文档进行主题分类。
需要注意的是LDA模型并不直接告诉我们文档的确切主题而是给出了文档属于各个主题的概率分布。这意味着一个文档可以同时包含多个主题只是每个主题所占的比例不同而已。