黑河城乡建设局网站,二次开发英语,营销方案 网站,wordpress银行模板条件随机场面试题
1. 简单介绍条件随机场 条件随机场#xff08;conditional random field#xff0c;简称 CRF#xff09;是给定一组输入随机变量条 件下另一组输出随机变量的条件概率分布模型#xff0c;其特点是假设输出随机变量构成马尔可夫随机场#xff0c;是一种鉴…条件随机场面试题
1. 简单介绍条件随机场 条件随机场conditional random field简称 CRF是给定一组输入随机变量条 件下另一组输出随机变量的条件概率分布模型其特点是假设输出随机变量构成马尔可夫随机场是一种鉴别式机率模型是随机场的一种常用于标注或分析序列资料如自然语言文字或是生物序列。 如同马尔可夫随机场条件随机场为无向图模型图中的顶点代表随机变量顶点间的连线代表随机变量间的相依关系在条件随机场当中随机变量 Y 的分布为条件机率给定的观察值则为随机变量 X。 原则上条件随机场的图模型布局是可以任意给定的一般常用的布局是链接式的架构链接式架构不论在训练training、推论inference、或是解码decoding上都存在有效率的算法可供演算。 条件随机场跟隐马尔可夫模型常被一起提及条件随机场对于输入和输出的机率分布没有如隐马尔可夫模型那般强烈的假设存在 [补充因为HMM模型假设后面状态和前面无关]。
##2. 条件随机场预测的维特比算法求解过程
输入模型特征向量F(y,x)和权值向量w观测序列 x ( x 1 , x 2 , … , x n ) x(x_1,x_2,…,x_n) x(x1,x2,…,xn); 输出最优路径$y*(y_1,y_2*,…,y_n) $
初始化 δ 1 ( j ) w ⋅ F 1 ( y 0 start , y 1 j , x ) , j 1 , 2 , ⋯ , m \delta_{1}(j)w \cdot F_{1}\left(y_{0}\operatorname{start}, y_{1}j, x\right), \quad j1,2, \cdots, m δ1(j)w⋅F1(y0start,y1j,x),j1,2,⋯,m 递推 δ i ( l ) max 1 j m { δ i − 1 ( j ) w ⋅ F i ( y i − 1 j , y i l , x ) } , l 1 , 2 , ⋯ , m \delta_{i}(l)\max _{1jm}\left\{\delta_{i-1}(j)w \cdot F_{i}\left(y_{i-1}j, y_{i}l, x\right)\right\}, \quad l1,2, \cdots, m δi(l)1jmmax{δi−1(j)w⋅Fi(yi−1j,yil,x)},l1,2,⋯,m Ψ i ( l ) arg max 1 ⩽ j ⩽ m { δ t − 1 ( j ) w ⋅ F i ( y i − 1 j , y i l , x ) } , l 1 , 2 , ⋯ , m \Psi_{i}(l)\arg \max _{1 \leqslant j \leqslant m}\left\{\delta_{t-1}(j)w \cdot F_{i}\left(y_{i-1}j, y_{i}l, x\right)\right\}, \quad l1,2, \cdots, m Ψi(l)arg1⩽j⩽mmax{δt−1(j)w⋅Fi(yi−1j,yil,x)},l1,2,⋯,m
终止 max y ( w ⋅ F ( y , x ) ) max 1 j m δ n ( j ) \max _{y}(w \cdot F(y, x))\max _{1jm} \delta_{n}(j) ymax(w⋅F(y,x))1jmmaxδn(j) y n ∗ arg max 1 ⩽ j ⩽ m δ n ( j ) y_{n}^{*}\arg \max _{1 \leqslant j \leqslant m} \delta_{n}(j) yn∗arg1⩽j⩽mmaxδn(j)
返回路径: y i ∗ Ψ i 1 ( y i 1 ∗ ) , i n − 1 , n − 2 , ⋯ , 1 y_{i}^{*}\Psi_{i1}\left(y_{i1}^{*}\right), \quad in-1, n-2, \cdots, 1 yi∗Ψi1(yi1∗),in−1,n−2,⋯,1
##3. 链式条件随机场[chain-structured CRF]条件概率公式 P ( y ∣ x ) 1 Z exp ( ∑ j ∑ i 1 n − 1 λ j t j ( y i 1 , y i , x , i ) ∑ k ∑ i 1 n μ k s k ( y i , x , i ) ) P(\mathbf{y} \mid \mathbf{x})\frac{1}{Z} \exp \left(\sum_{j} \sum_{i1}^{n-1} \lambda_{j} t_{j}\left(y_{i1}, y_{i}, \mathbf{x}, i\right)\sum_{k} \sum_{i1}^{n} \mu_{k} s_{k}\left(y_{i}, \mathbf{x}, i\right)\right) P(y∣x)Z1exp(j∑i1∑n−1λjtj(yi1,yi,x,i)k∑i1∑nμksk(yi,x,i))
4. HMM、MEMM和CRF模型的比较
HMM模型是对转移概率隐藏状态转移到隐藏状态的概率和表现概率隐藏状态到观察状态的概率直接建模统计共现概率MEMM模型是对转移概率和表现概率建立联合概率统计时统计的是条件概率而非共现概率。MEMM容易陷入局部最优主要因为是MEMM只在局部做归一化CRF模型则统计的是全局概率在归一化时考虑了数据在全局的分布而不仅仅是局部归一化这样也就解决了MEMM中的标记偏置问题
5. 注意要点 概率图模型的表示 概率图模型结合了概率论和图论的知识用图模式(节点和边)表达基于概率相关关系的模型的总称。图模型的引入使得人们在处理复杂概率问题时可以将复杂问题进行适当的分解表示理论将图模型分为如下两个类别贝叶斯网络[Bayesian Netword]和马尔科夫随机场[Markov Random Field]前者采用有向无环图来表达事件的因果关系后者采用无向图来表达变量间的相互作用 贝叶斯网络和马尔科夫随机场的分解计算问题 贝叶斯网络中每个节点都对应一个先验概率分布或者条件概率分布因此整体联合概率分布可以直接分解为所有单个节点分布的乘积对于马尔科夫随机场由于变量间没有明确的因果关系它的联合概率分布通常会表达为一系列势函数[Potential Function]的乘积因为乘积之和通常不为1所以要进行归一化才能成为一个有效的概率分布。 对于概率图模型模型学习的精度通常受三方面影响 语料库样本集对总体的代表性模型算法理论基础及所针对的问题。不同模型的理论不同所擅长处理的NLP任务也不同比如朴素贝叶斯模型处理短文本分类效果很好最大熵模型在处理中文词性标注表现很好条件随机场处理中文分词语义组块等方便精度很好Semi-CRF在处理命名实体识别精度很好。模型算法的复杂度。属于工程问题一般讲要求模型参数估计的越精确模型复杂度越高学习时间越长推断和预测的精度也越高。 Bi-LSTM-CRF算法解析 Bi-LSTM-CRF模型的输入是每个单词的词向量经过双向LSTM层提取特征并输出为5个label的得分再将该得分输入进CRF层得到这句话最终最大可能的识别标签。因为BiLSTM层得到的label并不总是满足实际情况CRF层能够添加一些约束使得预测标签是有效的。这些约束便是从训练数据的过程中学习得到的。常见的概率图模型中哪些是生成模型和哪些是判别模型 生成式 模型是对联合概率分布 P ( X , Y , Z ) P(X,Y,Z) P(X,Y,Z)进行建模在给定观测集合X的条件下通过计算 边缘分布来得到对变量集合Y的推断即 P ( Y ∣ X ) P ( X , Y ) P ( X ) ∑ Z P ( X , Y , Z ) ∑ Y . Z P ( X , Y , Z ) P(Y \mid X)\frac{P(X, Y)}{P(X)}\frac{\sum_{Z} P(X, Y, Z)}{\sum_{Y . Z} P(X, Y, Z)} P(Y∣X)P(X)P(X,Y)∑Y.ZP(X,Y,Z)∑ZP(X,Y,Z)
- 判别式模型是直接对条件概率分布$P(Y,Z|X)$进行建模然后消掉无关变量Z就可以 得到对变量集合Y的预测即:P ( Y ∣ X ) ∑ Z P ( Y , Z ∣ X ) P(Y \mid X)\sum_{Z} P(Y, Z \mid X) P(Y∣X)Z∑P(Y,Z∣X)
常见的概率图模型有朴素贝叶斯、最大熵模型、贝叶斯网络、隐马尔可夫模 型、条件随机场、pLSA、LDA等。基于前面的问题解答我们知道朴素贝叶斯、贝叶斯网络、pLSA、LDA等模型都是先对联合概率分布进行建模然后再通过计算边缘分布得到对变量的预测所以它们都属于生成式模型
而最大熵模型是直 接对条件概率分布进行建模因此属于判别式模型。隐马尔可夫模型和条件随机场模型是对序列数据进行建模的方法其中隐马尔 可夫模型属于生成式模型条件随机场属于判别式模型。