物流管理网站建设,聚名网怎么样,网站xml,陕西城乡建设网站神经网络语言模型
使用神经网络的方法#xff0c;去完成语言模型的两个问题#xff0c;下图为两层感知机的神经网络语言模型#xff1a; 假设词典V内有五个词#xff1a;“判断”、“这个”、“词”、“的”、“词性”#xff0c;且要输出P(w_next | “判断”、“这个”、…神经网络语言模型
使用神经网络的方法去完成语言模型的两个问题下图为两层感知机的神经网络语言模型 假设词典V内有五个词“判断”、“这个”、“词”、“的”、“词性”且要输出P(w_next | “判断”、“这个”、“词”、“的”)的概率即要解决哪一个词放在这句话后面的概率最大的问题。输入为W1、W2、W3、W4前四个单词的独热编码分别乘随机矩阵再将结果拼接起来得到C如下 再经过两层隐藏层最后通过一个softmax函数得到输出结果为词库中所有词分别填在这个位置的概率。得出最大概率的就是最后一个词“词性”如下
词向量
用一个向量表示一个单词独热编码也属于词向量但是独热编码有两个缺点尺寸大不好计算相似度。但是词向量通过随机矩阵Q可以解决这两个缺点。获得词向量的过程如下 假设c1的计算过程如下 由于之前我们拿独热编码来表示单词但是我们将独热编码乘Q随机矩阵得到的一个向量也可以表示这个单词且由于我们的Q矩阵是一个参数可以学习即随着模型训练的越来越好通过Q得到的向量也就越能准确的代表这个单词。同时我们可以通过矩阵Q来控制输出向量的大小如上图c1就是“判断”这个词的词向量同时由于两个词的独热编码之间不好计算相似度有很多0如采用余弦相似度结果也为0。但是我们转换成词向量后结果不再是0那么就可以一定程度上描述两个词之间的相似度例如下图
以下为预备知识
单层感知机
单层感知机是一个线性模型可以用下图来表示输入经过全连接层可以有一层或多层但是多层线性函数最后可以看作是一层线性函数得到输出即YWxb 线性层 / 全连接层 / 稠密层最好叫他为全连接层因为有时层内会包含非线性函数假设输入有n个输出有m个则w、b、y的个数如下
多层感知机
多层感知机使用了隐藏层和激活函数是非线性模型 隐藏层是对于输出层来说的只有最后一层全连接层对于输出层是可见的且最后一层的全连接层一般不带激活函数所以其他全连接层叫隐藏层激活函数是放在隐藏层中用来拟合非线性的常用的激活函数是SigmoidTanhReLU下图为有一层隐藏层的多层感知机
独热编码
目的是让计算机认识单词用矩阵的形式存储所有单词。且在矩阵中每一个元素都代表一个单词这就要求矩阵的行列等于单词数如下图 独热编码有两个缺点 矩阵的尺寸很容易过大因为他需要行列等于单词数相似单词之间的独热编码没有任何关联通常使用余弦相似度来计算文本之间的相似度但是现实世界中相似单词之间是有关联的
参考文献
05 神经网络语言模型独热编码词向量的起源