互动网站建设多少钱,传统营销与网络营销的整合方法,公司网站的意义,网站开发的流程首先#xff0c;明确 RNN 的主要任务是用于文本分类#xff0c;而解决文本分类任务最经典的模型是词袋模型#xff08;Bag-of-Words Model#xff09;#xff0c;如图所示#xff0c;输入是三个句子#xff0c;词袋模型首先要定义一个词汇表 vocabulary#xff0c;里面…
首先明确 RNN 的主要任务是用于文本分类而解决文本分类任务最经典的模型是词袋模型Bag-of-Words Model如图所示输入是三个句子词袋模型首先要定义一个词汇表 vocabulary里面记录了单词与数字的对应关系共 9 个单词所以特征矩阵就有 9 列然后特征矩阵的每一行对应一个输入样本统计这 9 个单词在句子中的出现次数词频填入对应单词的位置即可最后将特征矩阵与标签 y 训练分类器。主要缺点就是忽略了单词之间的顺序关系只保留了出现次数。 用一维卷积神经网络也可以处理文本数据。类比于处理图像的二维卷积神经网络是用一个固定大小的卷积核在图像上滑动进行加权求和一维的情况就是用一个固定长度图中长度为 3的卷积核在文本上滑动只需要将字母对应到某个数字如 26 个字母对应 0 到 25然后加权求和即可。 然而单词之间的顺序关系会直接影响句子的意思所以必须考虑顺序关系。 循环神经网络可以表示为图片左边的一般形式或者将其展开为右边的形式。实际上就是每个隐藏层单元都要同时接收时刻 t 的输入 x以及时刻 t - 1 的隐藏层单元输出 h 显然我们可以构造多层的循环神经网络就是让时刻 t 的输入 x 经过多个隐藏层单元才会输出 y 序列模型根据输入和输出的关系可以分为三种多对一、一对多和多对多。多对一的例子是情感分析或者文本分类输入是多个单词而输出是一个标签一对多的例子是图像描述输入是一张图像而输出是一段话多个单词多对多可以分为直接的和延迟的例如视频描述就是多张图像直接地对应多个描述语言翻译则是一段话延迟地对应一段话因为直接翻译语言之间的单词往往是不准确的。 与前馈神经网络相比RNN 也就是多了在不同时刻的隐藏层单元之间的权重矩阵计算加权和的方法还是一样的得到加权和就能通过激活函数得到激活值最终也可以得到输出。 用损失函数衡量预测输出与实际输出的差距然后求损失函数关于权重的偏导数链式法则即可用梯度下降法更新权重参数。 但是用链式法则计算时刻 t 的激活值相对于时刻 k 的激活值的偏导数时会出现多个时刻之间偏导数的乘积由此可能导致梯度消失或者梯度爆炸的问题。 解决方法有1、梯度裁剪就是限制梯度不要大于某个值但只能解决梯度爆炸的问题2、限制反向传播的时刻长度也就是求时刻 t 激活值相对于时刻 k 激活值的偏导数时不要令 k 等于 0 到 t 求和而是限制 k 等于例如 t - 20 到 t 求和等等这样就不会让太多梯度值相乘了3、LSTM 或 GRU有一篇十分详细的博客推荐大家看看。 个人对 LSTM 的理解就是三个门遗忘门、输入门和输出门都是当前时刻 t 的输入 x 与上一时刻 t - 1 的隐状态变量 h 相乘后再经过 Sigmoid 函数的结果取值为 0 到 1。于是这个结果可被视作系数在遗忘门中会与细胞状态 c 长期记忆相乘在输入门中与当前时刻的 tanh 激活值短期记忆相乘在输出门中与长短期记忆之和的 tanh 相乘。 以一个文本分类任务多对一为例步骤有四个1、构建词汇表一个单词对应一个数字2、将句子根据词汇表转换为向量3、将每个单词转换为 One-hot 向量一个句子就变成一个矩阵4、将每个单词向量与 Embedding Matrix 相乘得到一个嵌入向量嵌入向量的维度超参数这个向量相当于是该单词的特征向量。 但是用 One-hot 对单词编码再做矩阵乘法会出现很多计算浪费乘以 0所以实际上都是为词汇表找到一个 Embedding Matrix然后单词对应到数字再对应到矩阵中的某个向量即可。