当前位置：首页 > news >正文

织梦网站怎样做锚文本行业类门户网站建设方案

news 2025/11/14 23:51:29

织梦网站怎样做锚文本,行业类门户网站建设方案,做那个免费视频网站,wordpress 自动tag前情提要#xff1a;文本大量参照了以下的博客#xff0c;本文创作的初衷是为了分享博主自己的学习和理解。对于刚开始接触NLP的同学来说#xff0c;可以结合唐宇迪老师的B站视频【【NLP精华版教程】强推#xff01;不愧是的最完整的NLP教程和学习路线图从原理构成开始学文本大量参照了以下的博客本文创作的初衷是为了分享博主自己的学习和理解。对于刚开始接触NLP的同学来说可以结合唐宇迪老师的B站视频【【NLP精华版教程】强推不愧是的最完整的NLP教程和学习路线图从原理构成开始学学完可实战-哔哩哔哩】 https://b23.tv/WwVQnKr和【【唐博士带你学AI】NLP最著名的语言模型-BERT 10小时精讲原理源码论文计算机博士带你打通NLP-哔哩哔哩】 https://b23.tv/0ZtLcoj这两个视频使用Transformer通俗笔记从Word2Vec、Seq2Seq逐步理解到GPT、BERT-CSDN博客本文的大纲是目录第一部分单词向量化 1.1 word embedding 1.1.1 理解什么是one-hot representation 1.1.2 理解什么是distribution representation 1.1.2.1我们现在提出一个比one-hot更高级的文本向量化要求我们来比较一下词袋模型bag of wordsmodel和词嵌⼊模型word embedding model的区别 1.1.2.2 如何用distribution representation把单词变成一个跟单词上下文有关有语义的向量呢第二部分从Seq2Seq序列引入Encoder-Decoder模型RNN/LSTM与GRU 2.1 什么是Seq2Seq序列问题输入一个序列输出一个序列 2.2 介绍Encoder-Decoder模型RNN/LSTM与GRU 2.3 开始介绍注意力机制Attention 第三部分 transformer 3.1自注意力部分 3.1.1 先来认识一下三个向量 3.1.2 attention整体流程第三、四步分数除以8然后softmax 3.2 多头注意力机制“multi-headed” attention 3.2.1 定义 3.2.2过程介绍第一部分单词向量化 1.1 word embedding 单词向量化是本节任务的一个基础因为我们不可能直接把人类的单词文本直接输入到模型中去吧我们要转换成计算机能够看懂的语言形式。所以单词向量化顾名思义就是把单词转化成向量的形式表示在论文中我们经常看到一个单词embedding),用词典翻译它就是“嵌入“我们会感到一头雾水。我们其实可以理解为embedding就是一个映射将单词从原先所属空间映射嵌入到新的多维空间变成向量。在自然语言处理任务中有两种单词向量化的方法 ·onehot representation(独热形式 ·distribution representation(分配形式 1.1.1 理解什么是one-hot representation 我们直接用下面的例子简单最粗暴的理解从形式上看每个向量之间的内积为0也就是每个向量是互相正交的除了当前单词位置的值为1之外其余位置的值都为0。假设⽤ one-hot对句⼦进⾏表示对句⼦分词之后我们可以得到[我‘ ’爱‘ ’北京‘ ’天安⻔‘]可以⽤one hot独热编码对单词进⾏编码。具体为 “我”可以表示为[1,0,0,0] 爱可以表示为[0,1,0,0] 北京可以表示为[0,0,1,0] 天安⻔可以表示为[0,0,0,1] 缺点这样单词编码之间互相正交的形式使得的向量之间单词之间没有语义上的联系。 1.1.2 理解什么是distribution representation 这一节可以看唐宇迪的视频来理解【【word2vec词向量模型】原理详解代码实现迪哥竟然把NLP最热门的词向量模型讲解的如此通俗易懂-哔哩哔哩】 https://b23.tv/YJ6OMVX 不同于 one-hot粗暴的用1和0来编码distribution representation克服了 one-hot的缺点单词之间没有语义上的联系。分布式表示distribution representation将词转化为⼀个定⻓向量可指定、稠密并且互相存在语义关系语义蕴藏在了向量的这些数字里面的向量。对比一下理解什么叫“蕴藏在了向量的这些数字” one-hot[1,0,0,0] distribution[0.3,0.2,0.1,0.5] #是不是很长的像一个加权占比 1.1.2.1我们现在提出一个比one-hot更高级的文本向量化要求 (本质上是因为distribution representation在向量化的过程中要利用当前单词的上下文来训练模型所以上下文语义自然蕴含在训练好的单词向量的每一维度的数值中 eg:[0.3,0.2,0.1,0.5]。 1.这个单词向量化模型要考虑单词出现的顺序假设文本顺序为my name is chenfangyi 出来的单词向量化中name 单词的编码假设是[0.3,0.2,0.1,0.5]必须得体现出文本的顺序比如只能先有name再有is 和chenfangyi 吧这样才符合我们人类的思维。 2.这个单词向量化模型词与词之间的等价关系要考虑到 eg:nlp”单词要和“自然语言处理”映射到同一个向量空间且语义相近的词在空间中离得要近。这里插入一个跟本文主线不相关的概念我们来比较一下词袋模型bag of wordsmodel和词嵌⼊模型word embedding model的区别词袋模型是对整个文档的向量化反映的是整个文档的单词而本文提到的词嵌⼊模型是针对单个单词向量化只不过在某些方法中单词的向量化与它的上下文也有关联。 1 词袋模型和编码⽅法 1.1 ⽂本向量化⽂本向量化就是指⽤数值向量来表示⽂本的语义即把⼈类可读的⽂本转化成机器可读形式。如何转化成机器可读的形式这⾥⽤到了信息检索领域的词袋模型词袋模型在部分保留⽂本语义的前提下对⽂本进⾏向量化表示。在后面的信息抽取博客打下基础 1.2 词袋及编码⽅法我们先来看2个例句 Jane wants to go to Shenzhen. Bob wants to go to Shanghai. 将所有词语装进⼀个袋⼦⾥不考虑其词法和语序的问题即每个词语都是独⽴的。例如上⾯2个例句就可以构成⼀个词袋袋⼦⾥包括Jane、 wants、to、go、Shenzhen、Bob、Shanghai。假设建⽴⼀个数组或词典⽤于映射匹配 [Jane, wants, to, go, Shenzhen, Bob, Shanghai] 那么上⾯两个例句就可以⽤以下两个向量表示对应的下标与映射数组的下标相匹配其值为该词语出现的次数 # 词典的key值[Jane, wants, to, go, Shenzhen, Bob, Shanghai] 1 [1,1,2,1,1,0,0] 2 [0,1,2,1,0,1,1] 词频向量就是词袋模型可以很明显的看到语序关系已经完全丢失。 1.3 类型介绍 1.3.1 它也可以one-hot编码对于每⼀个单词我们观察该词语是否出现出现就为1没有出现就是0得到⽂本向量规则如下 1.3.2 TF 编码 1.2例句介绍用的就是这个TF表示法的数值计算规则为词语序列中出现的词语其数值为词语在所在⽂本中的频次词语序列中未出现的词语其数值为0。 1.3.3 TF- IDF表示法 TF-IDF表示法的数值计算规则为词语序列中出现的词语其数值为词语在所在⽂本中的频次乘以词语的逆⽂档频率词语序列中未出现的词语其数值为0。⽤数学式⼦表达为 1.1.2.2 如何用distribution representation把单词变成一个跟单词上下文有关有语义的向量呢假设我们的句子是A_B_C对于单词C来说A B就是它的上下文。我们的模型本质是一个单词预测模型已知AB,预测单词C分类模型最终输出的结果是整个单词语料库每个单词预测的概率那就有疑问了不是说是一个目的是把单词转化成蕴藏上下文语义的向量化模型吗怎么叫单词的预测模型了因为我们在输入的时候不可能直接把单词直接输入网路我们把单词AB表示成了一个初始化的向量诶那我们的任务不就结束了吗已经单词向量化了呀并不是这个初始化是我们自己定的我们要利用这个单词预测模型来达到不断更新单词A和B初始化向量里面的数值。简而言之这个单词预测模型只是一个帮手我们其实不是要最终的输出结果我们要知道模型每次训练除了更新权重参数还会更新每次的输入值我们要的就是最终模型训练好之后输入的词向量里面的向量每一个维度的数值“A”和“B”会由初始值不断更新前向训练反向传播直到得到的最终的向量。注向量【0.30.20.10.5】里面这4个数据不一定维度一定是4只是假设模型的输入是A假设是shalt并且已经随机向量初始化和Bthou假设是shalt并且已经随机向量初始化蕴藏上下文语义的向量 eg : 模型的输出就是在整个语料库中每个词预测正确的概率值总结起来就是在这个预测模型中随着预测单词的结果匹配语料库的概率值越来越接近真实值C每次训练模型的输入值都会发生变化最终我们想要的结果是蕴藏上下文语义的输入向量就得到了。构建训练数据第二部分从Seq2Seq序列引入Encoder-Decoder模型RNN/LSTM与GRU 2.1 什么是Seq2Seq序列问题输入一个序列输出一个序列比如翻译模型 2.2 介绍Encoder-Decoder模型RNN/LSTM与GRU 这里推荐直接去看这个大佬的博客如何从RNN起步一步一步通俗理解LSTM_rnn lstm-CSDN博客大佬写的超级好这里就不再赘述了。 2.3 开始介绍注意力机制Attention ·对于Seq2Seq without Attention来说Encoder编码器和 Decoder解码器之间只有一个「向量C」来传递信息且C的长度固定。当输入句子比较长时所有语义完全转换为一个中间语义向量C来表示单词原始的信息已经消失可想而知会丢失很多细节信息而为了解决「信息过长信息丢失」的问题Attention 机制就应运而生了。 ·对于Seq2Seq with Attention来说Eecoder 不再将整个输入序列编码为固定长度的「中间向量」而是编码成一个向量的序列(包含多个向量)。 Attention 机制对于中间语义编码和attention值之间的关系看这个博主的https://blog.csdn.net/qq_45556665/article/details/127459191这一部分博客「「」我现在的理解是经过Encoder被编码成语义编码C语义编码是一块高度抽象的内容。Ci 就是第i个单词的attention值它是一个中间语义编码解码Y1 f1 ( C1 ) Y2 f1 ( C2 Y1 ) Y3 f1 (C3 Y1Y2 )完成后输出序列 {Y1“汤姆”Y2“追逐”Y3“杰瑞”}。在下面的transformer中会用到另一种机制 self-attention. 1.注意力机制Attention发生在Target的元素Query和Source中的所有元素之间。 2.而Self Attention顾名思义指的不是Target和Source之间的Attention机制而是Source内部元素之间或者Target内部元素之间发生的Attention机制也可以理解为TargetSource这种特殊情况下的注意力计算机制。其具体计算过程是一样的只是计算对象发生了变化而已。 3.可以粗暴的理解为self-attention是attention的一种特殊情况第三部分 transformer 这一部分建议看这个视频【【唐博士带你学AI】NLP最著名的语言模型-BERT 10小时精讲原理源码论文计算机博士带你打通NLP-哔哩哔哩】 https://b23.tv/NwnylCo 还是考虑上文中已经出现过的机器翻译的模型(Transformer一开始的提出即是为了更好的解决机器翻译问题)。 3.1自注意力部分 3.1.1 先来认识一下三个向量每个单词各自创建一个查询向量、一个键向量和一个值向量 3.1.2 attention整体流程第一步生成查询向量、键向量和值向量第二步计算得分要去查询的单词Query)去点积例子中所有词的键向量key ·q1和k1的点积(根据点积结果可以判断q1和k1这个向量的相似性) ·q1和k2的点积(根据点积结果可以判断q1和k2这个向量的相似性) 第三、四步分数除以8然后softmax 第五、六步值向量乘以softmax分数后对加权值向量求和整体思路会发现self-attention和attention 几乎一样区别在于TargetSource 3.2 多头注意力机制“multi-headed” attention 3.2.1 定义简单的说就是多来几对“ ”的矩阵集合 3.2.2过程介绍如果我们做与上述相同的自注意力计算只需8次不同的权重矩阵运算我们就会得到8个不同的Z矩阵前馈层没法一下子接收多个矩阵它需要一个单一的矩阵(矩阵中每个的行向量对应一个单词比如矩阵的第一行对应单词Thinking、矩阵的第二行对应单词Machines) 所以我们需要一种方法把这多个矩阵合并成一个矩阵。直接把这些矩阵拼接在一起然后乘以一个附加的权重矩阵 3.2.3 为什么要用“多头 ”“1个头”不行吗我们在学习计算机视觉的时候对于线性分类的的权值模版在不考虑代价的情况的自然是多多益善。这样机器能学到更多的图像特征图像分类任务会更加精准。在本文这个任务重通过不同的head得到不同的特征表达。总有一个头会关注到咱们想关注的点避免在编码时遗漏了我们想要关注的点。 3.3 Transformer 的编码器和解码器 3.3.1 编码器将源语转化为一个中间语义向量C 1.先经过一个自注意力层self-attention self-attention机制会帮助编码器在对每个单词编码时关注输入句子中的的其他单词。 2.前馈(feed-forward)神经网络注可能会有好几层这样的结构 3.3.2 解码器 1 .一个带masked的Multi-Head Attention本质是Self-Attention 该自注意力层只允许关注已输出位置的信息实现方法是在自注意力层的softmax之前进行mask将未输出位置的权重设置为一个非常大的负数(进一步softmax之后基本变为0相当于直接屏蔽了未输出位置的信息) 简而言之就是在翻译第i个单词的时候不能看到第i个后面翻译的单词 2.一个不带masked的Multi-Head Attention本质是Encoder-Decoder Attention 这个注意力层的K 和V都来自Encoder最后一层的输出Q来自于上一个Decoder单元的输出比如当我们要把“Hello Word”翻译为“你好世界”时在解码并输出 “你好”时会关注编码器的“Hello ”和“Word”

查看全文

http://www.zqtcl.cn/news/902028/