当前位置: 首页 > news >正文

婚礼策划网站网络营销推广方法还会有哪些

婚礼策划网站,网络营销推广方法还会有哪些,可以随意建国际商城的网站吗,关于手机网站设计的若干想法一、概述 1、是什么 是单模态“小”语言模型#xff0c;是一个“Bidirectional Encoder Representations fromTransformers”的缩写#xff0c;是一个语言预训练模型#xff0c;通过随机掩盖一些词#xff0c;然后预测这些被遮盖的词来训练双向语言模型#xff08;编码器…一、概述 1、是什么 是单模态“小”语言模型是一个“Bidirectional Encoder Representations fromTransformers”的缩写是一个语言预训练模型通过随机掩盖一些词然后预测这些被遮盖的词来训练双向语言模型编码器结构。可以用于句子分类、词性分类等下游任务本身旨在提供一个预训练的基础权重。 2、亮点 文章中总结为三点 * 展示了双向预训练对语言表示的重要性。 * 预训练的特征表示对特定任务降低了精心设计架构的需求。 * BERT 提高了 11 个 NLP 任务的最新指标。 PS * base版本整体结构和OpenAI的GPT是相同的只是掩码机制不同甚至训练数据和策略也尽可能可GPT相同来做对比并验证了在下游任务的高效性。large是进行了模型缩放。 * 但是如今2024年还是Open AI 的GPT这种纯解码器一统天下并且后续针对bert的改进反而移除一些本文的tick比如NSP任务等。 * 原版论文还是建议看看因为本文是提供了一个预训练模型然后可以用于各种下游任务并且文章解释了怎么处理数据和改动模型并且也简要介绍了对应的下游任务可以对NLP领域有个很好的认识。 二、模型 1、模型结构 输入需要进行多种embedding处理模型整体就是标准的transformer编码器只不过针对不同的任务出入输出头稍有改动 1预训练任务两个loss分别是预测掩码token和预测两个句子是不是连贯的。也就是后面的Mask LM 和NSP任务。文中训练了base 和 large两个版本。 2下游任务主要分为四大类两个句子的关系分类、单句分类比如情感分类、问答不是生成模型所以答案是提供的文本中的一个片段预测起止点、句子内次分类比如实体识别。     输入如下。针对不同的任务BERT模型的输入可以是单句或者句对。对于每一个输入的Token它的表征由其对应的词表征Token Embedding、段表征Segment Embedding和位置表征Position Embedding相加产生。其中BERT的分词是“Case-preserving WordPiece model”它在分词的同时保留了原始文本的大小写信息。 预训练整体对应的网络结构如下 不同的下游任务的模型结构如下图 下游任务对应到数据集 2、模型亮点 双向注意力训练的解码器并且有单词和句子两个任务。 PS 可惜现在GPT的decoder 一统天下了。 三、数据 1、数据标签 对于英文模型使用了Wordpiece模型来产生Subword从而减小词表规模对于中文模型直接训练基于字的模型。 具体因为涉及到预训练和不同类型的下游任务这里稍微有点复杂一条一条梳理。 预训练目标BERT预训练过程包含两个不同的预训练任务分别是Masked Language Model和Next Sentence Prediction任务。 下游任务分为句子分类、token分类。 1-1Masked Language Model任务 就是预测被mask掉的词文章提出一种mask策略这个过程发生在WordPiece tokenization之后而且对所有token一视同仁后面有对应的消融实验在一个batch 内先随机选取15%的单词作为mask候选然后对这15%单词进行二次抽样其中80%需要被替换成[MASK]的词进行替换10%的随机替换为其他词10%保留原词。原因是在微调时[MASK]总是不可见会造成预训练和微调时的不一致。论文中的例子如下 1-2Next Sentence Prediction任务 模型输入需要附加一个起始Token记为[CLS]对应最终的Hidden State即Transformer的输出可以用来表征整个句子用于下游的分类任务。 模型能够处理句间关系。为区别两个句子用一个特殊标记符[SEP]进行分隔另外针对不同的句子将学习到的Segment Embeddings 加到每个Token的Embedding上。对于单句输入只有一种Segment Embedding对于句对输入会有两种Segment Embedding。 论文中的例子如下构造方法是随机构造50%是成对的句子50%不是成对的句子并且也要保证整个句子长度小于512个token。和上面的mask策略是共同作用的。 2-1GLUE 句子分类下游任务 可以为单个句子或者句子对。 输入和预训练一样有cls、sep token没有Mask。 输出使用cls token对应的最后一个隐层的向量作为句子的整体表示仅仅引入一个全连接层映射到分类类别数计算标准的softmax 分类损失。 2-2SQuAD v1.1 其实就是给定问题在指定段落里面找答案的起止点不需要改写答案。这里确实有点绕所以再重复贴一下模型图。这里输入如下图比较好理解。输出增加了两个可学习的verctor就是两个变量分别称为S、E然后对每个输出单词做点乘计算为起点的概率终点同理。然后起点到终点的整个段落的概率定义如下。 2-3SQuAD v2.0 我们将没有答案的问题视为在 [CLS] 标记处具有开始和结束的答案跨度。预测的时候没有对应答案得分Snull S·C E·C有对应的答案的得分最大值然后当阈值t是在验证集使F1最大调节出来的。 2-4SWAG 本身是多选这里将问题分别匹配一个答案构成N个文本对然后对每个文本对单独像句子对分类任务一样在cls token上训练分类器。     2、数据构成 预训练 为了和GPT作对比数据等也尽可能相同BERT使用BooksCorpus (800M words)、Wikipedia (2,500M words)其中GPT使用的仅仅为BooksCorpus (800M words)。 下游任务 MNLIMulti-Genre Natural Language Inference两个句子的蕴含分类任务。给定一对句子目标是预测第二个句子是否是相对于第一个句子的蕴涵、矛盾或中性。 QQPQuora Question Pairs两个句子分类任务。目标是确定 Quora 果壳问答网站类似知乎上提出的两个问题在语义上是否等价。 QNLIQuestion Natural Language Inference标准的问答任务。被转换为二元分类任务正例是问题、句子对包含正确答案负例是来自同一段落的问题、句子不包含答案。 SST-2Stanford Sentiment Treebank二元单句分类任务包括从电影评论中提取的句子及其情感的注释。 CoLAThe Corpus of Linguistic Acceptability二元单句分类任务其目标是预测英语句子在语法上是否“可接受”。 STS-BThe Semantic Textual Similarity Benchmark一组从新闻标题和其他来源中提取的句子对。他们用从 1 到 5 的分数进行注释表示两个句子在语义含义方面的相似程度。 MRPCMicrosoft Research Paraphrase Corpus从在线新闻源中自动提取的句子对组成人工注释对中的句子在语义上是否等价。 WNLI Winograd NLI小型自然语言推理数据集GLUE 网页指出该数据集的构建存在问题。 RTERecognizing Textual Entailment类似于 MNLI 的二元蕴涵任务但训练数据要少得多。 SQuAD v1.110w个众包问题/答案对的集合。给定一个来自维基百科的段落和对应的问题任务是预测答案在文章中的跨度也就是起止点。 SQuAD v2.0对比V1.1还有可能对应的段落没有问题的答案。 SWAGSituations With Adversarial Generations包含 113k 个句子对用于评估常识推理。 3、数据清洗 可能都是开源数据并且为了保持和Open AI相同文章并没有提到如何清洗这两个数据源。 四、策略 1、训练过程 预训练 单阶段训练训练所有网络参数两个任务的loss取平均。值得注意的一个预训练加速细节原理是transformer的自注意力随着序列长度二次方增加运算量使用序列长度为 128 训练90% 的Step然后使用 512 序列长度训练其余10% 来学习位置嵌入。 训练超参数如下 *bs 256、sequence length 512、Step 100W相当于128,000 token/batch、训练了40个epoch。 *学习率为 1e-4 的 Adamβ1 0.9β2 0.999L2 权重衰减为 0.01学习率在前 10,000 步预热学习率的线性衰减。 *在所有层上使用 0.1 的 dropout 概率。 *激活函数和GPT相同为gelu。 *训练损失是平均掩码 LM 似然和平均下一句预测似然的总和。 *BERTBASE 的训练是在4 cloud Pod 总共 16 个 TPU 芯片LARGE 的训练是在 16 个 Cloud TPU pod总共 64 个 TPU 芯片上进行的。均需要 4 天完成训练。 下游任务Finetune整体总结 如模型结构部分应用与不同的下游任务不同下游任务都略有区别大的数据集比如10W样本的对超参数选择不敏感超参数整体和预训练相同但是batch size、学习率、训练epoch不同如下 *batch size 选择16 或32. *Learning rate (Adam): 5e-5, 3e-5, 2e-5。 *epochs数: 2, 3, 4 下游任务Finetune-GLUE句子分类 主要在模型输出的增加一个分类层对应输入的cls token。batch size 32 训练3 个epoch学习率尝试5e-5, 4e-5, 3e-5, 2e-5并选择验证集效果最好的。 注意这里发现BERT large版本训练不稳定采取的策略是随机多训练几个版本然后选择验证集上效果好的这里的随机包含数据随机shuffle和分类层随机初始化。 下游任务SQuAD v1.1句子分类 batch size 32 训练3 个epoch学习率5e-5。 下游任务SQuAD v2.0句子分类 batch size 48 训练2 个epoch学习率5e-5。 下游任务SWAG句子分类 batch size 16 训练3 个epoch学习率2e-5。 2、推理过程 暂无 五、结果 1、多维度对比。 四个下游任务分别见四个表。 GLUE发现large版本结果都比base版本好包含哪些训练数据很少的场景并且好于Open AI。 2、消融实验 训练任务 涉及有无预测下一个句子任务NSP、MLM对比LTR任务预测中间词和从左预测右面即GPT。他的结果显示预测下一个句子能提升性能MLM好于LTR。PS然而后面bert的改进去掉了NSP任务GPT系列数据上来效果强悍。所以这些经验真的会随着数据和模型规模上来反而成为阻碍。 模型大小 除了模型的层数、隐层维度、head 头数外其余训练超参一致。这里作者证明随着模型规模的提升下游任务的性能也提升即使下游任务数据很少也可以finetune接一个分类头并且bert的参数也更新然后获得稳定提升随着模型规模。这里作者特别提到之前有人做实验证明模型规模不能太大不然反而性能会降低这里是通过特征的方式没有finetune。 PS这里感觉有点后面GPT系列对齐的苗头了。 基于特征 这里和图像领域不太一样哈对应CLIP里面的叫Liner prob策略也就是冻结bert参数然后对bert的输出再训练一个分类器。而该论文的finetune就是全部bert跟着分类器更新参数。对比结果如下证明bert的特征也挺好当然低于finetune。 训练时长Step数 *与 500k 步相比BERTBASE 在 1M 步上训练时在 MNLI 上实现了几乎 1.0% 的额外准确度。 *MLM 模型的收敛速度略慢于 LTR 模型。然而就绝对准确性而言MLM 模型几乎很快就开始优于 LTR 模型。 不同的mask策略 需要注意对于基于特征的方法将 BERT 的最后 4 层作为特征连接起来这在第 5.3 节中被证明是最好的方法。其实差距不是特别大。 六、使用方法 见git和上面的下游任务模型结构介绍部分对不同下游任务不同。 七、待解决 论文提到的缺点 由于每个Batch中只有15%的词会被预测因此模型的收敛速度比起单向的语言模型会慢训练花费的时间会更长。作者认为从提升收益的角度来看付出的代价是值得的。 改进算法 并且很多原始认为很有用的tick已经不再使用比如预测句子任务。BERT的主要创新在于它的双向训练结构它能够在预训练阶段同时考虑上下文中的左侧和右侧信息。自从BERT发布以来许多研究者和工程师都在尝试改进这个模型。以下是一些BERT改进的论文总结 1、RoBERTaA Robustly Optimized BERT Pretraining Approach 发现BERT可能由于其训练过程没有被充分优化而受到限制。 改进更长时间的训练、更大的数据集、更大的batch size、不使用Next Sentence PredictionNSP任务。 结果在多个基准测试上取得了比原始BERT更好的结果。 2、ALBERTA Lite BERT for Self-supervised Learning of Language Representations 发现BERT模型非常庞大需要大量的内存和计算资源。 改进参数共享、降低模型大小的同时保持性能。 结果减小了模型的内存占用同时在某些任务上保持或超越了BERT的性能。 3、DistilBERTDistilling the Knowledge in a Neural Network 发现BERT模型过于庞大对于某些应用来说不够高效。 改进利用知识蒸馏技术将BERT的知识转移到更小的模型。 结果模型大小减少了40%速度提升了60%同时保持了97%的BERT性能。 4、XLNetGeneralized Autoregressive Pretraining for Language Understanding 发现BERT的双向上下文理解能力强但是受限于其掩蔽语言模型MLM的预训练方式。 改进结合了自回归语言模型和BERT的优点提出了置换语言模型PLM。 结果在多项NLP任务上超越了BERT和GPT的性能。 5、ERNIEEnhanced Representation through kNowledge Integration 发现BERT没有充分利用外部知识如实体、短语和语义关系等。 改进整合了外部知识通过实体掩蔽和短语掩蔽来增强语言表示。 结果在特定任务上如情感分析和实体识别性能得到了显著提升。 6、SpanBERTSpanBERT: Improving Pre-training by Representing and Predicting Spans 发现BERT的单个词掩蔽可能不足以捕捉到更长的依赖关系。 改进专注于跨度的预测而不是单个词的预测以更好地表示和预测文本跨度。 结果在句子级和跨度级任务上均显示出改进。 八、参考链接 Transformer 源码解读Transformer源码详解Pytorch版本 - 知乎 bert 源码解读Bert源码详解Pytorch版本 - 知乎
http://www.zqtcl.cn/news/798473/

相关文章:

  • 建设网站备案与不备案区别企业网站怎么做排名
  • php mysql的网站开发html网站制作答辩ppt
  • 网站制作有名 乐云践新专家网页制作公司需要什么资质
  • 织梦怎么用框架实现在浏览器的地址栏只显示网站的域名而不显示出文件名电脑网站模板
  • 北京网络营销网站品牌营销增长公司哪家好
  • 网站反链有好处吗稷山网站建设
  • 廊坊网站群发关键词怎么在百度上推广自己的公司信息
  • 网站开发 沈阳免费模板建站
  • 商业性质网站建设步骤wordpress电影网盘
  • 网站的外部推广成都房产网官网
  • 深圳网站建设创想营销北京土巴兔全包装修价格表
  • 怎么发布php网站邯郸建设网站制作
  • 手机网站做多宽的图片wordpress顶部导航栏怎么创建
  • 如何做招聘网站的数据分析安徽黄山旅游攻略
  • 2022建站市场国际新闻直播
  • 茗哥网站建设装饰公司网站规划方案
  • 北京天津网站建设公司做平台网站要多久
  • 做我女朋友的表白句的网站做seo_教你如何选择网站关键词
  • 如何对网站用户分析徐州网站制作如何定位
  • 网站定制生成器龙岗网站设计讯息
  • 镇江市建设工程网站蜘蛛爬取网站
  • 个人备案网站可以做电影站吗微信做的地方门户网站
  • 网站上传根目录美点网络公司网站
  • 长春微信做网站网站开发和设计如何合作
  • 江门网站制作报价买网站不给我备案
  • 太原百度网站快速优化网站 后台 数据 下载
  • 某网站开发项目进度表天元建设集团有限公司赵唐元
  • 网站外链收录很多 内链收录几个西安网站seo优化
  • 网站源码制作网站产品类别顺序如果修改
  • 北京定制网站开发公司浩森宇特本机快速做网站