网站页面跳转怎么做,网上商城建设公司,网站建设书籍目录,广东省建筑工程集团有限公司在上一篇文章中#xff0c;我们已经解释了什么是NLP及其在现实世界中的应用。在这篇文章中#xff0c;我们将继续介绍NLP应用程序中使用的一些主要深度学习模型。
BERT
来自变压器的双向编码器表示#xff08;BERT#xff09;由Jacob Devlin在2018年的论文《BERT:用于语言… 在上一篇文章中我们已经解释了什么是NLP及其在现实世界中的应用。在这篇文章中我们将继续介绍NLP应用程序中使用的一些主要深度学习模型。
BERT
来自变压器的双向编码器表示BERT由Jacob Devlin在2018年的论文《BERT:用于语言理解的深度双向变压器的预训练》中首次提出。BERT模型的主要突破是它在训练过程中查看文本时以双向方式扫描文本而不是从左到右或从左到左和从右到左的组合序列。BERT一般有两种类型BERT基本和BERT大。不同之处在于可配置参数基本参数为1100万大参数为3.45亿。
XLNet
XLNet于2019年发表在论文《XLNet语言理解的广义自回归预训练》中。XLNet在20次基准测试中以很大的优势优于BERT因为它利用了自回归模型和双向上下文建模的最佳效果。XLNet采用了一种新提出的建模方法称为“置换语言建模”。与基于前一个标记的上下文预测句子中单词的语言模型中的传统标记化不同XLNet的置换语言建模考虑了标记之间的相互依赖性。XLNet的性能测试结果比BERT提高了2-15%。
RoBERTa
RoBERTa是在2019年的论文《RoBERTa一种稳健优化的BERT预训练方法》中提出的。RoBERTa对BERT的体系结构和培训程序进行了更改。具体而言RoBERTa删除了下一句预测NSP目标使用了比BERT大得多的数据集并用动态掩蔽取代了静态掩蔽。RoBERTa的性能测试结果比BERT提高了2-20%。
ALBERT
ALBERT模型是在2019年的论文《ALBERT:语言表征自我监督学习的精简BERT》中提出的。ALBERT是在BERT模型的基础上开发的。它的主要突破是显著降低了参数但与BERT相比保持了相同的性能水平。在ALBERT中参数在12层变压器编码器之间共享而在原始BERT中每层编码器都有一组唯一的参数。
StructBERT
StructBERT是在2019年的论文《StructBERT:将语言结构纳入深度语言理解的预训练》中提出的。StructBERT通过将语言结构纳入训练过程进一步扩展了BERT。StructBERT还引入了单词结构目标WSO它有助于模型学习单词的排序。
T5
T5是在2019年的论文《用统一的文本到文本转换器探索迁移学习的极限》中介绍的。T5是“文本到文本传输转换器”的缩写。T5发布了一个干净、庞大、开源的数据集C4Colossal clean Crawled Corpus。T5将所有NLP任务分类为“文本到文本”任务。T5型号有五种不同尺寸每种型号都有不同数量的参数T5小型6000万个参数、T5基础2.2亿个参数T5大型7.7亿个参数。
ELECTRA
ELECTRA是在2020年的论文“ELECTRA:将文本编码器预训练为鉴别器而非生成器”中提出的。ELECTRA提出了一种新的预训练框架它结合了生成器和鉴别器。ELECTRA将掩蔽语言模型的训练方法改为替换标记检测。ELECTRA在小型模型上表现更好。
本文【LLM 】7个基本的NLP模型为ML应用程序赋能 | 开发者开聊
自我介绍 做一个简单介绍酒研年近48 有20多年IT工作经历目前在一家500强做企业架构因为工作需要另外也因为兴趣涉猎比较广为了自己学习建立了三个博客分别是【全球IT瞭望】【架构师研究会】和【开发者开聊】有更多的内容分享谢谢大家收藏。企业架构师需要比较广泛的知识面了解一个企业的整体的业务应用技术数据治理和合规。之前4年主要负责企业整体的技术规划标准的建立和项目治理。最近一年主要负责数据涉及到数据平台数据战略数据分析数据建模数据治理还涉及到数据主权隐私保护和数据经济。 因为需要比如数据资源入财务报表另外数据如何估值和货币化需要财务和金融方面的知识最近在学习财务金融和法律。打算先备考CPA然后CFA如果可能也想学习法律备战律考。欢迎爱学习的同学朋友关注也欢迎大家交流。全网同号【架构师研究会】 欢迎收藏 【全球IT瞭望】【架构师酒馆】和【开发者开聊】.