厦门做网站个人,wordpress安装详解,快速建立平台网站开发需要多少钱,山东网站文章目录 统计语言模型发展的里程碑#xff1a; 上半部分是语言模型技术的进展#xff1b;下半部分则是词向量#xff08;词的表示学习#xff09;技术的发展。其中#xff0c;词向量表示的学习为语言模型提供了更高质量的输入信息#xff08;词向量表示#xff09;
1… 文章目录 统计语言模型发展的里程碑 上半部分是语言模型技术的进展下半部分则是词向量词的表示学习技术的发展。其中词向量表示的学习为语言模型提供了更高质量的输入信息词向量表示
1948年著名的N-Gram 模型诞生思路是基于前N-1个项目来预测序列中的第N个项目所谓的“项目”就是词或者短语。1954 年的 Bag-of-Words模型是一种简单且常用的文本表示方法它将文本表示为一个单词的集合而不考虑单词在文本中的顺序。在这种表示方法中每个单词都可以表示为一个单词频率向量对应一个特定的维度向量的值表示该单词在文本中出现的次数。1986 年出现的分布式表示(Distributed Representation )是一种将词或短语表示为数值向量的方法。在这种表示法中单词的语义信息被分散到向量的各个维度上因此可以捕捉到单词之间的相似性和关联性。分布式表示主要基于单词在文本中的上下文来构建因此具有较多的语义和句法信息。这种表示方法有助于解决传统Bag-of-Words 模型和独热编码(One-Hot Encoding)中的词汇鸿沟问题(词汇歧义、同义词等)。2003年的神经概率语言模型则提出使用神经网络来学习单词之间的复杂关系它是后续的神经网络语言模型比如CNN、RNN、LSTM 的思想起点。2013 年出现的另外一个重要的里程碑即Word2Vec(W2V)是一种通过训练神经网络模型来学习词汇的分布式表示简单而又高效。Word2Vec有两种主要的架构:连续词袋(Continuous Bag of Words,CBOW)模型和 Skip-Gram 模型。CBOW模型通过预测一个单词的上下文来学习词向量而Skip-Gram 模型则通过预测目标单词周围的单词来学习词向量。 Word2Vec生成的词向量可以捕捉到单词之间的相似性、语义关联及词汇的句法信息。其思想和训练结果被广泛用于许多 NLP 模型中。2018 年之后基于Transformer的预训练语言模型一统江湖在自然语言处理领域的许多任务中成为主导方法。它通过更大的语料库和更加复杂的神经网络体系结构来进行语法语义信息的学习这就是语言模型的预训练过程。这些模型在具体 NLP 任务(如机器翻译、问答系统、文本分类、情感分析、文本生成等任务)上进行微调后都表现出色并且不断刷新各种基准测试的最高分数。如今许多研究者和工程师都在使用这些预训练语言模型作为他们自然语言处理项目的基础。 学习的参考资料 1书籍 利用Python进行数据分析 西瓜书 百面机器学习 机器学习实战 阿里云天池大赛赛题解析(机器学习篇) 白话机器学习中的数学 零基础学机器学习 图解机器学习算法
动手学深度学习pytorch
…
2机构 光环大数据 开课吧 极客时间 七月在线 深度之眼 贪心学院 拉勾教育 博学谷 慕课网 海贼宝藏 …