河北平台网站建设,金蝶软件免费版下载,网页加速器插件,谷歌关键词推广怎么做一、基础知识 自然语言处理#xff1a;能够让计算理解人类的语言。
检测计算机是否智能化的方法#xff1a;图灵测试 自然语言处理相关基础点#xff1a;
基础点1——词表示问题#xff1a;
1、词表示#xff1a;把自然语言中最基本的语言单位——词#xff0c;将它转…一、基础知识 自然语言处理能够让计算理解人类的语言。
检测计算机是否智能化的方法图灵测试 自然语言处理相关基础点
基础点1——词表示问题
1、词表示把自然语言中最基本的语言单位——词将它转换成我们机器可以理解的对应词的意思。即让机器理解这个词是什么意思
2.词表示的目标
计算词的相识度
找出词和词的语义关系 3.词表示方法的演变过程
①使用词的近义词或与这个词有关的词表示这个词 缺点表示这个词的相关实际上是有细微差异的可能会错失一些新的词义存在主观性
②目前最常用的方案将每个词表示为一个独立的符号这种方法叫做one-hot representation。缺点内存需求会随着词表增大而变大词义的表示会依赖于词表出现频率
③建立一个低维的稠密的空间将每一个词学到这个空间里面用空间里面的位置所对应的那个向量表示这个词。代表性的方法word2vec 自然语言处理基础点2——语言模型language model
语言模型目的语言模型其实就是要去能有能力根据前文去预测下一个词的能力。
语言模型主要完成的两个工作 1能够计算一个序列的词它成为一句话的概率到底是什么。比如给出多个中文汉字根据这些汉字出现的顺序组成一句合法的中文语句的概率
2根据前面已经说的话预测出下一个词是什么。 怎么实现根据前文预测下一个
原理一个词出现的概率是只受到它前面出现的这些词的影响。计算公式是联合概率累乘条件概率 构建语言模型的方法
过去的方法是N-gram——前面出现了几个词之后后面出现的那个词他的频度到底是怎么样的。原理马尔科夫假设 缺点无法理解相似的词造成什么
现在的方法是Neural Language Model——将每个词表示成低维向量则词性相似对应的向量相似就可以推出在语境中可能有相似的作用。