江西万年县建设局网站,网站模板的好处,wordpress主题无法创建,清廉企业建设目录 1. 时间序列2. word embedding2.1 one hot2.2 word2vec2.3 GloVe 1. 时间序列
具有时间相关性的序列叫做时间序列#xff0c;比如#xff1a;语音、文本句子
2. word embedding
2.1 one hot
针对句子来说#xff0c;可以用[seq_len, vector_len] 有多少个单词vecto… 目录 1. 时间序列2. word embedding2.1 one hot2.2 word2vec2.3 GloVe 1. 时间序列
具有时间相关性的序列叫做时间序列比如语音、文本句子
2. word embedding
2.1 one hot
针对句子来说可以用[seq_len, vector_len] 有多少个单词vector_len就是多少比如汉字有3500个句子长度是5那么就表示为[5, 3500] 如下图 vector index 0为1表示Rome, index 1为1表示Pairs其他位置都为0 one hot编码的问题是比较稀疏数据长度可能比较长但是有用的数据比较少。比如英文常用单词有2-4w个那么这种方式就很难用了。
2.2 word2vec
利用语言相关性相近或者相反 如下图 king 与kings最相近值也就越大这个值是通过两个单词向量的cos夹角计算的角越大值越小
2.3 GloVe
下图是自己建立一个单词向量表有两个单词索引是0和1然后使用torch.nn.Embedding(2, 5)生成单词向量表即2个单词每个单词用5个dimension vector表示。 torch.nn.Embedding(2, 5)生成的词向量表采用随机值进行初始化这种随机值初始化后的向量值并不能反映特定单词与单词之间的余弦距离以及不同单词之间的相关性。而且还需要根据特定的文本对其进行训练以符合特定业务场景的需求。 Glove是预定义的他人已经根据大量的文本数据训练好的数据集可以直接使用一般不需要自己修改。
glove使用见下图