成品图片的网站有哪些,网站网页怎么设计,临颖网站建设,精准营销的主要价值目标
了解什么是文本张量表示及其作用.文本张量表示的几种方法及其实现.
1 文本张量表示 将一段文本使用张量进行表示#xff0c;其中一般将词汇为表示成向量#xff0c;称作词向量#xff0c;再由各个词向量按顺序组成矩阵形成文本表示.
[人生, 该其中一般将词汇为表示成向量称作词向量再由各个词向量按顺序组成矩阵形成文本表示.
[人生, 该, 如何, 起头]# 每个词对应矩阵中的一个向量
[[1.32, 4,32, 0,32, 5.2],[3.1, 5.43, 0.34, 3.2],[3.21, 5.32, 2, 4.32],[2.54, 7.32, 5.12, 9.54]]文本张量表示的作用: 将文本表示成张量矩阵形式能够使语言文本可以作为计算机处理程序的输入进行接下来一系列的解析工作. 文本张量表示的方法: one-hot编码Word2vecWord Embedding
2 one-hot词向量表示 又称独热编码将每个词表示成具有n个元素的向量这个词向量中只有一个元素是1其他元素都是0不同词汇元素为0的位置不同其中n的大小是整个语料中不同词汇的总数. 举个例子: [改变, 要, 如何, 起手]
[[1, 0, 0, 0],[0, 1, 0, 0],[0, 0, 1, 0],[0, 0, 0, 1]]onehot编码实现: 进行onehot编码: # 导入用于对象保存与加载的joblib
import joblib
# 导入keras中的词汇映射器Tokenizer
from keras.preprocessing.text import Tokenizer
# 假定vocab为语料集所有不同词汇集合
vocab {周杰伦, 陈奕迅, 王力宏, 李宗盛, 吴亦凡, 鹿晗}
# 实例化一个词汇映射器对象
t Tokenizer(num_wordsNone, char_levelFalse)
# 使用映射器拟合现有文本数据
t.fit_on_texts(vocab)for token in vocab:zero_list [0]*len(vocab)# 使用映射器转化现有文本数据, 每个词汇对应从1开始的自然数# 返回样式如: [[2]], 取出其中的数字需要使用[0][0]token_index t.texts_to_sequences([token])[0][0] - 1zero_list[token_index] 1print(token, 的one-hot编码为:, zero_list)# 使用joblib工具保存映射器, 以便之后使用
tokenizer_path ./Tokenizer
joblib.dump(t, tokenizer_path)输出效果: 鹿晗 的one-hot编码为: [1, 0, 0, 0, 0, 0]
王力宏 的one-hot编码为: [0, 1, 0, 0, 0, 0]
李宗盛 的one-hot编码为: [0, 0, 1, 0, 0, 0]
陈奕迅 的one-hot编码为: [0, 0, 0, 1, 0, 0]
周杰伦 的one-hot编码为: [0, 0, 0, 0, 1, 0]
吴亦凡 的one-hot编码为: [0, 0, 0, 0, 0, 1]# 同时在当前目录生成Tokenizer文件, 以便之后使用 onehot编码器的使用: # 导入用于对象保存与加载的joblib
# from sklearn.externals import joblib
# 加载之前保存的Tokenizer, 实例化一个t对象
t joblib.load(tokenizer_path)# 编码token为李宗盛
token 李宗盛
# 使用t获得token_index
token_index t.texts_to_sequences([token])[0][0] - 1
# 初始化一个zero_list
zero_list [0]*len(vocab)
# 令zero_List的对应索引为1
zero_list[token_index] 1
print(token, 的one-hot编码为:, zero_list) 输出效果:
李宗盛 的one-hot编码为: [1, 0, 0, 0, 0, 0] one-hot编码的优劣势 优势操作简单容易理解. 劣势完全割裂了词与词之间的联系而且在大语料集下每个向量的长度过大占据大量内存. 正因为one-hot编码明显的劣势这种编码方式被应用的地方越来越少取而代之的是接下来我们要学习的稠密向量的表示方法word2vec和word embedding.
3 word2vec模型
3.1 模型介绍 word2vec是一种流行的将词汇表示成向量的无监督训练方法, 该过程将构建神经网络模型, 将网络参数作为词汇的向量表示, 它包含CBOW和skipgram两种训练模式. CBOW(Continuous bag of words)模式: 给定一段用于训练的文本语料, 再选定某段长度(窗口)作为研究对象, 使用上下文词汇预测目标词汇.
3.2 word2vec的训练和使用
第一步: 获取训练数据第二步: 训练词向量第三步: 模型超参数设定第四步: 模型效果检验第五步: 模型的保存与重加载
1 获取训练数据
数据来源http://mattmahoney.net/dc/enwik9.zip
在这里, 我们将研究英语维基百科的部分网页信息, 它的大小在300M左右。这些语料已经被准备好, 我们可以通过Matt Mahoney的网站下载。
注意原始数据集已经放在/root/data/enwik9.zip解压后数据为/root/data/enwik9预处理后的数据为/root/data/fil9
查看原始数据: $ head -10 data/enwik9# 原始数据将输出很多包含XML/HTML格式的内容, 这些内容并不是我们需要的
mediawiki xmlnshttp://www.mediawiki.org/xml/export-0.3/ xmlns:xsihttp://www.w3.org/2001/XMLSchema-instance xsi:schemaLocationhttp://www.mediawiki.org/xml/export-0.3/ http://www.mediawiki.org/xml/export-0.3.xsd version0.3 xml:langensiteinfositenameWikipedia/sitenamebasehttp://en.wikipedia.org/wiki/Main_Page/basegeneratorMediaWiki 1.6alpha/generatorcasefirst-letter/casenamespacesnamespace key-2Media/namespacenamespace key-1Special/namespacenamespace key0 / 原始数据处理:
# 使用wikifil.pl文件处理脚本来清除XML/HTML格式的内容
# perl wikifil.pl data/enwik9 data/fil9 #该命令已经执行
查看预处理后的数据:
# 查看前80个字符
head -c 80 data/fil9# 输出结果为由空格分割的单词anarchism originated as a term of abuse first used against early working class
2 训练词向量
# 代码运行在python解释器中
# 导入fasttextimport fasttext
# 使用fasttext的train_unsupervised(无监督训练方法)进行词向量的训练
# 它的参数是数据集的持久化文件路径data/fil9# 注意该行代码执行耗时很长model1 fasttext.train_unsupervised(data/fil9) # 可以使用以下代码加载已经训练好的模型model fasttext.load_model(data/fil9.bin)# 有效训练词汇量为124M, 共218316个单词
Read 124M words
Number of words: 218316
Number of labels: 0
Progress: 100.0% words/sec/thread: 53996 lr: 0.000000 loss: 0.734999 ETA: 0h 0m
3 查看单词对应的词向量
# 通过get_word_vector方法来获得指定词汇的词向量model.get_word_vector(the)array([-0.03087516, 0.09221972, 0.17660329, 0.17308897, 0.12863874,0.13912526, -0.09851588, 0.00739991, 0.37038437, -0.00845221,...-0.21184735, -0.05048715, -0.34571868, 0.23765688, 0.23726143],dtypefloat32)
4 模型超参数设定
# 在训练词向量过程中, 我们可以设定很多常用超参数来调节我们的模型效果, 如:
# 无监督训练模式: skipgram 或者 cbow, 默认为skipgram, 在实践中skipgram模式在利用子词方面比cbow更好.
# 词嵌入维度dim: 默认为100, 但随着语料库的增大, 词嵌入的维度往往也要更大.
# 数据循环次数epoch: 默认为5, 但当你的数据集足够大, 可能不需要那么多次.
# 学习率lr: 默认为0.05, 根据经验, 建议选择[0.011]范围内.
# 使用的线程数thread: 默认为12个线程, 一般建议和你的cpu核数相同. model fasttext.train_unsupervised(data/fil9, cbow, dim300, epoch1, lr0.1, thread8)Read 124M words
Number of words: 218316
Number of labels: 0
Progress: 100.0% words/sec/thread: 49523 lr: 0.000000 avg.loss: 1.777205 ETA: 0h 0m 0s
5 模型效果检验
# 检查单词向量质量的一种简单方法就是查看其邻近单词, 通过我们主观来判断这些邻近单词是否与目标单词相关来粗略评定模型效果好坏.# 查找运动的邻近单词, 我们可以发现体育网, 运动汽车, 运动服等. model.get_nearest_neighbors(sports)[(0.8414610624313354, sportsnet), (0.8134572505950928, sport), (0.8100415468215942, sportscars), (0.8021156787872314, sportsground), (0.7889881134033203, sportswomen), (0.7863013744354248, sportsplex), (0.7786710262298584, sporty), (0.7696356177330017, sportscar), (0.7619683146476746, sportswear), (0.7600985765457153, sportin)]# 查找音乐的邻近单词, 我们可以发现与音乐有关的词汇.model.get_nearest_neighbors(music)[(0.8908010125160217, emusic), (0.8464668393135071, musicmoz), (0.8444250822067261, musics), (0.8113634586334229, allmusic), (0.8106718063354492, musices), (0.8049437999725342, musicam), (0.8004694581031799, musicom), (0.7952923774719238, muchmusic), (0.7852965593338013, musicweb), (0.7767147421836853, musico)]# 查找小狗的邻近单词, 我们可以发现与小狗有关的词汇.model.get_nearest_neighbors(dog)[(0.8456876873970032, catdog), (0.7480780482292175, dogcow), (0.7289096117019653, sleddog), (0.7269964218139648, hotdog), (0.7114801406860352, sheepdog), (0.6947550773620605, dogo), (0.6897546648979187, bodog), (0.6621081829071045, maddog), (0.6605004072189331, dogs), (0.6398137211799622, dogpile)]
6 模型的保存与重加载
# 使用save_model保存模型model.save_model(fil9.bin)# 使用fasttext.load_model加载模型model fasttext.load_model(fil9.bin)model.get_word_vector(the)array([-0.03087516, 0.09221972, 0.17660329, 0.17308897, 0.12863874,0.13912526, -0.09851588, 0.00739991, 0.37038437, -0.00845221,...-0.21184735, -0.05048715, -0.34571868, 0.23765688, 0.23726143],dtypefloat32) 4 词嵌入word embedding介绍
通过一定的方式将词汇映射到指定维度(一般是更高维度)的空间.广义的word embedding包括所有密集词汇向量的表示方法如之前学习的word2vec, 即可认为是word embedding的一种. 狭义的word embedding是指在神经网络中加入的embedding层, 对整个网络进行训练的同时产生的embedding矩阵(embedding层的参数), 这个embedding矩阵就是训练过程中所有输入词汇的向量表示组成的矩阵. word embedding的可视化分析:
通过使用tensorboard可视化嵌入的词向量.
import tensorflow as tf
import tensorboard as tb
tf.io.gfile tb.compat.tensorflow_stub.io.gfile# 导入torch和tensorboard的摘要写入方法
import torch
import json
import fileinput
from torch.utils.tensorboard import SummaryWriter
# 实例化一个摘要写入对象
writer SummaryWriter()# 随机初始化一个100x50的矩阵, 认为它是我们已经得到的词嵌入矩阵
# 代表100个词汇, 每个词汇被表示成50维的向量
embedded torch.randn(100, 50)# 导入事先准备好的100个中文词汇文件, 形成meta列表原始词汇
meta list(map(lambda x: x.strip(), fileinput.FileInput(./vocab100.csv)))
writer.add_embedding(embedded, metadatameta)
writer.close()
在终端启动tensorboard服务:
$ cd ~
$ tensorboard --logdirruns --host 0.0.0.0# 通过http://192.168.88.161:6006访问浏览器可视化页面
浏览器展示并可以使用右侧近邻词汇功能检验效果: