当前位置: 首页 > news >正文

网上代做论文的网站西安网站排名公司

网上代做论文的网站,西安网站排名公司,学做前端的网站,百度站长工具平台目标 了解什么是文本张量表示及其作用.文本张量表示的几种方法及其实现. 1 文本张量表示 将一段文本使用张量进行表示#xff0c;其中一般将词汇为表示成向量#xff0c;称作词向量#xff0c;再由各个词向量按顺序组成矩阵形成文本表示. [人生, 该其中一般将词汇为表示成向量称作词向量再由各个词向量按顺序组成矩阵形成文本表示. [人生, 该, 如何, 起头]# 每个词对应矩阵中的一个向量 [[1.32, 4,32, 0,32, 5.2],[3.1, 5.43, 0.34, 3.2],[3.21, 5.32, 2, 4.32],[2.54, 7.32, 5.12, 9.54]]文本张量表示的作用: 将文本表示成张量矩阵形式能够使语言文本可以作为计算机处理程序的输入进行接下来一系列的解析工作. 文本张量表示的方法: one-hot编码Word2vecWord Embedding 2 one-hot词向量表示 又称独热编码将每个词表示成具有n个元素的向量这个词向量中只有一个元素是1其他元素都是0不同词汇元素为0的位置不同其中n的大小是整个语料中不同词汇的总数. 举个例子: [改变, 要, 如何, 起手] [[1, 0, 0, 0],[0, 1, 0, 0],[0, 0, 1, 0],[0, 0, 0, 1]]onehot编码实现: 进行onehot编码: # 导入用于对象保存与加载的joblib import joblib # 导入keras中的词汇映射器Tokenizer from keras.preprocessing.text import Tokenizer # 假定vocab为语料集所有不同词汇集合 vocab {周杰伦, 陈奕迅, 王力宏, 李宗盛, 吴亦凡, 鹿晗} # 实例化一个词汇映射器对象 t Tokenizer(num_wordsNone, char_levelFalse) # 使用映射器拟合现有文本数据 t.fit_on_texts(vocab)for token in vocab:zero_list [0]*len(vocab)# 使用映射器转化现有文本数据, 每个词汇对应从1开始的自然数# 返回样式如: [[2]], 取出其中的数字需要使用[0][0]token_index t.texts_to_sequences([token])[0][0] - 1zero_list[token_index] 1print(token, 的one-hot编码为:, zero_list)# 使用joblib工具保存映射器, 以便之后使用 tokenizer_path ./Tokenizer joblib.dump(t, tokenizer_path)输出效果: 鹿晗 的one-hot编码为: [1, 0, 0, 0, 0, 0] 王力宏 的one-hot编码为: [0, 1, 0, 0, 0, 0] 李宗盛 的one-hot编码为: [0, 0, 1, 0, 0, 0] 陈奕迅 的one-hot编码为: [0, 0, 0, 1, 0, 0] 周杰伦 的one-hot编码为: [0, 0, 0, 0, 1, 0] 吴亦凡 的one-hot编码为: [0, 0, 0, 0, 0, 1]# 同时在当前目录生成Tokenizer文件, 以便之后使用 onehot编码器的使用: # 导入用于对象保存与加载的joblib # from sklearn.externals import joblib # 加载之前保存的Tokenizer, 实例化一个t对象 t joblib.load(tokenizer_path)# 编码token为李宗盛 token 李宗盛 # 使用t获得token_index token_index t.texts_to_sequences([token])[0][0] - 1 # 初始化一个zero_list zero_list [0]*len(vocab) # 令zero_List的对应索引为1 zero_list[token_index] 1 print(token, 的one-hot编码为:, zero_list) 输出效果: 李宗盛 的one-hot编码为: [1, 0, 0, 0, 0, 0] one-hot编码的优劣势 优势操作简单容易理解. 劣势完全割裂了词与词之间的联系而且在大语料集下每个向量的长度过大占据大量内存. 正因为one-hot编码明显的劣势这种编码方式被应用的地方越来越少取而代之的是接下来我们要学习的稠密向量的表示方法word2vec和word embedding. 3 word2vec模型 3.1 模型介绍 word2vec是一种流行的将词汇表示成向量的无监督训练方法, 该过程将构建神经网络模型, 将网络参数作为词汇的向量表示, 它包含CBOW和skipgram两种训练模式. CBOW(Continuous bag of words)模式: 给定一段用于训练的文本语料, 再选定某段长度(窗口)作为研究对象, 使用上下文词汇预测目标词汇. 3.2 word2vec的训练和使用 第一步: 获取训练数据第二步: 训练词向量第三步: 模型超参数设定第四步: 模型效果检验第五步: 模型的保存与重加载 1 获取训练数据 数据来源http://mattmahoney.net/dc/enwik9.zip 在这里, 我们将研究英语维基百科的部分网页信息, 它的大小在300M左右。这些语料已经被准备好, 我们可以通过Matt Mahoney的网站下载。 注意原始数据集已经放在/root/data/enwik9.zip解压后数据为/root/data/enwik9预处理后的数据为/root/data/fil9 查看原始数据: $ head -10 data/enwik9# 原始数据将输出很多包含XML/HTML格式的内容, 这些内容并不是我们需要的 mediawiki xmlnshttp://www.mediawiki.org/xml/export-0.3/ xmlns:xsihttp://www.w3.org/2001/XMLSchema-instance xsi:schemaLocationhttp://www.mediawiki.org/xml/export-0.3/ http://www.mediawiki.org/xml/export-0.3.xsd version0.3 xml:langensiteinfositenameWikipedia/sitenamebasehttp://en.wikipedia.org/wiki/Main_Page/basegeneratorMediaWiki 1.6alpha/generatorcasefirst-letter/casenamespacesnamespace key-2Media/namespacenamespace key-1Special/namespacenamespace key0 / 原始数据处理: # 使用wikifil.pl文件处理脚本来清除XML/HTML格式的内容 # perl wikifil.pl data/enwik9 data/fil9 #该命令已经执行 查看预处理后的数据: # 查看前80个字符 head -c 80 data/fil9# 输出结果为由空格分割的单词anarchism originated as a term of abuse first used against early working class 2 训练词向量 # 代码运行在python解释器中 # 导入fasttextimport fasttext # 使用fasttext的train_unsupervised(无监督训练方法)进行词向量的训练 # 它的参数是数据集的持久化文件路径data/fil9# 注意该行代码执行耗时很长model1 fasttext.train_unsupervised(data/fil9) # 可以使用以下代码加载已经训练好的模型model fasttext.load_model(data/fil9.bin)# 有效训练词汇量为124M, 共218316个单词 Read 124M words Number of words: 218316 Number of labels: 0 Progress: 100.0% words/sec/thread: 53996 lr: 0.000000 loss: 0.734999 ETA: 0h 0m 3 查看单词对应的词向量 # 通过get_word_vector方法来获得指定词汇的词向量model.get_word_vector(the)array([-0.03087516, 0.09221972, 0.17660329, 0.17308897, 0.12863874,0.13912526, -0.09851588, 0.00739991, 0.37038437, -0.00845221,...-0.21184735, -0.05048715, -0.34571868, 0.23765688, 0.23726143],dtypefloat32) 4 模型超参数设定 # 在训练词向量过程中, 我们可以设定很多常用超参数来调节我们的模型效果, 如: # 无监督训练模式: skipgram 或者 cbow, 默认为skipgram, 在实践中skipgram模式在利用子词方面比cbow更好. # 词嵌入维度dim: 默认为100, 但随着语料库的增大, 词嵌入的维度往往也要更大. # 数据循环次数epoch: 默认为5, 但当你的数据集足够大, 可能不需要那么多次. # 学习率lr: 默认为0.05, 根据经验, 建议选择[0.011]范围内. # 使用的线程数thread: 默认为12个线程, 一般建议和你的cpu核数相同. model fasttext.train_unsupervised(data/fil9, cbow, dim300, epoch1, lr0.1, thread8)Read 124M words Number of words: 218316 Number of labels: 0 Progress: 100.0% words/sec/thread: 49523 lr: 0.000000 avg.loss: 1.777205 ETA: 0h 0m 0s 5 模型效果检验 # 检查单词向量质量的一种简单方法就是查看其邻近单词, 通过我们主观来判断这些邻近单词是否与目标单词相关来粗略评定模型效果好坏.# 查找运动的邻近单词, 我们可以发现体育网, 运动汽车, 运动服等. model.get_nearest_neighbors(sports)[(0.8414610624313354, sportsnet), (0.8134572505950928, sport), (0.8100415468215942, sportscars), (0.8021156787872314, sportsground), (0.7889881134033203, sportswomen), (0.7863013744354248, sportsplex), (0.7786710262298584, sporty), (0.7696356177330017, sportscar), (0.7619683146476746, sportswear), (0.7600985765457153, sportin)]# 查找音乐的邻近单词, 我们可以发现与音乐有关的词汇.model.get_nearest_neighbors(music)[(0.8908010125160217, emusic), (0.8464668393135071, musicmoz), (0.8444250822067261, musics), (0.8113634586334229, allmusic), (0.8106718063354492, musices), (0.8049437999725342, musicam), (0.8004694581031799, musicom), (0.7952923774719238, muchmusic), (0.7852965593338013, musicweb), (0.7767147421836853, musico)]# 查找小狗的邻近单词, 我们可以发现与小狗有关的词汇.model.get_nearest_neighbors(dog)[(0.8456876873970032, catdog), (0.7480780482292175, dogcow), (0.7289096117019653, sleddog), (0.7269964218139648, hotdog), (0.7114801406860352, sheepdog), (0.6947550773620605, dogo), (0.6897546648979187, bodog), (0.6621081829071045, maddog), (0.6605004072189331, dogs), (0.6398137211799622, dogpile)] 6 模型的保存与重加载 # 使用save_model保存模型model.save_model(fil9.bin)# 使用fasttext.load_model加载模型model fasttext.load_model(fil9.bin)model.get_word_vector(the)array([-0.03087516, 0.09221972, 0.17660329, 0.17308897, 0.12863874,0.13912526, -0.09851588, 0.00739991, 0.37038437, -0.00845221,...-0.21184735, -0.05048715, -0.34571868, 0.23765688, 0.23726143],dtypefloat32) 4 词嵌入word embedding介绍 通过一定的方式将词汇映射到指定维度(一般是更高维度)的空间.广义的word embedding包括所有密集词汇向量的表示方法如之前学习的word2vec, 即可认为是word embedding的一种. 狭义的word embedding是指在神经网络中加入的embedding层, 对整个网络进行训练的同时产生的embedding矩阵(embedding层的参数), 这个embedding矩阵就是训练过程中所有输入词汇的向量表示组成的矩阵. word embedding的可视化分析: 通过使用tensorboard可视化嵌入的词向量. import tensorflow as tf import tensorboard as tb tf.io.gfile tb.compat.tensorflow_stub.io.gfile# 导入torch和tensorboard的摘要写入方法 import torch import json import fileinput from torch.utils.tensorboard import SummaryWriter # 实例化一个摘要写入对象 writer SummaryWriter()# 随机初始化一个100x50的矩阵, 认为它是我们已经得到的词嵌入矩阵 # 代表100个词汇, 每个词汇被表示成50维的向量 embedded torch.randn(100, 50)# 导入事先准备好的100个中文词汇文件, 形成meta列表原始词汇 meta list(map(lambda x: x.strip(), fileinput.FileInput(./vocab100.csv))) writer.add_embedding(embedded, metadatameta) writer.close() 在终端启动tensorboard服务: $ cd ~ $ tensorboard --logdirruns --host 0.0.0.0# 通过http://192.168.88.161:6006访问浏览器可视化页面 浏览器展示并可以使用右侧近邻词汇功能检验效果:
http://www.zqtcl.cn/news/646894/

相关文章:

  • 整套网站建设网站开发中如何实现gps定位
  • 网站建设计划表福州自助建站
  • 网站做的比较好的公司吗2017年做网站多少钱
  • 基础展示营销型型网站重庆百度总代理
  • 网站建设 技术可行性这是我自己做的网站
  • 西安网站策划关键词优化哪家好
  • 能看建设动漫黄图的网站海外仓一件代发平台
  • 做网站都需要了解什么大连福佳新城2026年建站吗
  • php 网站部署到服务器泉州模板建站哪家好
  • 网站服务器上的跳转选择怎么做网站是怎么建立的
  • 网站后台目录如何保护公司网站建设需要要求什么软件
  • 四川省建设厅网站官网自己做的网站能上传到凡科吗
  • 米拓网站建设-app定制开发免费个人建站系统
  • 网站改版公司如何帮公司做网站
  • 曹县汽车网站建设网站怎么做才 吸引人
  • 河南周口东宇网站建设wordpress怎么重新安装插件
  • wordpress无法上传主题南通做网站优化公司
  • 做彩票网站能挣到钱吗南充市房产信息网
  • 沧州北京网站建设金华网站建设哪个公司好点
  • 北京朝阳建站优化wordpress主题访问慢
  • wordpress最快仿站酷炫个人特别网站
  • 公司建站详细步骤如何注册一家公司要多少钱
  • 网站推广网络营销山西大学物理电子工程学院研招网
  • 亚马逊做国际外贸在哪个网站毕业设计网站开发选题依据
  • 镇江网站排名优化费用app软件开发平台游戏
  • 襄阳网站建设xytzg南通网站建设top
  • 有没有做产品团购的网站2d动画制作软件
  • 成都网站排名生客seo杭州专业网站制作设计
  • 阿里云 企业 网站四平市网站建设
  • 政务门户网站建设信息奇人网站