安庆专业网站建设公,wordpress回复旧版本,asp+php+jsp网站开发,哪个网站专门做快餐车word2vec模型的技术细节和大致的训练方法#xff0c;让我们来看看它们的实现。具体地说#xff0c;用于预训练词嵌入模型的数据集开始#xff1a;数据的原始格式将被转换为可以在训练期间迭代的小批量。
import math
import os
import random
import torch
from d2l import…word2vec模型的技术细节和大致的训练方法让我们来看看它们的实现。具体地说用于预训练词嵌入模型的数据集开始数据的原始格式将被转换为可以在训练期间迭代的小批量。
import math
import os
import random
import torch
from d2l import torch as d2l
读取数据集
我们在这里使用的数据集是Penn Tree BankPTB。该语料库取自“华尔街日报”的文章分为训练集、验证集和测试集。在原始格式中文本文件的每一行表示由空格分隔的一句话。在这里我们将每个单词视为一个词元。
#save
d2l.DATA_HUB[ptb] (d2l.DATA_URL ptb.zip,319d85e578af0cdc590547f26231e4e31cdf1e42)#save
def read_ptb():将PTB数据集加载到文本行的列表中data_dir d2l.download_extract(ptb)# Readthetrainingset.with open(os.path.join(data_dir, ptb.train.txt)) as f:raw_text f.read()return [line.split() for line in raw_text.split(\n)]sentences read_ptb()
f# sentences数: {len(sentences)} Downloading ../data/ptb.zip from http://d2l-data.s3-accelerate.amazonaws.com/ptb.zip... 在读取训练集之后我们为语料库构建了一个词表其中出现次数少于10次的任何单词都将由“unk”词元替换。请注意原始数据集还包含表示稀有未知单词的“unk”词元。
vocab d2l.Vocab(sentences, min_freq10)
fvocab size: {len(vocab)} vocab size: 6719