当前位置: 首页 > news >正文

怎么用网站推广如何建设影视网站首页

怎么用网站推广,如何建设影视网站首页,网站制作建设,深圳人才网站建设这取决于您使用的矢量器。在CountVectorizer统计文档中单词的出现次数。它为每个文档输出一个(n_words, 1)向量#xff0c;其中包含每个单词在文档中出现的次数。n_words是文档中的单词总数(也就是词汇表的大小)。它也适合词汇表#xff0c;这样您就可以反省模型(看看哪个词是…这取决于您使用的矢量器。在CountVectorizer统计文档中单词的出现次数。它为每个文档输出一个(n_words, 1)向量其中包含每个单词在文档中出现的次数。n_words是文档中的单词总数(也就是词汇表的大小)。它也适合词汇表这样您就可以反省模型(看看哪个词是重要的等等)。您可以使用vectorizer.get_feature_names()查看它。在当你把它放在前500个文档中时词汇表将只由500个文档中的单词组成。假设有30k个这样的矩阵fit_transform输出一个500x30k稀疏矩阵。现在您再次使用接下来的500个文档fit_transform但是它们只包含29k个单词所以您得到了一个500x29k矩阵…现在如何调整矩阵以确保所有文档都具有一致的表示形式我现在想不出一个简单的办法来做这件事。在对于TfidfVectorizer您还有另一个问题那就是文档频率的倒数为了能够计算文档频率您需要一次查看所有文档。但是TfidfVectorizer只是一个CountVectorizer后面跟着一个TfIdfTransformer因此如果您设法获得CountVectorizer的输出那么您可以对数据应用TfIdfTransformer。在使用HashingVectorizer情况有所不同这里没有词汇表。在In [51]: hvect HashingVectorizer()In [52]: hvect.fit_transform(X[:1000])1000x1048576 sparse matrix of type with 156733 stored elements in Compressed Sparse Row format在这里前1000个文档中没有1M个不同的单词但是我们得到的矩阵有1M列。HashingVectorizer不在内存中存储单词。这样可以提高内存效率并确保返回的矩阵始终具有相同的列数。所以您不会遇到与CountVectorizer相同的问题。在这可能是您所描述的批处理的最佳解决方案。有两个缺点即你不能得到idf权重你不知道单词和你的特征之间的映射。在希望这有帮助。在编辑如果您有太多的数据HashingVectorizer是最好的选择。如果您仍然想使用CountVectorizer一个可能的解决方法是自己调整词汇表并将其传递给向量器这样您只需要调用tranform。在下面是一个您可以修改的示例^{pr2}$现在不起作用的方法是# Fitting directly:vect CountVectorizer()vect.fit_transform(X[:1000])1000x27953 sparse matrix of type with 156751 stored elements in Compressed Sparse Row format注意我们得到的矩阵的大小。“手动”匹配词汇def tokenizer(doc):# Using default pattern from CountVectorizertoken_pattern re.compile((?u)\\b\\w\\w\\b)return [t for t in token_pattern.findall(doc)]stop_words set() # Whatever you want to have as stop words.vocabulary set([word for doc in X for word in tokenizer(doc) if word not in stop_words])vectorizer CountVectorizer(vocabularyvocabulary)X_counts vectorizer.transform(X[:1000])# Now X_counts is:# 1000x155448 sparse matrix of type # with 149624 stored elements in Compressed Sparse Row format#X_tfidf tfidf.transform(X_counts)在您的示例中您需要在应用tfidf转换之前首先构建整个矩阵X_计数(对于所有文档)。在
http://www.zqtcl.cn/news/587412/

相关文章:

  • 手机制作钓鱼网站id转换为wordpress
  • 手机网站 好处信用中国 网站有那个部门支持建设
  • 模板免费网站自己如何做网站优化
  • 自适应网站做mip改造淘宝上买衣服的网站
  • 射阳做企业网站哪家好利用新冠消灭老年人
  • 网站头部修改wordpress php幻灯片代码
  • 网络违法犯罪举报网站哪里有制作网站服务
  • 临沂怎么做网站网站 单页
  • 科技信息网站系统建设方案建筑设计专业世界大学排名
  • 做网站运营的简历小型视频网站建设
  • 福建省亿力电力建设有限公司网站网页设计html代码大全动物
  • 如何建网站赚取佣金企业网站的在线推广方法有
  • 嵌入式转行到网站开发免费秒玩小游戏
  • 采购网站排名不需要证件做网站
  • wordpress添加用户登录东莞网络公司seo优化
  • 哪些企业网站使用水墨风格设计免费
  • 河北邯郸做网站的公司哪家好云南建站公司
  • 网站开发如何给用户发邮件wordpress中文插件下载
  • 专业外贸网站建设公司排名网站错误列表
  • 魔站建站系统哪家好扬州网站开发公司电话
  • 合伙做网站网络公司网站建设首页
  • 网站建设项目经理深圳在线官网
  • 网站开发技术及应用wordpress自定义类型使用模板
  • 网站颜色 字体代销网站源码
  • 做二手车有哪些网站有哪些手续翠竹林wordpress主题
  • 商城网站开发报价单献县做网站价格
  • 做网站和推广需要多少钱诚信企业查询系统
  • c 2015 做网站网站设计技术有哪些?
  • 安丘网站开发主播网站建立
  • 档案网站的建设wordpress英文主题 汉化